去年做年终汇报,花了两天时间调 PPT 排版,对齐、字号、配色调了一遍又一遍,最后老板只翻了前三页。我就在想,这种体力活能不能交给 AI?
试了一圈市面上的 AI PPT 工具,大部分生成的 PPT 看起来很漂亮,但本质上是一张图片——想改个文字、挪个图表位置?抱歉,没门。重新生成吧,跟你原来的设计又不是一个风格了。
最近看到一个开源项目 GordenSuperPPTSkills,用了一种挺巧妙的方式解决了这个问题。
GordenSuperPPTSkills 生成的图片格式 PPT
先让 GPT 生成一张极高质量的图片 PPT——信息密度对标麦肯锡级别,每页塞 20 多个信息点,排版复杂到让人怀疑是不是人工做的。
然后它把这页图片拆成四层:背景层、框架骨架层、图标装饰层、文本层。背景单独存一张大图,框架和图标用绿幕抠出来,文本用 GPT 的视觉能力识别提取。最后在 PPTX 文件里按坐标重新拼装。
结果就是一张真正的、可编辑的 PPTX 文件——文字是真文本框,图片可以移动,想改哪里改哪里。
四层拆解这个思路本身并不复杂,但它的工程实现做了很多细节:
绿幕抠图,把框架和图标从背景里精确分离,线条和颜色不能丢;
坐标契约,每层元素都有严格的坐标校验,保证拼装回去不错位;
视觉 QA,自动对比原始图片和还原后的 PPTX,差异过大的重新处理。
这个项目目前依赖 Codex 环境,需要 GPT 5.5 的图像生成和视觉能力,普通用户暂时没法直接上手。而且转换一张图片大概要消耗 Plus 订阅 5 小时额度——不是每天都能用的玩具。
不过它的技术方案很有参考价值:AI 生图型工具"不可编辑"这个痛点,用四层拆解的思路可以解决。以后要是有人把这套逻辑做成在线服务,那就真的方便了。
项目地址:GordenSun/GordenSuperPPTSkills