当前位置：首页>PPT>AI 做 PPT 的天花板,开源了

AI 做 PPT 的天花板,开源了

PROMPT 工程队

去年做年终汇报，花了两天时间调 PPT 排版，对齐、字号、配色调了一遍又一遍，最后老板只翻了前三页。我就在想，这种体力活能不能交给 AI？

试了一圈市面上的 AI PPT 工具，大部分生成的 PPT 看起来很漂亮，但本质上是一张图片——想改个文字、挪个图表位置？抱歉，没门。重新生成吧，跟你原来的设计又不是一个风格了。

最近看到一个开源项目 GordenSuperPPTSkills，用了一种挺巧妙的方式解决了这个问题。

GordenSuperPPTSkills 生成的图片格式 PPT

它怎么做的？

先让 GPT 生成一张极高质量的图片 PPT——信息密度对标麦肯锡级别，每页塞 20 多个信息点，排版复杂到让人怀疑是不是人工做的。

然后它把这页图片拆成四层：背景层、框架骨架层、图标装饰层、文本层。背景单独存一张大图，框架和图标用绿幕抠出来，文本用 GPT 的视觉能力识别提取。最后在 PPTX 文件里按坐标重新拼装。

结果就是一张真正的、可编辑的 PPTX 文件——文字是真文本框，图片可以移动，想改哪里改哪里。

转换后的可编辑 PPTX 文件

巧妙在哪？

四层拆解这个思路本身并不复杂，但它的工程实现做了很多细节：

绿幕抠图，把框架和图标从背景里精确分离，线条和颜色不能丢；

坐标契约，每层元素都有严格的坐标校验，保证拼装回去不错位；

视觉 QA，自动对比原始图片和还原后的 PPTX，差异过大的重新处理。

提取的背景图层

提取的框架图层

但说实话，门槛不低

这个项目目前依赖 Codex 环境，需要 GPT 5.5 的图像生成和视觉能力，普通用户暂时没法直接上手。而且转换一张图片大概要消耗 Plus 订阅 5 小时额度——不是每天都能用的玩具。

不过它的技术方案很有参考价值：AI 生图型工具"不可编辑"这个痛点，用四层拆解的思路可以解决。以后要是有人把这套逻辑做成在线服务，那就真的方便了。

项目地址：GordenSun/GordenSuperPPTSkills