GordenSuperPPTSkills 值得单独写,不是因为它喊了“豪华 PPT”,而是它把 AI 做 PPT 里最难绕开的矛盾摊开了:先让模型把页面做漂亮,再想办法还原成能继续编辑的 PPTX。适合关注 AI 办公、Codex Skill 和演示文稿自动化的人收藏。
这和同作者之前的 GordenPPTSkill 不是一个重点。上一篇更像“在真实模板里稳稳替换内容”,目标是别把标题、字号、位置弄乱。这次的 GordenSuperPPTSkills 更激进:它承认图片生成更容易做出复杂版式,然后再用视觉解析把图片拆回可编辑结构。
项目地址是:https://github.com/GordenSun/GordenSuperPPTSkills
这张图说明了项目的核心入口。README 把整套流程拆成 3 个 Skill:GordenImagePPTGen 负责先生成图片格式的 PPT;GordenImage2PPTX 负责把图片 PPT 或图片还原成可编辑 PPTX;GordenSuperPPTSkill 负责编排前两步,默认走“先出图,再转可编辑”的串联流程。
为什么要先生成图片 PPT
AI 直接生成 PPTX,最容易卡在版式上。PPTX 是结构化文件,里面有文本框、形状、图片、层级、坐标、字体和主题色。模型如果直接拼这些对象,稍微复杂一点的页面就容易出现文本出框、对齐混乱、图标位置不稳。
图片生成的优势恰好在另一边。它不需要一开始就理解 PPTX 的对象结构,可以先把一页“看起来像高级 PPT”的视觉稿做出来。复杂背景、装饰元素、信息密度、页面气氛,都更容易由生图模型一次性处理。
但图片 PPT 有一个硬伤:不好改。客户要改一句话,团队要换一个数字,汇报前要删一行说明,如果整页都是图片,就会回到截图贴片的老问题。看着漂亮,交付时很痛苦。
GordenSuperPPTSkills 试图解决的就是这个断点。它不是满足于“生成一张漂亮图”,而是继续往后走一步:把图片拆成背景、骨架、图标装饰和文本四层,再拼回 PPTX。
真正值得看的是四层拆解
这个思路比较像把 PPT 页面当成一张已经完成的设计稿,然后反向做结构化重建。
背景层负责保留整体视觉气氛。骨架层负责承接版式框架,比如卡片、区域、分割线和容器。图标装饰层处理非文本元素。文本层则尽量还原成可以继续编辑的文字对象。
这也是它比“图片转 PPT”听起来更有价值的地方。普通图片转 PPT 很容易只是把图片塞进一页幻灯片,看起来像 PPT,实际上不能改。GordenImage2PPTX 关注的是拆层和坐标重建,目标是让页面进入可编辑状态。
当然,这里不能过度神化。视觉解析不等于百分百还原。越复杂的页面,越可能出现图标边缘、文本换行、层级遮挡、坐标偏差这类问题。它更像一个把 70% 到 90% 重活先做掉的流程,不是一个可以完全免复核的交付按钮。
使用边界要提前看清楚
README 里有几个边界值得单独记一下。
第一,它主要面向 Codex 使用。项目说明里写得很直接,因为流程依赖 GPT 的生图能力和视觉能力。理论上其他模型组合也可能实现,但这个仓库没有专门适配。
第二,图片转可编辑 PPTX 会消耗较多额度。README 提到,转换 1 张图片大概会消耗 Plus 订阅 5 小时额度的 10%。这意味着它不太适合无脑批量跑几十页,至少要先挑高价值页面试。
第三,它不是只给个人学习看的模板库。项目版权说明写了可以商用,但必须标明 GitHub 出处,或标记作者 @Gorden Sun。如果拿去做客户稿、课程素材或企业内部交付,这个标注要求不能忽略。
我会怎么用它
如果只是做普通周报、项目复盘、三五页内部说明,我不会上来就用这套重流程。模板填充、结构化大纲和人工微调,可能更省额度,也更稳定。
但如果要做的是一张视觉要求高的封面页、融资路演里的概念页、产品发布里的复杂信息页,GordenSuperPPTSkills 的路径就有意义:先用图片生成争取视觉上限,再用可编辑还原保留后续修改空间。
我的判断是,它真正值得收藏的点不是“AI 终于能做豪华 PPT”,而是它把问题拆得更接近真实工作流:漂亮是一件事,能改是另一件事,能在交付前复核又是第三件事。把这三件事拆开,AI 做 PPT 才不会一直停在“看起来很强,用起来很难改”的阶段。