
上次那篇四层结构做 PPT,发出来挺多人找我要提示词。
这次我把整套流程做成了一个技能,一句话就能调起来,自己也真跑了一版。整体挺像参考图的,但有个地方翻车了,后面跟你讲。
先说清楚一件事吧。我用的不是网页版 ChatGPT,是 Codex,OpenAI 那个能跑代码的 agent,底层模型是 GPT-5。倒不是网页版做不到,是它现在还不支持加载自定义技能,所以暂时调不了我这个 gen-ppt。等以后网页版支持了,应该也能用上。这点先说清楚,免得你打开网页版找半天,找不到地方加技能。
1 为什么把它做成技能
上篇那套四层结构,每次用都得重新跟他讲一遍。背景层、独立素材层、原生可编辑层、排版规范层,一层层交代,还得叮嘱他素材要生图别去裁图。一次两次还行,次数多了是真烦。
所以我干脆把它固化下来了。
用 skill-creator 把上篇的提示词和步骤打包成一个技能,叫 gen-ppt。做好之后在 Codex 里打个 $gen-ppt 就能调起来,不用我再背一遍四层结构。

2 顺手加了一步:先生 5 套参考图给你选
做技能的时候我加了个上篇没有的环节。
上篇得手上先有一张参考图,照着做。但很多时候你根本没有现成的图,只有一个主题。所以这次我让技能在动手前,先用生图模型生成 5 套完整的参考图方案,每套都是排好的一整版样子,让我先挑风格方向。
挑完他再照着做。这样哪怕你手上一张图都没有,也能先选个顺眼的开工。
3 实测:拿它做了一版年中汇报
技能做好了总得测一下吧。我就拿自己当素材,做了一版年中汇报总结。
内容是我自己的现状。粉丝涨得有点慢、还在稳定更文、在学各种 AI 工具、研究 PPT 的做法、顺手优化提示词做技能。做了 9 页。
跑出来整体挺像参考图的。我有个脚本会给每页打分,算跟参考图差多少,分越低越像。这次整套拼图差距 0.198,单页平均 0.187,算挺接近了。卡片是饱满的,字号压得住,版式也贴。关键是文字、数字、卡片,在 PPT 里都能直接改。

4 翻车的地方:人物插图怎么都做不像
但有个地方我折腾很久也没搞定。
带人物插图的页,比如 P1 和 P9,怎么做都跟参考图差一截。最差那页差距到 0.31,比别的页明显高出来。
参考图 P9 是个比心的人物。我想让生图模型照着生一个一样的。试了好几轮。第一版他把底部的波浪也一起生进去了,分数从 0.307 变成 0.385,更差。我又拿参考图当视觉参照让他重生,比心的姿势是更像了,但人脸和身体色块太大,分数 0.35,还是更差。
来回试了好几次,全回退了。

5 想通的一件事:纯生图保证不了一模一样
折腾完我大概想明白了。
纯生图能保证一件事,素材都是新生成的,来源干净,不存在抄图。但它保证不了另一件事,人物插图跟参考图像素级一模一样。模型每次生出来的人都不一样,你让他比心,他可能顺手再给你画条波浪。
所以素材全用生图,和跟参考图一模一样,这俩要求有时候是打架的。
我把这个经验也写回技能里了。现在你要是同时提这两样,gen-ppt 会先停下来让你选条路。一条是生图合规路线,素材全新生成,版式能做很近,人物不保证像素级一致。另一条是精确复刻路线,人物这类用参考图描摹矢量化出来,更像,但就不算纯新生成了。
默认走第一条。我不想偷偷拿第二条冒充第一条,那是骗自己。
6 你可以这么用
想让 AI 做出能编辑的 PPT,核心还是上篇那套四层结构,再加这次踩出来的两条。
四层结构是这样。背景层放氛围图,锁最底层。独立素材层,每个图标插图单独生成透明 PNG,能单独挪。原生可编辑层,文字数字卡片线条全用 PPT 原生对象,能直接改字。排版规范层,字体字号间距对齐密度,严格贴参考图。
两条新经验。要生图素材,就让他真去调生图生成,别让他偷懒裁图。要一模一样,先想清楚你能不能接受人物不是像素级一致,接受不了就走描摹那条路。
技能本身现在是在 Codex 里跑的,网页版 ChatGPT 等支持自定义技能了,应该也能用上。那套四层结构提示词更通用,你喂给任何一个能跑代码又能生图的 AI 都能用,这部分是真的复制就能用。
你做 PPT 踩过哪些坑?评论区聊聊吧。
✨ 喜欢这篇内容?欢迎点赞、分享、推荐,关注我获取更多干货!