
我最近连续做了两套 PPT,最反直觉的一点是:最后几乎没打开 PowerPoint 去救版式。
不是先让 AI 写大纲,再把内容塞进模板;也不是让它吐一堆 HTML、SVG、PPTX 对象,最后人类继续拆文本框、挪图层、修页脚。
真正好用的那条路更狠一点。
把整页直接当成一张成品图来做。
Codex 负责读论文、读材料、拆页面、写提示词。Image2 负责把每一页变成 16:9 的 4K 成品图。满意的留下,不满意的继续让 Codex 调 Image2 edit 改。最后把这些图组装成 PPTX 或 PDF。
中间不再执着于“这一段文字能不能双击编辑”。
因为这一轮 AI PPT 的最后分水岭,已经不在“文本框还能不能拖动”上。
它在另一层:你有没有一套能复现、能批量、能继续修改的 prompt。
Prompt is all you need.

别再把 Image2 生成物拆回传统 PPT
我看到不少人讨论 Codex 做 PPT,流程大概是:先生成页面,再想办法把它转回可编辑 PPT。
这条路我非常不赞同。
“可编辑”当然重要。
问题是,很多人把可编辑性放错了地方。你把一张 Image2 做好的页面拆成形状、文本框、SVG、PPTX 对象,看起来重新获得了控制权,实际上把质量拖回了旧世界。
版式变弱了。
字体变散了。
图和字之间那种一次成型的设计感也没了。
最后你得到的是一具“可编辑的尸体”:每个器官都能动,但整体气质已经没了。
真正应该可编辑的,不是页面里的每一个文本框。
是生成这页的 prompt。
如果标题想换,改 prompt。内容想压缩,改 prompt。底板想更克制,改 prompt。某页不满意,让 Codex 根据验收意见重写本页变化部分,再交给 Image2 edit。
这才是新的编辑层。
第一步,先做一张能压住全场的底板
底板就是你的 PPT 母版。
它不负责讲内容,只负责管气质:顶部装饰、底部装饰、配色、边缘结构、中央留白。
重点只有一个:中间必须空。
很多 AI PPT 难看,问题不在模型不会画。
问题在它一上来就想把每一寸都填满。标题、图标、圆角卡片、抽象背景、渐变光效,全往里面塞。单页看着热闹,十页放在一起就像十个不同外包做的。
我的做法是先把自由度收掉。
先让 Image2 只生成底板,不写正文,不放要点,不生成假图表。上下边缘可以有设计,中央留白必须干净。
你可以直接用这段提示词起步:
底板这一步别怕多跑几张。你挑的是一套 PPT 的语气,不是单张“漂亮背景”。

第二步,把每一页 prompt 拆成五块
一页 PPT 最怕什么?
怕模型临场发挥。
你只说“做得高级一点”,它就会开始自作主张:底部条变厚,顶部装饰换位置,页码多出来,Logo 冒出来,内容区被背景纹理占掉。
所以单页 prompt 不能写成一句愿望。
它要像一张施工单。
第一块,锁死底板。
这段最重要。
底板描述要具体到“左侧深蓝斜切区”“右侧数字方块”“底部窄版装饰条”。不要写“顶部有蓝色装饰”这种废话。你越含糊,模型越容易把母版重画掉。
第二块,强迫它做视觉设计。
不加这一块,它很容易给你一页“标题 + 六个圆点”。
那不是 PPT。
那是 Word 换了个横向画布。

第三块,给本页固定设置。
第四块,给完整内容。
这里不要偷懒。
Image2 只负责排版,不负责替你想信息。真正的信息应该由 Codex 从论文、报告、课程材料、产品文档里先拆出来。
第五块,写禁止项。
这五块合起来,才是一页真正可控的 Image2 PPT prompt。
Codex 的价值,不是“帮你写几句话”
很多人低估了 Codex 在这里的作用。
它不是文案助手。
它是整套 PPT 的生产经理。
你把论文、会议材料、产品文档丢给它,它要先判断:这套 PPT 给谁看?最后希望对方记住什么?哪些页讲背景,哪些页讲方法,哪些页讲结果,哪一页需要图,哪一页只需要一句重话。
然后它把每页拆成固定部分和变化部分。
固定部分,是底板约束、视觉设计规则、禁止项。
变化部分,是页码、标题、具体内容、结论强调、插入图片。
这一步做对了,后面批量生成才不会变成赌博。
你甚至可以直接让 Codex 输出一个页面清单:
Codex 写 prompt,Image2 出页面。
一个负责判断和拆解,一个负责视觉和成片。
这比“AI PPT 一键生成”更慢一点,但成品更像你真的能拿去讲的东西。

修改也不要回到手工时代
真正的分水岭在这里。
如果一页不满意,不要马上打开 PPT 拖来拖去。
你应该把问题写回 prompt。
比如:
这才是 Image2 edit 真正适合干的事。
你不是在修一页 PPT。
你是在修这页 PPT 的生成规则。
一旦规则改对,下一页、下一套、下一次组会都能复用。
什么时候不要这么做?
我不想把这篇写成“以后 PPT 都不需要可编辑了”。那也不准确。
如果你做的是公司标准模板,要多人来回改;如果里面有大量表格、法务文字、财务数据;如果后面每个数字都要追溯、每个图表都要更新,那传统可编辑 PPT 仍然有价值。
但很多演示场景不是这样。
组会汇报、课程展示、项目路演、读书分享、论文讲解、内部 demo,大多数时候真正重要的是:这套东西能不能讲清楚,风格能不能统一,现场投屏够不够稳。
观众不会关心你的文本框能不能双击。
他只会看到那一页有没有压住场。
我现在会这样做一整套 PPT
先做底板。
再让 Codex 读材料,拆出页码节奏。
然后让 Codex 为每页写五段式 prompt:底板约束、视觉设计、本页设置、本页内容、禁止项。
Image2 每页生成 2-3 个候选,挑最稳的。
不满意,继续用 edit 改 prompt。
最后把选中的 PNG 组装成 PPTX 或 PDF。
听起来像绕远路。
但你试过一套就会发现,这条路反而少返工。因为你不再跟几十个文本框肉搏,也不再为了“可编辑”牺牲整页完成度。
PPT 的旧编辑层,是文本框、形状和图层。
PPT 的新编辑层,是底板、提示词和验收标准。
谁先把这层想明白,谁就先跨过 Image2 生成 PPT 的最后分水岭。
Prompt is all you need.

往期推荐 / 延伸阅读
ChatGPT Images 2.0 做科研配图,关键不在好看,在可控 从 PPT 延伸到科研图,核心仍然是“可控”,不是单张图好看。
ChatGPT Image2 科研绘图模板库:机制图、流程图、综述图、封面图都在这 继续看提示词模板怎么变成可复用资产。
别再把 Codex 只当聊天工具了,装上这套技能以后,它更像一个能交付的工程队友 如果你关心 Codex 如何从“聊天”走向“交付”,可以接着读这篇。
参考来源
• OpenAI|Image generation guide
• 用户实测经验:Codex + 提示词 + Image2 直接生成两套 PPT;真实页面涉及隐私,本文只使用匿名示例图演示方法。