过去一年,很多人都在尝试用 AI 做 PPT。
但实际效果往往不太理想:要么像模板网站自动拼出来的东西,版式很花,内容很空;要么像大模型直接生成的大纲,逻辑还行,但一落到页面上就没有设计感;还有一种更常见,就是文字密密麻麻,图片随便配几张,看上去像"AI 生成作业",很难真正拿去汇报。
真正高质量的 PPT,难点从来不只是"生成几页幻灯片"。
它至少包含三件事:第一,内容逻辑要成立;第二,每一页都要有合适的视觉表达;第三,最终文件必须可修改、可交付、可二次加工。
如果只是让一个模型"一次性生成 PPT",通常很难同时满足这三点。更好的方式,是把 PPT 生产拆成一条流水线:先让 Codex 负责结构化内容和页面素材,再调用 GPT Image 2 生成高质量 PNG 视觉素材,最后通过 Presentation 插件把所有内容装配成可编辑的 PPT 文件。
这套方法,我认为可能是当前效率最高、效果也最稳定的 AI PPT 生成思路之一。
一、为什么不是直接让 AI 生成 PPT?
很多人一开始用 AI 做 PPT,习惯这样提问:
"帮我做一个关于 XX 的 PPT,10 页,风格科技感。"
这种方式看上去简单,但问题也明显。
因为 PPT 不是 Word 文档的分页版,也不是文章自动切成几段。PPT 的核心是"页面表达"。每一页都应该有自己的观点、结构、视觉重心和信息层级。
直接生成 PPT,模型往往会犯几个错误:
- • 页面之间逻辑松散,第一页讲背景,第二页讲趋势,第三页突然变成方案,整体像拼接出来的;
- • 单页内容太满,标题下面堆五六个要点,没有真正的视觉设计;
- • 配图和内容关系弱,看起来只是为了好看而好看;
- • 最麻烦的是,生成出来的文件经常不好改,想调整一页的布局、替换图标、修改图表,都很费劲。
所以,高质量 PPT 不应该追求"一句话生成成品",而应该追求"模块化生成、逐步装配、最终可编辑"。
这就是 Codex + GPT Image 2 + Presentation 插件这套流程的价值。
OpenAI 官方文档已经把 GPT Image 2 定位为图像生成和编辑模型,支持文本和图像理解,并可用于高质量图像生成场景;Codex 则更适合作为执行复杂任务、组织代码和素材生产流程的智能体工具。
二、核心思路:把 PPT 当成一个"可编排的工程项目"
过去做 PPT,更多是设计师思维:找模板、写内容、调版式、配图、改字体。
现在用 AI 做 PPT,更应该换成工程化思维。
一份 PPT 可以拆成几个标准对象:
主题定位、受众对象、页数结构、每页标题、核心观点、正文文案、图示方案、配图素材、图标素材、版式风格、最终 PPT 文件。
Codex 的优势不是"会不会写 PPT",而是它可以像一个项目执行助手一样,把这些对象拆开管理。
比如我们可以让 Codex 先生成一个 deck_plan.md,里面定义整份 PPT 的逻辑结构;再生成一个 slides.json,每一页包含标题、副标题、核心论点、讲稿、图片提示词、页面布局建议;随后根据每一页的视觉需求,自动生成用于 GPT Image 2 的提示词;最后把生成好的 PNG 素材和页面内容交给 Presentation 插件,输出一份真正可修改的 PPT。
也就是说,我们不是让 AI "直接做 PPT",而是让 AI 搭建一条 PPT 生产线。
这和软件开发很像。
以前写代码是直接让程序员手敲,现在 AI 驱动开发讲究 spec、plan、task、review。做 PPT 也是一样:先定义规格,再生成素材,再装配页面,最后人工审校。
三、第一步:让 Codex 生成每一页的内容和素材说明
一个高质量 PPT 的第一步,不是找模板,而是把"每一页到底要表达什么"讲清楚。
可以给 Codex 一个明确任务:
"我要做一份 12 页 PPT,主题是 AI 驱动研发转型,面向企业管理层。请先生成整体结构,再拆分每页内容。每页包括:页码、页面标题、核心观点、三条以内正文、建议图示、需要生成的 PNG 素材说明、演讲备注。"
这样生成出来的不是 PPT 成品,而是 PPT 的"施工图"。
举个例子,一页可以这样定义:
第 4 页:从 Prompt 到 Agent:AI 协作方式的升级
- • 核心观点:企业 AI 应用正在从单点问答,走向可执行、可协作、可沉淀的智能体工作流。
- • 正文要点:
- 1. Prompt 阶段解决的是个人效率问题;
- 2. Agent 阶段解决的是流程自动化问题;
- 3. 企业真正需要的是可管理、可审计、可复用的 AI 工作流。
- • 建议图示:三阶段演进箭头图,从 Prompt 到 Context,再到 Agent Workflow。
- • PNG 素材需求:生成一张深色科技风流程图背景,包含三个抽象节点,不要文字,留出右侧标题空间。
- • 演讲备注:这一页重点说明 AI 不是聊天工具,而是新一代流程执行引擎。
这种结构非常关键。
因为它把"内容"和"视觉"分开了。内容先保证逻辑正确,图片再单独生成,最后再统一装配。这样比直接生成 PPT 稳定得多。
四、第二步:调用 GPT Image 2 生成每一页的 PNG 素材
过去 AI 做 PPT 最大的问题之一,是配图质量不稳定。
要么图像很普通,要么文字乱码,要么风格前后不一致。现在更好的做法是:不要让图像模型直接生成完整 PPT 页面,而是让它生成"页面素材"。
比如背景图、概念图、架构示意图、场景图、图标组、封面主视觉、章节页视觉、流程图底图等。
这里有一个重要原则:图片模型负责视觉素材,不负责最终排版。
为什么?
因为完整 PPT 页面需要文字可编辑、图层可调整、版式可修改。如果让图像模型直接生成整页 PPT,最后得到的是一张大图,虽然看上去漂亮,但里面的文字和元素都不可编辑,不适合企业汇报。
正确做法是:GPT Image 2 生成 PNG 素材,Presentation 插件负责把标题、正文、图表、素材放进 PPT 页面里。
比如对封面页,可以生成一张 16:9 的科技风主视觉图,要求无文字、暗色背景、中心有抽象智能体网络、右侧留白。然后在 PPT 里再单独叠加标题、单位名称、日期。
对架构页,可以生成一张干净的系统背景图或模块化图标素材,然后由 PPT 插件用真正的文本框和形状来完成架构说明。
这样做的好处是,图片质量高,页面也能改。
GPT Image 2 官方文档中明确支持高质量图像生成和编辑,并支持灵活图像尺寸;这类能力正适合用来生产 PPT 中的封面视觉、概念插图、场景图和模块化素材。
五、第三步:用 Presentation 插件生成可修改 PPT
最后一步,是把内容和素材装配成 PPT。
这里的关键不是"生成一个文件",而是生成一个可编辑的文件。
Presentation 插件要做的事情包括:
- • 根据 slides.json 读取每页标题、正文、讲稿和布局要求;
- • 把 GPT Image 2 生成的 PNG 素材插入到对应页面;
- • 按照统一主题设置字体、颜色、边距和版式;
- • 使用文本框、形状、图表、图标等 PPT 原生元素搭建页面;
- • 最后输出 .pptx 文件。
这一步非常重要。
因为企业内部的 PPT 很少是一次生成后直接交付的。领导会改标题,部门会调口径,数据会更新,客户现场会要求删减。不可编辑的 PPT 看起来再漂亮,也很难真正进入办公流程。
所以,AI PPT 的终点不是"生成图片",而是"生成可继续协作的 PowerPoint 文件"。
这也是这套方法比单纯用图片生成 PPT 更实用的原因。
六、推荐的一套标准流程
如果要在团队内部真正落地,可以把流程标准化成五步。
第一步,输入需求。
明确主题、受众、使用场景、页数、风格、是否需要讲稿。例如:面向政府客户、15 页、科技蓝风格、用于现场汇报、每页配 100 字讲解词。
第二步,Codex 生成大纲。
先生成整份 PPT 的逻辑结构,不急着做页面。重点看主线是否清楚,是否符合汇报对象的关注点。
第三步,Codex 生成页面规格。
每一页都要有标题、核心观点、正文、图示建议、素材提示词和讲稿。这个阶段相当于 PPT 的 spec。
第四步,GPT Image 2 生成 PNG 素材。
按页面逐一生成封面图、章节页图、概念图、背景图、图标素材等。要求统一风格,尽量少让图片里出现文字。
第五步,Presentation 插件装配 PPT。
把所有内容和图片素材生成可编辑 PPT。最后人工做一轮审校,包括错别字、数据、单位名称、风格统一、页面节奏。
这个流程跑通以后,做一份高质量 PPT 的时间会大幅下降。
以前可能需要半天甚至一天,现在可以先用 AI 在几十分钟内生成一个质量不错的初版,然后人再花时间做判断、取舍和润色。
七、这套方法真正解决了什么问题?
它解决的不是"懒人做 PPT"的问题,而是"高质量 PPT 生产效率"的问题。
传统 PPT 生产里,最耗时间的有三块:想结构、找素材、调页面。
Codex 负责结构化思考和内容拆解;GPT Image 2 负责高质量视觉素材;Presentation 插件负责可编辑文件生成。三者刚好对应 PPT 生产中最耗时的三个环节。
更重要的是,这套方法让 PPT 生产从"手工活"变成"工程化流程"。
以后团队做汇报材料,可以沉淀自己的模板、提示词、页面结构、行业素材库。比如政企汇报一套模板、技术方案一套模板、产品发布一套模板、培训课件一套模板。
当这些资产沉淀下来后,AI 不是每次从零开始,而是在团队自己的知识和风格基础上持续复用。
这才是 AI 做 PPT 的真正价值。
八、需要注意的几个坑
第一,不要让图片模型生成大量文字。
图片里的文字再好,也不如 PPT 原生文本可控。标题、正文、数据、表格,尽量都放到 PPT 里编辑。
第二,不要一开始就追求完美。
AI 生成 PPT 最适合先出 70 分初稿,再由人调整到 85 分、90 分。如果一开始就要求模型一步到位,反而容易反复返工。
第三,页面内容一定要克制。
每页只讲一个观点。正文最好控制在三条以内。PPT 不是文章,不要把所有话都写上去。
第四,风格要统一。
生成图片素材时,要统一色彩、构图、质感和画面比例。否则每一页都很好看,但整份 PPT 看起来像从不同地方拼来的。
第五,最终一定要人工审校。
特别是涉及企业名称、政策文件、客户数据、财务数据、技术参数时,AI 可以辅助整理,但不能替代责任审核。
九、结语:AI 做 PPT,核心不是替代人,而是重构流程
我越来越感觉,未来真正高效的办公方式,不是让 AI 一步生成所有东西,而是把复杂工作拆成多个可控环节。
做 PPT 也是一样。
Codex 负责规划和内容生成,GPT Image 2 负责视觉素材,Presentation 插件负责可编辑交付。人则负责判断方向、把控质量、校准语气、确认事实。
这套方式不是简单的"AI 生成 PPT",而是"AI 驱动的 PPT 工程化生产"。
它把过去依赖个人审美、个人经验、个人时间堆出来的 PPT,变成了一条可以复用、可以迭代、可以团队协作的生产流程。
对于经常写汇报、做方案、搞培训、做产品发布的人来说,这可能是接下来最值得尝试的一种新工作流。
因为它不只是快。
更重要的是,它让我们第一次有机会用工程化方式,稳定生产高质量 PPT。