很多人以为用 AI 做 PPT,就是让 AI 直接帮你生成一份完整的可编辑文件,其实这是完全错误的思路,目前所有能直接生成 PPT 的工具,要么是内容质量差,要么是排版没法看,要么就是编辑起来特别麻烦。
我之前也是这样想的,踩了无数的坑之后才明白,AI 最擅长的其实是做视觉设计,而不是做结构化的文件,所以正确的做法应该是先用 GPT-Image-2 生成完美的 PPT 页面视觉稿,再用 codia.ai 把它转换成可编辑的 PPT,这样既能保证 PPT 的美观度,又能保证后续的编辑性。
这个时候有人就会问了,直接在 Codex 里调 image-gen2 不行吗?
测了一个月,说实话效果差距还挺明显。
如果你是 Plus 会员,在GPT里生成回更省额度。
如果你是 pro 的话,那就完全不用担心啦。
话不多说,直接上干货。
在开始讲流程之前,我想先花两分钟跟你说清楚这套方法背后的逻辑,因为如果你不知道为什么要这样做,后面操作起来很容易一头雾水。市面上那些直接生成 PPT 的工具,比如说豆包,Gamma、讯飞、kimi这些,它们的问题不是做不出来,而是做出来的东西你没法用,内容逻辑跟你想表达的对不上,排版要么是很强的模板感,要么改一个地方其他地方就全乱了,整体效果很难达到你想要的效果。
GPT Image 2解决的是另一个问题,它是一个图像生成模型,特别擅长把你给它的文字内容渲染成视觉完成度很高的图片。当你把 PPT 的大纲和逐页内容喂给它,并且告诉它你要什么风格,它输出的是一张张看起来非常专业的 PPT 页面图片,这个视觉效果是那些直接生成 PPT 的工具完全比不上的。
但图片没法改,你开会的时候总不可能拿一堆图片给别人看,需要更新数据的时候也完全无从下手。所以这时候就需要 codia.ai 出场,它做的事情是把你刚才生成的那些高质量图片识别还原成一个可以编辑的PPT文件,你可以直接在里面改文字、改数据,也可以拿去 PowerPoint 或者 WPS 里继续调整。
这就是为什么要拆成两步,GPT Image 2 负责把视觉效果做到最好,codia.ai 负责让它变成真正可以用的文件,两个工具各做各最擅长的事,合在一起才完整。另外需要提前说一下,codia.ai 是付费工具,官网订阅大概每月88元,如果你只是偶尔用的话可以先试用免费额度,够不够用自己用一次就知道了。
很多人用 AI 做 PPT 的时候,不管是汇报还是提案还是述职,用的都是同一套提示词,然后觉得效果不好,以为是工具的问题。但其实问题不在工具,在于你没有告诉 GPT这份PPT给谁看的,它只能按照一个通用好看的标准去设计,结果就是三种场景做出来的东西气质都差不多,而且没有一个是真正合适的。
汇报 PPT、提案 PPT、述职 PPT,这三种东西的本质需求完全不同。你向上级汇报数据,他们要的是清晰、准确、一眼能看懂,不需要你的PPT有多好看,装饰性的东西反而是干扰。但你去做方案提案,对象是决策层,你要让他们觉得这件事值得做,这时候视觉的分量感、叙事的节奏、关键页面的视觉冲击力都是说服力的一部分。述职就更不一样了,你需要让别人感受到你这半年或者一年做了什么、成长了多少,成果感和时间叙事是核心,风格要专业,但也不能完全没有个人温度。
所以我的方法是,在这一步生成视觉方案拼图的提示词里,加入一段专门针对当前场景的说明,让 GPT 在理解内容的同时,也知道这份 PPT 是什么性质的、受众在乎什么,它的设计选择就会完全不同。
我来分别演示一遍。
汇报 PPT 的核心是让管理层用最短的时间看懂你做了什么、数据说明了什么、下一步打算怎么做。所以第一步整理内容的时候,重点是把数据和结论放在最前面,逻辑要顺,不要把细节堆得很满。把你手上的工作数据粘进去,用这个提示词让 AI 先帮你整理好汇报框架:
你是一位有10年经验的职场顾问,擅长帮职场人把零散的工作数据整理成逻辑清晰的管理层汇报材料请帮我把以下工作数据整理成一份适合向直属上级汇报的季度汇报大纲要求:1.把最重要的结论放在最前面,按"完成了什么→带来了什么→下一步怎么做"的顺序组织内容2.每个板块控制在3-5个要点,不要堆砌执行细节3.数据描述必须具体,不要使用"显著提升""大幅改善"等模糊表达,全部换成具体数字输出格式:汇报主题:核心结论(一句话):[分板块输出各要点]我的工作数据:[粘贴你的数据或工作记录]
内容整理好之后,把它发给GPT,这时候在生成视觉方案的提示词里,要加上这一段场景说明:
这套PPT用于向管理层进行数据汇报,受众在乎的是数据准确和逻辑清晰。请在视觉设计上优先保障信息密度和阅读
效率,整体风格克制专业,以图表和数据为视觉主体,不要加入装饰性元素或情绪化的视觉处理。
提案 PPT 的目的完全不一样,你要说服决策层这件事值得做、值得投入资源,所以内容整理的方式也不一样,重点是逻辑的说服力而不是数据的堆砌。可以把这个提示词发给 GPT:
你是一位资深战略顾问,擅长把模糊的业务想法整理成有说服力的方案提案请帮我把以下背景信息整理成一份完整的提案框架,适合向管理层或董事会汇报要求:1.按"现状与问题→解决方向→具体方案→预期收益"的逻辑展开2.每个节点要有数据或逻辑依据,不能只是观点3.结论要清晰,让决策者一眼看懂你在建议做什么、为什么值得做输出格式:提案主题:核心建议(一句话):[分板块输出各要点]我的背景资料:[粘贴你的资料]
内容出来之后,视觉生成的场景说明换成这段:
这套PPT用于向管理层进行方案提案,目标是获得认可和资源支持。请在视觉设计上给予叙事感和分量感,关键节点
可以制造一定的视觉重量,让整体观感有这个方案是认真准备过的的力度,视觉冲击优先于克制。
述职跟前两个不太一样,汇报是在讲数据,提案是在讲方案,但述职说到底是在讲你这个人,比如说你上半年遇到了什么困难、做成了什么等等。很多人的述职写出来像工作日志,洋洋洒洒列了一堆做过的事,但看完完全感受不到这个人,这是因为只记录了做了什么,并没有把背后的思考和价值讲出来。
可以把这个提示词发给 GPT:
你是一位有10年经验的职场顾问,擅长帮职场人从零散的工作记录里提炼出有说服力的核心成果请帮我把以下工作记录整理成一份适合述职汇报的成果清单框架要求:1.筛选出最有价值的5-8个成果,有数据的优先,本人主导的优先2.每个成果必须包含:做了什么 + 核心数据 + 创造的价值3.数据必须具体,全部换成具体数字,禁止使用模糊表达4.按价值从高到低排序,最重要的放最前面输出格式:成果一:[成果标题]做了什么:核心数据:创造价值:我的工作记录:[粘贴你的项目总结]
内容出来之后,视觉生成的场景说明换成这段:
这套PPT用于个人半年度述职,受众是直属领导或评估团队。请在视觉设计上突出成果展示感和时间叙事的节奏,给每个核心成果足够的呈现空间,整体风格专业但不要过于冷硬,保留一定的个人温度。
这三套内容提示词你可以直接截图保存,对应你自己的场景改一改就能用。
前面三个场景虽然我们有详细的提示词,但是肯定很多宝子还是很懵,没有关系,我现在手把手带大家演示一遍,你跟着我的操作走,做一遍就懂了。
『 Step 1:把原始材料整理成 PPT 大纲 』第一步不是直接去做设计,而是先把你手上的材料喂给 GPT,让它帮你整理成一份逐页的大纲,每一页是什么内容、要表达什么、适合用什么方式呈现,都要在这一步确定好,后面的视觉生成全部基于这份大纲,所以这一步不要跳过。
把这段提示词粘进去:
请仔细阅读我上传的文档,基于文档内容为我生成一份9页PPT的完整大纲。每一页需要包含以下四个部分:1.页面标题2.本页核心观点(一句话概括)3.正文要点(3-5条)4.视觉呈现建议(这页适合用什么方式展示,例如数据图表、流程图、对比卡片等)大纲生成完成后请先停下来,等我确认内容没有问题,再进行下一步。
大纲出来之后,你要认真看一遍,确认每一页的核心观点是不是你真正想说的,页面顺序有没有逻辑断层,数据有没有写准确。这一步我会停下来改几处,不要为了赶进度直接跳过,因为后面一旦生成了视觉稿,再改内容就要重新生成一遍。
大纲确认之后,可以把下面这个视觉生成提示词粘进来。是不是感觉很长,想要的宝子别着急,你发现他已经给我生成了三个风格的PPT,我觉得比我自己写的更全面一些,还有图表展示。
当前阶段只做视觉方向探索,不生成PPTX,也不生成逐页单图。请根据这套行业研究报告的主题、行业属性、内容密度、受众场景和叙事风格,自行选择3种最适合的视觉方向,并分别生成一张完整拼图,方便我比较整体风格、页面节奏和高级感。输出要求:1. 生成3张PPT拼图:方案A、方案B、方案C。2. 每张拼图必须包含整套报告的所有页面缩略图,并保持正确页序。3. 每个缩略页应是16:9横版页面。4. 三版风格必须明显不同,不要只是换颜色。5. 每一版内部必须使用统一视觉系统,包括字体层级、色彩系统、背景风格、图表样式、图标风格、章节封面样式、页脚和页码样式。6. 每一版都要像一套完整、正式、可落地的行业研究报告,而不是零散的PPT页面草稿。7. 拼图用于选择方向,文字可以适当缩小,但章节标题、关键数据、核心图表和页面结构必须能看清。内容要求:1. 严格使用已确认的大纲和逐页内容。2. 不要重新编写故事线或章节顺序。3. 不要随意删页、加页、改页序。4. 不要新增未经确认的数据、机构名称、Logo、人物或来源。视觉要求:1. 请先理解报告的主题和受众,再判断哪3种视觉方向最适合。2. 行业研究报告的受众通常是政企决策层或行业研究者,视觉设计必须优先保证权威感、可信度和信息密度,不要追求夸张的视觉效果。3. 三版差异应体现在:版式气质(学术严谨vs科技感vs咨询报告风)、信息密度、章节封面处理方式、图表语言、背景风格、文字层级和整体视觉重心上。4. 章节封面页可以有强视觉处理(大章节编号、全色背景、大字排版),内容页需要保持清晰的信息层级和足够的留白。5. 如果需要图标,请保持统一风格,优先使用线性或填色的科技风格图标。6. 如果需要图表,请保持清晰、可理解、有研究报告质感,数据标注必须清晰。7. 如果需要图片,请使用与主题相关的高质量真实感图片(城市、产业、科技场景),或高级商业插图,不要使用卡通或低质感素材。8. 不要伪造机构Logo、品牌标识、人物肖像或产品UI。9. 这是严肃的政策研究和行业分析报告,请全程保证可信度、清晰度和专业质感。输出格式:请依次输出:方案A:完整报告拼图方案B:完整报告拼图方案C:完整报告拼图不要输出过多解释文字不要生成PPTX不要生成逐页单图这一步的目标是帮我选择视觉方向,请优先保证三版风格差异明显、每版都适配行业报告的内容性质和受众场景,整体观感权威、高级、页面节奏完整,并且后续可以基于其中一版继续生成逐页高清单页图。将宽高比设为 16:9
风格选好了,下一步是把拼图里的每一页拆出来,单独生成一张高清的页面图。我选择是方案 A,我会让他基于方案A的拼图,将每一页独立扩展为完整的高清单页视觉稿。
接着我会告诉他这一步不是重新设计,而是把拼图里的每一页按原有风格、版式和内容,逐页放大还原为可独立使用的高清图片。然后你就可以把我这个要求、输入方式发给他,很多朋友都会问我,那 GPT 只会一页一页生成呀,没关系我也是最近才琢磨出来的,用这个提示词:请你从第1屏开始重新生成单张独立图,逐屏执行:第1屏、第2屏、第3屏、第4屏、第5屏、第6屏、第7屏、第8屏、第9屏,直到生成完9屏,生成完一张自动继续第二张。每次只输出一张图,不输出任何解释文字,不输出拼图,不生成PPTX。
提示词是这个:
我选择方案 A,请基于方案A的拼图,将每一页独立扩展为完整的高清16:9单页视觉稿。任务说明:这一步不是重新设计,而是把拼图里的每一页按原有风格、版式和内容,逐页放大还原为可独立使用的高清图片。核心要求:1. 按页码顺序依次生成,每次只输出一张单页图,不输出拼图或多页合成图。2. 每张图保持16:9横版比例,清晰度适合作为下一步PPTX复刻的蓝本。3. 严格沿用方案B的视觉系统:字体层级、主色与辅助色、背景风格、图表样式、图标语言、模块边距、留白节奏、页脚和页码,全部保持一致。4. 版式与拼图中对应页面保持一致,但细节要更清晰完整,不要简单裁切放大。5. 主标题、关键数字、图表标签、页码必须清晰可读,不出现乱码或错别字。6. 如果拼图中某些小字无法识别,请参考已确认的大纲内容补全,不要自行编造。7. 不要新增拼图中没有的品牌、Logo或数据。输出方式:请依次输出第1页、第2页……直到最后一页。从第1屏开始重新生成单张独立图,逐屏执行:第1屏、第2屏、第3屏、第4屏、第5屏、第6屏、第7屏、第8屏、第9屏,知道生成完9屏,生成完一张自动继续第二张。每次只输出一张图,不输出任何解释文字,不输出拼图,不生成PPTX。特别强调:这些图片是下一步高保真还原为可编辑PPTX的蓝本,每页的构图、文字层级、图表关系和视觉节奏必须清晰稳定、可复刻。将宽高比设为 16:9
这个提示词发出去之后,GPT 会一页一页往外输出,你不需要做任何操作,等它跑完就行。有一点需要注意,如果中途某一页的效果明显跟其他页不一致,比如字体感觉变了、配色偏了,可以直接告诉它"这一页的视觉风格跟前面不一致,请重新生成并保持统一",让它修正,不需要把整套重新跑一遍。
『 Step 4:用 codia.ai 转成可编辑的 PPTX 』图片全部生成完之后,打开codia,把这些单页图片或者是PDF上传进去,因为codia是不支持 PPT上传的,它只支持pdf或者是图片格式,然后它就会识别每张图的版式、文字、图表结构,然后还原成一个可以直接编辑的 PPTX 文件。

转换完成后下载下来,就可以在PPT或者WPS里打开,你可以看到文字是可以直接点进去改的,主要的版式和背景都保留了原来的设计质感。如果有几处排版跑偏了,手动微调一下就好,整体的工作量比你从零开始做要小得多。有一点需要提前说,codia的还原效果跟原图的复杂程度有关系,图表越简单还原得越准,如果某一页有很复杂的自定义图形,可能需要手动重建一下,这是正常情况,不是 bug。
整套流程走完,你可能会觉得步骤有点多,但这套东西只需要搭建一次,以后每次做 PPT 都是复用的,不需要重新想提示词,不需要重新摸索风格,只需要换两个东西:一个是你的原始素材,一个是对应场景的补充说明。我自己的做法是在备忘录里开一个文档,把三套场景的完整提示词分别存好,汇报、提案、述职各一份,每套里面包含内容整理提示词、视觉生成提示词加上对应的场景补充说明,需要的时候打开直接复制,整个准备过程不超过五分钟。
每次用的时候,你真正需要做的只有两件事:把你这次的工作材料整理好粘进去,然后确认当前是哪个场景,把对应的场景说明放进提示词2里,其他所有内容原封不动。这样下次要做 PPT 的时候,你花时间的地方只有梳理你自己的内容,而不是重新折腾工具。
说实话,这套流程我自己测试了很多轮才跑顺,中间踩了不少坑,包括提示词写得太宽泛导致风格乱掉、图片质量不够高导致 codia.ai 还原效果差,这些我后来都在提示词里一条一条补进去了。你今天看完,这些弯路可以直接跳过。下次做PPT之前,先把你的素材整理好,对着场景选对提示词,一步一步跑下来,你会发现做一份好看又能编辑的 PPT,真的可以这么快。
关注【晚熟番茄讲AI】
每周学习一个AI小技巧,让自己在AI路上越来越厉害