估计不少人对“做PPT”这件事,会有种说不上来的抵触感。
做PPT是办公里那种"看起来不该花太多时间,实际能占掉大半天(甚至一整天)"的活儿。
开会前一晚临时补一份汇报、给客户发的售前材料、给老板/领导看的项目阶段性总结,每一份都要重新搭框架、找模板、配版式、写正文、抠字眼。
最近一年多,能"做PPT"的AI工具一下子多了起来。变化最明显的是:以前需要"内容模型"和"PPT 平台"接力的事,现在很多通用大模型自己就能一站搞定——豆包、Kimi、千问 这些都已经支持在对话里直接吐 PPT 文件并下载,体验跟百度文库 AI PPT、AiPPT.cn 这种专做 PPT 的平台越来越像。再往下还有 Claude Code Skill、OpenClaw / Hermes Agent、LandPPT 这些更"智能体味儿"的玩法。
工具一多,问题也跟着来:到底哪个工具适合做哪种PPT?让 AI 直出整套 PPT 实不实用?哪些环节人还得自己上?
这篇文章不写软文,就把实测下来的判断、踩过的坑、几条用得上的 Prompt 技巧讲清楚,重点拿出一节,专门把豆包、Kimi、千问、百度文库 AI PPT 这四家直出 PPT 的实际表现做横向对比,并给出豆包做 PPT 的完整操作步骤与提示词模板。
很多人对 AI 做 PPT 的失望,是因为一上来就期望"输入一句话,AI 自动给我一份能直接交付的完整 PPT"。这个期望偏了。
把做 PPT 拆成几个环节看,反而能想明白 AI 在哪一步真能帮上忙:
AI(LLM大模型) 强的是 2、3、5——拉大纲、写正文、改文字。这三步合起来,正好是"从无到有写出一份 PPT"里最痛、最耗时的部分。4(视觉)现在很多大模型也接上了 PPT 模板库,能自动套版式,但模板库的质量和你能换的自由度,差异挺大,下面会专门拿一节展开。
1(定方向)依然得人来——AI 不知道你这场会的真实目的;6(最后一公里)短期内也不会消失——任何一份要拿出去的 PPT,最后都需要人对着投屏视角再过一遍。也就是头和尾,是一定需要人来做的。
理解了这个分工,再看下面的工具盘点和路线选择,就不容易被"一键生成"那一类话术带歪。

输入一个主题或一段文字,平台直接给你一份带模板的 .pptx 下载链接,是最像"AI 做 PPT"的产品形态。
这一类的真实评价:
优点:流程闭环,省了从零拉版式的时间;模板多,能快速给出"看起来像那么回事"的初稿。缺点:模板会锁住审美,复杂逻辑图、行业专业图常常拉胯;正文质量高度依赖背后大模型本身的水平;导出 .pptx 后,二次编辑常会撞上字体不齐、版式异化、文本框层叠错位等问题。
最适合的场景: 通用题目、内部周报月报、面向轻量级听众的初稿、不太需要专业图表的场合。
这一类一年前还只是"内容工厂",现在已经普遍长出了"直出 PPT"的能力。
这一类的真实评价:
强项是"内容到位、结构到位、文字到位"——背后毕竟是通用大模型;现在又补齐了 PPT 模板套版的能力,"一站式做 PPT"在很多日常场景已经跑通。弱项主要在两块:模板库一般而言,远不如专做 PPT 的平台丰富、风格相对固定;导出后的 PPT文稿 在 PPT 软件里二次编辑时,文本框结构、字体、对齐有时会跑偏。
最适合的场景: 内容门槛高、专业内容多、对正文质量讲究、对最终视觉自己有把控的场景(咨询、售前、行业研究、产品评审);以及"不想换工具,在常用对话窗口里直接搞定"的轻办公场景。
这一类的代表:Claude Code 的 PPT Skills(基于 python-pptx)、Hermes Agent / OpenClaw 创建的 PPT Skill、LandPPT、PPTAgent、NanoBanana PPT Skills 等。
它们的共同点是:把"做 PPT"变成一个可编程、可复用、可批量的工作流。
举个具体的例子。我电脑的这个文案仓库里就有一个用 pptxgenjs 写的 PPT 生成脚本(pptbuild/ai_power_solution.js),相当于把一份方案汇报的版式、字体、配色、Logo 位置都写成了代码:
baseSlide / title / card 这些函数这种思路特别适合:模板需要长期固定(比如企业方案模板)+ 同类型 PPT 经常要做(比如售前方案、客户汇报)+ 你或团队里有人能写一点 JS / Python 代码(当然也可以让AI写)。
如果不想写代码,也可以让 Claude Code、Hermes Agent 这类智能体帮你创建一个"图片转 PPT"或"Word 转 PPT"的 Skill,让它把这一类活变成"扔进去一份材料,吐出一份 PPT"。
这一类的真实评价:
灵活性、可定制性、批量化能力天花板最高;上手门槛比平台型工具高一些;适合企业内部、有标准模板诉求、对一致性要求高的场景。
这四家是日常办公里最容易触达的入口——豆包/Kimi/千问 都是日常聊天就能调起,百度文库 AI PPT 是国内通用 PPT 工具的代表。它们都能"输入主题/材料,直出可下载的 .pptx",但实现路径、强项弱项差很远。
下面把它们的实际玩法和差异讲清楚,方便你按场景选。
豆包目前都还是免费就能使用AI生成PPT,是这四家里首家不需要开订阅会员,并且把"用AI做 PPT"做到非常顺手的(水准比较高的)。下面把两个真实场景的完整操作流程、提示词模板和后续编辑能力一次讲完。
也就是说,通勤路上用手机起稿,到工位用电脑精修,这套真实工作流在豆包里顺起来了。
老板甩过来一份 Word/PDF/会议纪要,让你"整理成 PPT"。豆包的标准流程:
操作步骤
提示词模板
根据这份[PDF / Word / Markdown]里的内容,做一份[xxx 风格]的 PPT。主题是:[主题]听众是:[谁,他们关心什么]需要有配图和图表。我这里的实例(当然我手头刚好有两个这方面的文档,网上也不少):
根据这两份 Markdown 和 PDF 里面的内容,做一个毛毡定格动画风格的 PPT。主题是:什么是 Harness Engineering?听众是:技术分享会的工程师同行。需要有配图和图表。


风格关键词(按用得最多的顺序):
生成过程
豆包会自动跑这几步:
豆包会自动进行PPT素材收集:

PPT完成之后,可以点击下载图标按钮,然后选择"PPTX"或"PDF"格式进行下载:

如下是豆包生成的PPT文稿(效果还是不错的):


豆包在预览效果上也做的很棒,包括在手机上的豆包APP的预览,也做得非常不错。下方是豆包网页版的PPT预览效果。可以看到:

老板或者领导只丢一句"明早我要一份 X 主题的 PPT",连资料都没给。豆包的解法是先用专家模式做资料搜集,再切到 PPT 生成:
操作步骤
比如这里我输入提示词"出一份关于'词元Token产业链'的完整资料",发送了之后,豆包立马会开启专家模式,搜索了关于"词元Token产业链"的详细资料:

里面包括了5大章节15个小节,非常详细,并且还是图文并茂的:

然后就可以直接在这同一个界面(同一个Session会话)内,点击"PPT生成",参考下文的提示词模板进行PPT生成提示词的输入,让豆包生成PPT。
提示词模板(场景二专用)
请基于上面专家模式生成的内容,帮我做一份 PPT。主题:[主题]风格:[科技商务 / 简约 / 国潮 / 杂志风等]听众:[谁,关心什么]需要:图片、关键数据图表、章节封面篇幅:适中(约 [N] 页)我这里输入的提示词是:
请基于上面专家模式生成的内容,帮我做一份 PPT。主题:词元(Token)产业链深度分析风格:科技商务听众:上层领导(主要决策者)需要:图片、关键数据图表、章节封面篇幅:适中(约 12 页)
很快的,就生成了完整的PPT文稿,也是可以进行预览和在线编辑调整的:

以下是生成PPT的前面几页,图文并茂,风格版面也还比较过得去,基本上还是比较不错的:


网页版上生成的PPT可以在电脑客户端或者手机豆包APP上查看和编辑,而在手机豆包APP上生成的PPT在电脑上也能查看编辑,三端同步的,都可以查看和编辑和下载,非常方便。
这条路线的妙处:专家模式负责"找资料 + 做内容深度",PPT 生成负责"渲染版式",两步分工,从主题到能用的 PPT 一般 5 - 10 分钟。
PPT 生成出来以后,豆包提供了几条修改路径,对话式 + 直接编辑同时支持:
(A) 整页改:选中页面 + 自然语言指令
常用的整页指令(拷贝即用):
把这一页的标题字号放大把这一页的主色调改成深蓝色这一页内容太满,删掉最不重要的一条把这一页排版改成左右两栏把这一页加一张和主题相关的配图比如选定”04. 核心挑战与发展趋势“这一页,然后输入提示词”把这一页的主色调改成深蓝色“:

然后它确实理解了是针对这一页进行调整,当然也确实修改了,虽然不算很明显:

(B) 局部改:直接选中文字/图片编辑

如上图,点击后进行图片修改(可以”智能生图、豆包P图、全网搜图、本地替换“),还是挺方便的。
(C) 演讲备注
版本历史
PPT 改了好几版,老板说"还是第一版好"——这种事豆包给你存档了:

这个功能在 AI PPT 工具里比较稀有——多数平台只有"撤销一步",没有"完整版本管理"。改坏了不怕,敢大胆试。
分享与下载
双端同步细节
优势
劣势
最适合:日常内部 PPT、轻办公汇报、个人快速出稿、临时性需求(地铁/出差)、对中文文字质量讲究的场景。
原本,可能需要找资料2小时、排版找图2小时、调图调文字2小时的活儿,现在自己一个人在地铁上,掏出手机用大拇指点几下,5分钟全搞定。这个效率就很爽了。
怎么生成 PPT:

这里是选用Agent模式进行PPT生成(按推荐提示),跟其他AI助手有些不同的是,Kimi 就是运行了类似一个沙箱computer并调用agent运行:

然后才生成的PPT,生成的PPT可以进行预览和编辑修改,内容质量及排版审美等,属于还是可圈可点的(就是需要订阅会员):

优势:
劣势:
最适合: 长文档/长文章/PDF/URL 转 PPT、调研报告 PPT 化、需要套自家企业模板/品牌色的场景、有 Excel 数据要做基础图表的场景。
怎么生成 PPT:
打开百度文库首页,点击“智能PPT”:

上传参考文档附件(不支持markdown呃)并输入提示词:

然后它会先生成大纲,确认大纲后点击“生成”按钮,比较特别的是,它会让选择模板:

从个人实测的体验来看,生成的PPT版面还是比较精美的,模板挺丰富,内容质量只能说也还行(用的还是DeepSeek R1这个一年多以前的大模型呃)。

优势:
劣势:
最适合: 模板需求强、对中文商务/教学/政企场景适配高、需要在线编辑器二次调整、对正文质量要求中等的场景。
怎么生成 PPT:
点击”PPT创作“并输入提示词:

过几分钟就可以看到千问生成的PPT成稿了,并且还可以看到是可以更换模板的(下图中的③):

不过从实测可以看出,这个生成的PPT文稿的质量,包括其内容的丰富性与精准度、排版和审美等,还是和豆包有一定的差距的(不过各家也有适用场景上的强项)。
有意思的是,面向全球的 chat.qwen.ai(国内是 qianwen.com),可以用Qwen3.6-Plus或者Qwen3.6-Max-Preview这些更新的大模型(如下图的①),其生成PPT(其用词其实是“幻灯片”)时先输出大纲,需要输入“确认”或“开始”(下图中的②)才会进行下一步的“幻灯片”生成,另外就是,可能因为使用了更新的大模型的缘故,所生成的文稿看起来是比较不错的(但是下载下来是PDF,无法编辑呃)。

而国内版( www.qianwen.com )则没有Qwen3.6系列,只能选到 Qwen3.5 或 Qwen3 系列,比如下图 Qwen3.5-千问,而生成的是可编辑的PPT文稿(但内容质量相对还是有点差距):

优势:
劣势:
最适合: 长文档/超大材料一站式转 PPT、教育/政企/白领常见 PPT 题材、希望免费拿到分行业模板的场景、需要大模型理解力强的内部汇报。

从个人使用体验来讲,最推荐豆包,免费而且质量高。不过个别时候也会出现幻觉,所以还是建议多家结合。一般其实更推荐同一个PPT任务多家并行跑,毕竟花点钱,能够节省很多时间,甚至还能做出来比自己手工做质量更好的PPT,还是挺值的。
一条直白的判断:内容信豆包/Kimi/千问,模板信百度文库或 Kimi(套自家),数据图信 Kimi,长文/大材料看 Kimi 或千问,移动场景信豆包,最后一公里信你自己。
综合最推荐:豆包。然后 Kimi(需订阅)。
光看分类容易绕晕,下面按"你拿到的素材是什么、你想要什么"这种思路给四个常见场景的推荐路线。
最常见的需求。两条路线可选:
快路线(5 - 10 分钟出版):
稳路线(半小时出更可用的版本):
为什么稳路线更稳: 把"内容质量"交给最擅长读长文档的模型,把"版式审美"交给做了几万套模板的平台,把"细节判断"交给你自己。三段分工,每一段都用得最好的工具。
当然这只是一种可选方法,AI发展日新月异,现在基本上选择“快路线”一键生成PPT都已经很稳了。
比如老板让你"准备一份关于团队 Q3 工作复盘的 PPT"。两条路线:
快路线:直接在 豆包 里走"专家模式 → PPT 生成"两步流程(详见 3.1.3 节),10 分钟拿稿;或在 千问 或 Kimi 一句话起稿。
比如,如下的提示词,在Kimi里面可以直接生成:
出一份关于“词元Token产业链”的完整资料。完成后,然后根据这个详细完整资料,生成 12 页左右的PPT。
然后这是 Kimi 同时生成的 PPT 可编辑文稿(貌似Kimi比较喜欢用图表):

稳路线:
关键一点:内容没敲定前,别急着渲染成 PPT。 PPT 渲染出来之后,里面的文本框、字体、版式都成了束缚,改起来比纯文本难十倍。
这个场景下 AI 的用法分得很细:
这个场景此前的文章( 别再一张图重画三遍了:用大模型(豆包、千问、Kimi或Hermes Agent等)把图片改造成可编辑图)讲得比较细了,可作为值得尝试的方法之一(但效果还得看图种类和复杂度等),简单说就是:
先让 LLM 把图片重建成可编辑 SVG,再把 SVG 导入 PPT,转成 PPT 里的"形状",然后再继续编辑。
不要指望 AI "把这张截图直接变成完美一页 PPT"。那条路目前几乎没有稳定走通的。
这是 2026 年才真正变现实的场景,专门列出来:
全程不需要电脑 —— 2026 年以豆包为代表的主流AI助手的手机 APP,已能完整支撑移动端从资料导入、生成初稿到语音精修的全流程 PPT 制作,加上多端同步,用起来已经“非常顺”了。

把上面提到的工具按几个常见维度归一下,给一个粗略的对照。打分基于近几个月实测,仅供参考。(以下打分仅是个人体验,可能存在不准确的地方,仅仅供参考)
不想记表,三句话:
光说工具没用,最后能不能交付,很大一部分在 Prompt 上。下面这几个技巧是实际跑下来差异最明显的:
最容易翻车的姿势是直接说"帮我做一份关于 X 的 10 页 PPT"——结果就是每页都泛、没重点、还互相重复。
更稳的做法是分两步:
第一步:请帮我设计一份关于 [主题] 的 PPT 大纲,要求:- 听众是 [对象],目的是 [目的]- 总共 [N] 页,每页只列标题 + 一句话核心信息- 章节之间要有递进关系,避免内容重复确认大纲之后再让它逐页扩写:
第二步:请按这份大纲,逐页扩写每一页的正文,要求:- 每页正文不超过 80 字,用 3-4 个要点呈现- 要点之间结构平行- 语气是 [正式 / 通俗 / 技术 / 对客户],避免空话和套话豆包、Kimi、千问 现在的"先大纲后渲染"流程其实就是把这个技巧产品化了——豆包专家模式更进一步,把"找资料"也包了。但你可以再追加约束让大纲更贴你的场景。
模型不知道你的语境。同样是"团队 Q3 复盘",对老板讲、对兄弟团队讲、对外部投资人讲,话术差很远。
Prompt 里把这三件事写明:
听众:[谁 + 他们关心什么]目的:[你想让他们看完后做什么决定 / 留下什么印象]行业:[行业 + 业务背景的一句话]这一段加上,输出从"通用 PPT"变成"你的 PPT"。
像豆包、百度文库、千问 这种直接出 PPT 的工具,最影响最终视觉的不是大纲,是风格关键词——一个词的差别,模板就不一样。
提示词里把风格写具体一些:
风格:[科技商务 / 国潮中式 / 杂志风 / 极简白底 / 羊毛毡定格动画 / 黏土风 / 数据报告风]配色基调:[深蓝 / 暖橙 / 莫兰迪绿 / 黑金]版式偏好:[左右两栏 / 单栏图文 / 数据图表为主 / 大字报封面]这一段直接决定模板挑选,比改大纲省事十倍。
特别是当你想要某种特定风格的页面(比如咨询风、政府报告风、互联网风),与其让模型自己揣摩,不如直接给它一两页你认可的样例:
下面是一页我认可的风格示例(标题 + 要点结构):标题:核心结论要点:- 业务核心矛盾从 A 转移到 B,需要重新对齐- B 的破局点是 C,预计 Q4 见效- 关键风险:D,已有应对方案请按这种"标题 + 三条要点"的结构,生成后续每一页。加这段示例,输出的稳定度会明显提升。
PPT 不是 Word,最常见的翻车是"AI 给的每页都像一段论文"。在 Prompt 里加一句硬约束:
每页正文不超过 80 个汉字;要点不超过 4 条;不要写完整长句,多用名词短语。这一句加不加,最终 PPT 上的字数密度差三倍。
在输出最终大纲之前,请先自查:- 章节之间是否存在内容重复;- 每页核心信息是否独立、是否承接前一页;- 听众和目的是否在每一页都体现。检查通过后再输出最终结果。这一段对长内容尤其有用,能去掉一大半"重复废话"。
豆包生成完 PPT 之后,最值钱的是"对着某一页用自然语言改"。下面这些句式直接复用,命中率高:
[整页风格] 把这一页的版式改成左右两栏,左边文字右边图[文字调整] 把这一页所有正文压缩到 60 字以内[配色] 把这一页主色调改成深蓝色,副色用浅金[图片] 把第 3 页的图换成羊毛毡风格,且图里不要文字[补充] 在这一页加一个 3 行 2 列的对比表格[备注] 把这一页的演讲备注重写一遍,更口语化、控制在 100 字内如果要用 Kimi 出"贴自家 VI"的 PPT,不要等生成完再改色,在生成前就把模板和品牌信息上传:
1. 上传公司 LOGO 图片2. 在"自定义模板"里把主色调成 [HSL/HEX 值],副色调成 [HSL/HEX 值]3. 选中"使用自定义模板"4. 再丢提示词:"根据上传的资料/主题,生成一份 [N] 页 PPT,风格保持公司模板"这一套跑下来,生成出来的 PPT 已经是带 LOGO 和企业色的版本,比生成完再回去手动调省一大半时间。
一、上来就让 AI 出"完整 PPT 文件"。 内容没打磨好就生成 .pptx,等于把"还没想清楚的内容"用模板锁死,后面改起来反而更累。这一点豆包/Kimi/千问 的"先大纲后渲染"流程缓解了一些,但你仍然要在大纲那一步认真改。素材内容还是蛮关键的。
二、不给上下文 / 提示词太简单。 不告诉模型听众、目的、行业,输出的就是通用模板腔。需要在上下文/提示词上面多花一点时间精力。提示词的本质,是帮AI还原你所在的处境。你描述得越清楚,它给出的结果就越贴合你。
三、模板审美锁定。 AI PPT 平台和大模型自带模板看着多,实际"高级感"那种很少。如果要给重要客户用,最好准备好自己的模板,或者尝试百度文库 AI PPT、Kimi 这类支持上传企业模板/品牌色的工具。豆包 PPT 也还不错。
四、中文字体 / 排版细节。 平台和大模型导出的 .pptx 经常带英文字体,标点宽窄不一,需要在 PPT 里手动统一一遍。
五、不做最后一公里。 AI 给的是 70% 的初稿,后面 30%——核心金句、关键数据、内容核对、备注页、动画过渡——还是得人来。这一步省不得,省了就是交付时丢分。豆包帮你出了演讲备注,但备注的"汇报口径"还是得自己定。
如果只想记一句:
AI 做 PPT 不是替你做完整份 PPT,是把"从无到有写出第一稿"这段最痛的路径压掉。
想法你自己先要有。第一稿的速度交给 AI,第二稿的取舍交给你自己。
具体到工具组合,最朴素好用的几套是:
快路线(电脑前或手机上):豆包 / Kimi / 千问 一站直出 → PowerPoint / WPS 里做最后一公里稳路线:豆包 / Kimi / 千问 / DeepSeek 写内容 → 百度文库 AI PPT / Kimi / WPS AI 套版式→ PowerPoint / WPS 里做最后一公里
如果是企业级、批量化、模板长期固定的场景,往智能体 Skill 和 pptxgenjs 这条路走,天花板更高。
工具会一直更新,今天的最佳实践几个月后可能就过时——一年前还在说"大模型不直接出 PPT",今年豆包、Kimi、通义千问 都长出了这能力,豆包甚至把版本管理、链接分享开关、双端同步、AI 换图这些以前 PPT 平台都未必齐备的工程能力做齐了,Kimi 把"上传企业模板/品牌色 + Excel 数据出图"也补上了。
但 "先想清楚要讲什么 → 把内容打磨到位 → 再交给工具渲染 → 最后人工修一轮" 这套分工,过几年大概率还成立。
把这套流程跑顺了,你做 PPT 的时间能从一整天压到一两个小时,在地铁上甚至能搞定一份能用的初稿。这不是 AI 替你做完了 PPT,是你借 AI 把那一部分最不值得人肉硬抗的工作甩掉了。
对大多数日常办公场景来说,这就够值了。
你说呢?