✍️ 莫璃 📅 2026 / 05 / 16 📖 约 10 分钟
📂 AI Agent落地手记 · 第7篇

关于做PPT的那些事
说实话,我第一次用AI帮我干活,就是做PPT。
PPT是一件很麻烦的事情,涉及到结构化文本、排版、美工、甚至还需要点动画能力。一开始都是自己全套搞,一份PPT可能干个两三天,后来开始用模板套,找个好看的模板,改一下内容,差不多半天的样子。
最怕的就是中途发生变更,如果就内容增减,那还好办,增加减少几页PPT的事,但是如果方向变了,那就全部推倒重来,印象中我没被复杂难啃的技术问题搞崩过,但是我被PPT干崩过。
之前有跟一些大厂合作的项目,其中IBM的PPT一直惊为天人,一打听,好嘛,人家有专业给项目做PPT的人。但是咱们的甲方也好,领导也罢,眼光都是极高的。
所以就造成了PPT本身只是工作中很小的一个产出,但却会花掉我们很多的心力和时间,而且很多时候,你做了很久的工作,成与不成,可能都落在最后那个PPT上。
很无奈,但是很现实。这很折磨。
所幸后来AI发展起来了,AI做PPT多快呀,豆包,你给它一句话,五分钟出一份,排版配色都在线。扣子,搭个工作流,连数据源都不用手动导。Gamma、AI PPT.cn、MindShow……随便列列,十个八个跑不掉。
每一家都在说「一键生成」,而且说实话,大部分确实能用。
曾经有一段时间,花里胡哨的各种PPT做了一堆,还挺有成就感你别说。
之后问题又来了,你越是能干,那你的活就越多。
很无奈,但是很现实。这也很折磨。
特别是自己出来创业之后,更没什么条件了,所有事情都得自己干,于是从一个项目初期的思维导图、到项目可行分析、实施方案、项目流程管理、以及之后的宣发物料设计,全是自己的活。
这一圈的活干完之后,总结下来,中间有很多的时间精力,就是花在「改」这方面。改方案改流程,那还好,毕竟这一块咱专业,落地也就是点文字工作,但是这些基础的东西一改,后边的展示端的东西,就得一套的跟着变。
这非常的折磨。
不过我这人,有一个好处,就是懒,我之所以觉得懒是个好处,是因为懒人会想办法。
所以我一直想一个问题,数字化时代,我们90%以上的交付物,都是以数字化的方式呈现,那么,我只要做好这些交付物之间的连接,就能做到「改一处而动全身」的效果。
这个思路,是对的。
所以我装完Hermes的第一个工作,就是从我最不愿意做的PPT开始下手的。
先看看市面上有什么
市面上做 PPT 的路子,我们试下来大概分三类。
一站式生成类 — 豆包、Gamma、AI PPT.cn、MindShow体验最好,门槛最低。输入一段话或者一个大纲,十几秒出一份能用的。适合的场景是:你需要一份PPT,而且只需要一份PPT。内容和排版一次性解决,不涉及后续修改。
智能体编排类 — 扣子、Dify搭一个工作流,把「写内容→生成PPT→导出」串起来。比一站式灵活,可以接自己的数据源,做批量化输出。但搭工作流本身需要一些配置精力,适合高频出PPT的场景。
代码驱动类 — python-pptx、reveal.js、html-ppt-skill这条路门槛最高,但自由度也最大。可以用程序精确控制每一页的形状、配色、动画。适合需要定制化极高、或者需要把PPT集成到其他系统中的场景。
那怎么选?
我没有只选一条路。我选的是能接进管线的路。
什么意思?如果一篇方案文稿需要在三个场景里落地——一个线上链接甩给客户看、一份.pptx发给对方编辑、一张信息图贴在公众号文章里,那我们的工具和流程,必须能从一个内容源出发,路由到三个出口,而不是为每个出口单独走一遍。
所以最后我们搭了两个工具的组合。
一个是 open-slide,把 Markdown 翻译成 HTML 幻灯片,跑在本地服务器上,手机微信里丢个链接就能打开翻页。适合「快速给人看」。
一个是 OfficeCLI + 模板库,用占位符模板 + 数据注入的方式,把内容填充到设计好的 .pptx 里。客户收到之后能改字、换色、调布局,不用重新找你。适合「给出去当正式交付」。
选这套组合的原因很简单:两个工具的内容源是同一个 Markdown 文件。 这条后面要展开讲的两个好处,都是从这里长出来的。
这套模式的两个核心好处
好处一:从任意节点开始,随时续上
先说管线长什么样:

注意看——每个节点都有中间交付物。
必须要这样设计。
为什么?因为管线一旦打通,你不需要每次都从头开始跑。
内容上周写好了,今天只想要一个 .pptx → 从 OfficeCLI merge 节点开始线上站昨天发了,客户说换个配色 → 从渲染节点开始,内容不动封面图想换个风格 → 从配图节点开始,文案和排版不动
做到这一点,靠的是两件事。
第一,每个节点产出可独立使用的中间产物。 配图节点产出的是图片文件,不是「配好图的PPT」。渲染节点产出的是HTML,不是「嵌在某个工具里的预览」。这些中间文件是独立的、可复用的——你可以直接拿配图去发朋友圈,也可以直接把HTML链接丢给客户看,不需要等整条管线跑完。
第二,你知道从哪个节点开始。 我们在每个节点入口加了一道判断——内容源有变化吗?配图需要更新吗?只需要线上站?这些判断靠的是中间交付物的状态标记,不需要人记。
这就是真实工作流的节奏:想从哪开始从哪开始,每次只做当下需要的那个步骤。
好处二:方案改了,PPT 自动跟着变
这个好处,直接由「用HTML和模板做PPT」这个技术选择决定。
一站式工具的PPT是一锤子买卖:你输入内容→它生成PPT→两个东西之间没有持续关系。你改了方案,它不知道,也不会自动更新。
但用open-slide和OfficeCLI+模板库,情况完全不同。
open-slide这条线:它读的是你的Markdown文件。我们加了一个文件监听,检测到Markdown变了,自动触发重建,线上站秒级更新。你改一行字,关上编辑器,打开微信,链接点进去已经是新的了。
OfficeCLI + 模板库这条线:这层分两级。轻量联动:内容层的文字修改,模板里的占位符只管显示文字,不改设计。结构联动:改了章节结构,跑全量管线,但锁住SVG模板版本,视觉风格不变。
两层分清楚,小改不触发重跑,大改不丢失设计。
这就把「方案」和「PPT」从两张皮变成一个人的左右手。方案是源,PPT是渲染层。源变了,渲染层跟着更新。不需要中间人工搬运一次。
怎么搭工作流
这篇用PPT当例子,但真正想说的是:怎么用管线的思维去设计一切。

跑完这套PPT管线之后,真正能带走的东西有两件。
第一件:怎么做PPT本身。这套管线跑通的方式已经沉淀成两套技能——open-slide skill和OfficeCLI模板merge skill。下次再做PPT,从写内容到拿到交付物,不需要重新搭一遍流程。
第二件:管线的设计原则。
原则一:每个节点必须有独立可用的中间交付物。 所有因为「改一处就得全量重来」的痛苦,根源都在中间交付物不够独立。
原则二:同一个内容源,路由到多个出口。 内容层和渲染层彻底分离。写一次Markdown,路由到open-slide出线上站、OfficeCLI出.pptx、TypeZen出公众号文章。修改时只改源,所有出口由系统同步。
这两条原则放在任何一个工作流里都成立——出图管线、写作管线、方案输出管线、社交分发管线。
所以搭工作流的时候先问自己两个问题:我的每个节点产出什么?这个产出能不能单独使用?我能不能改一次源,所有出口自动更新?如果能,这就是一条好的管线。如果不能,它迟早会变成你的维护负担。
下一篇聊:AI 的视觉表达。当 AI 学会了写字、做图、做 PPT,它的审美到底是怎么训练的?我们怎么让 AI 从「画得出来」变成「懂得好看」——这背后是一套从零搭起来的设计系统。