思路路线:痛点(为什么)→ 理念(怎么想)→ 流程(怎么做)→ 技术(凭什么)→ 效果(值不值)→ 坑(要注意什么)→ 工具(怎么复用)→ 展望(未来怎样)

传统ppt困境循环基本上是这样的:
找模板(30分钟)→ 改模板(1小时)→ 填内容(2小时)→ 调格式(1小时)→ 被打回重做(无限循环)会写内容的人不会设计,会设计的人不懂业务。两边对着 PPT 互相嫌弃,效率极低。
后来我试着用 AI Agent 来解决这个问题。前期翻了不少开源 PPT skill 和方法论——sandun Bento Grid 卡片系统、huashu、guizangPPT skill、ppt-master 本地生产框架——拼拼凑凑,最后跑通了一套 7 步流程。

大多数人做 PPT 的第一件事是找模板。我以前也这样。但这恰恰是最浪费时间的做法——模板选错了,后面全是返工。
这套流程的底层逻辑很简单:先把内容做对,再做好看。具体拆成三个阶段:
后面流程里的 Phase A(大纲)、Phase B(策划稿)、Phase C(设计稿)就是按这个顺序来的。
┌─────────────────────────────────────────────────────────────┐│ 需求调研--叙事大纲 → JSON大纲 → SVG策划稿 → 画布预览 → 选风格 ││ → 渲染设计稿 → 导出PPTX ││ ││ 每个阶段之间都有【确认门】,人工审核后才继续 │└─────────────────────────────────────────────────────────────┘
先把资料堆在一起:产品文档、销售材料、客户案例、竞品分析。然后搞清楚三件事:
产物是一份 Markdown 格式的需求大纲。
这一步最重要的是定叙事逻辑。我们用的是金字塔原理——结论先行、以上统下、归类分组、逻辑递进——把每一页分配到叙事线里的一个具体任务上。
MD 大纲是给人看的,团队可以直接编辑。
JSON 大纲是给机器吃的
带
layout_hint、narrative_task、evidence这些字段,后续渲染引擎直接消费。流程上先写 MD 确认方向,确认后转 JSON。
【需求确认门】:展示大纲给用户,确认章节结构、内容方向、受众目标后再继续。
使用 outline-architect skill,输入资料和需求,输出结构化大纲。
每一页的 JSON 结构:
{ "title": "单体大模型无法支撑复杂业务的执行闭环", "narrative_task": "让听众意识到单体大模型存在根本性的能力缺陷", "evidence": [ "多数 Agent 只能在简单场景下实现单轮对话(来源:Gartner 2024)", "复杂任务的执行仍需大量人工干预(来源:内部测试数据)" ], "layout_hint": "three-column"}几条硬规则,踩过坑才总结出来的:
narrative_task 写的是听众心理变化,不是作者意图。"让听众意识到…" 而不是 "介绍…"evidence 至少 2 条,必须标注来源,不编造数据layout_hint 指定布局类型(three-column / left-text-right-visual / center-hero 等),AI 根据这个选卡片组合用 sandun-ppt skill(Phase B)逐页渲染 SVG 策划稿。
为什么用 Bento Grid 卡片系统?因为"在左边放一段文字,右边放一张图"这种指令对 AI 来说太模糊了——它会给你无数种可能,每次都不一样。卡片式布局把设计决策压缩成三个问题:放几个卡片?每个多大?里面放什么?AI 从预定义的布局组合里选就行,输出稳定多了。
Bento Grid 布局规则(画布 1280x720):
策划稿故意做得很"丑":浅灰背景 #F5F5F5,白色卡片 + 浅灰描边 #E0E0E0,圆角 rx=12,深灰标题 #1A1A1A,中灰正文 #4A4A4A。不许加渐变、光效、毛玻璃、深色主题、装饰性图形。这一步的目的是验证内容和结构,不是做设计——好看的事后面再说。
把 SVG 全部上传到 cowart 画布(基于 tldraw 5.1.1 的无限画布插件)。
画布解决的问题很直接:
产物就是一组带批注的策划稿 SVG。哪里不对,直接在画布上标出来。
【策划确认门】:在画布上逐页过一遍布局、信息完整性、卡片逻辑,确认了再往下走。


到这一步,策划稿还是一堆灰色方块。接下来要给它穿衣服。
我们前期扒了不少开源 PPT skill 的设计系统,拼出了一个 80+ 种预设的风格库:
风格库不是按"好看不好看"分类,而是按温度——视觉冲击力的强弱:
按受众 × 内容类型快速定位风格方向:
方式一:从风格库选择
使用 style-selector skill,AI 根据受众、内容类型和品牌调性,从风格库中推荐 3 个差异化方向。差异维度:
推荐的 3 个方向会故意拉开差异:一个稳妥底盘、一个反差方向、一个大胆尝试。不然你给用户三个蓝色商务风,他也不知道选哪个。
方式二:参考资料反推
给 AI 看一份已有的 PPT 或品牌手册,让它逆向提取设计 token(色值、字体、间距、材质、光效规则),自动生成 design.md。
提取完成后还能归纳到风格库,变成一个新的可复用预设。
这种方式特别适合:客户有品牌规范但没有 PPT 模板、或者看到某个竞品的 PPT 想要类似风格。
不管哪种方式,最后都输出一份 design.md,里面写清楚这套 PPT 长什么样:
色值和字体用结构化数据,渲染引擎直接读。材质和情绪用自然语言描述——AI 理解"冷白顶光、半透明玻璃质感"比理解一串枚举值好得多。
用 sandun-ppt skill(Phase C)。逻辑很简单:JSON 大纲提供内容,design.md 提供视觉规范,两个拼一起就能渲染。
具体做的事:
design.md,把策划稿的灰色替换成品牌色prompt-enhance skill 增强提示词,然后生成 AI 配图卡片布局和内容结构不动,只换皮肤。骨架在 Phase B 已经定了。
【预览确认门】:在画布上审查视觉效果和品牌一致性,过了再导出。


试过两条导出路径:
方式一:原生可编辑 PPTX(推荐)
用 ppt-master 的 svg_to_pptx 转换器。它把 SVG 里的 <text> 元素解析为 DrawingML 原生文本框,导出后文字可以直接双击编辑。
转换对照表:
<text><tspan> | <a:txBody> |
<rect> | <a:prstGeom> |
<path> | <a:custGeom> |
<image> |
有个坑:SVG 中的文字必须用 <text> + <tspan>,不能用 <foreignObject>——那个会变成截图,文字没法编辑。
方式二:图片版 PPTX(兜底)
用 pptx-exporter skill,每页 SVG 截图嵌入 PPTX。视觉 100% 保真,但文字不可编辑。赶时间、不需要二次修改的时候用这个。

试过让 AI 自由排版,出来的东西每次都不一样,根本没法稳定输出。卡片就不一样:
卡片1(宽 600px)+ 卡片2(宽 600px)= 两栏布局卡片1(宽 1200px)= 单一焦点卡片1(宽 400px)× 3 = 三栏并排每个卡片有明确的边界、间距(至少 20px)、圆角。AI 只管三件事:放几个卡片、每个多大、里面放什么。决策空间小了,输出就稳了。

每一页 PPT 由 5 层从底到顶堆叠:
L0 底色 + 网格 ──── 纯色背景(#F4F8FF)+ 极淡网格线L1 Outfill 铺底图 ─ 全幅 AI 生成背景图L1.5 可读性蒙层 ──── 半透明白色蒙层,确保文字可读L2 Bento Grid 卡片 ─ 内容卡片层L3 文字层 ────────── 标题、正文、数据不是每一页都需要所有层。信息密集型页面直接 L0 + L2 + L3;视觉冲击型页面走 L0 + L1 + L1.5 + L3。
不是每页都适合卡片。有的页面就需要一张大背景图加叠文字,做出沉浸效果。怎么选:
图片提示词差异:
AI 生图最大的问题是提示词太模糊。这个 skill 做的事就是把模糊的描述改写成能出好图的提示词。六个方法:
GPT-Image-2-Studio 里已经内置了:输入提示词,开"提示词增强"开关,GPT-4o 自动改写,改完直接交给 gpt-image-2 生图。一键搞定。
做 PPT 最烦的事之一是"看不到全局"。一页页翻,改了第 5 页不知道第 12 页是不是也要改。
cowart 画布(基于 tldraw)把所有页铺在一个无限画布上。23 页一屏可见,结构问题、重复问题、节奏问题一眼就能发现。配合 AI sidebar,选中几页一起改也行。
| 总计 | 16 小时 | 2 小时 |
传统方式靠个人审美,容易出"套模板感",内容和设计绑在一起,改一处动全身。这套流程的好处是每层独立——改内容不影响设计,换风格不动结构。
前期浪费了不少时间。自己想方案、自己写 prompt、自己跑效果,做了几轮发现思路全是错的。后来才学会先做 Deep Research——看别人怎么做的,再决定自己的路线。这一步能省掉 80% 的弯路。
调研工具推荐:
确认门是整套流程里最值得保留的设计。AI 生成速度很快,但方向错了,越快越浪费。
AI 生成的内容有个通病:看起来像那么回事,细看全是空话。我们在每一步都嵌了质量检查,最后归纳成几条硬规则:
除了完整 7 步流程,还有一个更简单直接的暴力模式——跳过策划稿和画布预览,直接从大纲拼设计稿:
JSON 大纲 + design.md → Codex 直接拼带设计效果的大图 → 画布上调皮肤 → 导出 PPTX它省掉了中间的策划稿渲染和画布批注,把 Phase B 和 Phase C 压缩成一步。适用于:
风险:消耗多token,内容和设计混在一起,改内容要重做设计;跳过了策划确认门,大纲有逻辑问题时发现成本更高、
实际项目中,建议先用暴力模式快速出一版效果图给客户看方向,确认后再走完整流程做最终版。
| outline-architect | ||
| sandun-ppt | ||
| style-selector | ||
| prompt-enhance | ||
| bento-slide-renderer | ||
| pptx-exporter | ||
但说到底,再好的生产线也救不了空洞的内容。AI 能帮你做得更快、更好看,"说什么"和"为什么说"还是得人来想。这一点大概不会变。