当前位置：首页>PPT>告别传统做PPT,我用 AI Agent 搭了一条 PPT 生产线

告别传统做PPT,我用 AI Agent 搭了一条 PPT 生产线

2026-06-23 13:36:40

思路路线：痛点（为什么）→ 理念（怎么想）→ 流程（怎么做）→ 技术（凭什么）→ 效果（值不值）→ 坑（要注意什么）→ 工具（怎么复用）→ 展望（未来怎样）

一、做 PPT 的痛，谁懂？

传统ppt困境循环基本上是这样的：

找模板（30分钟）→ 改模板（1小时）→ 填内容（2小时）→ 调格式（1小时）→ 被打回重做（无限循环）

会写内容的人不会设计，会设计的人不懂业务。两边对着 PPT 互相嫌弃，效率极低。

后来我试着用 AI Agent 来解决这个问题。前期翻了不少开源 PPT skill 和方法论——sandun Bento Grid 卡片系统、huashu、guizangPPT skill、ppt-master 本地生产框架——拼拼凑凑，最后跑通了一套 7 步流程。

二、先丑后美

大多数人做 PPT 的第一件事是找模板。我以前也这样。但这恰恰是最浪费时间的做法——模板选错了，后面全是返工。

这套流程的底层逻辑很简单：先把内容做对，再做好看。具体拆成三个阶段：

阶段	关注什么	不关注什么
内容阶段	逻辑结构、论证链条、证据支撑	颜色、字体、排版
结构阶段	信息层级、卡片布局、视觉引导	品牌色、光效、材质
视觉阶段	品牌一致性、视觉冲击、美感	内容结构、卡片布局

后面流程里的 Phase A（大纲）、Phase B（策划稿）、Phase C（设计稿）就是按这个顺序来的。

三、完整流程：七步出 PPT

┌─────────────────────────────────────────────────────────────┐│  需求调研--叙事大纲 → JSON大纲 → SVG策划稿 → 画布预览 → 选风格      ││     → 渲染设计稿 → 导出PPTX                                ││                                                             ││  每个阶段之间都有【确认门】，人工审核后才继续                │└─────────────────────────────────────────────────────────────┘

Step 1: 需求调研

先把资料堆在一起：产品文档、销售材料、客户案例、竞品分析。然后搞清楚三件事：

参数	说明	示例
受众	谁来看这个 PPT，决定语言深度和措辞风格	政企 CTO / 信息化部门负责人
目标	听完后希望受众做什么，决定说服路径	批准立项 / 签署合作意向
页数	控制信息密度	15-25 页

产物是一份 Markdown 格式的需求大纲。

这一步最重要的是定叙事逻辑。我们用的是金字塔原理——结论先行、以上统下、归类分组、逻辑递进——把每一页分配到叙事线里的一个具体任务上。

MD 大纲是给人看的，团队可以直接编辑。
JSON 大纲是给机器吃的
带 layout_hint、narrative_task、evidence 这些字段，后续渲染引擎直接消费。流程上先写 MD 确认方向，确认后转 JSON。

【需求确认门】：展示大纲给用户，确认章节结构、内容方向、受众目标后再继续。

Step 2: 生成 JSON 大纲

使用 outline-architect skill，输入资料和需求，输出结构化大纲。

每一页的 JSON 结构：

{  "title": "单体大模型无法支撑复杂业务的执行闭环",  "narrative_task": "让听众意识到单体大模型存在根本性的能力缺陷",  "evidence": [    "多数 Agent 只能在简单场景下实现单轮对话（来源：Gartner 2024）",    "复杂任务的执行仍需大量人工干预（来源：内部测试数据）"  ],  "layout_hint": "three-column"}

几条硬规则，踩过坑才总结出来的：

• 标题必须是行动判断句，不是名词堆砌。"失控的 AI 基建正在吞噬预算" 而不是 "AI 基建现状概述"
• narrative_task 写的是听众心理变化，不是作者意图。"让听众意识到…" 而不是 "介绍…"
• evidence 至少 2 条，必须标注来源，不编造数据
• layout_hint 指定布局类型（three-column / left-text-right-visual / center-hero 等），AI 根据这个选卡片组合

Step 3: 渲染 SVG 策划稿

用 sandun-ppt skill（Phase B）逐页渲染 SVG 策划稿。

为什么用 Bento Grid 卡片系统？因为"在左边放一段文字，右边放一张图"这种指令对 AI 来说太模糊了——它会给你无数种可能，每次都不一样。卡片式布局把设计决策压缩成三个问题：放几个卡片？每个多大？里面放什么？AI 从预定义的布局组合里选就行，输出稳定多了。

Bento Grid 布局规则（画布 1280x720）：

布局类型	适用场景	卡片组合
single-focus	单一核心信息	1 张大卡片
two-column 50/50	左右对比	两张等宽卡片
left-text-right-visual	左文右图（最通用）	2/3 + 1/3
three-column	三列并排对比	3 张等宽卡片
center-hero	居中大信息	1 张英雄卡片
hero-top-grid	顶部英雄 + 下方网格	1 大 + N 小
before-after	新旧方案对比	50/50 对称

策划稿故意做得很"丑"：浅灰背景 #F5F5F5，白色卡片 + 浅灰描边 #E0E0E0，圆角 rx=12，深灰标题 #1A1A1A，中灰正文 #4A4A4A。不许加渐变、光效、毛玻璃、深色主题、装饰性图形。这一步的目的是验证内容和结构，不是做设计——好看的事后面再说。

Step 4: 画布预览与批注

把 SVG 全部上传到 cowart 画布（基于 tldraw 5.1.1 的无限画布插件）。

画布解决的问题很直接：

功能	传统方式	画布方式
全局视角	一页页翻，只见树不见林	所有幻灯片一屏可见，整体结构一目了然
对比调整	来回切换文件	并排对比原稿和新版，差异直观
批注反馈	标注 + agent修改	直接在画布上标注，批注和内容在一起
迭代速度	改完重新生成重新打开	实时调整布局，拖拽移动

产物就是一组带批注的策划稿 SVG。哪里不对，直接在画布上标出来。

【策划确认门】：在画布上逐页过一遍布局、信息完整性、卡片逻辑，确认了再往下走。

Step 5: 选风格

到这一步，策划稿还是一堆灰色方块。接下来要给它穿衣服。

我们前期扒了不少开源 PPT skill 的设计系统，拼出了一个 80+ 种预设的风格库：

来源	风格数	特点
powerpoint-fancy	10 种	每种有完整设计规范：色值、字体、画布尺寸、禁止规则、签名元素
next-slide	53 种	覆盖面最广，按 Dark/Light/Bold/Cultural/Editorial/Retro/Artistic 分类
huashu	40 种	网页 20 + PPT 20，每种标注"大胆/中性/安静"温度和 HTML 还原度

温度分类：大胆、中性、安静

风格库不是按"好看不好看"分类，而是按温度——视觉冲击力的强弱：

场景速查表

按受众 × 内容类型快速定位风格方向：

受众	正式提案	产品展示	创意/活动	文化/品牌
政企决策者	Swiss International、Dark Editorial	清透3D玻璃、Midnight Corporate	—	东方墨韵、水墨丹青
科技团队	Blueprint、Terminal Green	Futuristic Blue、Bold Signal	Neon Cyber、Retro Futurism	—
消费者/大众	Soft Landing、Morning Brief	Korean Soft、Pastel Geometry	Memphis Pop、Pop Art	Watercolor Wash、Grainy Retro
投资人	Dark Premium、Cinema Scope	Keynote Noir、Swiss Modern	—	Art Deco Gatsby
教育/儿童	Campus White	Claymorphism 3D	Retro Arcade	Pink Handwritten

两种选风格的方式

方式一：从风格库选择

使用 style-selector skill，AI 根据受众、内容类型和品牌调性，从风格库中推荐 3 个差异化方向。差异维度：

维度	两个极端
正式度	传统政企 ↔ 前沿科技
密度感	紧凑高密 ↔ 留白清透
色温	冷静蓝灰 ↔ 温暖中性

推荐的 3 个方向会故意拉开差异：一个稳妥底盘、一个反差方向、一个大胆尝试。不然你给用户三个蓝色商务风，他也不知道选哪个。

方式二：参考资料反推

给 AI 看一份已有的 PPT 或品牌手册，让它逆向提取设计 token（色值、字体、间距、材质、光效规则），自动生成 design.md。

提取完成后还能归纳到风格库，变成一个新的可复用预设。

这种方式特别适合：客户有品牌规范但没有 PPT 模板、或者看到某个竞品的 PPT 想要类似风格。

输出：design.md

不管哪种方式，最后都输出一份 design.md，里面写清楚这套 PPT 长什么样：

板块	内容	格式
色域	主色、辅色、强调色、禁用色，带 CSS 变量	结构化（色值表）
字体	标题/正文/标注的字体栈、字号、字重	结构化（规范表）
材质家族	玻璃/水晶/发光线/磨砂/纸张等表面质感描述	自然语言
光感调性	光源方向、环境光、高光规则	自然语言
情绪关键词	如"可信赖·清透·专业·克制"	自然语言
版式原则	深色/浅色底、左文右图、留白比例	自然语言
反 slop 禁区	禁止紫色渐变、禁止 emoji 图标风等	条目列表

色值和字体用结构化数据，渲染引擎直接读。材质和情绪用自然语言描述——AI 理解"冷白顶光、半透明玻璃质感"比理解一串枚举值好得多。

Step 6: 渲染设计稿

用 sandun-ppt skill（Phase C）。逻辑很简单：JSON 大纲提供内容，design.md 提供视觉规范，两个拼一起就能渲染。

具体做的事：

• 加载 design.md，把策划稿的灰色替换成品牌色
• 加上渐变、光效、材质
• 图片槽位用 prompt-enhance skill 增强提示词，然后生成 AI 配图
• 输出最终 SVG

卡片布局和内容结构不动，只换皮肤。骨架在 Phase B 已经定了。

【预览确认门】：在画布上审查视觉效果和品牌一致性，过了再导出。

Step 7: 导出 PPTX

试过两条导出路径：

方式一：原生可编辑 PPTX（推荐）

用 ppt-master 的 svg_to_pptx 转换器。它把 SVG 里的 <text> 元素解析为 DrawingML 原生文本框，导出后文字可以直接双击编辑。

转换对照表：

SVG 元素	PPTX 元素
`<text>` + `<tspan>`	`<a:txBody>` 文本框
`<rect>`	`<a:prstGeom>` 矩形
`<path>`	`<a:custGeom>` 自定义形状
`<image>`	嵌入 PNG

有个坑：SVG 中的文字必须用 <text> + <tspan>，不能用 <foreignObject>——那个会变成截图，文字没法编辑。

方式二：图片版 PPTX（兜底）

用 pptx-exporter skill，每页 SVG 截图嵌入 PPTX。视觉 100% 保真，但文字不可编辑。赶时间、不需要二次修改的时候用这个。

四、几个核心技术要点

Bento Grid：为什么用卡片不用自由排版

试过让 AI 自由排版，出来的东西每次都不一样，根本没法稳定输出。卡片就不一样：

卡片1（宽 600px）+ 卡片2（宽 600px）= 两栏布局卡片1（宽 1200px）= 单一焦点卡片1（宽 400px）× 3 = 三栏并排

每个卡片有明确的边界、间距（至少 20px）、圆角。AI 只管三件事：放几个卡片、每个多大、里面放什么。决策空间小了，输出就稳了。

堆叠模型

每一页 PPT 由 5 层从底到顶堆叠：

L0  底色 + 网格 ──── 纯色背景（#F4F8FF）+ 极淡网格线L1  Outfill 铺底图 ─ 全幅 AI 生成背景图L1.5 可读性蒙层 ──── 半透明白色蒙层，确保文字可读L2  Bento Grid 卡片 ─ 内容卡片层L3  文字层 ────────── 标题、正文、数据

不是每一页都需要所有层。信息密集型页面直接 L0 + L2 + L3；视觉冲击型页面走 L0 + L1 + L1.5 + L3。

Outfill 铺底图模式

不是每页都适合卡片。有的页面就需要一张大背景图加叠文字，做出沉浸效果。怎么选：

条件	用卡片	用铺底
传递复杂信息	是	否
视觉冲击优先	否	是
单一核心信息	否	是
案例展示/产品图	否	是

图片提示词差异：

• 卡片内嵌图：「内容居中填满，1:1 构图」
• 铺底图：「整体偏浅偏亮，上方/中央 40% 保持低对比度，供文字叠加」

prompt-enhance：提示词改写---出好图的方法

AI 生图最大的问题是提示词太模糊。这个 skill 做的事就是把模糊的描述改写成能出好图的提示词。六个方法：

方法论	说明	示例
视觉充盈	补充光影、材质、色彩层次、空间纵深、透视视角	"科技感" → "深蓝灰底 + 半透明玻璃材质 + 冷白顶光"
描述排序	按"整体氛围 → 主体 → 前景 → 背景 → 光源"组织	模型对开头权重更高，先定调再填细节
消歧义	将模糊词替换为具体指令	"高级感" → "低饱和度 + 大留白 + 细腻纹理"
风格锚定	根据内容语境补充风格参考	商务 → "商务扁平插画 / 等距3D渲染"
约束保留	用户的硬约束原样保留	"无文字""16:9" 不能在改写中丢失
构图指令	补充 PPT 配图的安全区	"主体偏右，左侧留 40% 空白给文字"

GPT-Image-2-Studio 里已经内置了：输入提示词，开"提示词增强"开关，GPT-4o 自动改写，改完直接交给 gpt-image-2 生图。一键搞定。

画布预览

做 PPT 最烦的事之一是"看不到全局"。一页页翻，改了第 5 页不知道第 12 页是不是也要改。

cowart 画布（基于 tldraw）把所有页铺在一个无限画布上。23 页一屏可见，结构问题、重复问题、节奏问题一眼就能发现。配合 AI sidebar，选中几页一起改也行。

五、效果展示

耗时对比

阶段	传统方式	AI Agent
需求调研 + 大纲	2 小时	15 分钟
策划稿	4 小时	30 分钟
风格选择	1 小时	10 分钟
设计稿	8 小时	1 小时
导出	1 小时	5 分钟
总计	16 小时	2 小时

质量上的区别

传统方式靠个人审美，容易出"套模板感"，内容和设计绑在一起，改一处动全身。这套流程的好处是每层独立——改内容不影响设计，换风格不动结构。

六、经验教训

最大的教训：别跟 AI 一起瞎转圈

前期浪费了不少时间。自己想方案、自己写 prompt、自己跑效果，做了几轮发现思路全是错的。后来才学会先做 Deep Research——看别人怎么做的，再决定自己的路线。这一步能省掉 80% 的弯路。

调研工具推荐：

• Grok：实时技术动态和趋势数据

做对了什么

1. 内容先行。大纲阶段花的时间越多，后面返工越少
2. 用 Bento Grid 卡片系统约束 AI 输出，不然每次排版都不一样
3. cowart 画布预览，所有页铺开一屏看，迭代快了很多
4. 每个阶段加确认门，AI 跑偏了能及时拉回来
5. 每一步都沉淀成 skill，下次做 PPT 不用从零开始

三个确认门

确认门	位置	确认内容
需求确认门	大纲生成后	章节结构、内容方向、受众目标
策划确认门	策划稿渲染后	布局效果、信息完整性、卡片逻辑
预览确认门	设计稿渲染后	视觉效果、品牌一致性、整体节奏

确认门是整套流程里最值得保留的设计。AI 生成速度很快，但方向错了，越快越浪费。

Anti-Slop 检查清单

AI 生成的内容有个通病：看起来像那么回事，细看全是空话。我们在每一步都嵌了质量检查，最后归纳成几条硬规则：

1. 标题必须是行动判断句。"失控的 AI 基建正在吞噬预算"，不是 "AI 基建现状概述"
2. 证据必须标注来源。不编造数据
3. 不用"赋能""助力"这类词。用具体动词，说清到底做了什么
4. 叙事写听众心理变化。"让听众意识到…" 而不是 "介绍…"
5. 章节内页面要有逻辑递进，不是并列罗列

七、暴力出图模式

除了完整 7 步流程，还有一个更简单直接的暴力模式——跳过策划稿和画布预览，直接从大纲拼设计稿：

JSON 大纲 + design.md → Codex 直接拼带设计效果的大图 → 画布上调皮肤 → 导出 PPTX

它省掉了中间的策划稿渲染和画布批注，把 Phase B 和 Phase C 压缩成一步。适用于：

• 时间紧，需要快速出效果
• 内容已经非常确定，不需要反复修改
• 重点是视觉冲击，不是内容逻辑推敲

风险：消耗多token，内容和设计混在一起，改内容要重做设计；跳过了策划确认门，大纲有逻辑问题时发现成本更高、

实际项目中，建议先用暴力模式快速出一版效果图给客户看方向，确认后再走完整流程做最终版。

八、用到的 Skill

Skill	职责	一句话原理
outline-architect	需求 → JSON 大纲	金字塔原理拆解，输出带 narrative_task 和 evidence 的结构化页面
sandun-ppt	大纲 → 策划稿 → 设计稿	Phase B 用 Bento Grid 排卡片，Phase C 换品牌皮肤
style-selector	推荐 3 个风格方向	从 80+ 风格库中按温度×场景筛选，输出 design.md
prompt-enhance	图片提示词改写增强	6 大方法论：视觉充盈、描述排序、消歧义、风格锚定、约束保留、构图指令
bento-slide-renderer	Bento Grid 渲染器	把 JSON 页面描述转成 SVG，执行卡片组合和间距规则
pptx-exporter	SVG → PPTX	方式一 svg_to_pptx（可编辑），方式二截图嵌入（保真兜底）
辅助 Skill	页面规划、叙事规划、叙事审查、证据审查、token 提取、资源解析	各管一摊

九、工具清单

工具	用途	说明
outline-architect	生成 JSON 大纲	基于金字塔原理的大纲架构师
sandun-ppt	渲染策划稿和设计稿	Bento Grid + 风格皮肤
style-selector	推荐风格方向	从 80+ 预设库中筛选，输出 design.md
prompt-enhance	图片提示词增强	6 大方法论，Studio 已集成
cowart	画布预览批注	基于 tldraw 的无限画布
GPT-Image-2-Studio	AI 图片生成工具	支持批量导入、提示词增强、参考图生成
ppt-master svg_to_pptx	导出可编辑 PPTX	SVG → DrawingML 原生转换
AI-Canvas	AI 生图 + 标注修图	画布上直接标注区域让 AI 修改

十、展望

• 打通端到端自动化管线，从需求到 PPTX 一键完成
• 画布预览升级为 Review Canvas，以 Lovart 形式扩展——支持 AI sidebar 批量操作、多人实时批注和审核
• 跨格式输出，同一套内容输出 PPT / 视频脚本 / 演讲稿 / 一页纸
• 风格库持续扩充，从当前 80+ 种覆盖更多垂直行业（医疗、法律、地产等）
• 动画和转场支持，SVG 带动画标签直接导出到 PPTX

但说到底，再好的生产线也救不了空洞的内容。AI 能帮你做得更快、更好看，"说什么"和"为什么说"还是得人来想。这一点大概不会变。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

Step 4: 画布预览与批注

Step 5: 选风格

温度分类：大胆、中性、安静

场景速查表

两种选风格的方式

输出：design.md

Step 6: 渲染设计稿

Step 7: 导出 PPTX

四、几个核心技术要点

Bento Grid：为什么用卡片不用自由排版

堆叠模型

Outfill 铺底图模式

prompt-enhance：提示词改写---出好图的方法

画布预览

五、效果展示

耗时对比

质量上的区别

六、经验教训

最大的教训：别跟 AI 一起瞎转圈

做对了什么

三个确认门

Anti-Slop 检查清单

七、暴力出图模式

八、用到的 Skill

九、工具清单

十、展望

告别传统做PPT,我用 AI Agent 搭了一条 PPT 生产线

一、做 PPT 的痛，谁懂？

二、先丑后美

三、完整流程：七步出 PPT

Step 1: 需求调研

Step 2: 生成 JSON 大纲

Step 3: 渲染 SVG 策划稿

最新文章

热门文章

随机文章

告别传统做PPT,我用 AI Agent 搭了一条 PPT 生产线

一、做 PPT 的痛，谁懂？

二、先丑后美

三、完整流程：七步出 PPT

Step 1: 需求调研

Step 2: 生成 JSON 大纲

Step 3: 渲染 SVG 策划稿

Step 4: 画布预览与批注

Step 5: 选风格

温度分类：大胆、中性、安静

场景速查表

两种选风格的方式

输出：design.md

Step 6: 渲染设计稿

Step 7: 导出 PPTX

四、几个核心技术要点

Bento Grid：为什么用卡片不用自由排版

堆叠模型

Outfill 铺底图模式

prompt-enhance：提示词改写---出好图的方法

画布预览

五、效果展示

耗时对比

质量上的区别

六、经验教训

最大的教训：别跟 AI 一起瞎转圈

做对了什么

三个确认门

Anti-Slop 检查清单

七、暴力出图模式

八、用到的 Skill

九、工具清单

十、展望

浙江万里学院32套PPT模板适用于很多场景

PPT-深入浅出正态分布

最新文章

热门文章

随机文章