不是图片,不用html,PPT Master:AI生成 SVG,再用脚本翻译为PowerPoint的底层语言,从而实现生成PPTX。
大家好,我是林潼,今天为大家推荐一个PPT skill,截至6月13日,Github星标已经冲到27k,还在疯狂上涨。
PPT Master的最大特点是:AI生成PPTX格式,可后期编辑。看下图。

你给它一份文档,PDF、Word、网页链接、甚至只是一个主题,它就能生成一份完整的PPT。
可以点开任意一个元素,修改文字、调整颜色、更换形状,就像你自己手工做的一样。
这不是嵌入图片,也不是网页截图,是真正的、可编辑的 PowerPoint 文件。

作者: 何雨果(Hugo He),投融资从业者,每天做PPT的硬核用户,会pythonGitHub 仓库: https://github.com/hugohe3/ppt-master开源许可: MIT-0(完全免费使用、修改、再分发,无需署名)个人网站: https://www.hehugo.com/
作者是一个每天都在做 PPT 的投融资从业者。
市面上的 AI PPT 工具他都用过,但没有一个能满足"生成真正可编辑的 PowerPoint"这个核心需求。于是他自己做了一个,然后开源了出来。
他的原话是:"PPT Master 是我花了大量时间打磨的开源工具,因为我自己就是最挑剔的用户。"
PPT Master 内置三档执行风格,覆盖从日常到顶级咨询的全场景需求:
通用模式(General):适合培训、技术分享、公众演讲。视觉冲击优先,"一眼抓住注意力"。灵活布局,不受固定模板束缚。
咨询模式(Consultant):适合业务报告、数据分析、进度汇报。数据清晰优先,"让数据说话"。结构化布局,突出图表和关键指标。
顶级咨询模式(Consultant Top):适合投资备忘录、战略规划、政府汇报。逻辑说服优先,"结论先行"。MBB(麦肯锡、波士顿、贝恩)级别的专业呈现。
不只是做 PPT。同一个工作流,指定不同格式就能产出:
PPT 16:9(1280x720):标准宽屏演示,最常用PPT 4:3(1024x768):传统投影仪、学术演讲小红书 3:4(1242x1660):图文分享、知识帖朋友圈/Instagram 1:1(1080x1080):方形海报、品牌展示竖屏 Story 9:16(1080x1920):手机全屏、短视频封面微信文章头图(900x383):公众号封面A4 印刷(1240x1754):打印海报、传单
几乎什么都能喂给它,skill会转化为md格式。
PDF 文档、Word 文档(.docx)、Excel 表格(.xlsx)、PowerPoint 幻灯片(.pptx)、网页链接(包括微信公众号文章)、EPUB 电子书、HTML / LaTeX / RST 等技术文档、Markdown 文件
直接在对话中粘贴文字,只有一个主题想法也行,它会自动上网搜索资料。
这个skill需要python环境
https://www.python.org/downloads/

PPT Master 的转换脚本依赖一些 Python 库,OpenClaw 在加载 Skill 列表时会自动触发,这些库的作用分别是:
python-pptx # PPTX生成Pillow # 图片处理beautifulsoup4 # 网页抓取requests # HTTP请求lxml # XML解析curl_cffi # 微信公众号等高安全站点抓取如果你的 OpenClaw 配置了 ClawHub,直接一行命令:
clawhub install ppt-master这会把 Skill 安装到 skills/ppt-master/ 目录下。
如果不用 ClawHub,也可以从 GitHub 克隆:
cd ~/.openclaw/workspace/skillsgit clone https://github.com/hugohe3/ppt-master.git ppt-master装好之后,不需要记任何命令。直接用自然语言跟 AI 对话就行:
"帮我做一个关于 XXX 的 PPT""生成PPT""用 ppt-master 做一份报告"
当AI检测到这些关键词时,会自动加载 PPT Master 的工作流;如果你有好几个ppt skill,最好是带上ppt master。
整个流程分几步,AI 会引导你完成:
可以给文件(PDF/Word/Excel 等)、给链接、给文字描述,甚至只给一个主题。

AI 会分析你的内容,然后一次性给你八项建议:画布格式、页数、受众、风格、配色、图标方案、字体方案、图片方案。
八项确认本质上是在定义一份PPT的"DNA":格式(多大)、量(几页)、给谁看(受众)、什么调性(风格)、什么颜色、什么图标、什么字体、配什么图。我们确认后,整个DNA锁定到 spec_lock.md,Executor 严格执行不跑偏。
内容读完了。这是一篇非常精彩的长文,讲述了 SpaceX 24 年历史上的 10 个传奇故事,从俄罗斯买火箭受辱到星舰被 "筷子" 夹住。现在我以 Strategist(策略师) 身份,给你八项确认建议。这是整个流程唯一的交互阻塞点,你确认后我会一口气做完。🎯 八项确认a. 画布格式推荐:PPT 16:9(1280x720)理由:内容是叙事型演讲 / 分享场景,16:9 是最通用的格式。b. 页数推荐:12 页P01 封面P02 目录 / 概览(24 年 10 个故事)P03 故事一:俄罗斯人吐口水(疯狂想法诞生)P04 故事二:超级碗派对(招募第一个工程师)P05 故事三:创业文化(冰激凌 + 雷神之锤)P06 故事四:孤岛发射场(夸贾林环礁)P07 故事五:三次失败(Falcon 1 连续爆炸)P08 故事六:第四次孤注一掷(终于成功)P09 故事七:NASA 16 亿美元救命合同P10 故事八:Falcon 9 火箭回收(创造历史)P11 故事九 + 十:星舰 "筷子" 回收 + xAI 合并P12 封底(那辆还在太空绕日的特斯拉 Roadster)c. 受众与场景推荐受众: 科技爱好者、商业故事读者推荐场景: 知识分享、故事讲述类演示核心信息: 技术不会自动进步,只有很多人一起努力才能让它变好d. 风格目标推荐:通用模式(General)+ 科技叙事风理由:内容偏故事讲述而非数据报告,需要视觉冲击力。不是咨询报告那种数据密集型,而是叙事驱动的分享。e. 配色方案推荐:深空主题背景:深蓝黑 #0B0E1A次背景:深蓝 #1A1F35主色:太空蓝 #3B82F6强调:火箭橙 #FF6B35次强调:星辰白 #E5E7EB正文:浅灰 #D1D5DB次文:中灰 #9CA3AF理由:SpaceX 的太空主题,深色背景 + 亮色点缀,有科技感和戏剧张力。f. 图标方案推荐: 内置图标库,选用航天 / 科技类图标(火箭、卫星、发射塔、地球等)g. 字体方案推荐:标题:"Microsoft YaHei", sans-serif,加粗正文:"Microsoft YaHei", sans-serif,常规基准字号:20px(叙事型,中等密度)h. 图片方案推荐:不使用 AI 配图,用纯 SVG 图形 + 色彩 + 排版讲故事理由:微信文章的配图主要是 SpaceX 官方图,版权敏感。纯 SVG 的图形化叙事更适合这个工具的测试目的,也能更好验证 SVG→PPTX 的转换质量。以上八项,你看要调整哪些?确认后我就开始生成。
AI 会逐页生成 SVG(每页约1~2分钟)。可以通过浏览器实时预览进度,如果某一页不满意,随时可以叫停,让 AI 重新做那一页。
PPT Master 自带一个 Flask 写的实时预览服务器。理论上在生成 SVG 的过程中,你可以启动它:
python3 scripts/svg_editor/server.py projects/spacex_24years_ppt169_20260613 --live 然后浏览器打开 http://localhost:5000,就能看到每页 SVG 生成后的实时效果,还能点击元素写标注,让 AI 根据标注修改。
但我没用,因为我的运行环境是 OpenClaw 的飞书对话,claw在后台逐页生成 SVG 文件的。如果在在 Cursor 或 Claude Code 里用是可以实现的。
最终导出的是一个标准 .pptx 文件,所有元素都是原生 PowerPoint 对象,直接打开就能编辑。


我又让他上生成了其他样式,不过其实样式和ppt差不多,只是不同尺寸。


市面上 AI 做 PPT 有三条主流路线:
很多工具把每页 PPT 渲染成一张图片,嵌入到 PPTX 文件里。看起来精美,但文字不能选中、颜色不能修改、放大就模糊。本质上是一堆截图打包成了一个文件,不是真正的演示文稿。
Gamma、Tome 这类工具在浏览器里做得很好看,但 HTML 是"文档流"模型(像 Word 那样,内容从上到下流动),而 PowerPoint 是"画布"模型(每个元素都有固定的绝对坐标)。
两种世界观根本不兼容,导出 PPTX 时布局走样、字体丢失、元素被压扁。
AI 生成 SVG(一种网页常用的矢量图形格式),然后专门的脚本把 SVG 翻译成 PowerPoint 底层的 DrawingML 格式。
这条路走得通,是因为 SVG 和 DrawingML 本质上是同一类东西:都是基于绝对坐标的 2D 矢量格式。
矩形、圆形、路径、渐变、阴影,概念对应。转换不是"格式转码",而是"方言翻译"。
最终导出的 PPTX 中,所有东西都是原生 PowerPoint 对象。点哪改哪。
选择逻辑:按内容用途走决策树(演示→16:9,社交→小红书/朋友圈,营销→横幅/A4)
没有固定选项,AI 根据源文档内容量给出具体建议数字。比如 3000 字文章建议 8-10 页,10000 字报告建议 15-20 页。用户可以增减。
三项确认打包在一起:
可以自由组合,比如"顶级咨询 + 新中式"或"通用 + 暗黑科技"。
优先级规则: 用户指定色/模板色 > AI 推荐如果用户没指定,AI 根据行业推荐:
配色规则: 60-30-10 原则(主色60%、次色30%、强调色10%);每页不超过4种颜色;文字对比度≥4.5:1
选C时还要选一个风格库(且只能选一个):
特殊场景可叠加 simple-icons 品牌Logo库。
必须给两套方案:一套安全、一套有张力
先定正文基准(通常 18px 紧凑 / 24px 宽松),其余按倍率:
还有公式渲染策略(如果内容含数学公式):
选C时还要锁两个维度(全文档统一):
和上面的配色方案联动,AI 会给出 3 个候选组合让你选,比如:
这一部分适合想深入了解 PPT Master 怎么做到"生成真正可编辑 PPT"的伙伴。不需要编程背景,但需要对技术概念有兴趣。这些技术原理才是可以复用与迁移的。
拆解这些技术背后,你会发现,作者还是很牛逼的,一个投融领域的,还会pyhton;如果是纯程序员,估计很多人会用html,而他有很多后期编辑诉求,作为一个跨界者,开发出这样一个刚需的产品。
PPT Master 本身是一个"框架",作者称之为 harness,不绑定任何特定模型。理论上,任何能读文件、能执行命令的 AI 编程代理都能驱动它。
实际效果排名(作者实测):
第一梯队:Claude Opus / Sonnet。
推荐。SVG 排版本质上是在绝对坐标系里做精确的数学计算(字号 x 字数 x 容器宽度),Claude 在这方面明显领先。
大上下文窗口(约100万token)让 AI 能同时"看到"所有已生成的页面,保持整份 PPT 的视觉一致性。
第二梯队:GPT 系列较新版本。
早期版本排版问题较多(文字超出容器、元素错位、坐标计算失误),较新版本已有明显进步,实际效果可以接受。
第三梯队:Gemini、GLM、MiniMax 等。
效果参差不齐。总体来说,模型的前端/视觉能力越强,生成效果越好。
一个重要观点来自作者:"harness 决定工作流上限,model 决定质量上限。" 如果你觉得效果不理想,先检查模型够不够强,而不是怪工具。
PPT Master在一个AI会话内,通过"角色切换"完成整个工作流。不是三个独立的AI同时干活,而是一个AI在不同阶段扮演不同角色。
角色一:Strategist(策略师)
负责"想清楚做什么"。读取你的源文档,分析内容结构,规划幻灯片页数和布局,和你确认视觉风格,最终输出一份完整的"设计规格书"。
策略师的工作模式是"和你商量":它会给出专业建议,但不会替你做决定。你需要确认八项内容(画布格式、页数、受众、风格、配色、图标、字体、图片方案),确认后它才会开工。
角色二:Image Generator(图片获取)
负责"找到或生成合适的图片"。
根据策略师的规划,自动通过 AI 生图(Gemini、OpenAI 等)或网络搜索(Openverse、Wikimedia Commons、Pexels 等)获取配图。
这一步是条件触发的:如果策略师认为需要配图,才会启动。
角色三:Executor(执行者)
负责"把设计变成现实"。逐页手写 SVG 代码,严格按照策略师确定的设计规格执行。工作模式是"严格生产":不发挥创意,不偏离规格。
为什么不用多个 AI 并行干活?
因为页面设计依赖完整的上游上下文:策略师的配色选择、实际获取到的图片(可能有失败的、被替换的)、前面几页的视觉节奏。
如果用多个 AI 各做几页,它们看不到彼此的工作,做出来的 PPT 会"各画各的",前后风格不一致。
SVG(Scalable Vector Graphics,可缩放矢量图形)是整个工作流的核心枢纽。选择它的过程是排除法。
候选一:直接生成 DrawingML。
DrawingML 是 PowerPoint 底层的图形格式。最直接的路径,但被淘汰了。
原因:DrawingML 极其冗长,一个简单的圆角矩形需要几十行嵌套 XML。AI 训练数据里几乎没有这种格式,输出极不可靠,出了错也没法肉眼调试。
候选二:HTML/CSS。
AI非常擅长写网页。但 HTML是"文档流"模型,内容像水流一样从上到下排列,而 PowerPoint 是"画布"模型,每个元素有固定的绝对位置。
这是世界观层面的不兼容,不是"算错坐标"那么简单。一个 HTML表格在PowerPoint里没有对应的"独立形状集合"映射。
候选三:WMF/EMF。
这是微软自己的矢量格式,和DrawingML是"亲戚",转换损失最小。但AI对这种格式几乎没有训练数据。连微软自己的格式都败给了 SVG。
候选四:SVG 嵌入为图片。
最简单。把每页做成一张 SVG 图片塞进 PPTX。但这样所有元素都变成了像素点,文字不能选、颜色不能改。和截图没区别。
最终选择:SVG 作为中间格式。
AI 生成 SVG,然后脚本把 SVG 翻译成 DrawingML。这条路之所以走得通,是因为 SVG 和 DrawingML 共享同一个世界观。两者都是"绝对坐标 + 2D 矢量"格式:
| SVG 中的概念 | PowerPoint 中的对应物 || 路径(path) | 自定义几何图形 || 矩形(带圆角) | 圆角矩形预设 || 圆形/椭圆 | 椭圆预设 || 变换(平移/缩放/旋转) | 变换矩阵 || 线性渐变/径向渐变 | 渐变填充 || 透明度 | Alpha 通道 |
"翻译"不是"转码"。就像把普通话翻译成四川话,词汇和语法大体一样,只是表达方式不同。
SVG 还有一个独特优势:它是"万能中间格式"。AI 擅长写它,人类能在浏览器里直接看它,脚本能精确解析它。在整个流程的每个环节,SVG 都是最方便的格式。
一个有趣的技术细节:生成长 PPT(20页以上)时,AI 会"慢慢忘记"前面的设计决定。这不是 bug,而是大语言模型的固有特性。
随着对话变长,AI 对早期内容的"记忆"会逐渐模糊(技术上叫"上下文压缩")。
表现出来的症状是:第1页用的是深蓝色,到了第15页可能变成了浅蓝色;第1页用的微软雅黑,到了第18页可能变成了思源黑体。
解决方案是一份叫 spec_lock.md 的文件。
策略师阶段把所有设计参数(精确的 HEX 颜色码、确切的字体名称、图标库选择、图片清单)写进这个文件。执行者在写每一页 SVG 之前,必须重新读一遍这个文件。
效果是:所有颜色、字体、图标只能来自这份"锁定文件",不能凭"记忆"。就像建筑师不管画到第几张图,都对照同一份设计说明书,而不是靠自己记。
PPT Master 让 AI 生成 SVG 来做幻灯片,但不是所有 SVG 功能都能用。
为什么?因为最终要导出成 PowerPoint 文件。PowerPoint 底层的图形格式(DrawingML)只认识 SVG 的一部分能力。
如果你用了它不认识的功能,导出的文件要么打不开,要么打开后乱掉。
打个比方:SVG 和 PowerPoint 的关系,有点像普通话和四川话。
大部分词汇是通的,但有些普通话里的词,四川话里没有对应的说法。用了这些词,对方就听不懂了。
完全不让用的: 蒙版、内嵌样式表、CSS 类选择器、动画、脚本、iframe。这些在 PowerPoint 里完全没有对应物,用了就导不出来。
有条件能用的: 箭头标记(转成 PowerPoint 自己的箭头样式)、图片裁剪(只能裁图片,不能裁文字或形状)、图案填充(只能用 PowerPoint 预设的几种图案)。
怎么保证不出问题?PPT Master 有一个自动检查脚本,导出前会扫描所有 SVG 文件。
发现用了禁用功能,直接报错,不让你往下走。就像机场安检:带了违禁品就过不去,必须掏出来才能登机。
AI 写完所有 SVG 页面后,还要经过一道 "翻译" 才能变成你能用的 PowerPoint 文件。这一步完全靠脚本自动完成,不需要 AI 参与。
第一步:图标嵌入。
SVG 里可能会引用外部图标文件,比如一个搜索图标。这一步把图标内容直接 "塞" 进 SVG 文件里,让它变成一个完整的、不依赖外部文件的页面。就像把散装的零件组装成一个成品。
第二步:图片处理。
如果页面上有图片,脚本会把图片数据直接编码进 SVG 文件里。
这样做有两个好处:一是浏览器里打开就能直接看到图(不用去文件夹里翻),二是导出 PowerPoint 时能正确带上图片。同时还会处理图片裁剪、比例修正之类的杂活。
第三步:文字扁平化。
SVG 里的多行文字,结构方式和 PowerPoint 里的文字不太一样。脚本需要把文字 "拍平" 成 PowerPoint 能理解的格式。
简单说就是把复杂嵌套的文字结构,拆解成一个个独立的文本块。
第四步:SVG → DrawingML 翻译。
这是核心。脚本逐个读取 SVG 里的每个元素,判断它是什么类型(矩形?圆形?路径?文字?),然后翻译成 PowerPoint 对应的原生对象。
翻译完之后,所有东西都变成了 PowerPoint 自己的形状和文字,可以直接点击编辑。
最终产出一个标准 .pptx 文件,所有元素都是原生 PowerPoint 对象。
入口脚本: finalize_svg.py — 负责前三步(图标打包、图片嵌入、文字整理)
导出脚本: svg_to_pptx.py — 负责第四步(SVG 翻译成 DrawingML)
翻译引擎: svg_to_pptx/ 目录下有一整个 Python 模块,是核心翻译器。
拆得很细:
这些全是用 Python 写的,依赖 python-pptx 这个库来做底层的 PPTX 文件生成。
后处理完之后,你会拿到三样东西(外加一份备份):
第一份:AI 原始手稿(svg_output/)
这是 AI 一笔一画写出来的原始 SVG 文件,是所有其他产物的源头。如果你想手动改某个 SVG 的细节,改的就是这里。可以理解为 "设计稿原文件"。
第二份:自包含预览版(svg_final/)
在原始版的基础上,把所有图片都内嵌进去了。好处是单个文件就能在浏览器里打开看效果,不需要去翻图片文件夹。可以理解为 "一键预览版"。
第三份:最终交付物(exports/*.pptx)
这就是给你的 PowerPoint 文件。所有元素都是原生可编辑对象,打开就能用。
每次导出都带时间戳命名(比如 spacex_20260613_101912.pptx),不会覆盖之前的版本,方便对比不同版本的效果。
外加一份备份(backup/)
每次导出前,系统会自动把当前的 SVG 源文件存一份到备份目录。
万一你后来改了 SVG 想退回去,或者想用旧版的 SVG 重新导出一份不用再跑 AI,从备份里拿就行。相当于自动存档。
PPT Master 的核心洞察其实很简单:SVG 和 PowerPoint 底层格式共享同一个"绝对坐标矢量"的世界观。
在这个基础上,它构建了一套完整的 AI 驱动工作流:
AI 擅长写 SVG → 让 AI 来做设计SVG 和 DrawingML ,对应 → 用脚本做精确翻译逐页串行生成 → 保证跨页一致性spec_lock.md 机制 → 防止长 PPT 中的颜色字体漂移
最终结果是:你拿到的是一份每个元素都能点击编辑的、真正的 PowerPoint 文件。不是图片,不是网页截图,不是简陋的文本框。
如果你对 PPT 有"可编辑"的刚需,或者你不想每月为 PPT 工具付订阅费,或者你在意数据不出本地,PPT Master 值得一试。
我其实更喜欢技术实现原理,要想深入AI,必须不能让他成为黑箱。
我是林潼。一个非程序员出身、正在努力把自己练成超级个体的职场人。
白天上班,业余写写AI工具怎么用。经常翻车,但一直在往前。如果你也在探索这条路,欢迎关注普罗米AI笔记,我们一起努力。