2026.06.09小鹤集思录第 2026.06 期Codex PPT 更新:AI 生成的 PPT 终于能改了
上次写 Codex PPT 的时候,我最想解决的问题是: AI 做 PPT ,到底能不能做得像一套真正能...
上次写 Codex PPT 的时候,我最想解决的问题是: AI 做 PPT ,到底能不能做得像一套真正能拿去讲的 deck 。
那一版的答案很激进。
每一页都当成一张完整海报来生成。标题、版式、图表、视觉主体、背景、装饰,全都在同一张图里完成。好处很明显:页面不会像模板拼装,风格也更容易统一。
但它也留下一个真实世界里的痛点。
好看归好看,改起来会疼。
如果客户、老师、队友突然说:“第三页标题换一下”“这个标签删掉”“这里改成今年的数据”,图片型 PPT 就会进入尴尬区。你要么重写 prompt 再生成一页,要么在本地硬补文字。前者慢,后者脏。
所以这次 Codex PPT 更新的重点很直接:
让 AI 生成的 PPT ,继续保持强视觉风格,同时能进入可编辑 PowerPoint 。

这次是工作流级更新
我看了一下仓库最近的 commit 。
最新一条是 d743a07 Add editable PPTX mode,提交时间是 2026-06-01 。它改了 12 个文件,新增 1000 多行,核心变化集中在四块:
•新增 merge_editable_slide_outputs.py 合并脚本。•新增 build_editable_ppt_from_layers.mjs,用来把视觉层和文字层组装成 .pptx。
这意味着 Codex PPT 从“生成漂亮图片 deck”,往“生成可交付、可修改的演示文件”走了一步。
这个变化很关键。
因为 PPT 的真实生命往往从“生成完成”之后才开始。会上要改,发给别人要改,路演前一晚还要改。一个 deck 如果改不动,很多场景里只能算半成品。
新增的 editable-pptx 模式怎么跑
现在 Codex PPT 有两种输出模式。
image 是默认模式。它继续走原来的路线:先做 brief 、 storyline 、 design system 、 storyboard ,再逐页生成完整页面图,跑 QA ,通过后打包 PDF 。
editable-pptx 是新模式。它会先完成图片模式的那套流程,再把每一页 approved slide 交给独立重建流程,拆成 PowerPoint 里能选中、能移动、能改字的对象。
流程大概是这样:
整页生图 -> QA 通过 -> 逐页重建 -> visual layers + text-layer.json -> 合并 -> editable PPTX

这里有一个细节很聪明:可编辑模式不会推翻图片模式。
它先让 AI 把页面做到足够好,再把那张通过 QA 的图当成视觉目标。也就是说,整页生图负责设计完成度,可编辑重建负责后续协作和交付。
这比一开始就让 PowerPoint 模板硬排要稳。因为一开始就模板化,页面很容易变回熟悉的商务味;先把视觉目标锁死,再重建图层,至少知道自己要追哪张图。
每一页都变成一个重建任务
这次新增的 editable-slide-subagent-prompt.md 很有意思。
它把“可编辑 PPTX”拆成逐页任务:每张幻灯片都有自己的输入、输出和 QA 。
每页重建时,需要产出这些东西:
source.png
visual-layers/slide-XX/manifest.json
text-layer.json
qa/qa.md
visual-layers 负责背景、卡片、图标、图片、复杂图形这些视觉对象。text-layer.json 负责标题、正文、标签、页码、注释这些原生文字对象。qa.md 记录这一页哪里和原图有差异,哪里还可能有残留文字风险。
这个设计听起来有点工程化。
但 PPT 本来就是工程。
一套能讲的 PPT ,不只靠封面惊艳。第 5 页、第 8 页、第 12 页同样要过关。文字要能读,逻辑要能接,视觉要不漂。现在 Codex PPT 把这些检查点写进流程里,后面就有机会继续自动化。

可编辑,不等于把所有东西都拆碎
我比较喜欢这次更新里对“可编辑”的边界感。
它没有强行把每个像素都拆成 PowerPoint 形状。复杂插画、照片、 Logo 、密集图表、截图,这些对象保留成图片层更合理。真正应该变成原生对象的,是标题、正文、标签、角标、注释、页码、 callout 。
这符合真实使用习惯。
大多数时候,我们想改的是文字、顺序、局部标注和几个关键对象。很少有人会在 PowerPoint 里逐个编辑一张复杂插画的每条线。拆得太细,反而会让文件变重、维护变乱。
所以这次的路线更像是:
•图层位置记录在 manifest 里,保证合并。
这套边界一旦立住, AI PPT 才有机会进入团队协作。
对使用者来说,变化很实际
以前你可以这样用:
Use $codex-ppt to make a 10-page product pitch deck about my app idea.
现在如果你要后续修改,就可以直接说:
Use $codex-ppt to make an editable PPTX deck about my app idea.
本地依赖也多了一步:
npminstall--prefix~/.codex/skills/codex-ppt
Node 侧会用到 pptxgenjs 这类能力,把 visual-layers 和 text-layer.json 组装进 PowerPoint 。 Python 侧的合并脚本负责把每页 Sub Agent 的产物收拢成统一输入。
从用户视角看,最重要的变化只有一句话:
以前输出更像一套好看的成品图;现在它开始接近一套能继续改的工作文件。

我为什么觉得这次更新更重要
AI 工具最容易让人兴奋的阶段,是第一次看到结果。
哇,能生成。
哇,还挺好看。
哇,十页都出来了。
可真正决定它能不能留下来的,往往是第二天。你把文件发给别人,对方说改两处;你拿去路演,临时要换一个数据;你准备交付,客户要求把文案换成他们自己的口径。
能不能改,决定它能不能进入工作流。
Codex PPT 第一版证明了一个方向: AI 可以按 brief 、 storyline 、 design system 、 storyboard 去生产一套视觉一致的 deck 。
这次更新把问题往后推了一格:生成之后,怎样变成一个别人也能接手的文件。
这个方向我很喜欢。
因为 AI 工具不该只追求“第一次生成的爽感”。真正有价值的工具,应该能承受修改、返工、协作、交付和复盘。
这次的 editable PPTX 模式,就是往那个方向走。
项目地址:
https://github.com/qybaihe/codex-ppt
如果你之前觉得 AI PPT 最大的问题是“好看但不好改”,这一版可以重新看一眼。