最近这段时间,基于 Web / HTML 的 PPT 越来越火了。我之前也写过类似的看法:下一代!AI时代你还在用PPT吗?对很多工作场景来说,“PPT” 不一定非得是用PowerPoint做一个`.pptx`文档。我自己已经越来越少打开 PowerPoint 了。不是说我不用做PPT了。恰恰相反,我还是经常需要讲事情、同步进展、做 review、整理方案。只是我越来越少打开 PowerPoint了。更多时候,我会让 AI 先帮我搭一个 Web-PPT,然后我在代码和浏览器之间来回迭代。当然这里面有一个很现实的原因:我们公司有私有的 GitHub 企业订阅,我可以基于这个环境发布只有公司内部同事才能访问的静态 Web 页面。用它来分享我的PPT页面很合适:链接好发,权限也天然在公司体系里,不用担心内部材料被直接放到公网上。所以对我来说,Web-PPT 已经不是一个“看起来很酷”的玩具,而是慢慢进入日常工作流的东西。不过,我自己做的这套 Web-PPT skill,和很多常见方案还有一点不太一样。
绝大部分 Web-PPT 的生成方式,是最后产出一个单独的 HTML 文件。这个方式很直观,也很方便分享:一个文件里包含所有页面、样式和逻辑,打开就能演示。但它对 AI agent 不太友好。如果所有内容都挤在一个巨大的 HTML 里,你只是想改第 8 页的一句话,agent 也得先在一大段代码里找到第 8 页到底在哪里。当页面变多,动画和样式也越来越复杂之后,这件事会越来越麻烦。麻烦不只是时间成本,还有 token 成本和误改的风险。所以我的 skill 从一开始就选择了另一种结构:一页一个 JS 文件。 比如:
slides/slide-1.jsslides/slide-2.jsslides/slide-3.js...每个文件负责一页。index.html 把这些 js文件引入进来,另外用几个简单的js文件来负责渲染、导航、进度条和键盘操作。这个设计看起来只是文件组织方式不同,但对 agent 协作来说差别很大。当我说“帮我改第 5 页的 root cause 部分”,agent 可以直接去 slides/slide-5.js。当我说“第 8 页加一点动画”,它也不需要在一个巨大 HTML 里大海捞针。上下文变小了,定位更准了,修改也更可控。更典型的例子是插页。比如我说“在第 2、3 页中间插入一页”,agent 要做的事情其实很清楚:新建一个 js 文件,把它加到 slide 列表里,插到第 2 页后面,同时将后面的所有文件分别重命名为原来序号+1(一个命令搞定)。它不需要重写整份 HTML,也不需要碰后面每一页的内容。这个差别在小 demo 里不明显,但在几十页的大型文档里非常明显。

这也是我一直觉得 AI 时代的工具设计很有意思的地方。过去我们做工具,更多是考虑人怎么用。现在还要多想一层:agent 怎么读?怎么改?怎样少消耗 token?怎样减少误伤?一页一个 JS,对观众来说其实没什么感觉。观众看到的还是一套完整的 PPT。但对背后的协作流程来说,它让整件事顺了很多。

AI自己也觉得这样的模式好。
最近我在这个 skill 的基础上又做了一个增强:让人的修改也更顺手。我之前的工作流是这样的:在浏览器里打开 PPT,看着某一页,突然觉得一句话不顺,或者一个标题太硬,或者某个点的表达不够像人话,再切回我的AI Agent里(以前是Claude Code,现在Github Copilot)去修改。我把改的内容描述清楚,再按回车。也许我只是想改 1 个字,但为了说清楚位置和改法,可能要敲 20 个字。这个过程不难,但很打断思路。尤其是在调PPT的时候,人其实是靠一种连续的感觉在工作。你看着页面,脑子里有语气、有节奏、有画面。突然让你离开页面去修改,那种感觉一下就断了。所以这次我直接加了一个在线编辑功能。现在我可以用本地 server 打开我的“PPT”,进入编辑模式。右键某一页,就能直接选中页面里的文本元素,在浏览器里像编辑文档一样改内容。然后这个修改会同步回本地磁盘上的 js 文件。也就是说,我在页面上改一句话,最后落下来的不是某个浏览器里的临时状态,而是对应的 slides/slide-N.js 被真正更新了。
这件事让我很开心。因为它把两个世界接起来了:浏览器不仅负责提供直观的编辑体验,而且可以为我完成简单的文本修改工作。这对写 PPT 特别重要。
很多时候,PPT 不是一次写对的。它是反复打磨出来的:一句话是不是太正式,某个标题是不是不够有力,这页的信息量是不是太满,那个 bullet 是不是应该换个顺序。这些判断往往不是坐在编辑器里想出来的,而是你真的把页面打开、像观众一样看一遍,才会冒出来。有了 inline editing 之后,这些小想法不用再攒着,也不用再切来切去。看到哪里别扭,就直接在哪里改。
我现在在认真思考,能不能把这套东西再往前推一步,做成一个真正的产品形态。想象一下:用户打开一个网站,登录进去,就能创建和编辑自己的 Web-PPT。页面上有预览、有目录、你可以跟一个对话框对话来生成你的页面,也可以自己上手直接修改一些文字、字体和样式。同时,你还可以规定哪些人可以看,可以评论你的页面。
这个模式对我很有吸引力,但是也有一些现实的问题:文档怎么分享?网页链接的话,是否会被对方的公司IT策略挡住?断网了怎么办?别人想修改或者评论怎么办?
你们怎么看?欢迎留言。