过去一年我一直在找合适的知识沉淀形态。
纯文字文档加 AI 总结,记录速度快,AI 能自动提取要点,适合快速捕捉零散想法。问题在于回顾频率很低,文档越长越懒得打开,内容很容易积灰。它适合对文章的快速过滤,但不适合长期的知识管理。
笔记卡片结构清晰,复习机制完善,适合记忆类知识和备考场景。但制作和复习的成本都太高,每张卡片需要精心设计,长期维护压力很大。而且数量变多后,回顾的心理压迫感也很强。
后面随着 TTS 模型的变强,我也尝试过 AI 播客。但AI 播客缺乏可检索的结构化信息,想找某个具体观点时很难定位。它更适合作为辅助复习手段,比如在路上空闲的时间找找灵感,但不会是主要的知识载体。
目前一直在使用的是写公众号,是我主要梳理信息和学习成果的地方。长文能深入探讨一个话题,适合系统化输出和对外分享。问题在于回顾起来比较麻烦,想找某篇文章里的某个观点时,要在几千字里翻半天。
于是我开始想,有没有一种方法能把公众号的内容和发现的好文章内容再沉淀一下,让它更容易回顾和检索。
找了一圈以后,最终发现 PPT 最符合这个要求。
每页承载一个观点,图文并茂,结构清晰,既可以碎片化制作,又能系统化沉淀。
但问题是如何自动化的来制作一份质量尚可的 PPT 呢?
为了自动化 PPT 生成流程,我试过三条技术路线的产品。
基于模板的方案太死板,试过 Nano Banana 这类专门产品但效果不理想,最后探索基于 HTML 的渲染路线,才找到了合适的产品。
25年Q1 : Gamma 和 AI PPT
2025 年初我第一次接触 AI PPT,那一刻确实被震撼到了。
输入主题,几十秒生成完整文稿,版式、配色、配图全自动。
Gamma 的流畅度很好,几乎是我敲下回车的瞬间,成品就已经在屏幕上了。那种感觉就像变魔术,我还没想清楚要什么,它已经把 ppt 端到面前。
我连续用了一个月,表面上看效率极高,但每次回看这些成品,总觉得哪里不对劲。
问题慢慢浮现。
Gamma 的模板太固定,生成十次有八次版式都差不多。
我想调整布局,把左图右文换成上图下文,整个页面就会崩塌。
最大的问题,还在于内容不可用。
后来我又试了国内的 AI PPT 这个产品(没错,产品名就叫AI PPT),希望能有不一样的体验。
结果更糟,它本质上和Gamma是一样的,而且模板还不如 Gamma 好看。
我终于明白,这两个产品只有表面,没有灵魂。
它们把 PPT 当成了视觉作品,而非思维的延伸。
25年Q4 : NotebookLM 和 YouMind
下半年 Nano Banana 模型的发布让这个领域的产品为之一振。
它的多模态能力和图片一致性实在太强了,生成的人物、场景、物品几乎完美匹配。
大家突然看到了 PPT 生成的另一条可能性,那些原本观望的产品也赶紧把这个模型接进去。
我第一个试的是 NotebookLM。
它其实到现在都还没使用最新的 Nano Banana 模型,但生成效果已经比大部分 AI PPT 好很多。
纯画面叙事能力极强,每一页都像电影镜头,转场流畅,构图考究。
但问题也很直接,分辨率太低,文字处理不行。
用过一段时间以后,我发现我想要的不是一个能生成漂亮画面的工具,而是一个能永久保存知识的容器。
NotebookLM 的方向是对的,如果是图片为主,效果还不错,但它的输出太轻了。但如果是文字为主,效果又不行。
(notebooklm生成)
于是我想通过更强的 Nano Banana Pro 模型,通过迭代提示词,让输出结果更符合我的预期。
我在 YouMind 中花了四五万积分去迭代提示词,就想找到稳定、可控的生成路径。
那段时间几乎每天都在调试,调整参数、优化指令、测试边界。
但Nano Banana Pro也在文字处理这块怎么调都不行。
生成的 PPT 永远太满,每一页都塞满了文字和图形,没有任何留白。
更致命的是故事逻辑弱,十页翻完,根本不知道主线是什么。
我突然意识到,Nano Banana 这条多模态路线有个根本矛盾。
它追求视觉震撼,但知识沉淀需要的恰恰是克制。
那些让我惊艳的画面,最后都变成了干扰我理解信息的噪音。
视觉化确实能降低认知门槛,但过度的视觉化会降低信息的能量。
(Youmind调用Nano Banana Pro生成)
26年1月:Dokie、Kimi、Sdecky
其实 HTML 这条路我在 2025 年年中就开始使用了。
那时 Manus、Genspark 这类通用 Agent 产品刚起来,它们都可以生成 HTML 格式的 PPT。
但受限于当时的推理模型能力,生成效果经常跑偏。要么结构混乱,要么样式崩坏,要么完全理解错我的意图。
试了一个月我就放弃了,觉得这个方向还太早。
转折发生在今年一月。
基模模型大幅更新,我重新把这些工具翻出来试,发现生成质量确实上了个台阶。
Manus 和 Genspark 现在都能理解复杂的主题,生成的结构也清晰很多。
但新问题又来了。
它们生成的东西修改起来太麻烦,每一次调整都要回到原工具,重新生成、重新导出、重新上传。
开放格式如果缺乏流畅的编辑体验,它就只是一个昂贵的玩具。
后来出现了一些产品,能在上面的基础上,对内容和排版进行修改。
但 Dokie 更让我失望,用起来就是半成品,排版、交互、导出,每个环节都能感觉到它什么都没打磨好就推出来了。
(Dokie这tm一堆的bug…)
Kimi 的能力和输出和 Manus、Genspark 比较像。
生成速度快,理解能力强,但同样是修改成本高。它是个好的生成器,但不是好的工作台。
(Kimi生成, Manus、Genspark生成效果类似)
真正让我看到希望的是 Sdecky。
第一次看到别人展示它的效果,我就知道这个方向对了。
审美和排版最符合我的预期,不是那种炫技式的花哨,而是克制的、服务于内容的视觉呈现。更重要的是它的讲故事能力,每一页都在推进叙事,而不是单纯堆砌信息。
(Sdecky生成)
最惊艳的是它的交互方式。
修改 PPT 不用回到生成流程,直接在页面上调整,像编辑文档一样自然。好的工具应该让用户忘记自己在使用工具,而是专注于思考本身。
(Sdecky交互界面)
希望这个产品赶快上线!
回顾这场探索,最大的收获不是找到了 Sdecky
工具迭代的尽头是工作流的胜利。
AI 每周都在进化,但真正决定产出的,是如何把工具嵌入日常使用习惯。
2026 年会有更多令人眼花缭乱的产品出现,建议先想清楚自己要解决什么问题,再去找工具。
专注在少数几个工具上用深,比不断切换要有价值得多。