首先看一份,用我自己开发的工具生成的,用Nano Banana Pro模型生成的介绍Nano Banana Pro的介绍PPT:
感觉怎么样?效果是不是还可以?
这事儿还得从上个月的一次内部分享说起。
当时我准备做一个关于 Nano Banana Pro的分享。
PPT做着做着,我突然冒出一个想法:既然我在介绍Nano Banana Pro模型的生图能力,为什么不直接用它把这份PPT给生成出来呢?
我把市面上能叫得出名字的AI PPT工具大概都试了一遍。
怎么说呢,体验下来感觉有点复杂。
总结下来,可以看到PPT类的产品技术路径已清晰分化为五大流派,可以分别解决不同维度的痛点:
一:内容重构派 (Document-to-PPT),以 Microsoft Copilot、钉钉 AI 助理、AiPPT 为代表,它们深耕文档转 PPT场景,核心能力在于对长文本(Word/PDF)的语义理解与逻辑拆解,是企业级办公的首选;
二:创意生成派 (Prompt-to-PPT),如 Gamma、Tome、MindShow,主打从零到一的快速脑暴,用户仅需输入一个主题,即可通过 AI 自动填充大纲与文案,适合应对临时性的汇报需求;
三:设计辅助派 (Design-Driven),如 Canva、Beautiful.ai、iSlide,专注于对既有内容的视觉美化与排版升级,利用 AI 审美弥补人工设计的短板;
四:代码构建派包括 (Code-to-PPT) ,如Marp、Slidev,这一流派摒弃了传统的拖拽操作,转而通过 Markdown 或 Python 脚本实现结构化数据的批量自动化输出,拥有最精准的控制力;
五:全模态视觉合成派(End-to-End Visual Synthesis),依托Nano Banana Pro,它打破了文本框+图层的传统束缚,将单页 PPT 视为一幅完整的数字画作进行像素级直出,虽然牺牲了局部可编辑性,却以极致的视觉冲击力代表了未来的终极形态。
Nano Banana 发布后,不少工具都接入了Nano Banana Pro,跟进了这种端到端生图的PPT模式,我对此非常感兴趣。
前面Nano Banana Pro发布的时候,也写过很多篇文章介绍了,比如NotebookLM、Lovart里面做这种PPT,它们都能很快的完成一个还不错的初稿。
但我试了一圈发现,它们普遍存在一个挺影响使用的问题,那就是版式的不稳定性。
看两个例子你们就懂了:
1)标题一会儿居中,一会儿居左,字体也不一致。
2)这个就更乱了,标题部分乱七八糟的,没有任何一致性可言。
其实上面的PPT,每一页单看没问题,画面挺精美。
但如果你生成个十页八页,就会发现字体一会大一会小,标题的位置也忽左忽右。这种PPT拿来自己看还行,要是真拿去正式场合讲,或者给客户看,可能就显得不太严谨了。
其实我也很困惑,既然模型这么强,为啥连个对齐都做不好?而且通过各种提示词的限定,也还是解决不了。
遇到解决不了的问题,我习惯性地去问了问 Gemini,它给我的解释倒是挺让人信服的:
它说,这其实是生成式AI的一个经典瓶颈,叫长序列生成的一致性漂移。
简单说,目前的生图模型本质上是在“猜”画面,而不是像代码那样在“执行”确定的逻辑。
当你生成第10页时,模型是在回忆第1页的风格并尝试模仿,而不是像排版软件那样死死记住左边距必须是50像素。用概率去碰运气,页数越多,版式走样的概率自然就大了。
Gemini 给我的建议也很实在:别光在提示词(Prompt)上下功夫了,想彻底解决,得靠工程化手段。也就是从让AI画整张图,转变成AI生成素材 + 代码控制排版。
思路一下子就通了,剩下的就是动手。
我就在 Google AI Studio 里,接入 Nano Banana Pro 的生图能力,利用Gemini 3 Pro强大的编程能力,加上一些代码逻辑,写了这个叫 InfographAI 的小工具。
前前后后断断续续折腾了一段时间,现在的成品大概长这样:
界面我做得比较简单,主要分左、中、右三块,就是为了用着顺手。
左侧是“原料区”。
做PPT第一步肯定是整理内容,我设了几个入口:可以直接搜索,也可以上传本地文件,或者把你要参考的网页链接丢进去进行读取,甚至直接粘贴一段乱七八糟的原始文本,只要有原始信息,剩下的交给Gemini 3 Pro去拆解。
右边是“设置区”。
包括:图片比例设定“”
接下来是排版模式,有单页模式和多页模式。
单页模式就可以生成单张的信息图,就跟Gemini里面使用Nano Banana Pro一样。
多页模式,用法就很多了,做PPT,做小红书的系列图都行。多样模式下,还可以自行控制想要输出的页数(右图)。
然后就是语言和一些细节、还有水印、版权、水印之类的。
接下来就是风格:这里预设了上百种各种不同的风格,可以直接选中使用。
除了常规的尺寸比例风格设置外,我特意加了一个“风格参考图”的功能,可以直接上传参考对象图片。
这真的很重要,你上传一张你觉得版式不错的图,模型就会尽量“咬住”这个风格,保证后面生成的每一页,不管是配色还是排版结构,都跟这张图是一致的。
以及自定义描述一些特定的风格库里面没有的风格。
中间是“预览和修补区”。
还做了一个历史记录回看区,可以看到修改的过程
当点击其中生成的某一页时,可以对其进行修改或者重新生成。
这块其实是我自己最常用的功能。
虽然说通过这个工具解决了95%的一致性的这个大问题,但还是会偶尔出现一些小问题。
能力有限,这个真的解决不了,有知道的朋友可以交流指导一下。
选中有问题的页面来描述问题:
可以看到这个页面有问题的文字得到了修改。给你们看看最终导出的效果:
它就真的只动那需要删除的文字,其他地方纹丝不动。这在实际修图的时候,效率真的高了很多。
能看出来,整体的连贯性和版式的稳定性,比我之前单纯用生图模型跑出来的要好不少。至少拿出去讲,不会让人觉得突兀了。
接下来再来看一看其他的生成效果,都是用这个工具一键生成的:
1)2026年AI七大趋势
2)2025谷歌年度搜索回顾套图
3)GPT 5.2介绍
4)西游记故事
5)研究报告解读1
6)研究报告解读2
7)谷歌AI产品生态全景图
8)AI超级企业
做完这个小工具,其实我有几点挺朴素的感触:
一是关于“工具”:
市面上的工具很多,但有时候确实很难百分百契合自己的需求。当你觉得某个工具不好用的时候,不一定是你的用法不对,可能确实是它的底层逻辑还没解决某些特定问题。
二是关于“解决问题”:
这次让我觉得最有收获的,其实不是写代码本身,而是弄清楚了为什么?通过和AI探讨原理,找到概率模型和逻辑控制的结合点,这种对症下药的感觉很好。
三是关于AI编程的“门槛”:
说实话,我也不是专业程序员。以前觉得开发个软件是件挺遥远的事,但现在有了AI辅助编程(Vibe Coding),门槛真的降了很多。只要你逻辑清楚,知道自己想要什么,把需求描述清楚,很多想法是真的可以落地的。
所以,如果你在工作中也遇到些不顺手的小痛点,不妨试着去折腾一下。
不一定非要做出个多么惊天动地的产品,哪怕只是写个小脚本解决了一个重复劳动,那种成就感也是实实在在的。
按照惯例,用一张图来总结今天的分享:
更多精彩内容,我们下期见~~