写在前头
好久不见。过去三个月,这个公众号一直没有更新,我仿佛还欠了大家好多文章,哈哈,后台也陆续收到一些朋友的留言,问我是不是停更了。其实没有,我只是把自己埋进了一个项目里——做一个AI生成PPT的工具产品。(是不是会有人质疑:现在市面上已经有这么多强大的AI PPT产品了,为啥还要做一个?)
事情的起因很简单。我平时写工作汇报或者技术分享的时候,经常需要做PPT,每次都是打开PPT软件,对着空白页面发呆,调字体、调对齐、找模板,一套流程走下来,两三个小时就没了,甚至更久。后来AI起来了,各种PPT生成工具也冒出来,我用了一圈,发现几个问题:
第一是贵。很多工具按次收费,做一份几十页的PPT要十几块钱,频繁使用下来成本不低。第二是模型能力参差不齐。有的工具生成的文案空洞,有的排版混乱,有的对中文支持很差。第三是限制多。很多产品只支持自家固定的模型,没法接入能力更强或者性价比更高的第三方模型。第四是限制生成页数,很多产品都限制生成的页数,会导致原本设计好的计划被打断,我们不限制页数,只要提示词写得好!
所以我想,能不能自己做一个?
这个念头从有到落地,花了三个月。中间踩了不少坑,今天趁着产品雏形跑起来了,写篇文章聊聊这三个月都干了什么,以及这个工具到底长什么样。
为什么要自己搞一个
先说模型选型。
最开始我试了好几个主流模型,Claude、GPT、国产的几个大模型都跑了一遍。结论是:生成PPT这种长结构化内容,模型的理解能力和指令遵循能力非常关键。有些模型写短文案很强,但一旦涉及几十页的结构化输出,就开始跑偏,章节混乱、内容重复、逻辑断层。
PPT相关的文案及内容生成各大主流模型基本上大差不差,但是在图片生成效果上差异还是蛮大。基于项目的技术方案及效果导向,最后我锁定了Banana Pro(可谓目前最强文生图模型 ),这个模型在长文本生成和结构化输出上表现稳定,对中文的理解也比较到位。目前产品第一个版本限定使用这个模型。最近的GPT-image-2好像已经推出上线了,后续看看效果跟价格是否有性价比在来决定是否逐步开放。
再说成本问题。
这是很多朋友会问的——为什么产品本身免费,但token需要自己付?坦白说,我自己跑了一个月的成本测算,如果由平台承担模型调用费用,要么定价变成按次收费,要么就得限制生成次数。我不想在这两个方向里选。
所以目前的模式是:平台功能免费开放,模型调用费用由用户自己承担。你用自己的API Key,花自己的token,平台不抽成、不加价。这样对于高频用户来说,反而更划算——你只需要付给模型服务商的费用,没有额外的平台溢价。
另外,我接入了中转站,支持使用中转站的相关模型(平台有配置默认的中转站,不过也支持更换其他中转站)。这里有个小技巧:不同分组的费率差异很大,有些特价分组成本能低好几倍。建议在成本可接受的前提下配置多个可用分组,既能控制预算,又能提升调用稳定性。
技术选型方面,前端用的是React 18 + TypeScript,后端主要是Python 3.10+及Flask 3.0。这里就不详细说明了。
在PPT生成和导出这块踩了不少坑,尤其是排版还原和字体兼容,后面专门写文章来进行技术复盘。
平台效果展示
先说理念:
让AI协助完成从构思到成稿的 PPT 创作流程,让 PPT 创作更舒适自然
说了这么多,还不如直接上效果来的直接,好不好老板说了算!嘻嘻
真正的一句话生成,瞧!(后面都是全自动!)
最后生成的效果:
另外附上分享地址(感兴趣的可以打开看看,欢迎点评、评论加赞!)
https://ppt.gptbox.net/share/1NYhrWvQ7bjog0EeFylMny
再来说成本问题,按照目前的中转站的优质Banana及优质Gemini分组,一张ppt成本价大约4毛的样子(有些可以更低),是不是还可以接受!!
另外咱们不限制生成页数,只要提示词写的好,想生成几页ppt都行,不像有些产品限制生成页数!!!!
平台功能介绍
说完了背景,聊聊这个工具到底能做什么。
整个创作流程分成五个阶段,我一个个说。
第一阶段 用户配置部分
在使用产品之前,需要先完成API Key的配置。这一部分我尽量说清楚。首先到平台上面的导航点击设置菜单,就可以看到相关用户配置了。
第一步:获取令牌
去第三方API服务平台注册账号,进入“钱包”按需充值,然后到“API令牌”页面新增密钥。(可以参考图片创建令牌,分组优先级可以参考下面的顺序,如果不知道可以直接使用默认的key)
创建令牌前,请重点确认分组策略——不同分组的费率差异可能很大。建议优先选择特价或低倍率的分组,结合预期调用量评估可接受的费用区间。在成本可控的情况下,可以预先配置多个分组作为冗余,提升调用稳定性。
第二步:复制令牌
令牌创建成功后,复制完整的API Key。建议同时记录一下所选的分组,方便后续排查问题。
第三步:回填API Key
回到平台设置页面,把复制的令牌粘贴到“API Key”输入框里,保存配置。
第四步:执行连通性测试
配置完成后,立即执行连通性测试,确认模型调用、令牌权限和网络链路都正常。(设置弹框的下面有测试功能)
测试通过后,再进入创建项目流程。如果测试失败,优先检查:令牌是否复制完整、分组是否可用、余额是否充足、模型与接口配置是否匹配,配置好之后就可以直接起飞了!
特别提醒:建议先完成用户配置再开始创作,避免在创作阶段因为配置问题中断流程。
第二阶段:创建项目
进入首页后,你可以根据手头资料的准备情况,选择四种创建方式之一:
一句话生成——适合只有一个主题方向、还没想清楚结构的情况。输入一句话,AI帮你搭起框架。
大纲生成——适合已经想好了目录结构,直接粘贴大纲,AI按你的框架填充内容。
描述生成——适合每页要写什么都比较明确的情况,逐页输入要求,AI按指令生成。
PPT润色——适合已经有现成的PDF或PPTX文件,想基于它快速翻新。
选好方式后,可以继续选择模板或者通过上传参考图片提取视觉风格。画面比例默认16:9,支持调整。
所有输入和附件确认无误后,点创建项目,进入下一阶段。
第三阶段:大纲编辑
这个阶段的核心目标是把结构做对。
系统会先批量生成大纲,你需要逐页检查三件事:页面数量是否合理、章节顺序是否连贯、每页要点是否有明确的职责。
如果只有个别页面需要调整,直接手动编辑标题和要点就行。如果需要新增章节、合并页面、调整顺序这类全局操作,右下角有个悬浮按钮(如下图),可以用自然语言直接告诉AI怎么改,比如“把第三页和第四页合并”或者“在第五章前面加一个过渡页”。
另外可以在“大纲生成要求”里提前写入约束条件,比如页数上限、每页要点数量、重点内容倾向,后续生成会优先参考这些要求。
结构确认后,进入下一阶段。
第四阶段:描述编辑
这个阶段是把每页画什么、怎么画写清楚。
建议先批量生成描述,再逐页补充布局结构、配色方向、图表形式、关键文案。如果整套页面需要统一风格,用右下角的AI快捷修改一次性调整语气和表达方向;然后对封面页、数据页、结论页等重点页面单独编辑和重生成。
如果项目有明确的规范,可以先填写“描述生成要求”,后续生成会参考这些约束。需要控制视觉效果的地方,可以上传参考图片配合修改指令,提升结果的可控性。
第五阶段:预览与导出
最后这个阶段,系统基于确认的大纲和描述生成页面结果。
建议先批量生成图片,拿到整套结果后逐页检查一致性和可读性——标题清不清晰、图表信息准不准确、版式是否统一。
如果只有个别页面不满意,用单页精修,不要整套重生成。每次修改都会保留历史版本,方便对比和回退。
确认完成后,可以导出PDF或图片格式。可编辑格式(PPTX)的导出能力目前已经有一个Beta版本了(效果可能还有差距),后续版本会继续进行优化迭代。除了文件导出,也可以直接使用在线播放完成评审和分享。
常见问题
Q:生成的PPT能直接编辑吗?目前支持导出PDF和图片格式,可编辑的PPTX格式目前是Beta阶段,导出效果一般,目前也正在紧张优化及迭代中。
Q:支持哪些文件格式上传?PDF、DOCX、PPTX、TXT、MD,单文件最大20MB。
Q:Token费用大概多少?取决于你选择的分组和生成页数。以目前主流分组的费率估算,一份20页左右的PPT,每页的成本大概在几毛到一块钱之间。建议优先选择特价分组,成本会低很多。
Q:生成速度怎么样?一套20页的PPT,从创建到导出,正常情况下3-5分钟可以完成。具体速度取决于模型服务的响应时间。
Q:页面效果不满意怎么办?支持单页重新生成、区域编辑、历史版本回退。不需要整套重来,哪里不满意改哪里。目前非常灵活,每个环节都可以进行调整就精修!
接下来的规划
产品目前还是第一个版本,功能上还有很多不完善的地方。接下来几个方向:
支持更多模型。Banana Pro只是起点,后续会接入更多模型,让用户根据自己的偏好和预算选择。
可编辑格式的PPTX导出。这是目前被问得最多的需求,已经在优化迭代中了。
模板市场。开放模板上传和分享,让用户自己贡献好用的模板。
批量生成能力。针对需要一次性生成多套PPT的场景做优化。
灵活的登陆方式。目前已经接入LinuxDo、Github、Google、微信扫码登陆已经在排期中了,敬请期待。
最后
这个产品从想法到落地,用了三个月,中间推翻重来了两次。现在跑起来的是一个基础版本,还有很多粗糙的地方,但至少能用了,有啥问题及需求欢迎大家来骚扰。
我一直觉得,工具的价值不是炫技,而是帮人省时间。如果你经常要做PPT,欢迎来试试,也欢迎给我提意见。
产品地址:https://ppt.gptbox.net
使用过程中遇到任何问题,可以直接在公众号后台留言。看到一定会回!(只要天不塌下来)。
如果有商务合作需求或有更加低价稳定的模型渠道,也欢迎与我联系沟通,大家共同进步!