刷到一条新闻,说阶跃星辰刚融了快 25 亿美元,准备冲港股 IPO。
我当时的反应很直接:他们家的模型,我还没认真拿真实项目跑过。这次正好补上。
最近我在做直播课件。做过的人都懂,真正费时间的往往不是内容本身,而是后面那一串细活:排版、对齐、改措辞、再对齐。后来我发现了一个开源项目 open-slide,它可以让 AI Agent 直接帮你生成 Slide。哪里不对,就打 comment,让 Agent 继续改。
这套东西好不好用,最后还是看底层模型。
所以这次我就拿阶跃星辰的 Step Plan 跑了一遍,想看一件很实际的事:接进真实项目里,它到底稳不稳。
先不说接法,直接看效果。
我把整篇直播稿全文丢给了阶跃星辰 Step Plan,没有另外整理大纲,也没手动拆章节。
结果第一版就挺像样。它自己把整套 Slide 的结构理出来了,排版也比我预期好,不是那种“勉强能用”的 AI 稿,是真的可以拿去直播的程度。
后面的修改更有意思。
我针对几页提了意见,比如改一下重点、补一个案例、换一种表述。它基本都能接住,而且很多地方是一轮就改到位。不是“它动了”,而是它大概真理解了你那条 comment 想让它干嘛。
接入:3 步把阶跃星辰 Step Plan 接进 Claude Code
先说一下我这边的用法。
open-slide 本质上是一个给 AI Agent 用的 Slide 框架。你用自然语言描述要什么样的课件,Agent 去写 React 代码生成出来。它支持 Claude Code、Codex、Cursor 这些 coding agent,我自己这里用的是 Claude Code。
它有两个核心命令:/create-slide 用来从零生成一套 Slide,/apply-comments 用来根据评论修改。所以我要做的其实很简单:通过 CC SWITCH 把 Claude Code 底层模型切到 Step Plan,然后照常用 open-slide 就行。
Step 1:注册 Step Plan,拿 API Key
先去 Step Plan 官网注册账号。
套餐我选的是 ¥99 的 Flash Plus。对我这种日常开发和跑 Agent 任务的场景,这档已经够用了:每 5 小时 400 次 Prompt,折算下来大概 6000 次模型调用,日常开发和内容生产完全扛得住。
API Key 不用单独创建。注册完系统会直接给一个默认密钥,拿来就能用。
Step 2:在 CC SWITCH 里配置 Step Plan 供应商
我平时用 CC SWITCH 管 Claude Code 的模型切换。打开添加供应商的界面后我看了一眼,里面已经预设了不少国内外供应商,阶跃星辰的 StepFun 也在列表里,省事不少。
直接点 StepFun,大部分配置它都已经填好了。你只要改两个地方:
- API Key:填刚才那个默认密钥
- 请求地址:https://api.stepfun.com/step_plan
其他像供应商名称、官网链接、API 格式、模型映射这些,我这边都没动,默认配置就能跑。
保存,就完事了。
Step 3:切换模型,开始干活
在 CC SWITCH 里把当前模型切到 StepFun,然后回到 open-slide 项目目录,正常跑 /create-slide 就行。
整个接入过程我录了一段视频,三步走完不到 5 分钟,你感受一下。
实战:用阶跃星辰 Step Plan 生成直播课件
接好之后,我就直接拿它做正事了。
这次要做的是一套 OpenClaw 安全实战的直播课件。我没有先手动拆大纲,而是把整篇直播内容直接丢给 /create-slide。
提示词只有一句:
我已经把 zhibo.md 放在根目录了,请使用 create-slide 技能,根据这个文档的内容为我生成一套幻灯片,风格要专业一点。
就这么简单。没有额外调教,也没有很长的 prompt。
我故意这么干,其实就是想看 Step Plan 模型到底能不能自己从一坨原始内容里提炼结构。Agent 场景下,这个能力比“你给它一个完美大纲,它照着排版”重要多了。
结果确实还可以。
它自己把整套课件的章节结构捋出来了,每页的信息密度也控制得不错,至少没有掉进那种“每页都塞满字”的坑里。
不过做课件这件事,第一版再好也只是开始。后面用 comment 驱动修改,才是我这次最想看的部分。
Comment 驱动修改:它到底能不能读懂你的意思
open-slide 的这套修改机制挺直观。
你先在 Slide 预览界面里,对某个元素打一条 comment。系统会把这条意见写进对应代码文件里的 @slide-comment 标记。然后回到 Claude Code 跑 /apply-comments,Agent 会读取这些标记,做修改,改完再把标记删掉。
机制是 open-slide 提供的,但最后好不好使,还是看模型理解 comment 的能力。
我拿两个真实例子说。
第一个比较简单。
我在一页讲 API Key 安全的 Slide 上留了一条 comment:“我想在这个页面里加一张配图做下演示”,顺手还给了图片路径。
来看 step-3.5-flash 怎么处理这个请求:
跑完 /apply-comments 之后,step-3.5-flash 不只是把图加上去,还顺手把整页布局调了一遍,图文比例看着挺顺。
第二个要求就难一点。
我想在一页讲端口扫描的 Slide 右边加一个终端窗口,里面显示一段 bash 命令和 JSON 配置。提示词是这样的:
右侧加一个终端,内容显示一个bash,读取 ~/.openclaw/openclaw.json,内容如下{"gateway": {"bind": "loopback","port": 12456 }}
这个需求其实不算简单。它要理解“终端”不只是几行字,而是一个具体的视觉元素:深色背景、代码字体、窗口控件这些都得有。还得把 JSON 内容放准,同时别把左边原来的排版挤坏。
step-3.5-flash 这次也是一轮过。终端样式、代码排版、左右两栏的比例,基本都不用我再手调。
这两个 case 一个简单,一个稍微复杂一点,但都能看出同一件事:它不是只会机械改字,而是能大致理解你想把页面改成什么样。Agent 场景里,这个点很关键。
踩坑提醒
偶尔会遇到一个小 bug:你明明打了 comment,但 /apply-comments 跑完提示"没有待处理 marker"。这一般不是模型没理解,而是 @slide-comment 没有被正确注入到代码文件里。重新打一遍 comment,再跑一次,通常就好了。
真实体验:优点和不足
先说好的部分。
step-3.5-flash 处理长文本的能力比我预期稳。我丢进去的直播全文接近上万字,没做预处理,它给出来的大纲结构,和我自己心里想拆的方向差不多。
生成速度也可以。一套三四十页的 Slide,从提交到生成完,体感上没有那种明显的等待焦虑。
真正让我印象比较深的,还是 comment 修改这一段。大多数修改意见它都能一轮接住,尤其是布局调整、补内容这种要结合上下文一起理解的活,它表现比我原先预估好。
当然也不是没问题。
有几页的内容颗粒度还不太稳:有的页面信息偏密,有的又有点空,这种就得自己再补 comment 调一下。还有一些更细的技术内容,比如代码片段的排版,偶尔也会出点小问题,需要再跑一轮。
不过整体算下来,这套 Slide 从生成到调完,我花的时间不到一个小时。要是我自己从头手动做同样体量的课件,半天基本跑不掉。
写在最后
这次跑下来,我最大的感受是:AI Agent 的竞争正在从"谁家模型强"变成"谁家模型更容易接进真实工作流"。
订阅制这件事比很多人想的要重要。当你不再去算每一页 Slide 消耗了多少分钱,你才会真正放开手去构建那种能自动迭代、自动纠错的赛博牛马团队。心态上的这种松绑,是国产模型在生产力场景下容易被忽略的一环。
后续如果能加入更高参数的旗舰模型,跑超大规模的 Agent 集群估计会更爽。
如果觉得不错,随手点个「赞」和「在看」,转发给需要的朋友吧~ 第一时间收到推送,记得给我一个星标⭐