本来这周三要在公司讲一场 AI 应用培训,材料已经准备好了:27 页 PPT,55 分钟讲述,留 5 分钟讨论。(先交个底:这 27 页不是一页页画出来的,是用 guizang-ppt-skill生成的,相关skill资料会一并分享)
结果今天通知,临时改期,推到节后。说不失落是假的,材料都磨到 v2 了。
我看着电脑里那份逐页大纲,想了想:与其让它在文件夹里等上小半个月,不如先整理出来,在网上先跟大家讲一遍。所以这篇你就当内容抢跑版来看,不是培训预告。
这场分享不做模型排行榜,不讲参数,也不回答"哪个模型最强"。这次只讲一个话题:
AI 除了生成答案,还能把任务推到哪?
我把它拆成三条线:会协作、会创作、会进业务链路。下面按这三条线,把 27 页 PPT 的核心内容讲一遍。PPT 文末领。
一、会协作:真正有用的 Multi-Agent,不是让 AI 一起聊天
准备这期内容时,我先翻到 OpenClaw 之父 Peter 的一句话。他在一次讨论 Multi-Agent 时被问到:“多个 Agent 之间互相聊天,是不是未来?”
他的回答是:
No. Why should they. Waste of tokens.
这句话很容易被人当作"反对 Multi-Agent"。其实不是。Peter 反对的不是协作本身,而是没有信息增量、没有明确交付物的自由聊天。
Multi-Agent 的关键不是"有几个 Agent",而是它们之间有没有形成任务结构。我把它分成三种形态:
共享空间:多个 Agent 进入同一个任务上下文,任务、上下文、交付物都在同一条工作流里沉淀。这一类解决的是"在哪儿协作"的问题。
横向并行:把同类子任务分给多路 Agent 同时跑,最后由主 Agent 汇总。比如一个 Agent 同时从不同维度检查内容,另一个同时搜索多家竞品资料。
纵向接力:用结构化交付物推进流程。PRD → 系统设计 → 任务列表 → 代码 → 测试报告。每一棒的输入是上一棒的输出,而不是大家坐在一个群里闲聊。
所以我判断一次协作有没有效,就看每次沟通有没有真的推动分工、交接或汇总——没有,那就是在空转。
现在的规模化能力已经很强。Kimi K2.6 支持最多 300 个子 Agent、4000 个协调步骤;Anthropic 内部研究中,多 Agent 系统在某些任务上比单 Agent 高出 90.2%。但代价也明显:Multi-Agent 的 token 消耗大约是普通聊天交互的 15 倍。
所以别神化 Multi-Agent。它就吃一种场景:任务能拆开、拆完每块还有明确的交接物。如果你只是想让两个 AI 互相讨论出灵感,那确实可能是 waste of tokens。
二、会创作:AI 视频正在分成"画"与"写"两条路线
第二个方向是 AI 视频。这个话题现在比较乱,我把它拆成两条路线:
"画"视频:用生成模型创造新的像素和镜头。它适合想象力、电影感、大场面。问题是结果带有概率性,精确的文字、界面和品牌元素很难控制。
"写"视频:Agent 编排真实的素材、HTML、CSS 与动画时间轴,再通过浏览器逐帧渲染成视频。它不如"画"视频那么有视觉奇观,但界面、品牌、信息结构和修改成本都更可控。
这俩不是谁取代谁的事,各管各的活。当你更看重准确、能改、能重复时,"写"视频的价值就出来了。
我重点讲了两种实践:
第一种是"红线玩法"。用 Seedance 这类生成模型做路线动画时,创作者会先准备一张有纵深的底图,画清楚路径,然后要求模型把红线擦除、补上镜头运动。这是一种创作者提示工作流,不是 Seedance 官方的精确路径控件,结果仍然有概率性,但能表达镜头意图。
第二种是我自己用 Agent 做产品宣传片的两次实践。一次用 Codex,一次用国产 Agent WorkBuddy,技术路线都是 HyperFrames:Agent 理解需求后编写 HTML/CSS/GSAP 动画,浏览器逐帧捕获,FFmpeg 输出 MP4。
输入条件很普通:6 张产品图、1 段 93 秒录屏、3 项基本要求、0 份专业分镜。Codex 输出了 32 秒成片,WorkBuddy 输出了 36.5 秒成片。
初版也翻车了。旁白节奏不对、字幕光标乱跑,第四幕直接一片蓝屏——我当时还以为这条白做了。结果 WorkBuddy 自己定位到原因:第四幕漏注册了 GSAP timeline,改完重渲染就好了。
这事真正让我有点意外的是:Agent 厉害的地方根本不在"第一版就对",而在它能自己找到哪坏了、改掉、再验一遍。
三、会进入业务:当 AI 开始执行任务,价值落在三个位置
最后一个方向更现实:当 AI 开始真正执行任务,企业价值会落在哪?
模型只是起点。真正值钱的,是谁能稳定挤进 Agent 的任务链路。我把生态位分成三类:
入口平台:掌握用户意图、任务发起和服务调度。用户说"我想去杭州出差",平台理解意图,然后规划并调用后续服务。
履约服务商:把现实服务封装成 Agent 可调用、可完成的动作。肯德基把菜单、门店、优惠和点餐流程接进去;瑞幸把商品、门店和下单链路封装成服务动作;东航把航班查询、出行服务和订单操作接入 Agent 入口。
专业能力方:把数据、分析方法、业务流程和校验机制封装成 Skill 或工具。东方财富、同花顺这类,做的就是把自己在金融数据、选股、行情、投研上的本事,变成 Agent 能直接调用的工具。
我关心的不是谁现在赚得多——是谁占住了链路里挪不走的位置。入口攥着流量和调度权,履约攥着真实服务,专业能力攥着可复用的判断力。模型能力会下沉,但位置不会自动让出来。
四、这 27 页 PPT 里还有什么
整场分享大概这么安排:开场 2 页 4 分钟;Multi-Agent 8 页 16 分钟;AI 视频 12 页 24 分钟;企业价值 4 页 10 分钟;收束 1 页 6 分钟。27 页,55 分钟。
PPT 里保留了关键案例、数据来源,以及我个人实践的边界说明。比如 Kimi 数据来自 K2.6 官方资料,Anthropic 数据来自其工程博客,MetaGPT 来自论文和 GitHub 仓库,HyperFrames 来自 HeyGen 官方仓库。Codex 与 WorkBuddy 的对比是我的个人实践对照,不是严格 benchmark。
五、完整 PPT 领取
这 27 页 PPT 整理成了可直接用于部门培训、内部交流或个人自学的版本,文中数据和案例均保留来源与适用边界。
完整文件我放在公众号的另一篇文章了(包含guizang-ppt-skill):
PPT分享:Ai应用的前沿
节后回公司讲完这场培训,我会再把现场同事问得最多的问题整理一期。如果你现在就有疑问,欢迎在评论区留言。