我不是嫌贵。
猎豹的EasyClaw、智谱的AutoClaw、腾讯的WorkBuddy和QClaw、有道的LobsterAI、阶跃AI、Molili——我都测过了。花钱的那种,深度测试,调试记录还在,不服可以看。
我嫌的是:你把"不会"说成"很难"。
这两个词差得很远。"很难"意味着技术边界,意味着理解万岁;"不会"意味着你交付不了,但你在卖一个你交付不了的东西。
一、任务说清楚
每天早上,从固定直链下载一个 .zip 文件,解压,读里面的 Excel,按三条规则筛选数据,把结果给我。
直链,无需登录,无需绕过任何验证。文件不大。Excel 结构简单,无合并单元格,无宏,无特殊格式。三条筛选规则,中文说清楚,每条不超过一句话。
这是一个实习生第一天上班就能搞定的任务。
我没有故意刁难任何人。我只是想要一个能干活的工具。
二、三次翻车,三个病根
第一次翻车:读错
服装采购数据,返回结果里出现了"外墙清洗"。
我重新确认了文件,没有问题。我重新描述了任务,没有歧义。再次运行,再次跑偏。
我当时以为是Prompt的问题,反复调整措辞,反复运行,反复得到错误结果。直到我和另一个AI讨论这个现象,它给了我一个更诚实的解释:
它不是在"读"文件,它是在用训练数据里的语义权重"理解"文件内容。
采购、服装、清洗、施工——这些词在它的训练语料里存在高度语义关联。它扫描文件内容,触发了这套关联网络,然后给出了一个在语义上"说得通"的结果。
问题在于,"语义说得通"和"文件里实际写了什么",是两件不同的事。
用那个AI自己的话来说:语义流畅,优先于物理真实。
它没有在读字,它在做概率推断。它给你一个听起来合理的结果,而不是一个正确的结果。更关键的是,它自己分不清这两者的区别——它不知道自己什么时候在"读",什么时候在"猜"。
这不是Prompt的问题。这是语言模型处理结构化数据时的一个根本性缺陷:它的训练目标是"语言连贯",不是"事实准确"。 当这两个目标发生冲突的时候,它会选择前者,而且它不会告诉你它做了这个选择。
第二次翻车:读不全
Excel有500行数据。
它处理完,告诉我结果。我随手核验了一下行数——它只处理了前100行。剩下的400行,直接消失了。
没有报错。没有提示。给我一个完整的、自信的、错误的结论。
这背后有两个独立的问题叠在一起。
第一个是工程问题:大文件的分块处理没有做好。500行对于一个成熟的数据处理程序来说根本不是问题,但对于一个把语言模型包在外面的Agent系统来说,如何把大文件切分、逐块处理、再汇总结果,是需要专门设计的工程能力——很多产品没有做完这一步,或者做了但没有做稳。
第二个是模型本身的"近因偏见"(Recency Bias):在处理长序列内容时,语言模型倾向于对序列后端的信息赋予更高权重。当它处理一个很长的Excel内容时,前面的内容在它的注意力分配里会被逐渐稀释,后半段的细节会被详细处理,而前半段则草草了事——甚至直接被截断。
这两个问题叠加,产生了一个特别危险的结果:它不是失败了,它是"成功地"给了你一个错误的答案。
"安静的失败"比报错更危险。你不知道它在哪里停下来的。你不知道你是否应该信任这个结果。你甚至不知道你是否需要去质疑这个结果——因为它的语气如此自信,格式如此完整。
第三次翻车:记不住规则
三条筛选规则,我一条一条说清楚了。
加第三条的时候,第一条开始失效。重新强调第一条,第二条开始漂移。每加一条规则,它就忘掉一条。Token在重复描述中烧掉,任务原地踏步。
这个问题有一个技术名词:上下文窗口的注意力漂移。
语言模型处理多轮对话时,早期的信息会随着对话轮次增加而被逐渐"压缩"——不是删除,是权重降低。当对话足够长、规则足够多,早期的规则在模型的注意力分配里已经退到了边缘地带。
厂商通常会说这是"上下文窗口限制",暗示你只要换个更大窗口的模型就能解决。但实际上,窗口大小和注意力漂移是两个不同的问题。更大的窗口能装下更多内容,但装下内容不等于均匀处理内容——在超长上下文里,注意力分配的不均匀性往往更严重,不是更好。
更根本的问题是:一个真正的执行系统,不应该把"记住规则"这件事交给语言模型的注意力机制来完成。 规则应该被写入确定性的程序逻辑,而不是浮在对话上下文里随波逐流。
这是产品架构的问题,不是Prompt技巧的问题。
三、同一个病根
三次翻车,表面是三个不同的问题。往下挖,是同一个东西:
这些产品的设计逻辑,是"对话",不是"执行"。
对话系统的核心能力:理解你说了什么,给你一个听起来合理的回复。
执行系统的核心能力:把任务从头跑到尾,出了错知道在哪出错,结果可以被独立核验。
这是两种完全不同的产品,对应两种完全不同的工程架构、评估标准和责任边界。
但现在市面上卖的,几乎全部是用"执行"的语言,包装"对话"的产品。
演示视频里,Agent流畅地完成任务,观众鼓掌。没人告诉你:演示视频是在精心挑选的场景下录制的,任务是经过多次调试才跑通的,边界条件是刻意回避的。
把这个产品放到你的真实工作场景里——不规则的数据,多变的规则,连续的任务——它开始报错,开始跑偏,开始给你"安静的错误"。
然后客服告诉你:这个场景比较复杂,需要继续优化Prompt。
四、那些熟悉的话术
遇到问题,我已经能背下来客服的回复了:
我知道这些话在特定场景下是真的。我也知道它们什么时候是挡箭牌。
我的文件是直链 .zip。没有反爬,没有动态JS,没有接口,没有权限问题。这些话术在我的案例里,一条都不成立。
但我注意到一件更值得关注的事:这套话术体系的存在本身,是有结构性意义的。
它构成了一套完整的"技术免责话语"——当产品交付不了时,把原因归结到外部环境的复杂性上,而不是产品能力的边界上。用户听完,会觉得是自己的场景太特殊,或者是自己的技术素养不够,而不是产品本身有问题。
这套话语体系的精妙之处在于:它让用户持续付费,持续调试,持续自我怀疑——同时让厂商永远不需要承诺一个明确的交付结果。
认知摩擦力,在这里再次出现。
把用户的精力消耗在调试和自省上,让原本应该指向产品的质疑,转化为指向自己的反思:是不是我的数据格式有问题?是不是我的规则描述不够清晰?是不是我对AI的期望太高了?
这套转移机制非常有效,因为它有一定的真实性做背书——AI确实有局限,用户确实需要学习如何使用AI工具。但"有局限"和"交付不了你明确说好的任务"之间,还有很大的距离。
五、调用权 vs 任务完成
你卖的是"调用权",我买的是"任务完成"。
"调用权"意味着:给你一个入口,进去能不能干成是你的事。 "任务完成"意味着:给你一个任务,你给我一个结果,结果要对,错了你要负责告诉我在哪错了。
这是两种不同的商业逻辑,对应两种不同的责任边界。
但现在这两套逻辑被刻意混在一起卖。
演示的时候给你看"任务完成"的效果——顺滑,精准,让人感觉未来已经到来。
合同里卖的是"调用权"的权限——你获得了使用这个工具的资格,工具能不能用好是你的问题。
出了问题,用"技术环境复杂"来做缓冲——暗示是你的场景太特殊,不是产品的能力边界。
我测试的这几个平台,没有一个跑通这个任务。任务本身没有变,场景没有变,变的只是每换一个平台,我就重新交一次学费。
目前,这个任务还卡着,没有跑通。
六、三条验收标准
如果你也在评估AI Agent产品,在销售演示的时候,直接提这三条:
第一条:3分钟内,直链下载落地,并回报文件大小。
这是最基础的能力验证。能回报文件大小,说明它真的读到了文件,而不是在用语义推断文件内容。连文件大小都报不出来,后面不用谈。
第二条:读Excel必须全量,行数必须和原文件一致,并主动告知。
不要等你去问,它应该主动告诉你"文件共X行,已全部读取"。如果它不主动汇报,你要主动问——问它读了多少行。如果它说不清楚,这是危险信号。
第三条:筛选结果可复核,给出匹配的行号和原始字段内容。
"共找到23条符合条件的记录"不够。要告诉我是哪23行,每行的原始数据是什么。结论要可以追溯,不能只给你一个数字让你相信。
能通过这三条,再谈价格。通不过,多少钱都是无底洞。
这三条验收标准,本质上是在测试一件事:这个产品是在"执行任务",还是在"扮演执行任务"。
七、最后
我不是要否定这个方向。
AI Agent能做到什么,我比大多数人更清楚,因为我在真实场景里测过,花了真实的钱,调试记录还在。
我想说的是,这个行业现在有一个系统性的诚实问题:
产品在用"执行系统"的语言做市场,用"对话系统"的架构做交付,用"技术环境复杂"的话术做免责。
这三件事同时发生,不是偶然的。
"Agent"这个词正在被用滥。
会聊天不叫Agent。能调用工具不叫Agent。把任务从头跑到尾、出错知道在哪出错、结果可以被独立核验——这才叫Agent。
什么时候厂商开始用"任务完成率"而不是"支持X种工具调用"来介绍自己的产品,这个行业才算走上正轨。
在那之前,验收标准,还是得自己定。
在发表这篇文章的时候,在另一个套壳龙虾的机器人上已经跑通。
说实话,这个公司的产品上能够一次跑通是没想到的,我本来也就是死马当活马医的心态。一家名不见经传(对于普通大众/非业内人士来讲)居然可以如此轻易的就完成,那些整天叽叽喳喳的“大厂”真的很丢脸。