当前位置：首页>Excel>AI Agent死在Excel:会聊天,不会干活

AI Agent死在Excel:会聊天,不会干活

2026-05-12 18:04:46

我不是嫌贵。

猎豹的EasyClaw、智谱的AutoClaw、腾讯的WorkBuddy和QClaw、有道的LobsterAI、阶跃AI、Molili——我都测过了。花钱的那种，深度测试，调试记录还在，不服可以看。

我嫌的是：你把"不会"说成"很难"。

这两个词差得很远。"很难"意味着技术边界，意味着理解万岁；"不会"意味着你交付不了，但你在卖一个你交付不了的东西。

一、任务说清楚

每天早上，从固定直链下载一个 .zip 文件，解压，读里面的 Excel，按三条规则筛选数据，把结果给我。

直链，无需登录，无需绕过任何验证。文件不大。Excel 结构简单，无合并单元格，无宏，无特殊格式。三条筛选规则，中文说清楚，每条不超过一句话。

这是一个实习生第一天上班就能搞定的任务。

我没有故意刁难任何人。我只是想要一个能干活的工具。

二、三次翻车，三个病根

第一次翻车：读错

服装采购数据，返回结果里出现了"外墙清洗"。

我重新确认了文件，没有问题。我重新描述了任务，没有歧义。再次运行，再次跑偏。

我当时以为是Prompt的问题，反复调整措辞，反复运行，反复得到错误结果。直到我和另一个AI讨论这个现象，它给了我一个更诚实的解释：

它不是在"读"文件，它是在用训练数据里的语义权重"理解"文件内容。

采购、服装、清洗、施工——这些词在它的训练语料里存在高度语义关联。它扫描文件内容，触发了这套关联网络，然后给出了一个在语义上"说得通"的结果。

问题在于，"语义说得通"和"文件里实际写了什么"，是两件不同的事。

用那个AI自己的话来说：语义流畅，优先于物理真实。

它没有在读字，它在做概率推断。它给你一个听起来合理的结果，而不是一个正确的结果。更关键的是，它自己分不清这两者的区别——它不知道自己什么时候在"读"，什么时候在"猜"。

这不是Prompt的问题。这是语言模型处理结构化数据时的一个根本性缺陷：它的训练目标是"语言连贯"，不是"事实准确"。 当这两个目标发生冲突的时候，它会选择前者，而且它不会告诉你它做了这个选择。

第二次翻车：读不全

Excel有500行数据。

它处理完，告诉我结果。我随手核验了一下行数——它只处理了前100行。剩下的400行，直接消失了。

没有报错。没有提示。给我一个完整的、自信的、错误的结论。

这背后有两个独立的问题叠在一起。

第一个是工程问题：大文件的分块处理没有做好。500行对于一个成熟的数据处理程序来说根本不是问题，但对于一个把语言模型包在外面的Agent系统来说，如何把大文件切分、逐块处理、再汇总结果，是需要专门设计的工程能力——很多产品没有做完这一步，或者做了但没有做稳。

第二个是模型本身的"近因偏见"（Recency Bias）：在处理长序列内容时，语言模型倾向于对序列后端的信息赋予更高权重。当它处理一个很长的Excel内容时，前面的内容在它的注意力分配里会被逐渐稀释，后半段的细节会被详细处理，而前半段则草草了事——甚至直接被截断。

这两个问题叠加，产生了一个特别危险的结果：它不是失败了，它是"成功地"给了你一个错误的答案。

"安静的失败"比报错更危险。你不知道它在哪里停下来的。你不知道你是否应该信任这个结果。你甚至不知道你是否需要去质疑这个结果——因为它的语气如此自信，格式如此完整。

第三次翻车：记不住规则

三条筛选规则，我一条一条说清楚了。

加第三条的时候，第一条开始失效。重新强调第一条，第二条开始漂移。每加一条规则，它就忘掉一条。Token在重复描述中烧掉，任务原地踏步。

这个问题有一个技术名词：上下文窗口的注意力漂移。

语言模型处理多轮对话时，早期的信息会随着对话轮次增加而被逐渐"压缩"——不是删除，是权重降低。当对话足够长、规则足够多，早期的规则在模型的注意力分配里已经退到了边缘地带。

厂商通常会说这是"上下文窗口限制"，暗示你只要换个更大窗口的模型就能解决。但实际上，窗口大小和注意力漂移是两个不同的问题。更大的窗口能装下更多内容，但装下内容不等于均匀处理内容——在超长上下文里，注意力分配的不均匀性往往更严重，不是更好。

更根本的问题是：一个真正的执行系统，不应该把"记住规则"这件事交给语言模型的注意力机制来完成。 规则应该被写入确定性的程序逻辑，而不是浮在对话上下文里随波逐流。

这是产品架构的问题，不是Prompt技巧的问题。

三、同一个病根

三次翻车，表面是三个不同的问题。往下挖，是同一个东西：

这些产品的设计逻辑，是"对话"，不是"执行"。

对话系统的核心能力：理解你说了什么，给你一个听起来合理的回复。

执行系统的核心能力：把任务从头跑到尾，出了错知道在哪出错，结果可以被独立核验。

这是两种完全不同的产品，对应两种完全不同的工程架构、评估标准和责任边界。

但现在市面上卖的，几乎全部是用"执行"的语言，包装"对话"的产品。

演示视频里，Agent流畅地完成任务，观众鼓掌。没人告诉你：演示视频是在精心挑选的场景下录制的，任务是经过多次调试才跑通的，边界条件是刻意回避的。

把这个产品放到你的真实工作场景里——不规则的数据，多变的规则，连续的任务——它开始报错，开始跑偏，开始给你"安静的错误"。

然后客服告诉你：这个场景比较复杂，需要继续优化Prompt。

四、那些熟悉的话术

遇到问题，我已经能背下来客服的回复了：

"这个网站有反爬机制……"
"动态加载的JS比较复杂……"
"接口文档不够明确……"
"权限受限，需要特殊处理……"

我知道这些话在特定场景下是真的。我也知道它们什么时候是挡箭牌。

我的文件是直链 .zip。没有反爬，没有动态JS，没有接口，没有权限问题。这些话术在我的案例里，一条都不成立。

但我注意到一件更值得关注的事：这套话术体系的存在本身，是有结构性意义的。

它构成了一套完整的"技术免责话语"——当产品交付不了时，把原因归结到外部环境的复杂性上，而不是产品能力的边界上。用户听完，会觉得是自己的场景太特殊，或者是自己的技术素养不够，而不是产品本身有问题。

这套话语体系的精妙之处在于：它让用户持续付费，持续调试，持续自我怀疑——同时让厂商永远不需要承诺一个明确的交付结果。

认知摩擦力，在这里再次出现。

把用户的精力消耗在调试和自省上，让原本应该指向产品的质疑，转化为指向自己的反思：是不是我的数据格式有问题？是不是我的规则描述不够清晰？是不是我对AI的期望太高了？

这套转移机制非常有效，因为它有一定的真实性做背书——AI确实有局限，用户确实需要学习如何使用AI工具。但"有局限"和"交付不了你明确说好的任务"之间，还有很大的距离。

五、调用权 vs 任务完成

你卖的是"调用权"，我买的是"任务完成"。

"调用权"意味着：给你一个入口，进去能不能干成是你的事。 "任务完成"意味着：给你一个任务，你给我一个结果，结果要对，错了你要负责告诉我在哪错了。

这是两种不同的商业逻辑，对应两种不同的责任边界。

但现在这两套逻辑被刻意混在一起卖。

演示的时候给你看"任务完成"的效果——顺滑，精准，让人感觉未来已经到来。

合同里卖的是"调用权"的权限——你获得了使用这个工具的资格，工具能不能用好是你的问题。

出了问题，用"技术环境复杂"来做缓冲——暗示是你的场景太特殊，不是产品的能力边界。

我测试的这几个平台，没有一个跑通这个任务。任务本身没有变，场景没有变，变的只是每换一个平台，我就重新交一次学费。

目前，这个任务还卡着，没有跑通。

六、三条验收标准

如果你也在评估AI Agent产品，在销售演示的时候，直接提这三条：

第一条：3分钟内，直链下载落地，并回报文件大小。

这是最基础的能力验证。能回报文件大小，说明它真的读到了文件，而不是在用语义推断文件内容。连文件大小都报不出来，后面不用谈。

第二条：读Excel必须全量，行数必须和原文件一致，并主动告知。

不要等你去问，它应该主动告诉你"文件共X行，已全部读取"。如果它不主动汇报，你要主动问——问它读了多少行。如果它说不清楚，这是危险信号。

第三条：筛选结果可复核，给出匹配的行号和原始字段内容。

"共找到23条符合条件的记录"不够。要告诉我是哪23行，每行的原始数据是什么。结论要可以追溯，不能只给你一个数字让你相信。

能通过这三条，再谈价格。通不过，多少钱都是无底洞。

这三条验收标准，本质上是在测试一件事：这个产品是在"执行任务"，还是在"扮演执行任务"。

七、最后

我不是要否定这个方向。

AI Agent能做到什么，我比大多数人更清楚，因为我在真实场景里测过，花了真实的钱，调试记录还在。

我想说的是，这个行业现在有一个系统性的诚实问题：

产品在用"执行系统"的语言做市场，用"对话系统"的架构做交付，用"技术环境复杂"的话术做免责。

这三件事同时发生，不是偶然的。

"Agent"这个词正在被用滥。

会聊天不叫Agent。能调用工具不叫Agent。把任务从头跑到尾、出错知道在哪出错、结果可以被独立核验——这才叫Agent。

什么时候厂商开始用"任务完成率"而不是"支持X种工具调用"来介绍自己的产品，这个行业才算走上正轨。

在那之前，验收标准，还是得自己定。

在发表这篇文章的时候，在另一个套壳龙虾的机器人上已经跑通。

说实话，这个公司的产品上能够一次跑通是没想到的，我本来也就是死马当活马医的心态。一家名不见经传（对于普通大众/非业内人士来讲）居然可以如此轻易的就完成，那些整天叽叽喳喳的“大厂”真的很丢脸。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

AI Agent死在Excel:会聊天,不会干活

一、任务说清楚

二、三次翻车，三个病根

第一次翻车：读错

第二次翻车：读不全

第三次翻车：记不住规则

三、同一个病根

四、那些熟悉的话术

五、调用权 vs 任务完成

六、三条验收标准

七、最后

最新文章

热门文章

随机文章

AI Agent死在Excel:会聊天,不会干活

一、任务说清楚

二、三次翻车，三个病根

第一次翻车：读错

第二次翻车：读不全

第三次翻车：记不住规则

三、同一个病根

四、那些熟悉的话术

五、调用权 vs 任务完成

六、三条验收标准

七、最后

Excel函数之王SUM,最常用的求和函数

怎样把 PPT 做的像麦肯锡一样专业?

最新文章

热门文章

随机文章