2026 年 4 月 30 日,一个叫 Kimi K2.6 的模型突然在编程挑战中把 Claude、GPT-5.5 和 Gemini 全部踩在脚下。更离谱的是:它是开源的,权重随便下。
你可能会想:这又是营销号吹牛?
在 HN 上获得高分讨论、完整比赛录像、GitHub 代码仓库,全都在。组织方 Rohana Rezel 在博客里写得很直白:"结果不是大多数人能预料到的。"10 个模型参赛,前两名全是中国选手——Kimi K2.6 和 Xiaomi 的 MiMo V2-Pro。GPT-5.5 只拿了第三,Claude 排第五,而 DeepSeek 自己的 V4 模型位列第八,差点垫底。
最让人细思极恐的不是排名。是 Kimi K2.6 的战略。
一个贪婪算法的胜利:Kimi 到底做了什么
这场比赛玩的是一个叫 Word Gem Puzzle 的拼字游戏(可以想象成字母版推箱子)。棋盘是 10×10 到 30×30 的格子,填满字母和一块空白。参赛模型要写代码,控制一个机器人滑动字母,拼出合法英语单词。规则很简单:7 个字母以上的单词才得分,短单词不但不加分,还会倒扣——5 字母词扣 1 分,3 字母词直接扣 3 分。最先识别出单词的队伍获得独占分,慢的一方只能看着。
看到这儿你可能会问:这不就是个字母消消乐吗?难点在哪?
难在两点。第一,棋盘从小到大变化剧烈。10×10 的小棋盘里,很多原本预设的单词还完好无损,你几乎不用动手,扫描一圈就能直接认领。但到了 30×30 的大棋盘,所有预设单词都已经被打乱揉碎了——不主动滑动、重新拼凑,就是零分。
第二,你只有 10 秒时间。
Kimi K2.6 的策略出奇的简单粗暴:贪到极致。Rezel 在赛后分析里透露,Kimi 的逻辑基本就是:
如果没有任何一步能解锁正分单词,就按照字母顺序随便滑——结果造成了一个叫"边缘振荡"的搞笑现象:机器人把空白格在两个位置之间反复推来推去,没有任何进展。
这听起来像是个 Bug,对吧?
但就是这种"不停滑动、不停试"的策略,让 Kimi 在 30×30 大棋盘上碾压了所有对手。它的累计得分为 77 分——全场最高。小棋盘上那些边缘振荡确实让它丢了些分数,但在大棋盘上,当所有模型都面对一片字母废墟时,Kimi 就像那个在自助餐厅里每一盘都夹两筷子的人(生活化类比:你永远不确定哪道菜好吃,但全试一遍总能捞到硬菜),靠训练量和覆盖度把胜率硬扛上去了。
反直觉点:完美主义输了。
第二名的"躺平"策略,和 Claude 的致命沉默
MiMo V2-Pro 拿了第二名,但它的策略跟 Kimi 完全相反:一次都不滑动。
Rezel 在博客里写着:"在代码仓库里能看到 MiMo 的滑动逻辑,但'最佳价值大于零'的触发条件从未激活,所以实际上它一帧都没滑过。" MiMo 的策略是:扫描初始棋盘,找到所有 7 字母以上的现存单词,然后在一个 TCP 包里一口气全部认领。
这就像你去相亲(生活化类比),别人都在聊天试探、慢慢了解对方,MiMo 进来扫一眼房间,发现有 3 个符合要求的直接全部递了个绍信——如果这 3 个刚好都在,它就是全场第一;如果这 3 个压根没来,它直接归零。
结果就是这样:棋盘上还有原始单词的时候,MiMo 赢麻了。棋盘打乱了?零分。最终累计 43 分,第二。
Claude 的败因更致命:它也不滑动。在 25×25 棋盘上还可以扛一扛——因为单词虽然被扰动,但还勉强认得出形状——到了 30×30 完全需要主动拼凑时,Claude 就傻眼了。不滑动,在这个拼字游戏里等于放弃主动构造能力。
GPT-5.5 的策略是最稳妥的一个:每轮大概滑动 120 次,设置了一个上限防止空转,在 15×15 和 30×30 的棋盘上表现都不错。但它的问题也很明显:太保守。这种保守让它拿了第三名,中规中矩。
工程类比:这就像四种不同风格的搜索引擎——Kimi 是做全量召回(把可能相关的全捞出来),MiMo 是做精排(只推头三个最精准的,没了就没了),Claude 是只做已有索引的查询,GPT-5.5 是在两者之间加了个限额。全量召回的代价最高,但在长尾查询(对应这里的大棋盘)上,它赢了。
架构的秘密:为什么 Kimi K2.6 能在 10 秒内算完
现在你可能会想:Kimi K2.6 一次推理要算出这么多步的收益,怎么做到 10 秒内的?
这里就不得不提它背靠的那套架构了。关于 Kimi K2.6 的底层设计,官方尚未全面披露。但从它在比赛中的实际表现来看,有一个方面值得关注:长上下文处理能力。
在 Word Gem Puzzle 里,30×30 的棋盘就是 900 个格子,每个格子的字母、位置、邻接关系、可形成的单词路径——这些信息量足够让一个短视的模型直接内存溢出。Kimi K2.6 在大棋盘上不丢信息,这是它能执行贪婪搜索的前提条件之一。
至于它为何能在高强度贪婪搜索下保持速度——答案很可能藏在架构层,但在官方技术报告发布之前,具体细节还不宜妄下断言。
Hacker News 上有人提出了一个犀利的观点(HN 评论,0 赞,但戳中了要害):"在一个单一的编程挑战中,用解决方案的执行效果来衡量模型——Kimi K2.6 明显是前沿级别的大模型,所以它跟闭源前沿模型在同一梯队并不令人惊讶。虽然开源了权重是好的,但对于我个人这种没法本地部署的人来说,意义不大。"
这条评论抓到了两个关键问题。第一,Kimi K2.6 不是凭空冒出来的黑马——它站在大量工程积累的肩膀上。第二,开源的意义在于透明和研究可复现,但大部分用户根本不关心权重下不下载,他们只在乎能不能用 API 调。
但我想补充另一个角度:这次翻车暴露的是闭源模型的优化偏见。
Claude、GPT-5.5、Gemini 的训练数据可能更偏向"人类典型用法"——少量推理、快速生成、避免浪费 token。这本来没错,因为 API 调用是按 token 计费的,用户不希望看到一个模型花 3 分钟跟棋盘较劲。但这种优化在 Word Gem Puzzle 这种"必须靠大规模反复尝试才能赢"的任务上变成了诅咒。
OpenAI 的 GPT-5.5 加了个滑动上限,Claude 直接不滑动——这些都不是能力的缺陷,而是训练过程中反复强化"别空转、别浪费"的后遗症。换句话说,闭源大厂把模型训练成了一个听话的白领,Kimi 却像个边试边改的工程师。
HN 上还有一个评论(0 赞)问到了成本问题:"很高兴知道结果,但成本多少?不仅是钱,还包括 token 的消耗量。" 这个问题提得特别好,但组织方的回答可能要等后续数据。从策略来看,Kimi K2.6 在大棋盘上用了大量滑动,token 消耗肯定是全场最高。这里就需要权衡:你到底想要胜率,还是想要性价比?
这场比赛的启示不只在 AI 圈。如果你是做产品或者运营的,你可以这样理解:在高度不确定性的任务上(消费者转化预测、推荐系统冷启动、新市场的投放策略),过度追求"效率"和"不出错"可能让你系统性吃亏。
Take-away 1: 给试错留算力冗余。 如果你的模型在面对新用户、新产品、新内容时表现乏力,检查一下是不是训练策略里"惩罚探索行为"太狠了。Kimi 的贪婪算法虽然在小棋盘上做了些无用功,但大棋盘上的回报完全覆盖了这些成本。
Take-away 2: 开源模型在垂直领域的竞争力已经超出预期。 如果你在做一个需要深度定制编程能力的工具(代码助手、自动化测试、DevOps 的根因分析),现在的开源模型可能已经比 GPT-5.5 更好用了。这不是说开源全面碾压闭源,而是说"通用模型集权制"正在碎裂。Kimi K2.6 在 Word Gem Puzzle 上能赢,下一次可能就是你的那个细分赛道。
这次胜利不是偶然。它是针对性优化+合适架构+大量试错换来的。但你不需要造一个 Kimi K2.6 也能用这条逻辑——只要在你的系统里给"贪婪算法"留一点生存空间。
原文:
https://thinkpol.ca/2026/04/30/an-open-weights-chinese-model-just-beat-claude-gpt-5-5-and-gemini-in-a-programming-challenge/HN 讨论:
https://news.ycombinator.com/item?id=47993235