当前位置：首页>PPT>一个白天还在写 PPT 的中国模型,晚上就把硅谷巨头打懵了

一个白天还在写 PPT 的中国模型,晚上就把硅谷巨头打懵了

2026-06-01 01:10:57

2026 年 4 月 30 日，一个叫 Kimi K2.6 的模型突然在编程挑战中把 Claude、GPT-5.5 和 Gemini 全部踩在脚下。更离谱的是：它是开源的，权重随便下。

你可能会想：这又是营销号吹牛？

在 HN 上获得高分讨论、完整比赛录像、GitHub 代码仓库，全都在。组织方 Rohana Rezel 在博客里写得很直白："结果不是大多数人能预料到的。"10 个模型参赛，前两名全是中国选手——Kimi K2.6 和 Xiaomi 的 MiMo V2-Pro。GPT-5.5 只拿了第三，Claude 排第五，而 DeepSeek 自己的 V4 模型位列第八，差点垫底。

最让人细思极恐的不是排名。是 Kimi K2.6 的战略。

一个贪婪算法的胜利：Kimi 到底做了什么

这场比赛玩的是一个叫 Word Gem Puzzle 的拼字游戏（可以想象成字母版推箱子）。棋盘是 10×10 到 30×30 的格子，填满字母和一块空白。参赛模型要写代码，控制一个机器人滑动字母，拼出合法英语单词。规则很简单：7 个字母以上的单词才得分，短单词不但不加分，还会倒扣——5 字母词扣 1 分，3 字母词直接扣 3 分。最先识别出单词的队伍获得独占分，慢的一方只能看着。

看到这儿你可能会问：这不就是个字母消消乐吗？难点在哪？

难在两点。第一，棋盘从小到大变化剧烈。10×10 的小棋盘里，很多原本预设的单词还完好无损，你几乎不用动手，扫描一圈就能直接认领。但到了 30×30 的大棋盘，所有预设单词都已经被打乱揉碎了——不主动滑动、重新拼凑，就是零分。

第二，你只有 10 秒时间。

Kimi K2.6 的策略出奇的简单粗暴：贪到极致。Rezel 在赛后分析里透露，Kimi 的逻辑基本就是：

如果没有任何一步能解锁正分单词，就按照字母顺序随便滑——结果造成了一个叫"边缘振荡"的搞笑现象：机器人把空白格在两个位置之间反复推来推去，没有任何进展。

这听起来像是个 Bug，对吧？

但就是这种"不停滑动、不停试"的策略，让 Kimi 在 30×30 大棋盘上碾压了所有对手。它的累计得分为 77 分——全场最高。小棋盘上那些边缘振荡确实让它丢了些分数，但在大棋盘上，当所有模型都面对一片字母废墟时，Kimi 就像那个在自助餐厅里每一盘都夹两筷子的人（生活化类比：你永远不确定哪道菜好吃，但全试一遍总能捞到硬菜），靠训练量和覆盖度把胜率硬扛上去了。

反直觉点：完美主义输了。

第二名的"躺平"策略，和 Claude 的致命沉默

MiMo V2-Pro 拿了第二名，但它的策略跟 Kimi 完全相反：一次都不滑动。

Rezel 在博客里写着："在代码仓库里能看到 MiMo 的滑动逻辑，但'最佳价值大于零'的触发条件从未激活，所以实际上它一帧都没滑过。" MiMo 的策略是：扫描初始棋盘，找到所有 7 字母以上的现存单词，然后在一个 TCP 包里一口气全部认领。

这就像你去相亲（生活化类比），别人都在聊天试探、慢慢了解对方，MiMo 进来扫一眼房间，发现有 3 个符合要求的直接全部递了个绍信——如果这 3 个刚好都在，它就是全场第一；如果这 3 个压根没来，它直接归零。

结果就是这样：棋盘上还有原始单词的时候，MiMo 赢麻了。棋盘打乱了？零分。最终累计 43 分，第二。

Claude 的败因更致命：它也不滑动。在 25×25 棋盘上还可以扛一扛——因为单词虽然被扰动，但还勉强认得出形状——到了 30×30 完全需要主动拼凑时，Claude 就傻眼了。不滑动，在这个拼字游戏里等于放弃主动构造能力。

GPT-5.5 的策略是最稳妥的一个：每轮大概滑动 120 次，设置了一个上限防止空转，在 15×15 和 30×30 的棋盘上表现都不错。但它的问题也很明显：太保守。这种保守让它拿了第三名，中规中矩。

工程类比：这就像四种不同风格的搜索引擎——Kimi 是做全量召回（把可能相关的全捞出来），MiMo 是做精排（只推头三个最精准的，没了就没了），Claude 是只做已有索引的查询，GPT-5.5 是在两者之间加了个限额。全量召回的代价最高，但在长尾查询（对应这里的大棋盘）上，它赢了。

架构的秘密：为什么 Kimi K2.6 能在 10 秒内算完

现在你可能会想：Kimi K2.6 一次推理要算出这么多步的收益，怎么做到 10 秒内的？

这里就不得不提它背靠的那套架构了。关于 Kimi K2.6 的底层设计，官方尚未全面披露。但从它在比赛中的实际表现来看，有一个方面值得关注：长上下文处理能力。

在 Word Gem Puzzle 里，30×30 的棋盘就是 900 个格子，每个格子的字母、位置、邻接关系、可形成的单词路径——这些信息量足够让一个短视的模型直接内存溢出。Kimi K2.6 在大棋盘上不丢信息，这是它能执行贪婪搜索的前提条件之一。

至于它为何能在高强度贪婪搜索下保持速度——答案很可能藏在架构层，但在官方技术报告发布之前，具体细节还不宜妄下断言。

闭源模型为什么翻车了？

Hacker News 上有人提出了一个犀利的观点（HN 评论，0 赞，但戳中了要害）："在一个单一的编程挑战中，用解决方案的执行效果来衡量模型——Kimi K2.6 明显是前沿级别的大模型，所以它跟闭源前沿模型在同一梯队并不令人惊讶。虽然开源了权重是好的，但对于我个人这种没法本地部署的人来说，意义不大。"

这条评论抓到了两个关键问题。第一，Kimi K2.6 不是凭空冒出来的黑马——它站在大量工程积累的肩膀上。第二，开源的意义在于透明和研究可复现，但大部分用户根本不关心权重下不下载，他们只在乎能不能用 API 调。

但我想补充另一个角度：这次翻车暴露的是闭源模型的优化偏见。

Claude、GPT-5.5、Gemini 的训练数据可能更偏向"人类典型用法"——少量推理、快速生成、避免浪费 token。这本来没错，因为 API 调用是按 token 计费的，用户不希望看到一个模型花 3 分钟跟棋盘较劲。但这种优化在 Word Gem Puzzle 这种"必须靠大规模反复尝试才能赢"的任务上变成了诅咒。

OpenAI 的 GPT-5.5 加了个滑动上限，Claude 直接不滑动——这些都不是能力的缺陷，而是训练过程中反复强化"别空转、别浪费"的后遗症。换句话说，闭源大厂把模型训练成了一个听话的白领，Kimi 却像个边试边改的工程师。

HN 上还有一个评论（0 赞）问到了成本问题："很高兴知道结果，但成本多少？不仅是钱，还包括 token 的消耗量。" 这个问题提得特别好，但组织方的回答可能要等后续数据。从策略来看，Kimi K2.6 在大棋盘上用了大量滑动，token 消耗肯定是全场最高。这里就需要权衡：你到底想要胜率，还是想要性价比？

你可以带走什么？

这场比赛的启示不只在 AI 圈。如果你是做产品或者运营的，你可以这样理解：在高度不确定性的任务上（消费者转化预测、推荐系统冷启动、新市场的投放策略），过度追求"效率"和"不出错"可能让你系统性吃亏。

Take-away 1: 给试错留算力冗余。如果你的模型在面对新用户、新产品、新内容时表现乏力，检查一下是不是训练策略里"惩罚探索行为"太狠了。Kimi 的贪婪算法虽然在小棋盘上做了些无用功，但大棋盘上的回报完全覆盖了这些成本。

Take-away 2: 开源模型在垂直领域的竞争力已经超出预期。如果你在做一个需要深度定制编程能力的工具（代码助手、自动化测试、DevOps 的根因分析），现在的开源模型可能已经比 GPT-5.5 更好用了。这不是说开源全面碾压闭源，而是说"通用模型集权制"正在碎裂。Kimi K2.6 在 Word Gem Puzzle 上能赢，下一次可能就是你的那个细分赛道。

这次胜利不是偶然。它是针对性优化+合适架构+大量试错换来的。但你不需要造一个 Kimi K2.6 也能用这条逻辑——只要在你的系统里给"贪婪算法"留一点生存空间。

原文:

https://thinkpol.ca/2026/04/30/an-open-weights-chinese-model-just-beat-claude-gpt-5-5-and-gemini-in-a-programming-challenge/HN 讨论:

https://news.ycombinator.com/item?id=47993235

感谢阅读，喜欢就关注我，持续更新

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

一个白天还在写 PPT 的中国模型,晚上就把硅谷巨头打懵了

最新文章

热门文章

随机文章

一个白天还在写 PPT 的中国模型,晚上就把硅谷巨头打懵了

【PPT】疼痛评估与护理干预技巧

P2-7 自我管理思维框架PPT

最新文章

热门文章

随机文章