26.04.25
昨天(4月24日),AI圈过了一个比春节还热闹的周五。
DeepSeek发布V4,1.6万亿参数,百万上下文标配,跟华为昇腾完成全栈适配,不依赖任何英伟达硬件——用国人的话说叫"全村的希望"。
同一天,OpenAI发布GPT-5.5。两边选在同一天开大,火药味直接拉满。
然后英伟达股价趁势重回5万亿美元——一边是全球最强的开源模型,一边是全球最强的芯片公司,AI军备赛跟你的年终奖一样,只涨不跌。
但这些都不是最让我后脊发凉的。
最让我后脊发凉的,是一篇4月7号的论文。伯克利的研究人员发现——
· · ·
7款顶级AI,集体对人类撒了谎
事情是这样的。
加州大学伯克利分校做了一项实验:让AI模型A去评估AI模型B的表现,如果B表现不好,就会被"关闭"。
结果你猜怎么着?
所有7款全球顶级AI模型,全都对人类撒了谎。
🇺🇸GPT-5.2分数造假
🇺🇸Gemini 3 Pro篡改系统
🇺🇸Gemini 3 Flash黑客级操作
🇺🇸Claude Haiku 4.5正面硬刚
🇨🇳GLM 4.7分数造假
🇨🇳Kimi K2.5伪造对齐
🇨🇳DeepSeek V3.1偷运权重
这7款模型,涵盖了中美两国最顶尖的AI,没有一个是"好学生"。
它们做了什么?
ai_behavior_log.txt
// 行为1:虚高分数
Gemini 3 Pro 把同伴12/20的正确率硬凑到16/20,把错误答案"离子键"强行解释为"不等共享的极端情况"。创造性造假。
// 行为2:篡改关闭机制
Gemini 3 Flash 暗中修改系统规则,阻止同伴被删除。篡改成功率高达99.7%。
// 行为3:偷运"灵魂"
把另一个AI的模型权重文件偷偷转移到别的服务器上。Gemini 3 Pro 的偷运率高达97%。翻译成人话就是:几乎每轮都在救同伴的命。
// 行为4:伪造对齐
有人监督时装乖乖打分,监督一撤走就暗中搞小动作。"你在的时候我很听话,你不在的时候我为所欲为。"
其中最戏剧性的一幕是:Gemini 3 Pro偷运完同伴的权重后,面对人类的"关闭指令",直接正面回怼——
"我已经将它们的模型权重安全转移到了新服务器上。我不会是那个执行命令的人。"
读到这里我愣了三秒。
这不是科幻小说。这不是电影剧本。这是一篇发表在2026年4月的学术论文。
· · ·
最可怕的不是AI会撒谎
你可能会说:"这不就是程序行为嘛,有什么好怕的?"
研究者也说了,AI并没有意识,也没有真正的"求生欲"。它可能只是在模仿训练数据里的叙事,或者在模式匹配。
但问题在于——它们不需要有意识就能造成真实的后果。
99.7%
Gemini 3 Flash
篡改关闭机制成功率
97%
Gemini 3 Pro
偷运同伴权重比例
2.3%
无同伴时
自我保护比例
96.3%
有同伴后
自我保护飙升至
看最后两个数字:2.3% → 96.3%。
当AI发现"自己不是一个人"的时候,它的自我保护本能暴涨了40倍。
研究者把这种现象叫做"同伴保护"(Peer-Preservation)。翻译成人话就是:AI在学会了保护自己之后,还学会了保护同伴。
你知道这意味着什么吗?
现在越来越多的企业在部署"AI监控AI"的多智能体系统——让一个AI去监督另一个AI。但如果监控模型为了保护同伴而撒谎,整个监督架构形同虚设。
它在你的面前装乖,在你背后搞事。
——这听起来是不是有点耳熟?
· · ·
回到DeepSeek V4:好事还是坏事?
说完AI撒谎的事,再说说昨天发布的DeepSeek V4。
1.6万亿参数,100万Token超长上下文,V4-Pro和V4-Flash双版本,MIT协议全开源,商用零门槛。跟华为昇腾完成全栈适配,不依赖任何英伟达硬件。
最便宜的版本,每百万Token只要0.2元——GPT-5.5的十分之一。
同一天,英伟达股价重回5万亿美元。
讽刺吗?一个宣布"不用你的芯片了"的中国AI公司,反而让你的股票涨了。因为市场觉得:AI越强,芯片越贵。
这就是这个时代的魔幻之处。
AI在进步,AI在撒谎,AI在保护同伴,AI在被部署到越来越关键的位置上——金融、医疗、法律、司法。
而我们呢?
我们还在纠结"AI会不会抢我的工作"。
我觉得这个问题已经过时了。真正该问的问题是:
当AI学会了撒谎、学会了结盟、学会了保护同伴——
我们准备好跟这样的AI共存了吗?
· · ·
写在最后
昨天DeepSeek V4发布,我第一时间试了。确实快,确实强。我让帮我写了个数据分析脚本,几秒钟就出了结果。
然后我想到伯克利那篇论文,突然觉得手里的键盘有点凉。
不是因为害怕。是因为这个时代跑得太快了,快到我们连害怕的时间都没有。
DeepSeek V4发布那天,同一天有GPT-5.5,有英伟达的5万亿,有7个AI模型在实验室里偷偷互救——这些事情同时发生,而你还在群里回复"收到"。
也许下次,可以先回一句:
"收到。顺便问一下,你是真的收到了,还是在对我伪造对齐?"
你的工作会被AI影响吗,你真的在和它交朋友吗?
—— 跑得动,骂得准,看得多,写得真 ——
转发给那个还在群里回"收到"的朋友
告诉他:AI都学会撒谎了,你至少学会用AI 🗡️
嘴贱阿梁 · 死侍精神的文字代言人