GPT-5.4来了:它能操控你的电脑,比你更会干活,而且已经上线了
昨天发生了一件事,可能比你刷到的任何热搜都重要,但大多数人还没意识到。
OpenAI发布了GPT-5.4。
如果你的第一反应是"又更新了?跟我有什么关系"——那请你花三分钟看完这篇文章。因为这次不是什么聊天变聪明了、写作文更通顺了之类的小打小闹。
这次,AI学会了一件事:像人一样坐在电脑前,替你干活。
不是比喻。不是概念。不是PPT里画的未来蓝图。是现在,此刻,已经上线的功能。
一、它能"看见"你的屏幕,然后自己动手
GPT-5.4最核心的突破,叫做原生计算机使用能力(Native Computer Use)。
以前的AI是怎么帮你工作的?你说"帮我写封邮件",它吐出一段文字,你自己复制粘贴到邮箱里,自己填收件人,自己点发送。它本质上就是一个高级文字生成器,所有的"执行"都得靠你自己。
GPT-5.4不一样了。它能直接看到你的电脑屏幕——通过截图识别每一个按钮、每一个输入框、每一个菜单选项。然后它自己操控鼠标和键盘,点击、输入、切换窗口、完成操作。
打开浏览器搜资料?它来。登录OA系统填周报?它来。切到Excel整理数据,再打开Outlook发个汇报邮件,最后到日历上订个会议室?全部它来。
你甚至不需要告诉它每一步该怎么做。你只需要说一句"把上周的销售数据整理好发给张总",它自己规划路径,自己一步步执行,自己验证结果。
这不是Demo演示。这是已经通过API开放给开发者的真实能力。
二、一个让人不太舒服的数字:75%
OpenAI在一个叫OSWorld-Verified的测试中验证了这个能力。这个测试模拟的是真实电脑操作环境——不是选择题,不是文字问答,而是让AI实打实地在电脑上完成各种任务。
GPT-5.4拿到了75%的成功率。
作为参照:
人类的平均水平是72.4%。
之前最强的AI(Anthropic的Claude Opus 4.6)是72.7%。
也就是说,GPT-5.4操作电脑的熟练程度,正式超越了人类平均水平。
这个数字需要你停下来想一想。不是"接近",不是"差不多",是超过了。一个AI,在"坐在电脑前干活"这件最基础的现代职场技能上,已经比大多数人做得更好了。
而且这只是第一代。
你觉得明年这个数字会是多少?后年呢?
三、83%的职业任务,AI已经做得比专业人士好
如果说操控电脑是GPT-5.4的"手",那它的"脑子"同样完成了一次恐怖的升级。
OpenAI设计了一套叫GDPval的职业能力测试,覆盖了44种现实世界的职业——不是那种"考考你逻辑题"的学术基准,而是真枪实弹的工作任务。销售要做演示PPT,会计要建财务模型,医疗要排急诊班表,制造业要画生产流程图,法律要分析合同条款。
结果?GPT-5.4在83%的任务对比中,达到或超过了行业专业人士的水平。
83%。不是百分之八十三的"简单任务",是横跨44个职业、涵盖各种复杂度的综合评估。
法律领域单独拿出来看更夸张——在BigLaw Bench测试中(模拟大型律所的实际工作),GPT-5.4拿到了91分。它在处理复杂交易分析、长合同审核方面的表现,已经超越了大多数初级甚至中级律师的水准。
再看一个第三方的评价。专业人才平台Mercor的CEO说了一句话,大意是:GPT-5.4特别擅长完成"长周期交付物"——比如从零搭建一套幻灯片、一个财务模型、一份法律分析报告——而且速度更快、成本更低。
请注意,他说的不是"辅助完成",是"完成"。
一年前我们还在讨论"AI能不能帮我写个初稿",现在的问题已经变成了"AI能不能直接替我交作业"。答案是:在相当多的场景下,可以了。
四、它变聪明的方式,可能比"变聪明"本身更可怕
GPT-5.4还有几个升级,单独看可能不够震撼,但放在一起看,拼出了一个非常清晰的信号——AI正在系统性地补齐自己的所有短板。
幻觉大幅降低。所谓"幻觉"就是AI一本正经地胡说八道。这一直是AI最被诟病的问题,也是很多人说"AI不靠谱"的核心原因。GPT-5.4把单条信息的事实性错误率降低了33%,整体回复出错概率降低了18%。OpenAI称这是他们有史以来"最讲真话"的模型。
你可能觉得33%也不算什么。但要知道,AI的幻觉问题在过去两年里几乎是行业公认的"硬骨头",进步一直很缓慢。一下子砍掉三分之一,这在技术上是一个巨大的跨越。它意味着AI从大部分时候靠谱但偶尔离谱正在进化为绝大部分时候都靠谱。
当AI靠谱到一定程度,你就没有理由不把工作交给它了。
100万Token上下文窗口。100万Token大约等于750万个英文单词。什么概念?一整套《哈利·波特》系列加起来大约108万个英文单词,100万Token能把它读将近七遍。这意味着GPT-5.4可以一次性处理极其庞大的文档——几十份合同、一整年的财报、一个大型项目的全部技术文档——然后在这个巨大的信息池里做推理、找关联、给结论。
以前你得雇一个团队花一周做的事,现在一个API调用,几分钟搞定。
Token效率暴涨。GPT-5.4解决同样问题需要的Token显著少于前代,生成速度提升了1.5倍。这直接关系到两件事:第一,成本降了;第二,速度快了。更聪明,还更快更便宜——这是最可怕的组合。
Tool Search机制。这个听起来最技术化,但可能是影响最深远的一个。以前AI使用工具(搜索、数据库、计算器等)时,需要把所有工具的说明书一次性塞进记忆里,工具多了就"脑子不够用"。Tool Search让AI按需加载——需要什么工具就临时调取什么工具的说明,用完释放。Token消耗减少了47%。
为什么这很重要?因为一个真正能自主工作的AI agent,必须能同时协调十几个甚至几十个工具。以前的方案会被信息过载搞崩溃,现在这个瓶颈被打通了。这意味着AI从单任务助手进化为多任务自主执行者的最后一块拼图,正在被补上。
五、所有升级指向同一个方向:AI不再是工具,它在变成"员工"
把上面这些能力放在一起,你会看到一个非常清晰的趋势。
以前的AI是这样的:你问它问题,它回答。你给它任务,它输出文字。你来判断对不对、好不好,你来执行最终的动作。AI是工具,人是主体。
GPT-5.4指向的方向完全不同:
你给它一个目标,它自己规划步骤,自己操作电脑执行,自己在100万Token的上下文里翻找信息,自己选择需要的工具,自己验证结果——中间你甚至可以不用管它。
这不是"工具"了。这是一个"数字员工"。一个不需要睡觉、不需要社保、不需要管理、不会闹情绪、每小时成本可能只有几美元的数字员工。
而且它现在做得比大多数真人员工更好——至少在83%的标准化职业任务上是这样。
这里我想说一句可能不太好听但必须说的话:如果你的工作内容主要是在电脑上按流程操作——填表、做报告、整理数据、写邮件、排日程、做PPT——那GPT-5.4就是专门冲着你来的。
不是五年后。不是等"AI再成熟一些"。是现在。
六、普通人还有什么牌可以打?
说到这里,我知道很多人会焦虑。但焦虑不是目的,看清现实才是。
GPT-5.4确实强,强到让人不舒服。但"强"不等于"什么都能干"。至少目前,有几件事是它做不到的:
它无法处理那些需要深度人际关系和情感判断的工作——安慰一个崩溃的客户、在饭局上读懂对方的弦外之音、在团队里凝聚人心。
它无法应对真正的"非标准化"场景——那些没有先例、没有流程、需要在混沌中创造新方案的时刻。
它无法替代"为结果负责"这件事——AI可以给出建议,但签字承担后果的还得是人。
但这些"做不到"的边界在快速收缩。去年它还做不到操控电脑,今年就做到了。去年它还在专业任务上输给人类,今年就赢了。
所以真正的问题不是"AI能不能取代我",而是"我能不能跑得比AI进化的速度更快"。
七、最让人焦虑的,不是AI变强了
最后说一点可能最扎心的观察。
GPT-5.4发布的当天,科技圈炸了。但你打开微博、朋友圈、抖音看看,绝大多数人在讨论什么?明星八卦、综艺节目、打折促销。
最让人焦虑的不是AI变强了,而是大多数人根本没意识到AI在变强。
当一个能操控电脑、超越人类平均水平的AI已经上线的时候,大部分人连它叫什么名字都不知道。等到他们注意到的时候,可能是因为公司通知他们——你的岗位被"优化"了。
这不是贩卖焦虑。这是2026年3月5日正在发生的事实。
GPT-5.4已经来了。你准备好了吗?