你有没有注意到,这两年每隔几个月就会有人说"国产芯片快追上英伟达了"。
说多了,大家都有点听麻了。毕竟见过太多发布会上的PPT性能——数字很好看,量产是另一回事,实际部署又是另一回事。
但3月22日华为这次发布,值得多看一眼。
不是因为数字漂亮,而是因为这回芯片已经开始卖了。
先说数字
华为在中国合作伙伴大会2026上,正式发布了Atlas 350加速卡,核心是昇腾950PR处理器(Ascend 950PR)。
关键参数:
- FP4算力:1.56 PetaOps,是英伟达H20的2.87倍
- 支持精度:国内唯一支持FP4低精度推理,同时支持FP16、FP8
再补充一个细节:访存颗粒度从512字节降到128字节,小算子访存效率提升4倍。这个参数看起来很技术,但对实际大模型推理来说非常关键——AI的很多任务就是大量的小算子密集运算。
"2.87倍"这个数字背后有没有猫腻?
理性的读者会问:这是自测数据,还是第三方验证的?
坦白说,华为官方数据都是自己测的,比较维度也是选自己最强的FP4对比H20的FP4。英伟达的H20在中国市场是出口管制后的"阉割版",本来就不是英伟达最强的那张牌。
所以如果要公平比较,应该是昇腾950PR对阵英伟达的H200甚至B系列芯片,那个差距还存在。
但这里有一个现实:H200和B100/B200在中国是买不到的。
在中国市场,H20已经是能买到的最强英伟达芯片。昇腾950PR比H20强2.87倍,这个数字的实际意义是:在中国做AI训练和推理,买华为的比买英伟达的可以快将近三倍。
这是有实际意义的突破,不是PPT。
为什么说这次"是真的快了"
有几件事叠加在一起,让这次发布不只是一个数字:
第一,不是预告,是上市销售。
华为官方宣布Atlas 350加速卡正式开始销售,七家核心合作伙伴(昆仑、华鲲振宇、软通华方等)同步推出搭载该卡的服务器整机。这意味着如果你今天有预算,可以订货了。
第二,有大客户跟进。
科大讯飞已经宣布将大模型适配昇腾950PR的算力生态。这不是PPT里的"未来规划",而是具体的商业采购行为。
第三,昇腾的生态在成熟。
华为昇腾现在已经联合伙伴推出了400多款行业一体机,服务客户超过2700家,占国内AI一体机市场80%以上份额。生态越来越扎实,软件层面的适配在追赶CUDA。
从整体格局看,这意味着什么
说一个大背景:2022年之前,中国的大模型公司大量采购英伟达A100/H100。后来出口管制来了,只能买H20。而H20已经是被阉割过的产品,算力打了折,带宽打了折。
这两年国内大模型公司其实一直在"将就"。
昇腾950PR的出现,至少在推理侧,给了国内大模型公司一个"不用再将就"的选择——性价比更高,且没有断供风险。
更重要的是,这件事还在加速。华为的迭代周期在缩短,产能在爬坡,软件生态在补齐。三年前昇腾还是个配角,今天它已经是国内AI算力的主力之一。
一个普通人不会关注但很关键的细节
FP4是什么,为什么重要?
简单说:FP4是一种低精度浮点数格式,用更少的比特表示数字,牺牲一点精度,但换来巨大的速度提升和功耗下降。在大模型推理(比如你用AI对话、生成图片)的场景里,FP4可以让芯片速度翻倍甚至更多,而精度损失对用户体验几乎没有影响。
英伟达的最新芯片(H200、B系列)支持FP4。但在中国买到的H20不支持。
昇腾950PR是国内唯一支持FP4的AI芯片。
这意味着什么?意味着未来国内大模型推理的成本会下降,速度会更快,你用AI工具时的响应速度,背后多了一个新的发动机。
国产芯片这条路,走到哪了?
坦白评估:和英伟达最顶级的B系列相比,昇腾还有差距,尤其在训练侧的综合性能上。
但推理侧已经基本对齐,甚至局部超越。而大多数AI应用的成本大头,恰恰是推理而不是训练。
所以结论是:这条路走到了"能用、可以替代"的阶段,距离"全面追平"还差一段路,但方向已经确定,速度也在加快。
这次不是PPT。这是一块可以买到、可以测试、有客户在用的真实芯片。
在这个时代,这就足够值得认真对待了。
【文末福利】
关注公众号,回复关键词领取:
🔹 回复【机器人】→ 2026人形机器人行业全景图谱