本文基于 Google Cloud Next 2026 上 Acquired 播客主持人 Ben Gilbert 与 David Rosenthal 对 Google AI 与基础设施 SVP Amin Vahdat 与 Gemini 首席科学家 Jeff Dean 的现场访谈(https://youtu.be/BpnJYJmbXcM)整理。
一、核心洞察
读完整场访谈,最值得反复咀嚼的,不是 TPU v8/v8i 的参数,也不是 1750 亿美金的天文数字,而是隐藏在故事背后的八条决策逻辑。它们共同解释了为什么是 Google,而不是其他玩家,在今天这个 AI 时刻仍然手握牌权。
洞察 1:决定 Google AI 命运的,是 2013 年一张幻灯片背面的一道算术题。 Jeff Dean 当年做了一个"信封背后"的思想实验:如果 1 亿用户每天对手机说话 3 分钟,使用最好的语音识别模型,Google 需要多少算力?答案是——把整个 Google 的基础设施再翻一倍。正是这道算术题,逼出了一个仍在改变世界的决定:自己造芯片。
洞察 2:"自己造"不是口号,而是十几年积累出来的肌肉记忆。 2003 年 Google 想要一台 10000 端口、千兆每秒、非阻塞的以太网交换机,所有网络厂商把他们当成笑话。Google 索性自己干,第一版"真的着了火",第二版"勉强能用、所有人都讨厌",第三版才真正改变 Google。TPU 走的,是同一条路。
洞察 3:真正的护城河不是芯片,而是芯片团队和模型团队"住在同一栋楼里"。 研究端有 7 个有希望的方向,硬件端也有 7 个,两边没有 RFQ 文化、没有"客户/供应商"边界,只有"如果你改一下你的方向,我也改一下我的方向,我们一起多探索一格联合空间"。在不同公司之间,这种对话半秒钟就会终止。
洞察 4:高精度是错觉,低精度才是 AI 时代的物理直觉。 神经网络对精度极度宽容——降低精度损失的质量,可以用多 20% 参数补回来。就像高中物理老师说"3π 算 10 就行"——结果惊人地接近真实答案,但工作量只有 1/100。今天前沿模型,全部跑在历史上最低精度的硬件上。
洞察 5:在 AI 系统里,"一切都是瓶颈"。 不是 GPU 不够,是能源、数据中心、混凝土、铜线、太阳能板、核反应堆、TSMC 晶圆、内存、PCB、衬底,甚至一颗 0.57 美元的德州仪器电容(疫情期间一度炒到 500 美元一颗)都能成为瓶颈。AI 是一个把"比特世界"重新拽回"原子世界"的故事。
洞察 6:算力天平正在从训练倾向推理。 2023 年问"算力主要在训练还是推理",答案是训练。2026 年这个答案正在翻转——智能体在后台运行、长程推理、强化学习需要解码 60000 个 token 才能得到一次奖励,推理负载呈指数式增长。
洞察 7:智能体时代,延迟重新成为决定性指标。 过去人们以为 AI 数据中心可以建在任何地方,因为延迟无所谓。但当模型推理时间被压缩 5 倍后,"工具调用"变成了新的瓶颈——ls 一个目录、跑一次 SQL,这些为人类节奏设计的工具开始拖累智能体。延迟,再次回到舞台中央。
洞察 8:这是有史以来最大的技术变革,且变革本身在加速。 Amin 把它和工业革命、电气化、空间时代、信息时代并列,并明确表示——这一次比以往任何一次都更大、更快、更具影响力。"每个病人都有专属医生、每个学生都有专属老师、每种疾病都有解药"——五年内可见。
二、演讲精彩内容回顾
01. 两位主角,两块芯片
主持人 Ben Gilbert 与 David Rosenthal 来自 Acquired 播客——他们去年刚做完一档 12 小时、3 集的 Google 编年史。这次访谈的两位嘉宾级别极重:Amin Vahdat(AI 与基础设施 SVP & 首席技术官)和 Jeff Dean(首席科学家、Gemini 技术负责人,Google 30 号员工)。
舞台上摆着两块新发布的 TPU——v8(训练) 与 v8i(推理)。Amin 现场解释设计哲学:v8 体型更大,但 v8i 在芯片上塞进了更多 SRAM,让 KV cache 这类东西能完整驻留在片上,HBM 与 SRAM 之间传输极快。这一代网络叫 Virgo,凭借 Pathways 与 JAX,单个 Python 进程就能驱动 100 万颗 TPU 协同工作——Ben 评价:"这是我听过最 Google 的事情。"
02. 起源:2013 年那张改变命运的幻灯片
Jeff Dean 把故事拉回 2011-2013 年。 当时 Google 内部已经有一个口口相传的规律:模型变大、数据变多、效果就变好(这就是后来被命名为"Scaling Laws"的东西,但当时只是茶水间的玩笑)。他们在语音识别上观察到——仅靠扩大模型,几个月内做到的进步比此前 20 年所有语音识别研究的总和还多。
Jeff 顺手做了一道算术题:如果 1 亿人每天用 3 分钟最好的语音识别模型,需要多少算力?
"我们需要再造一个 Google 的全部基础设施——只为这一个功能。"
但他敏锐意识到一个关键事实:神经网络推理对低精度极度宽容。它本质是一堆矩阵乘法和向量运算的组合。如果做一颗"极致优秀的低精度线性代数机器",就有希望换来巨大的性能跃升。这就是 TPU 的起点。2017 年 Google 发表 TPU v1 论文,证明它比同期 CPU/GPU 快 30~80 倍,延迟低 15~30 倍。
03. "自己造"基因:从被嘲笑的 10000 端口交换机说起
为什么 Google 不去找 Intel、Broadcom、Nvidia 定制?Amin 讲了一个比 TPU 更早的故事。
2003 年,Google 需要一台 10000 端口、千兆每秒、非阻塞的以太网交换机。当时主流是 100 兆、32 端口。他们发了 RFQ,所有网络厂商一片哄笑:你们疯了。
Google 索性自己干。
- 第三台才真正成功——它不是一个盒子,而是数百个盒子组成的 Clos 重排非阻塞拓扑,彻底改变了 Google 数据中心。
- 今天发布的 Virgo(百万 TPU 网络),是这条路径的逻辑延续。
TPU v1 的故事如出一辙:15 个月,从想法到部署。 而且第一版就能用。Amin 当时跑去找 CFO Patrick Pichette:"我们应该多买一点。""多少?""很多。"他们投机性地多备了一大批,结果全用光了——AlphaGo 对战李世石那场,就是用两机柜 TPU v1 跑的推理。Jeff Dean 后来在数据中心的那个机柜侧面贴上了一块纪念围棋盘。
04. 低精度,AI 时代的物理直觉
Ben 让 Jeff 解释为什么"降低精度"反而是好事。Jeff 用了一个非常优美的类比:
想想小数点后六位的乘法对你而言有多痛苦?对计算机也是一样。如果只用一位小数,你能在同样的芯片面积里塞进多得多的乘法器,并行做更多运算。从内存搬数据到计算单元,再搬回去的开销也大幅减少。这对深度学习和计算机架构师来说,简直是完美组合(the cat's meow)。
David 接着补刀了一个高中物理课的画面——老师把"3π"近似成 10,把所有乘除一路约掉,最后得到一个"近似中惊人精确"的答案。
而现实是:降一点精度,可以通过多加 20% 参数补回质量——这是个划算的交易:模型参数变多,但每个参数所需的位数变少,整体可处理性反而更好。
05. 软硬协同:双向奔赴的 7 与 7
如果空降到一个 TPU 团队和 Gemini 团队的会议,会看到什么?Amin 描述得很生动:
- 双方在联合空间里反复试错——"如果你改一下你的,我也改一下我的,我们能不能凑出一个更好的组合?"
反例: 如果两边在不同公司,研究团队说要 X,硬件团队说"不可能",对话立刻终止。
正例(v8i): 强化学习需要解码超长 token 序列(60000 个)才能得到奖励,对低延迟极其敏感。研究团队找到硬件团队,硬件团队改了网络拓扑——蝶式(Butterfly)拓扑,结果不算大改动,却让解码延迟显著降低。
而判断"哪 4-5 个想法能进下一代芯片"的工具,是高保真模拟器——它能在投片之前就筛掉 90-95% 的候选方案。
06. 2018 年的关键决策:把 TPU 开放给云
最早的 TPU v1 没有对外开放——Google 内部需求都不够用。但 2017 年决定(2018 年发布)将 TPU 接入 Google Cloud。Jeff Dean 一直是开放的坚定推动者。
为什么是 v3?因为 v1 还没经过完整训练验证,v2 才是第一代训练芯片,到 v3 时"这东西真的成了"——Sundar Pichai 亲自在 2018 年宣布了第一代 Cloud TPU。
而内部分配 TPU 永远是个"投资组合"问题:Google 同时拥有云、研究院和 12 个超过 5 亿日活的服务,所有人都在抢同一批芯片。
07. 从 1 万个模型到几百个:大一统的胜利
Pathways 项目早在 2018 年就启动了,目标是训练一个统一的多模态模型。但实施周期极长——巅峰时期 Google 内部有大约 10000 个不同的模型在生产环境里跑(大多是某个父模型的变种)。
今天是多少?几百个,主要使用的是其中少数几个。
为什么这是好事?Amin 解释:当大家都用 transformer 类模型时,硬件团队就可以专注把 transformer 跑到极致,而不再需要在卷积、推荐、广告等不同架构之间分配优化预算。统一架构 = 更高优化集中度。
08. 一切皆瓶颈
主持人问:现在最大的瓶颈是什么?Amin 的回答非常诚实:
每一样都是瓶颈。我相信不管我们没去攻哪一个,那个就会变成事后最遗憾的瓶颈。
清单包括:
- 数据中心——许可证、施工、机电、太阳能板、风机、核反应堆,"一个比特世界正在拉回原子世界"
- 晶圆/封装——TSMC、三星、Intel、内存、PCB、衬底
- 意外瓶颈——疫情期间,一颗 0.57 美元的 TI 电容曾被炒到 500 美元
谈到资本开支:2025 年 850-900 亿美元,2026 年 1750-1850 亿美元——Amin 团队的任务是"物理上把这些东西交付到位"。
09. 推理时代来了,延迟回归
主持人追问:如果是 2023 年提问,算力主要在训练还是推理?
Jeff:训练。Amin:但现在正在翻转。
理由:智能体在后台跑大量任务、消耗海量 token;同时,低延迟成为决定性特征。v8i 在集合通信操作上实现了 5 倍延迟降低,配合更小的网络直径与片上协同加速器(CAE),把单 query(而非批量 query)的吞吐推到极致。
Jeff 进一步指出一个反直觉趋势:当模型时延趋近于零,工具调用反而成了瓶颈。 列目录、跑 SQL——这些工具本来是为人类节奏设计的,但模型每秒能调 100 次。下一个性能战场,将从模型本身转向工具基础设施。
Ben:"以前我以为 AI 数据中心可以放在任何地方,反正延迟不重要。" Amin:"训练和离线推理确实可以;在线推理和 RL 必须靠近用户。"
10. 75% 的 Google 代码由智能体编写
主持人确认了一个 keynote 数字——Google 内部 75% 的代码由 AI 编写(一年前是 50%)。
Jeff 解释发展曲线:
- 过去四个月急剧加速——因为模型现在能完成数小时甚至数天的复杂任务
- 你可以说"按这个英文规格写一个模块",模型会自动写出代码、测试,全部完成
那么剩下永远不会被替代的 1% 是什么?
"知道该解决什么问题。这才是人类不可替代的地方。" —— Jeff Dean
11. 比互联网更大的变革
最后一题:你们都经历过互联网、移动、云的浪潮,这次 AI 浪潮怎么对比?
Amin:
1993 年我看到 NCSA Mosaic 时觉得世界变了。但从那一刻到互联网真正改变世界,花了大约 10 年。 这一次,我曾说过"每个病人都有专属医生、每个学生都有专属老师、每种疾病都有解药"——这听起来像科幻,但现在不像了。未来 5 年,我们就会看到大部分这些。这是我见过最大、最快、影响最深的变革。
Jeff:
它比之前任何一次都大。因为它适用于太多事——更好的医疗、更好的教育、加速科学本身。如果能让自动化实验"无人在环"地探索复杂的科学空间,那将带来跨学科的连锁突破。 我们的责任是推动 AI 中对所有人最有益的部分,并合力消除负面的部分。
Amin 的最后一句留言(致基础设施工程师):
不管未来怎么变,它都需要海量算力。而且,专用化(specialization)会变得越来越重要。
写在最后
回看这场访谈,最有冲击力的不是任何单一技术细节,而是一个朴素而稀缺的信念——
"先做信封背面的算术。然后,自己造。"
从 2003 年的 10000 端口交换机,到 2013 年那张语音识别 PPT,再到 2026 年的 v8i 和 100 万颗 TPU 网络——Google 在过去二十年用一种极少见的耐心,把"我们自己来"贯彻到了底。当所有人都在抢 Nvidia 现货的今天,这种耐心,就是最深的护城河。
而对每一个置身 AI 浪潮中的从业者来说,这场访谈最值得反复回看的提醒可能是 Jeff Dean 那句最后的话:
"对模型而言最难的事,是知道该解决什么问题。"
这恰恰是人——以及那些保留人类好奇心与判断力的组织——最不容易被替代的地方。