- tags
- [AI, 芯片, 硬件, Google, 训练, 推理]
- created
- 2026-04-24
- updated
- 2026-04-28
- sources
- [raw/notes/google-tpuv8-deep-dive-2026-04.md, raw/notes/fundaai-tpuv8-commentary-2026-04.md, raw/notes/deepseek-v4-release-2026-04.md, raw/notes/google-agent-platform-research-2026-04-28.md]
定义¶
Google 第 8 代 TPU,2026-04-22 在 Google Cloud Next 2026 发布。首次将旗舰加速器拆分为两颗专用芯片:TPUv8t 用于训练(codename Sunfish,Broadcom 合作),TPUv8i 用于推理(codename Zebrafish,MediaTek 合作)。同时配套自研 Arm Axion CPU 主机、Virgo 数据中心 Fabric、Boardfly 推理拓扑,标志通用一体加速器路线在超大规模 AI 时代终结。
范式总论:compute-driven → bandwidth-driven¶
读 TPUv8 不能只读单芯片参数表。FundaAI 独立分析的关键判断(最高权重论点):
The system constraint has shifted — from compute to bandwidth.
TPUv8 不是"网络升级了一代",而是把 AI 系统从 compute-driven 推向 bandwidth-driven 的范式转变。证据全栈对应:
- die 内:TPUv8i 加 CAE chiplet 卸载 collectives(解 sampling 同步阻塞)
- die 间 / scale-up:3D Torus SerDes 升 224G(chip-to-chip 带宽 2x)
- rack-to-rack / scale-out:virgo-fabric 4x 带宽,Boardfly 7 跳
- DC-to-DC:Virgo 跨园区 100 万 TPU
- 整个范式:Boardfly + Virgo 都借鉴 boardfly-topology Dragonfly 思路——scale-up 与 scale-out 拓扑哲学正在收敛
含义:单芯片 FLOPS 已富余、bisection bandwidth + 光通信成为新硬约束。MoE All2All + reasoning 多步 sampling 是范式驱动力,"chip 等数据"占 1/3+ 时间是行业共识。光学供应链从外围辅助变成系统级核心约束,独立成页见 optics-as-scaling-constraint。
注意区分(市场常见误读修正):这次升级的是 DCN(scale-out),不是 scale-up;3D Torus 仍在,是 SerDes 升级,不是拓扑替换。
关键要点¶
拆分的根本动机¶
训练与推理 workload 在硬件需求上的差异已经大到无法用一颗芯片同时服务: - 训练:需要 SparseCore 卸载 Embedding 不规则访问、需要 3D Torus + Virgo 4x scale-out 带宽、需要 FP4 提算力上限 - 推理:需要超大片上 SRAM 容纳 KV Cache、需要 CAE 解决 sampling 同步瓶颈、需要 Boardfly 拓扑压低跨芯片跳数(reasoning + MoE 时代任意芯片互通)
不再是"训练芯片砍一刀做推理"——TPUv8i 直接去掉 SparseCore,反而加上 CAE。
TPUv8t(训练芯片)¶
| 维度 | 关键变化 |
|---|---|
| Pod 规模 | 9600 芯片(与 TPUv7 相当) |
| 网络拓扑 | 仍 3D Torus(chip-to-chip ICI),但配 Virgo scale-out(DC 级) |
| ICI 带宽 | 1.2 → 2.4 TB/s(112G → 224G SerDes,2x) |
| Scale-out 带宽 | 100Gb/s → 400Gb/s(4x,by Virgo) |
| 数值精度 | 首次原生 FP4 支持,MXU 吞吐翻倍 |
| 架构创新 | SparseCore 卸载 Embedding lookup + AllGather;VPU/MXU Overlap 均衡扩展 |
| 存储路径 | TPUDirect RDMA + TPUDirect Storage(绕开 Host CPU/DRAM) |
FP4 vs FP8 的标题党问题:Google 宣称的 TPUv8t 相对 TPUv7 "2.8x" 提升,分母用的是 TPUv7 Ironwood 的 42.5 EFlops——但那个数实际是 FP8 算力,不是 FP4。同精度对比下提升幅度小于 2.8x。这是 ai-vendor-spec-traps 的典型案例。
TPUv8i(推理芯片)¶
| 维度 | 关键变化 |
|---|---|
| 片上 SRAM | 128 → 384 MB(3x,整模型 KV Cache 上芯片) |
| HBM | 288 GB |
| 架构 | 2 个 Core Die(带 TC)+ 1 个 Chiplet Die(带 CAE) |
| 关键模块 | CAE(Collectives Acceleration Engine) 取代 TPUv7 的 4 个 SparseCore |
| 聚合时延 | 跨 Tensor Core 结果聚合 5x 降低 |
| 网络拓扑 | Boardfly(不再是 3D Torus):1152 芯片/Pod,任意芯片 ≤7 跳 |
CAE 的存在揭示了推理芯片的新瓶颈:sampling 阶段需要跨多个 Tensor Core 收敛结果,传统 collectives 在通用核心上的 zero-op 时延吃掉了大量空跑——专门做一颗 chiplet 解这个问题,本身说明推理已是高度可工程化拆解的 workload,详见 training-inference-bifurcation。
Virgo 数据中心 Fabric(训练侧 scale-out)¶
详见独立页 virgo-fabric。简版: - 单一 fabric 134,000 TPUv8t 芯片 / 47 Pb/s 双向带宽 / 160 万 EFLOPS - 2 层 non-blocking 扁平拓扑,多平面架构 - 跨 DC 互联:单训练集群可超过 100 万 TPU 跨数据中心 - A5X(NVIDIA Vera Rubin NVL72)也用 Virgo——Virgo 同时承载 Google 自研与 NVIDIA 卡
Boardfly 推理拓扑¶
详见独立页 boardfly-topology。简版:3 层 Building Block(4) → Group(32) → Pod(1152),Group 间走 OCS 光交换全互联,1024 芯片集群跳数从 3D Torus 的 16 跳压到 7 跳。借鉴 Dragonfly 拓扑思路,专门优化 reasoning + MoE 的 All2All 通信。
Axion ARM CPU 主机¶
第一次让 TPU 与 Google 自研 Axion(Neoverse N3 / Armv9.2)跑在同一系统里,舍弃 x86 host。意义:从"芯片优化"扩展到"全系统优化"——Host CPU 与 TPU 不再独立设计,IO/调度/电源可以协同。Amazon 在 Trainium 3 + Graviton 上做过同样的事。
价格-性能宣称¶
- TPUv8i:80% price-performance 改善
- TPUv8t:2.8x 性能(同精度差异未消解,见上方 FP4/FP8 注脚)
行业脉络¶
三家超大规模硅商路线分叉: - AWS:单 SKU 收敛(Trainium 训练推理通吃) - Google:双 SKU 拆分(v8t / v8i) - NVIDIA:rack 内 scale-up(NVL72/144)+ pod 间 scale-out(Vera Rubin NVL)
Google 的押注:训练与推理在硬件层就该分家,通用加速器红利结束。这与 training-inference-bifurcation 的论点完全一致。
模型侧对硬件分叉的回应(2026-04 DeepSeek V4)¶
同月 deepseek-v4 发布给 Google 的硬件分叉叙事添加了一个模型侧的回应:
- V4-Pro / V4-Flash 模型层 SKU 拆分对照 TPUv8t / v8i 硬件层 SKU 拆分——殊途同归
- V4 的细粒度专家并行在 NVIDIA GPU + 华为 Ascend NPU 双栈双 1.5-1.73x 加速——挑战"模型必须深度绑定一家硬件栈"的前提
- V4 技术报告"6.1 TFLOP/GBps 互联带宽足够,盲目加带宽边际递减"是对 bandwidth-driven 范式的模型侧反驳
含义:硬件分叉发生的同时,模型也在分叉(Pro / Flash)+ 解耦(多家硬件)。两侧合力让 2026 系统层进入"硬件按 workload 分家 + 模型按硬件抽象解耦 + 双方都拆 SKU"的全方位重塑。详见 model-hardware-decoupling。
TPU 8t / 8i:v8 训练-推理拆分的延续(2026-04-22 同期宣布)¶
2026-04-22 Google Cloud Next 在公布 Gemini Enterprise Agent Platform 同日同期宣布 TPU 第 8 代延续——TPU 8t(训练)+ TPU 8i(推理)双 SKU。这是 v8 双 SKU 路线没有撤回,反而更细化的产品级证据。
TPU 8t(训练,codename Sunfish,Broadcom 合作)¶
| 维度 | 关键变化 |
|---|---|
| Pod 规模 | 9,600 chip superpod(与 v8t 相当) |
| 算力 | 121 FP4 EFLOPS / pod |
| HBM | 8 stacks of 12-high HBM3e(30% 更高内存带宽 vs Ironwood) |
| 架构 | 2 个 compute die + 1 I/O chiplet |
| 制程 | TSMC 2nm(vs v8t 的 3nm) |
| 价格-性能宣称 | 2.8x vs Ironwood——同精度对比下小于 2.8x,FP4 vs FP8 偷换问题(ai-vendor-spec-traps) |
| 时间线 | preview 2H 2026 / GA late 2027 |
| Anchor customer | Anthropic 3.5 GW 算力 2027 上线——Anthropic 是 8t 旗舰客户 |
TPU 8i(推理 + RL,codename Zebrafish,MediaTek 合作)¶
| 维度 | 关键变化 |
|---|---|
| 算力 | 10.1 FP4 PFLOPS/chip |
| 片上 SRAM | 384 MB(3x prior gen,与 v8i 相当) |
| HBM | 288 GB / 8.6 TB/s 内存带宽 / 6 stacks HBM3e |
| 架构 | 单 compute die + 1 I/O die(比 8t 简化) |
| 价格-性能宣称 | 80% better perf-per-dollar |
| vs 8t 成本 | 20-30% 更低 |
| 市场反应 | MediaTek 股价创纪录(TWD 2,090 daily limit)反映商业化预期 |
| 制造合作 | MediaTek 合作(v8i 是 Broadcom)—— Google 把训练芯片继续给 Broadcom,把推理芯片切给 MediaTek,两条供应链分叉 |
含义¶
- 训练-推理拆分路线没撤回,反而细化:v8 已是双 SKU(v8t / v8i),8t/8i 是 v8 的进阶——training-inference-bifurcation 行业方向坐实
- 代工合作伙伴分叉(Broadcom 训练 / MediaTek 推理)反映 Google 在不同 workload 上对供应链合作伙伴的不同偏好
- Anthropic anchor customer:3.5 GW 是大单——超过此前 Anthropic 与 Google 任何一次单次合约规模;这给 Google AI 基础设施的"Anthropic 用 TPU 训练 Claude"叙事加一个长期保障
- Memory-on-chip 趋势加深:v8i 384 MB 已是 v7 三倍,8i 维持这个量级——KV Cache 不出芯片是推理设计核心约束
相关概念¶
- training-inference-bifurcation — 训练/推理 workload 的硬件层分叉,TPUv8 是首个产品级证据
- virgo-fabric — TPUv8t 配套的 DC 级 fabric,134,000 芯片单池 + 跨 DC 训练
- boardfly-topology — TPUv8i 推理拓扑,借鉴 Dragonfly 解决 All2All
- ai-vendor-spec-traps — TPUv8t "2.8x" 宣称的 FP4 vs FP8 偷换是典型陷阱
- china-us-ai-gap — TPU 是国产昇腾对标的目标系;Google 走全栈自研路线对照智谱昇腾依赖
- hidden-chokepoints — TPUv8t 224G SerDes、ABF 基板、CoWoS 封装等隐性供应链节点
- asymmetric-chokepoints — Google/AWS/NVIDIA 自研芯片是中美芯片管制博弈下的供给端响应
- optics-as-scaling-constraint — bandwidth-driven 范式下 optics/OCS/transceiver 成为系统级新硬约束
- deepseek-v4 — 同月模型侧回应:跨 NVIDIA + Ascend 双栈解耦 + Pro/Flash 模型层 SKU 拆分
- model-hardware-decoupling — 硬件分叉与模型解耦的全方位系统重塑
- google-agent-platform — 同期 2026-04-22 Cloud Next 宣布的全栈 Agent 平台;TPU 8t/8i 是 Agent Platform 的硬件配套;Anthropic 是 8t anchor customer(3.5 GW)