🏠 home › concepts › google-tpu-v8
tags
[AI, 芯片, 硬件, Google, 训练, 推理]
created
2026-04-24
updated
2026-04-28
sources
[raw/notes/google-tpuv8-deep-dive-2026-04.md, raw/notes/fundaai-tpuv8-commentary-2026-04.md, raw/notes/deepseek-v4-release-2026-04.md, raw/notes/google-agent-platform-research-2026-04-28.md]

定义

Google 第 8 代 TPU,2026-04-22 在 Google Cloud Next 2026 发布。首次将旗舰加速器拆分为两颗专用芯片:TPUv8t 用于训练(codename Sunfish,Broadcom 合作),TPUv8i 用于推理(codename Zebrafish,MediaTek 合作)。同时配套自研 Arm Axion CPU 主机、Virgo 数据中心 Fabric、Boardfly 推理拓扑,标志通用一体加速器路线在超大规模 AI 时代终结。

范式总论:compute-driven → bandwidth-driven

读 TPUv8 不能只读单芯片参数表。FundaAI 独立分析的关键判断(最高权重论点):

The system constraint has shifted — from compute to bandwidth.

TPUv8 不是"网络升级了一代",而是把 AI 系统从 compute-driven 推向 bandwidth-driven 的范式转变。证据全栈对应:

含义:单芯片 FLOPS 已富余、bisection bandwidth + 光通信成为新硬约束。MoE All2All + reasoning 多步 sampling 是范式驱动力,"chip 等数据"占 1/3+ 时间是行业共识。光学供应链从外围辅助变成系统级核心约束,独立成页见 optics-as-scaling-constraint

注意区分(市场常见误读修正):这次升级的是 DCN(scale-out),不是 scale-up;3D Torus 仍在,是 SerDes 升级,不是拓扑替换。

关键要点

拆分的根本动机

训练与推理 workload 在硬件需求上的差异已经大到无法用一颗芯片同时服务: - 训练:需要 SparseCore 卸载 Embedding 不规则访问、需要 3D Torus + Virgo 4x scale-out 带宽、需要 FP4 提算力上限 - 推理:需要超大片上 SRAM 容纳 KV Cache、需要 CAE 解决 sampling 同步瓶颈、需要 Boardfly 拓扑压低跨芯片跳数(reasoning + MoE 时代任意芯片互通)

不再是"训练芯片砍一刀做推理"——TPUv8i 直接去掉 SparseCore,反而加上 CAE。

TPUv8t(训练芯片)

维度 关键变化
Pod 规模 9600 芯片(与 TPUv7 相当)
网络拓扑 仍 3D Torus(chip-to-chip ICI),但配 Virgo scale-out(DC 级)
ICI 带宽 1.2 → 2.4 TB/s(112G → 224G SerDes,2x)
Scale-out 带宽 100Gb/s → 400Gb/s(4x,by Virgo)
数值精度 首次原生 FP4 支持,MXU 吞吐翻倍
架构创新 SparseCore 卸载 Embedding lookup + AllGather;VPU/MXU Overlap 均衡扩展
存储路径 TPUDirect RDMA + TPUDirect Storage(绕开 Host CPU/DRAM)

FP4 vs FP8 的标题党问题:Google 宣称的 TPUv8t 相对 TPUv7 "2.8x" 提升,分母用的是 TPUv7 Ironwood 的 42.5 EFlops——但那个数实际是 FP8 算力,不是 FP4。同精度对比下提升幅度小于 2.8x。这是 ai-vendor-spec-traps 的典型案例。

TPUv8i(推理芯片)

维度 关键变化
片上 SRAM 128 → 384 MB(3x,整模型 KV Cache 上芯片)
HBM 288 GB
架构 2 个 Core Die(带 TC)+ 1 个 Chiplet Die(带 CAE)
关键模块 CAE(Collectives Acceleration Engine) 取代 TPUv7 的 4 个 SparseCore
聚合时延 跨 Tensor Core 结果聚合 5x 降低
网络拓扑 Boardfly(不再是 3D Torus):1152 芯片/Pod,任意芯片 ≤7 跳

CAE 的存在揭示了推理芯片的新瓶颈:sampling 阶段需要跨多个 Tensor Core 收敛结果,传统 collectives 在通用核心上的 zero-op 时延吃掉了大量空跑——专门做一颗 chiplet 解这个问题,本身说明推理已是高度可工程化拆解的 workload,详见 training-inference-bifurcation

Virgo 数据中心 Fabric(训练侧 scale-out)

详见独立页 virgo-fabric。简版: - 单一 fabric 134,000 TPUv8t 芯片 / 47 Pb/s 双向带宽 / 160 万 EFLOPS - 2 层 non-blocking 扁平拓扑,多平面架构 - 跨 DC 互联:单训练集群可超过 100 万 TPU 跨数据中心 - A5X(NVIDIA Vera Rubin NVL72)也用 Virgo——Virgo 同时承载 Google 自研与 NVIDIA 卡

Boardfly 推理拓扑

详见独立页 boardfly-topology。简版:3 层 Building Block(4) → Group(32) → Pod(1152),Group 间走 OCS 光交换全互联,1024 芯片集群跳数从 3D Torus 的 16 跳压到 7 跳。借鉴 Dragonfly 拓扑思路,专门优化 reasoning + MoE 的 All2All 通信。

Axion ARM CPU 主机

第一次让 TPU 与 Google 自研 Axion(Neoverse N3 / Armv9.2)跑在同一系统里,舍弃 x86 host。意义:从"芯片优化"扩展到"全系统优化"——Host CPU 与 TPU 不再独立设计,IO/调度/电源可以协同。Amazon 在 Trainium 3 + Graviton 上做过同样的事。

价格-性能宣称

行业脉络

三家超大规模硅商路线分叉: - AWS:单 SKU 收敛(Trainium 训练推理通吃) - Google:双 SKU 拆分(v8t / v8i) - NVIDIA:rack 内 scale-up(NVL72/144)+ pod 间 scale-out(Vera Rubin NVL)

Google 的押注:训练与推理在硬件层就该分家,通用加速器红利结束。这与 training-inference-bifurcation 的论点完全一致。

模型侧对硬件分叉的回应(2026-04 DeepSeek V4)

同月 deepseek-v4 发布给 Google 的硬件分叉叙事添加了一个模型侧的回应

含义:硬件分叉发生的同时,模型也在分叉(Pro / Flash)+ 解耦(多家硬件)。两侧合力让 2026 系统层进入"硬件按 workload 分家 + 模型按硬件抽象解耦 + 双方都拆 SKU"的全方位重塑。详见 model-hardware-decoupling

TPU 8t / 8i:v8 训练-推理拆分的延续(2026-04-22 同期宣布)

2026-04-22 Google Cloud Next 在公布 Gemini Enterprise Agent Platform 同日同期宣布 TPU 第 8 代延续——TPU 8t(训练)+ TPU 8i(推理)双 SKU。这是 v8 双 SKU 路线没有撤回,反而更细化的产品级证据。

TPU 8t(训练,codename Sunfish,Broadcom 合作)

维度 关键变化
Pod 规模 9,600 chip superpod(与 v8t 相当)
算力 121 FP4 EFLOPS / pod
HBM 8 stacks of 12-high HBM3e(30% 更高内存带宽 vs Ironwood)
架构 2 个 compute die + 1 I/O chiplet
制程 TSMC 2nm(vs v8t 的 3nm)
价格-性能宣称 2.8x vs Ironwood——同精度对比下小于 2.8x,FP4 vs FP8 偷换问题(ai-vendor-spec-traps
时间线 preview 2H 2026 / GA late 2027
Anchor customer Anthropic 3.5 GW 算力 2027 上线——Anthropic 是 8t 旗舰客户

TPU 8i(推理 + RL,codename Zebrafish,MediaTek 合作)

维度 关键变化
算力 10.1 FP4 PFLOPS/chip
片上 SRAM 384 MB(3x prior gen,与 v8i 相当)
HBM 288 GB / 8.6 TB/s 内存带宽 / 6 stacks HBM3e
架构 单 compute die + 1 I/O die(比 8t 简化)
价格-性能宣称 80% better perf-per-dollar
vs 8t 成本 20-30% 更低
市场反应 MediaTek 股价创纪录(TWD 2,090 daily limit)反映商业化预期
制造合作 MediaTek 合作(v8i 是 Broadcom)—— Google 把训练芯片继续给 Broadcom,把推理芯片切给 MediaTek,两条供应链分叉

含义

相关概念