Google TPU v8（TPUv8t / TPUv8i）

tags: [AI, 芯片, 硬件, Google, 训练, 推理]
created: 2026-04-24
updated: 2026-04-28
sources: [raw/notes/google-tpuv8-deep-dive-2026-04.md, raw/notes/fundaai-tpuv8-commentary-2026-04.md, raw/notes/deepseek-v4-release-2026-04.md, raw/notes/google-agent-platform-research-2026-04-28.md]

定义¶

Google 第 8 代 TPU，2026-04-22 在 Google Cloud Next 2026 发布。首次将旗舰加速器拆分为两颗专用芯片：TPUv8t 用于训练（codename Sunfish，Broadcom 合作），TPUv8i 用于推理（codename Zebrafish，MediaTek 合作）。同时配套自研 Arm Axion CPU 主机、Virgo 数据中心 Fabric、Boardfly 推理拓扑，标志通用一体加速器路线在超大规模 AI 时代终结。

范式总论：compute-driven → bandwidth-driven¶

读 TPUv8 不能只读单芯片参数表。FundaAI 独立分析的关键判断（最高权重论点）：

The system constraint has shifted — from compute to bandwidth.

TPUv8 不是"网络升级了一代"，而是把 AI 系统从 compute-driven 推向 bandwidth-driven 的范式转变。证据全栈对应：

die 内：TPUv8i 加 CAE chiplet 卸载 collectives（解 sampling 同步阻塞）
die 间 / scale-up：3D Torus SerDes 升 224G（chip-to-chip 带宽 2x）
rack-to-rack / scale-out：virgo-fabric 4x 带宽，Boardfly 7 跳
DC-to-DC：Virgo 跨园区 100 万 TPU
整个范式：Boardfly + Virgo 都借鉴 boardfly-topology Dragonfly 思路——scale-up 与 scale-out 拓扑哲学正在收敛

含义：单芯片 FLOPS 已富余、bisection bandwidth + 光通信成为新硬约束。MoE All2All + reasoning 多步 sampling 是范式驱动力，"chip 等数据"占 1/3+ 时间是行业共识。光学供应链从外围辅助变成系统级核心约束，独立成页见 optics-as-scaling-constraint。

注意区分（市场常见误读修正）：这次升级的是 DCN（scale-out），不是 scale-up；3D Torus 仍在，是 SerDes 升级，不是拓扑替换。

关键要点¶

拆分的根本动机¶

训练与推理 workload 在硬件需求上的差异已经大到无法用一颗芯片同时服务： - 训练：需要 SparseCore 卸载 Embedding 不规则访问、需要 3D Torus + Virgo 4x scale-out 带宽、需要 FP4 提算力上限 - 推理：需要超大片上 SRAM 容纳 KV Cache、需要 CAE 解决 sampling 同步瓶颈、需要 Boardfly 拓扑压低跨芯片跳数（reasoning + MoE 时代任意芯片互通）

不再是"训练芯片砍一刀做推理"——TPUv8i 直接去掉 SparseCore，反而加上 CAE。

TPUv8t（训练芯片）¶

维度	关键变化
Pod 规模	9600 芯片（与 TPUv7 相当）
网络拓扑	仍 3D Torus（chip-to-chip ICI），但配 Virgo scale-out（DC 级）
ICI 带宽	1.2 → 2.4 TB/s（112G → 224G SerDes，2x）
Scale-out 带宽	100Gb/s → 400Gb/s（4x，by Virgo）
数值精度	首次原生 FP4 支持，MXU 吞吐翻倍
架构创新	SparseCore 卸载 Embedding lookup + AllGather；VPU/MXU Overlap 均衡扩展
存储路径	TPUDirect RDMA + TPUDirect Storage（绕开 Host CPU/DRAM）

FP4 vs FP8 的标题党问题：Google 宣称的 TPUv8t 相对 TPUv7 "2.8x" 提升，分母用的是 TPUv7 Ironwood 的 42.5 EFlops——但那个数实际是 FP8 算力，不是 FP4。同精度对比下提升幅度小于 2.8x。这是 ai-vendor-spec-traps 的典型案例。

TPUv8i（推理芯片）¶

维度	关键变化
片上 SRAM	128 → 384 MB（3x，整模型 KV Cache 上芯片）
HBM	288 GB
架构	2 个 Core Die（带 TC）+ 1 个 Chiplet Die（带 CAE）
关键模块	CAE（Collectives Acceleration Engine）取代 TPUv7 的 4 个 SparseCore
聚合时延	跨 Tensor Core 结果聚合 5x 降低
网络拓扑	Boardfly（不再是 3D Torus）：1152 芯片/Pod，任意芯片 ≤7 跳

CAE 的存在揭示了推理芯片的新瓶颈：sampling 阶段需要跨多个 Tensor Core 收敛结果，传统 collectives 在通用核心上的 zero-op 时延吃掉了大量空跑——专门做一颗 chiplet 解这个问题，本身说明推理已是高度可工程化拆解的 workload，详见 training-inference-bifurcation。

Virgo 数据中心 Fabric（训练侧 scale-out）¶

详见独立页 virgo-fabric。简版： - 单一 fabric 134,000 TPUv8t 芯片 / 47 Pb/s 双向带宽 / 160 万 EFLOPS - 2 层 non-blocking 扁平拓扑，多平面架构 - 跨 DC 互联：单训练集群可超过 100 万 TPU 跨数据中心 - A5X（NVIDIA Vera Rubin NVL72）也用 Virgo——Virgo 同时承载 Google 自研与 NVIDIA 卡

Boardfly 推理拓扑¶

详见独立页 boardfly-topology。简版：3 层 Building Block(4) → Group(32) → Pod(1152)，Group 间走 OCS 光交换全互联，1024 芯片集群跳数从 3D Torus 的 16 跳压到 7 跳。借鉴 Dragonfly 拓扑思路，专门优化 reasoning + MoE 的 All2All 通信。

Axion ARM CPU 主机¶

第一次让 TPU 与 Google 自研 Axion（Neoverse N3 / Armv9.2）跑在同一系统里，舍弃 x86 host。意义：从"芯片优化"扩展到"全系统优化"——Host CPU 与 TPU 不再独立设计，IO/调度/电源可以协同。Amazon 在 Trainium 3 + Graviton 上做过同样的事。

价格-性能宣称¶

TPUv8i：80% price-performance 改善
TPUv8t：2.8x 性能（同精度差异未消解，见上方 FP4/FP8 注脚）

行业脉络¶

三家超大规模硅商路线分叉： - AWS：单 SKU 收敛（Trainium 训练推理通吃） - Google：双 SKU 拆分（v8t / v8i） - NVIDIA：rack 内 scale-up（NVL72/144）+ pod 间 scale-out（Vera Rubin NVL）

Google 的押注：训练与推理在硬件层就该分家，通用加速器红利结束。这与 training-inference-bifurcation 的论点完全一致。

模型侧对硬件分叉的回应（2026-04 DeepSeek V4）¶

同月 deepseek-v4 发布给 Google 的硬件分叉叙事添加了一个模型侧的回应：

V4-Pro / V4-Flash 模型层 SKU 拆分对照 TPUv8t / v8i 硬件层 SKU 拆分——殊途同归
V4 的细粒度专家并行在 NVIDIA GPU + 华为 Ascend NPU 双栈双 1.5-1.73x 加速——挑战"模型必须深度绑定一家硬件栈"的前提
V4 技术报告"6.1 TFLOP/GBps 互联带宽足够，盲目加带宽边际递减"是对 bandwidth-driven 范式的模型侧反驳

含义：硬件分叉发生的同时，模型也在分叉（Pro / Flash）+ 解耦（多家硬件）。两侧合力让 2026 系统层进入"硬件按 workload 分家 + 模型按硬件抽象解耦 + 双方都拆 SKU"的全方位重塑。详见 model-hardware-decoupling。

TPU 8t / 8i：v8 训练-推理拆分的延续（2026-04-22 同期宣布）¶

2026-04-22 Google Cloud Next 在公布 Gemini Enterprise Agent Platform 同日同期宣布 TPU 第 8 代延续——TPU 8t（训练）+ TPU 8i（推理）双 SKU。这是 v8 双 SKU 路线没有撤回，反而更细化的产品级证据。

TPU 8t（训练，codename Sunfish，Broadcom 合作）¶

维度	关键变化
Pod 规模	9,600 chip superpod（与 v8t 相当）
算力	121 FP4 EFLOPS / pod
HBM	8 stacks of 12-high HBM3e（30% 更高内存带宽 vs Ironwood）
架构	2 个 compute die + 1 I/O chiplet
制程	TSMC 2nm（vs v8t 的 3nm）
价格-性能宣称	2.8x vs Ironwood——同精度对比下小于 2.8x，FP4 vs FP8 偷换问题（ai-vendor-spec-traps）
时间线	preview 2H 2026 / GA late 2027
Anchor customer	Anthropic 3.5 GW 算力 2027 上线——Anthropic 是 8t 旗舰客户

TPU 8i（推理 + RL，codename Zebrafish，MediaTek 合作）¶

维度	关键变化
算力	10.1 FP4 PFLOPS/chip
片上 SRAM	384 MB（3x prior gen，与 v8i 相当）
HBM	288 GB / 8.6 TB/s 内存带宽 / 6 stacks HBM3e
架构	单 compute die + 1 I/O die（比 8t 简化）
价格-性能宣称	80% better perf-per-dollar
vs 8t 成本	20-30% 更低
市场反应	MediaTek 股价创纪录（TWD 2,090 daily limit）反映商业化预期
制造合作	MediaTek 合作（v8i 是 Broadcom）—— Google 把训练芯片继续给 Broadcom，把推理芯片切给 MediaTek，两条供应链分叉

含义¶

训练-推理拆分路线没撤回，反而细化：v8 已是双 SKU（v8t / v8i），8t/8i 是 v8 的进阶——training-inference-bifurcation 行业方向坐实
代工合作伙伴分叉（Broadcom 训练 / MediaTek 推理）反映 Google 在不同 workload 上对供应链合作伙伴的不同偏好
Anthropic anchor customer：3.5 GW 是大单——超过此前 Anthropic 与 Google 任何一次单次合约规模；这给 Google AI 基础设施的"Anthropic 用 TPU 训练 Claude"叙事加一个长期保障
Memory-on-chip 趋势加深：v8i 384 MB 已是 v7 三倍，8i 维持这个量级——KV Cache 不出芯片是推理设计核心约束

定义¶