- tags
- [AI, 网络, 数据中心, Google, 互联]
- created
- 2026-04-24
- updated
- 2026-04-24
- sources
- [raw/notes/google-tpuv8-deep-dive-2026-04.md, raw/notes/fundaai-tpuv8-commentary-2026-04.md]
定义¶
Google 在 Cloud Next 2026 发布的megascale AI 数据中心 scale-out fabric,TPUv8t 训练集群专用承载层。设计哲学是 "campus-as-a-computer"——把整个数据中心园区当作一台计算机,并支持跨园区扩展。
核心指标¶
| 维度 | 数值 |
|---|---|
| 单 fabric 最大芯片数 | 134,000 TPUv8t |
| 单 fabric 双向带宽 | 47 Pb/s 无阻塞 |
| 单 fabric 算力 | 160 万 EFLOPS |
| 每加速器 scale-out 带宽 | TPUv7 100Gb/s → 400Gb/s(4x) |
| Unloaded fabric 时延 | 比前代低 40% |
| 跨 DC 训练规模 | 超过 100 万 TPU(多 DC 单训练 cluster) |
| NVIDIA 卡支持 | A5X(Vera Rubin NVL72)也跑 Virgo,单 DC 80,000 GPU / 跨 DC 960,000 GPU |
架构特征¶
- 2 层 non-blocking 扁平拓扑:基于高 radix 大 Switch,单 Switch port 数增加 → 网络层级减少 → 跨芯片时延降低
- 多平面(multi-plane):独立控制域,故障隔离粒度细
- 南北向接入:Accelerator Rack 通过 Jupiter(Google 上一代 DC fabric)接入计算和存储
- 可靠性:sub-ms 遥测,自动重路由 + 自动重配置(不中断训练)
- 跨 DC 设计:训练 job 跨园区,把分布式基础设施抽象成单一超级计算机
为什么需要¶
传统通用 DC 网络已经撑不住现代 AI 训练的两个趋势: 1. 模型参数指数增长:单 DC 的电力、空间已封顶 → 必须跨 DC 2. 训练强 network-bound:每加速器需要的带宽近年陡涨 → 老架构出现 throughput / congestion 瓶颈
Virgo 是为 google-tpu-v8 TPUv8t 量身设计,但同时也开放给 NVIDIA Vera Rubin NVL72——意味着 Virgo 是 Google 把 fabric 层做成了"通用底座",不绑定单一加速器供应商。
跨 DC 训练的产业含义¶
"跨 DC 单训练 cluster" 这一点比 134K 芯片更重要。它意味着: - AI 实验室不再被单 DC 的电力供给上限锁死(参考 hidden-chokepoints 大型燃气轮机交付排队 2-3 年) - 训练规模可以解耦于"在哪建电厂"——有 fabric 把多个 DC 串成一台超算 - 但前提是光纤距离的 RTT 与 Virgo 的 collectives 调度可以协同压低 stragglers
行业分析师认为这是 2026 announcement 中最大胆、也最难独立验证的一条——要等真实 workload 跑起来才知道近线性 scaling 是否成立。
DCN vs scale-up 的误读修正(FundaAI 视角)¶
市场把 TPUv8 这次发布读成"3D Torus 升级"是错的。FundaAI 独立分析(早于 Google 官方 blog 的 in-rack switch tray 评论文)已预言:
the in-rack switch tray represents a change in this DCN network, not in the scale-up network
实际拓扑变化发生在 DCN(scale-out)层——Virgo 是 4x 带宽 / 134K 单 fabric / 跨 DC 100 万 TPU。3D Torus(scale-up / chip-to-chip ICI)这次没动——TPUv8t 仍 3D Torus,只是 SerDes 从 112G 升到 224G。这一区分对追赶者(含国产芯片)很重要:要补的是 DCN 全栈能力,不只是 chip-to-chip 互联。
bandwidth-driven 范式:Virgo 是结构性转变的载体¶
FundaAI 把 Virgo 这次升级放在更大的范式里:
The system constraint has shifted — from compute to bandwidth.
详见 google-tpu-v8 主页的 "compute-driven → bandwidth-driven" 总论 + optics-as-scaling-constraint。Virgo 的 4x scale-out 带宽、7 跳 Boardfly、CAE 卸载 collectives 都是同一范式的产物——单芯片 FLOPS 已富余、bisection bandwidth + 光通信成为新的硬约束。Virgo 不是"网络层升级",是承认范式已转向。
Dragonfly 拓扑哲学也在收敛:FundaAI 评注 "Dragonfly-topology based scale up and scale out integration"——Boardfly(推理 scale-up 内)借鉴 Dragonfly,Virgo(训练 DCN)也走"分组 + long links"思路,传统 Torus vs fat-tree 的二分被打破。
与其他互联技术的关系¶
| 技术 | 层级 | 角色 |
|---|---|---|
| ICI(Inter-Chip Interconnect) | Chip-to-chip | TPU 内部 3D Torus,TPUv8t 升至 224G SerDes / 2.4 TB/s |
| Virgo | Rack-to-rack / DC-to-DC | scale-out fabric,本页 |
| Jupiter | DC 内通用网络 | 上一代 Google DC fabric,现作为南北向接入 |
| NVLink (NVIDIA) | Chip-to-chip | NVIDIA 阵营对标 ICI |
| InfiniBand (NVIDIA NVL72) | Rack-level scale-up | 与 Virgo scale-out 互补不冲突 |
相关概念¶
- google-tpu-v8 — Virgo 是 TPUv8t 的标配 fabric
- training-inference-bifurcation — Virgo 只服务训练,推理走 Boardfly
- boardfly-topology — 同代推理拓扑,对照
- hidden-chokepoints — 跨 DC 训练绕开了单 DC 电力瓶颈,但仍需要光纤 + 燃气轮机协同
- optics-as-scaling-constraint — Virgo 的 47 Pb/s 与跨 DC 都依赖光通信链路,optics 是 bandwidth-driven 范式下的新硬约束