Virgo 数据中心 Fabric

tags: [AI, 网络, 数据中心, Google, 互联]
created: 2026-04-24
updated: 2026-04-24
sources: [raw/notes/google-tpuv8-deep-dive-2026-04.md, raw/notes/fundaai-tpuv8-commentary-2026-04.md]

定义¶

Google 在 Cloud Next 2026 发布的megascale AI 数据中心 scale-out fabric，TPUv8t 训练集群专用承载层。设计哲学是 "campus-as-a-computer"——把整个数据中心园区当作一台计算机，并支持跨园区扩展。

核心指标¶

维度	数值
单 fabric 最大芯片数	134,000 TPUv8t
单 fabric 双向带宽	47 Pb/s 无阻塞
单 fabric 算力	160 万 EFLOPS
每加速器 scale-out 带宽	TPUv7 100Gb/s → 400Gb/s（4x）
Unloaded fabric 时延	比前代低 40%
跨 DC 训练规模	超过 100 万 TPU（多 DC 单训练 cluster）
NVIDIA 卡支持	A5X（Vera Rubin NVL72）也跑 Virgo，单 DC 80,000 GPU / 跨 DC 960,000 GPU

架构特征¶

2 层 non-blocking 扁平拓扑：基于高 radix 大 Switch，单 Switch port 数增加 → 网络层级减少 → 跨芯片时延降低
多平面（multi-plane）：独立控制域，故障隔离粒度细
南北向接入：Accelerator Rack 通过 Jupiter（Google 上一代 DC fabric）接入计算和存储
可靠性：sub-ms 遥测，自动重路由 + 自动重配置（不中断训练）
跨 DC 设计：训练 job 跨园区，把分布式基础设施抽象成单一超级计算机

为什么需要¶

传统通用 DC 网络已经撑不住现代 AI 训练的两个趋势： 1. 模型参数指数增长：单 DC 的电力、空间已封顶 → 必须跨 DC 2. 训练强 network-bound：每加速器需要的带宽近年陡涨 → 老架构出现 throughput / congestion 瓶颈

Virgo 是为 google-tpu-v8 TPUv8t 量身设计，但同时也开放给 NVIDIA Vera Rubin NVL72——意味着 Virgo 是 Google 把 fabric 层做成了"通用底座"，不绑定单一加速器供应商。

跨 DC 训练的产业含义¶

"跨 DC 单训练 cluster" 这一点比 134K 芯片更重要。它意味着： - AI 实验室不再被单 DC 的电力供给上限锁死（参考 hidden-chokepoints 大型燃气轮机交付排队 2-3 年） - 训练规模可以解耦于"在哪建电厂"——有 fabric 把多个 DC 串成一台超算 - 但前提是光纤距离的 RTT 与 Virgo 的 collectives 调度可以协同压低 stragglers

行业分析师认为这是 2026 announcement 中最大胆、也最难独立验证的一条——要等真实 workload 跑起来才知道近线性 scaling 是否成立。

DCN vs scale-up 的误读修正（FundaAI 视角）¶

市场把 TPUv8 这次发布读成"3D Torus 升级"是错的。FundaAI 独立分析（早于 Google 官方 blog 的 in-rack switch tray 评论文）已预言：

the in-rack switch tray represents a change in this DCN network, not in the scale-up network

实际拓扑变化发生在 DCN（scale-out）层——Virgo 是 4x 带宽 / 134K 单 fabric / 跨 DC 100 万 TPU。3D Torus（scale-up / chip-to-chip ICI）这次没动——TPUv8t 仍 3D Torus，只是 SerDes 从 112G 升到 224G。这一区分对追赶者（含国产芯片）很重要：要补的是 DCN 全栈能力，不只是 chip-to-chip 互联。

bandwidth-driven 范式：Virgo 是结构性转变的载体¶

FundaAI 把 Virgo 这次升级放在更大的范式里：

The system constraint has shifted — from compute to bandwidth.

详见 google-tpu-v8 主页的 "compute-driven → bandwidth-driven" 总论 + optics-as-scaling-constraint。Virgo 的 4x scale-out 带宽、7 跳 Boardfly、CAE 卸载 collectives 都是同一范式的产物——单芯片 FLOPS 已富余、bisection bandwidth + 光通信成为新的硬约束。Virgo 不是"网络层升级"，是承认范式已转向。

Dragonfly 拓扑哲学也在收敛：FundaAI 评注 "Dragonfly-topology based scale up and scale out integration"——Boardfly（推理 scale-up 内）借鉴 Dragonfly，Virgo（训练 DCN）也走"分组 + long links"思路，传统 Torus vs fat-tree 的二分被打破。

与其他互联技术的关系¶

技术	层级	角色
ICI（Inter-Chip Interconnect）	Chip-to-chip	TPU 内部 3D Torus，TPUv8t 升至 224G SerDes / 2.4 TB/s
Virgo	Rack-to-rack / DC-to-DC	scale-out fabric，本页
Jupiter	DC 内通用网络	上一代 Google DC fabric，现作为南北向接入
NVLink (NVIDIA)	Chip-to-chip	NVIDIA 阵营对标 ICI
InfiniBand (NVIDIA NVL72)	Rack-level scale-up	与 Virgo scale-out 互补不冲突

定义¶