🏠 home › concepts › virgo-fabric
tags
[AI, 网络, 数据中心, Google, 互联]
created
2026-04-24
updated
2026-04-24
sources
[raw/notes/google-tpuv8-deep-dive-2026-04.md, raw/notes/fundaai-tpuv8-commentary-2026-04.md]

定义

Google 在 Cloud Next 2026 发布的megascale AI 数据中心 scale-out fabric,TPUv8t 训练集群专用承载层。设计哲学是 "campus-as-a-computer"——把整个数据中心园区当作一台计算机,并支持跨园区扩展。

核心指标

维度 数值
单 fabric 最大芯片数 134,000 TPUv8t
单 fabric 双向带宽 47 Pb/s 无阻塞
单 fabric 算力 160 万 EFLOPS
每加速器 scale-out 带宽 TPUv7 100Gb/s → 400Gb/s(4x)
Unloaded fabric 时延 比前代低 40%
跨 DC 训练规模 超过 100 万 TPU(多 DC 单训练 cluster)
NVIDIA 卡支持 A5X(Vera Rubin NVL72)也跑 Virgo,单 DC 80,000 GPU / 跨 DC 960,000 GPU

架构特征

为什么需要

传统通用 DC 网络已经撑不住现代 AI 训练的两个趋势: 1. 模型参数指数增长:单 DC 的电力、空间已封顶 → 必须跨 DC 2. 训练强 network-bound:每加速器需要的带宽近年陡涨 → 老架构出现 throughput / congestion 瓶颈

Virgo 是为 google-tpu-v8 TPUv8t 量身设计,但同时也开放给 NVIDIA Vera Rubin NVL72——意味着 Virgo 是 Google 把 fabric 层做成了"通用底座",不绑定单一加速器供应商。

跨 DC 训练的产业含义

"跨 DC 单训练 cluster" 这一点比 134K 芯片更重要。它意味着: - AI 实验室不再被单 DC 的电力供给上限锁死(参考 hidden-chokepoints 大型燃气轮机交付排队 2-3 年) - 训练规模可以解耦于"在哪建电厂"——有 fabric 把多个 DC 串成一台超算 - 但前提是光纤距离的 RTT 与 Virgo 的 collectives 调度可以协同压低 stragglers

行业分析师认为这是 2026 announcement 中最大胆、也最难独立验证的一条——要等真实 workload 跑起来才知道近线性 scaling 是否成立。

DCN vs scale-up 的误读修正(FundaAI 视角)

市场把 TPUv8 这次发布读成"3D Torus 升级"是错的。FundaAI 独立分析(早于 Google 官方 blog 的 in-rack switch tray 评论文)已预言:

the in-rack switch tray represents a change in this DCN network, not in the scale-up network

实际拓扑变化发生在 DCN(scale-out)层——Virgo 是 4x 带宽 / 134K 单 fabric / 跨 DC 100 万 TPU。3D Torus(scale-up / chip-to-chip ICI)这次没动——TPUv8t 仍 3D Torus,只是 SerDes 从 112G 升到 224G。这一区分对追赶者(含国产芯片)很重要:要补的是 DCN 全栈能力,不只是 chip-to-chip 互联。

bandwidth-driven 范式:Virgo 是结构性转变的载体

FundaAI 把 Virgo 这次升级放在更大的范式里:

The system constraint has shifted — from compute to bandwidth.

详见 google-tpu-v8 主页的 "compute-driven → bandwidth-driven" 总论 + optics-as-scaling-constraint。Virgo 的 4x scale-out 带宽、7 跳 Boardfly、CAE 卸载 collectives 都是同一范式的产物——单芯片 FLOPS 已富余、bisection bandwidth + 光通信成为新的硬约束。Virgo 不是"网络层升级",是承认范式已转向。

Dragonfly 拓扑哲学也在收敛:FundaAI 评注 "Dragonfly-topology based scale up and scale out integration"——Boardfly(推理 scale-up 内)借鉴 Dragonfly,Virgo(训练 DCN)也走"分组 + long links"思路,传统 Torus vs fat-tree 的二分被打破。

与其他互联技术的关系

技术 层级 角色
ICI(Inter-Chip Interconnect) Chip-to-chip TPU 内部 3D Torus,TPUv8t 升至 224G SerDes / 2.4 TB/s
Virgo Rack-to-rack / DC-to-DC scale-out fabric,本页
Jupiter DC 内通用网络 上一代 Google DC fabric,现作为南北向接入
NVLink (NVIDIA) Chip-to-chip NVIDIA 阵营对标 ICI
InfiniBand (NVIDIA NVL72) Rack-level scale-up 与 Virgo scale-out 互补不冲突

相关概念