- tags
- [AI, 网络, 拓扑, Google, 推理]
- created
- 2026-04-24
- updated
- 2026-04-24
- sources
- [raw/notes/google-tpuv8-deep-dive-2026-04.md, raw/notes/fundaai-tpuv8-commentary-2026-04.md]
定义¶
Google TPUv8i 推理芯片专用网络拓扑,借鉴 Dragonfly 设计思路,通过增加 Group 间直连光学连接实现扁平化。1152 芯片/Pod,任意芯片间通信不超过 7 跳——相比同规模 3D Torus 的 16 跳压缩 56%。
三层结构¶
| 层级 | 单元 | 芯片数 | 互联 |
|---|---|---|---|
| Building Block (BB) = Compute Tray | — | 4 个 TPUv8i | ICI 全互联,16 个外部连接 |
| Group (G) | 8 个 BB | 32 个 TPUv8i | 铜缆全互联(黑/蓝两类),11 个可用外部连接 |
| Pod | 36 个 Group | 1152 个 TPUv8i | OCS(Optical Circuit Switch)全互联,最多 1024 激活 |
最远 7 跳路径分解: - BB 内部 ≤1 跳 - Group 内部 ≤3 跳(BB 内 1 跳 + BB 间 1 跳 + 目标 BB 内 1 跳) - Group 之间 ≤7 跳(源 Group 3 跳 + Group 间 1 跳 + 目标 Group 3 跳)
为什么弃用 3D Torus¶
3D Torus 是 TPU 系列从 v1 到 v8t 的传统互联——但只对训练友好。
3D Torus 中节点呈环形闭合排列: - 8x8x16 = 1024 芯片下,最远芯片 = 8/2 + 8/2 + 16/2 = 16 跳 - Dense 训练时相邻设备通信占主导,跳数少时高效 - 但推理时代变了:
Reasoning 模型 + MoE 改变了通信模式¶
- MoE token 路由:任一 token 可能被路由到任意 expert,跨芯片 All2All 通信成主导模式
- Reasoning 多步推理:sampling 同步频繁,跨远端芯片的尾时延直接拉低 throughput
- 3D Torus 的 16 跳 → CAE 等数据等到睡着:芯片本地 0 时延 + 远端 16 跳的差异让 CAE 失去意义
→ 推理网络必须扁平化。Boardfly 的 7 跳是把这个矛盾推到 OCS 光交换 + Dragonfly 拓扑思路上的工程答案。
借鉴 Dragonfly 的关键¶
Dragonfly 是 HPC 圈成熟拓扑(最早 2008 年 Cray Cascade): - 把节点分组,组内全互联,组间通过少量 long links 全互联 - 优势:低直径(任意两节点跳数 ≤3-4 在传统 Dragonfly 中)+ 低成本(组间长链路数远低于 fat-tree) - 劣势:负载均衡依赖自适应路由
Boardfly 把 Dragonfly 思路嫁接到光交换 + 推理 workload: - 用 OCS 在 Group 间做物理层全互联(不是 packet switch)→ 消除拥塞 - 跳数从理论的 16 → 实际的 7 - 1024 激活芯片下的 All2All 时延确定性接近本地
与 Virgo 的对照¶
| 维度 | Virgo(训练) | Boardfly(推理) |
|---|---|---|
| 规模 | 134K 芯片 / 跨 DC 100 万 | 1152 芯片 / 单 Pod |
| 拓扑哲学 | 2 层非阻塞 + scale-out | 3 层 BB/Group/Pod + Dragonfly 风格 |
| 优化目标 | bisection 带宽 + 跨 DC scaling | 最远跳数 + All2All 时延确定性 |
| 交换层 | 高 radix Switch | OCS 光交换 |
→ 同代但完全不同的设计——推理与训练在网络层也彻底分家,是 training-inference-bifurcation 的网络层证据。
Dragonfly 哲学统一 scale-up + scale-out(FundaAI 视角)¶
FundaAI 独立评注的关键论点:
Dragonfly-topology based scale up and scale out integration, with higher network bandwidth overall
Boardfly 是 scale-up 范畴(Pod 内)借鉴 Dragonfly,Virgo(训练 DCN / scale-out)也走类似的"分组 + long links + 高 radix Switch + OCS"思路。两层网络的拓扑哲学正在收敛——不再是经典的"scale-up 用 Torus / NVLink,scale-out 用 fat-tree / Clos"二分。
含义:拓扑选择不再首先服从 chip-to-chip vs rack-to-rack 的物理分层,而是首先服从 workload 的通信模式(All2All / bisection bandwidth 主导)。Boardfly 与 Virgo 殊途同归是同一范式转变的两个侧影,详见 google-tpu-v8 主页 "compute-driven → bandwidth-driven" 总论。
相关概念¶
- google-tpu-v8 — Boardfly 是 TPUv8i 的标配拓扑
- virgo-fabric — 同代训练侧 fabric,对照
- training-inference-bifurcation — 训练/推理网络层分叉的证据
- optics-as-scaling-constraint — Boardfly 的 OCS 全互联是 optics 成为系统级核心约束的直接体现