Boardfly 推理网络拓扑

tags: [AI, 网络, 拓扑, Google, 推理]
created: 2026-04-24
updated: 2026-04-24
sources: [raw/notes/google-tpuv8-deep-dive-2026-04.md, raw/notes/fundaai-tpuv8-commentary-2026-04.md]

定义¶

Google TPUv8i 推理芯片专用网络拓扑，借鉴 Dragonfly 设计思路，通过增加 Group 间直连光学连接实现扁平化。1152 芯片/Pod，任意芯片间通信不超过 7 跳——相比同规模 3D Torus 的 16 跳压缩 56%。

三层结构¶

层级	单元	芯片数	互联
Building Block (BB) = Compute Tray	—	4 个 TPUv8i	ICI 全互联，16 个外部连接
Group (G)	8 个 BB	32 个 TPUv8i	铜缆全互联（黑/蓝两类），11 个可用外部连接
Pod	36 个 Group	1152 个 TPUv8i	OCS（Optical Circuit Switch）全互联，最多 1024 激活

最远 7 跳路径分解： - BB 内部 ≤1 跳 - Group 内部 ≤3 跳（BB 内 1 跳 + BB 间 1 跳 + 目标 BB 内 1 跳） - Group 之间 ≤7 跳（源 Group 3 跳 + Group 间 1 跳 + 目标 Group 3 跳）

为什么弃用 3D Torus¶

3D Torus 是 TPU 系列从 v1 到 v8t 的传统互联——但只对训练友好。

3D Torus 中节点呈环形闭合排列： - 8x8x16 = 1024 芯片下，最远芯片 = 8/2 + 8/2 + 16/2 = 16 跳 - Dense 训练时相邻设备通信占主导，跳数少时高效 - 但推理时代变了：

Reasoning 模型 + MoE 改变了通信模式¶

MoE token 路由：任一 token 可能被路由到任意 expert，跨芯片 All2All 通信成主导模式
Reasoning 多步推理：sampling 同步频繁，跨远端芯片的尾时延直接拉低 throughput
3D Torus 的 16 跳 → CAE 等数据等到睡着：芯片本地 0 时延 + 远端 16 跳的差异让 CAE 失去意义

→ 推理网络必须扁平化。Boardfly 的 7 跳是把这个矛盾推到 OCS 光交换 + Dragonfly 拓扑思路上的工程答案。

借鉴 Dragonfly 的关键¶

Dragonfly 是 HPC 圈成熟拓扑（最早 2008 年 Cray Cascade）： - 把节点分组，组内全互联，组间通过少量 long links 全互联 - 优势：低直径（任意两节点跳数 ≤3-4 在传统 Dragonfly 中）+ 低成本（组间长链路数远低于 fat-tree） - 劣势：负载均衡依赖自适应路由

Boardfly 把 Dragonfly 思路嫁接到光交换 + 推理 workload： - 用 OCS 在 Group 间做物理层全互联（不是 packet switch）→ 消除拥塞 - 跳数从理论的 16 → 实际的 7 - 1024 激活芯片下的 All2All 时延确定性接近本地

与 Virgo 的对照¶

维度	Virgo（训练）	Boardfly（推理）
规模	134K 芯片 / 跨 DC 100 万	1152 芯片 / 单 Pod
拓扑哲学	2 层非阻塞 + scale-out	3 层 BB/Group/Pod + Dragonfly 风格
优化目标	bisection 带宽 + 跨 DC scaling	最远跳数 + All2All 时延确定性
交换层	高 radix Switch	OCS 光交换

→ 同代但完全不同的设计——推理与训练在网络层也彻底分家，是 training-inference-bifurcation 的网络层证据。

Dragonfly 哲学统一 scale-up + scale-out（FundaAI 视角）¶

FundaAI 独立评注的关键论点：

Dragonfly-topology based scale up and scale out integration, with higher network bandwidth overall

Boardfly 是 scale-up 范畴（Pod 内）借鉴 Dragonfly，Virgo（训练 DCN / scale-out）也走类似的"分组 + long links + 高 radix Switch + OCS"思路。两层网络的拓扑哲学正在收敛——不再是经典的"scale-up 用 Torus / NVLink，scale-out 用 fat-tree / Clos"二分。

含义：拓扑选择不再首先服从 chip-to-chip vs rack-to-rack 的物理分层，而是首先服从 workload 的通信模式（All2All / bisection bandwidth 主导）。Boardfly 与 Virgo 殊途同归是同一范式转变的两个侧影，详见 google-tpu-v8 主页 "compute-driven → bandwidth-driven" 总论。