🏠 home › concepts › boardfly-topology
tags
[AI, 网络, 拓扑, Google, 推理]
created
2026-04-24
updated
2026-04-24
sources
[raw/notes/google-tpuv8-deep-dive-2026-04.md, raw/notes/fundaai-tpuv8-commentary-2026-04.md]

定义

Google TPUv8i 推理芯片专用网络拓扑,借鉴 Dragonfly 设计思路,通过增加 Group 间直连光学连接实现扁平化。1152 芯片/Pod,任意芯片间通信不超过 7 跳——相比同规模 3D Torus 的 16 跳压缩 56%。

三层结构

层级 单元 芯片数 互联
Building Block (BB) = Compute Tray 4 个 TPUv8i ICI 全互联,16 个外部连接
Group (G) 8 个 BB 32 个 TPUv8i 铜缆全互联(黑/蓝两类),11 个可用外部连接
Pod 36 个 Group 1152 个 TPUv8i OCS(Optical Circuit Switch)全互联,最多 1024 激活

最远 7 跳路径分解: - BB 内部 ≤1 跳 - Group 内部 ≤3 跳(BB 内 1 跳 + BB 间 1 跳 + 目标 BB 内 1 跳) - Group 之间 ≤7 跳(源 Group 3 跳 + Group 间 1 跳 + 目标 Group 3 跳)

为什么弃用 3D Torus

3D Torus 是 TPU 系列从 v1 到 v8t 的传统互联——但只对训练友好

3D Torus 中节点呈环形闭合排列: - 8x8x16 = 1024 芯片下,最远芯片 = 8/2 + 8/2 + 16/2 = 16 跳 - Dense 训练时相邻设备通信占主导,跳数少时高效 - 但推理时代变了:

Reasoning 模型 + MoE 改变了通信模式

→ 推理网络必须扁平化。Boardfly 的 7 跳是把这个矛盾推到 OCS 光交换 + Dragonfly 拓扑思路上的工程答案。

借鉴 Dragonfly 的关键

Dragonfly 是 HPC 圈成熟拓扑(最早 2008 年 Cray Cascade): - 把节点分组,组内全互联,组间通过少量 long links 全互联 - 优势:低直径(任意两节点跳数 ≤3-4 在传统 Dragonfly 中)+ 低成本(组间长链路数远低于 fat-tree) - 劣势:负载均衡依赖自适应路由

Boardfly 把 Dragonfly 思路嫁接到光交换 + 推理 workload: - 用 OCS 在 Group 间做物理层全互联(不是 packet switch)→ 消除拥塞 - 跳数从理论的 16 → 实际的 7 - 1024 激活芯片下的 All2All 时延确定性接近本地

与 Virgo 的对照

维度 Virgo(训练) Boardfly(推理)
规模 134K 芯片 / 跨 DC 100 万 1152 芯片 / 单 Pod
拓扑哲学 2 层非阻塞 + scale-out 3 层 BB/Group/Pod + Dragonfly 风格
优化目标 bisection 带宽 + 跨 DC scaling 最远跳数 + All2All 时延确定性
交换层 高 radix Switch OCS 光交换

→ 同代但完全不同的设计——推理与训练在网络层也彻底分家,是 training-inference-bifurcation 的网络层证据。

Dragonfly 哲学统一 scale-up + scale-out(FundaAI 视角)

FundaAI 独立评注的关键论点:

Dragonfly-topology based scale up and scale out integration, with higher network bandwidth overall

Boardfly 是 scale-up 范畴(Pod 内)借鉴 Dragonfly,Virgo(训练 DCN / scale-out)也走类似的"分组 + long links + 高 radix Switch + OCS"思路。两层网络的拓扑哲学正在收敛——不再是经典的"scale-up 用 Torus / NVLink,scale-out 用 fat-tree / Clos"二分。

含义:拓扑选择不再首先服从 chip-to-chip vs rack-to-rack 的物理分层,而是首先服从 workload 的通信模式(All2All / bisection bandwidth 主导)。Boardfly 与 Virgo 殊途同归是同一范式转变的两个侧影,详见 google-tpu-v8 主页 "compute-driven → bandwidth-driven" 总论。

相关概念