- tags
- [AI, 光通信, 供应链, 网络, 数据中心, 半导体]
- created
- 2026-04-24
- updated
- 2026-04-24
- sources
- [raw/notes/fundaai-tpuv8-commentary-2026-04.md, raw/notes/google-tpuv8-deep-dive-2026-04.md, raw/notes/deepseek-v4-release-2026-04.md]
定义¶
在 bandwidth-driven 的 AI 系统范式下(详见 google-tpu-v8 主页范式总论),光学组件(optics / OCS / transceiver / 激光器 / 光纤)从原本的"网络辅助层"晋升为决定系统能否 scale 的核心硬约束。Google TPUv8 + Virgo + Boardfly 是这一晋升的首个产品级证据。论点出处:FundaAI 独立分析师视角(非 Google 官方)。
为什么从外围变成核心¶
传统视角下 optics 是"机房布线问题"——只要交换机厂商解决就好。bandwidth-driven 范式翻转了这个判断:
| 旧范式(compute-driven) | 新范式(bandwidth-driven) |
|---|---|
| 单芯片 FLOPS 是上限 | bisection bandwidth 是上限 |
| 通信是"等数据完成 → 继续算" | 通信是"芯片 1/3+ 时间在等数据" |
| 网络层级算成本/可靠性账 | 网络层级算时延 + 跳数 + 拥塞确定性 |
| OCS 是机房工程细节 | OCS 是 die 间通信范式(Boardfly Pod 内 36 Group 走 OCS) |
| 光模块是周边供应链 | 光模块是系统能否 scale 的卡点 |
在 MoE All2All + reasoning 多步 sampling 主导的 workload 下,跨芯片通信不再是少数 collectives——是主流通信模式。光通信链路的速率、密度、时延、可靠性直接决定 token throughput。
在 TPUv8 各层的体现¶
scale-up(Pod 内)— Boardfly 的 OCS¶
boardfly-topology Group 间用 OCS(Optical Circuit Switch) 全互联,不是 packet switch。这是把光交换从"跨园区长链路"用法下放到"Pod 内组间"用法的第一个产品级案例。1024 芯片间任意通信 ≤7 跳的工程答案,物理底座是 OCS 而非传统电交换。
scale-out(DCN)— Virgo 的高 radix Switch¶
virgo-fabric 47 Pb/s 双向带宽 / 单 fabric 134K 芯片,依赖高 radix Switch 减少层级——而高 radix 的物理实现绕不开高密度光模块 + 高速 SerDes(224G)+ co-packaged optics 趋势。
DC-to-DC — 跨 DC 100 万 TPU¶
Virgo 跨园区训练的物理底层是长距离光纤 + coherent optics。RTT、stragglers、重传都受光层指标制约,"近线性 scaling"宣称能否成立首先是光层是否兜得住。
供应链 / TAM 含义(FundaAI 推算)¶
FundaAI 给出的关键数字:
- scale-up OCS port 比:1.5:1 → 2:1~10:1
- scale-out OCS port 比:0.2:1 → 1:1
- transceiver / coherent lite TAM:未来 2-3 年阶跃式扩张
- TPU rack BOM:TCO 比 GB200 好 2x+,省下来的 CSP CapEx 倾向流向 optics + memory
含义:在 hidden-chokepoints 与 asymmetric-chokepoints 已识别的卡脖子清单(味之素 ABF / TOTO ESC / 燃气轮机 / 稀土 / 半导体设备)之外,光学供应链是 2026 起的新增隐性卡脖子点——但目前公众 / 媒体 / 政策视野尚未对其完整定价。
与 hidden-chokepoints 的关系¶
hidden-chokepoints 列了味之素 ABF、TOTO ESC、大型燃气轮机三个案例。光学供应链不完全适配"消费品技术溢出"模式,但适配"远离芯片但同样不可绕过的上游基础设施"模式:
- 终端用户不知道 AI agent 的 token throughput 受制于光模块产能
- 头部厂商集中度高(Coherent / Lumentum / Innolight / Eoptolink 等)
- 产能扩张周期长(激光器晶圆 + 封装产线)
- 一旦 OCS port 比阶跃,需求增长 5-50x,供给端跟不上
→ 应作为 hidden-chokepoints 的第四类案例(光学)处理,而非完全独立的现象。
国产追赶的额外难度¶
china-us-ai-gap 已指出国产芯片要追的不只是单芯片算力,而是 SKU 拆分 + DC fabric + 全系统协同。光学约束又叠了一层:
- 国产 OCS / co-packaged optics / 224G SerDes 生态相对薄弱
- 高速光模块依赖海外(含台系)封装能力
- 即使昇腾追上 TPUv8 的 chip-level FLOPS,DCN 层光通信能力跟不上 → bandwidth-driven 范式下系统能力仍落后
光学层的差距对外披露少,但可能比芯片层差距更结构性。
模型侧视角:DeepSeek "6.1 TFLOP/GBps" 覆盖不同物理层级(2026-04)¶
deepseek-v4 技术报告对硬件厂商给出方向看似相反的指引("每 GBps 互联带宽足以覆盖 6.1 TFLOP/s 计算"),但这与本页 bandwidth-driven 视角不是对立,是覆盖不同物理层级:
| 物理层级 | 带宽量级 | 论点结论 | |
|---|---|---|---|
| 本页(FundaAI bandwidth-driven) | DC fabric / 跨 DC 光纤 | Pb/s 量级 | 跨 DC scaling 仍是核心约束 |
| DeepSeek 6.1 TFLOPS/GBps | NVLink / IB / 卡间互联 | TB/s 量级 | rack 内 NVLink 对 V4-Pro 富余 2.2x |
DeepSeek 论文的精确边界是 rack 内 / pod 内的 EP 通信——通过 wave 切分 + FP8/BF16 混合精度通信 + DualPipe 把 ratio 推到 6.1,超过 GB300 现有 NVLink ratio (2.78)。论文完全没有覆盖 virgo-fabric 那一层(DC 级 134K 芯片 / 跨 DC 100 万 TPU)。两者讨论场景不重叠。
数字推导见 compute-vs-bandwidth-roofline:阈值 = 2d,与 hidden dim 线性相关。V4-Pro d=3072 → 6.1 阈值;Llama-3 70B d=8192 → 阈值 16.4;GPT-5 量级 d≥16384 → 阈值 32+。对 frontier 模型,GB300 NVLink 反而偏紧——NVIDIA 把 NVLink 推到 1.8 TBps 是按 frontier 设计,不是过度。
模型侧的"反向破解"仍然真实存在:engram-conditional-memory 的 host-memory offload 绕过 HBM 容量约束、wave 切分把 arithmetic intensity 推高、FP4 dispatch(DeepSeek 论文留的余地)继续压通信量。但所有这些都在 chip-to-chip / rack 内 EP 通信这一层——对 DC fabric / 跨 DC 光纤的 bandwidth-driven 论断没有反驳力。
结论修正:知识库初版把两侧处理成"对立张力"是过简化。正确的关系是 Roofline 框架在不同物理层级上的不同切片——两边在各自坐标点上都正确。详见 compute-vs-bandwidth-roofline。
待验证¶
- FundaAI OCS port 比数字(1.5:1→10:1 / 0.2:1→1:1)暂无第三方独立验证,属预测性论断
- TPU rack vs GB200 BOM 对比(TCO 2x+)的具体口径未公开,需 MLPerf 或 hyperscaler 财报侧验证
- co-packaged optics 在 TPUv8 中是否已部署(Google 未明确披露),仍属推测
相关概念¶
- google-tpu-v8 — bandwidth-driven 范式总论的主源头
- virgo-fabric — 高 radix Switch + 跨 DC 长距光纤的载体
- boardfly-topology — OCS 在 Pod 内的产品级首次下放
- training-inference-bifurcation — 训练 / 推理分叉在光通信层各自有不同需求曲线
- hidden-chokepoints — 光学供应链应作为该页第四类案例
- asymmetric-chokepoints — 光通信成为新的非对称博弈节点候选
- china-us-ai-gap — 光学层差距是国产追赶的额外结构性难度
- deepseek-v4 — 模型侧反向视角的来源("6.1 TFLOP/GBps"论点)
- engram-conditional-memory — 模型架构反向破解硬件约束的同源案例