光学作为系统级 scaling 核心约束

tags: [AI, 光通信, 供应链, 网络, 数据中心, 半导体]
created: 2026-04-24
updated: 2026-04-24
sources: [raw/notes/fundaai-tpuv8-commentary-2026-04.md, raw/notes/google-tpuv8-deep-dive-2026-04.md, raw/notes/deepseek-v4-release-2026-04.md]

定义¶

在 bandwidth-driven 的 AI 系统范式下（详见 google-tpu-v8 主页范式总论），光学组件（optics / OCS / transceiver / 激光器 / 光纤）从原本的"网络辅助层"晋升为决定系统能否 scale 的核心硬约束。Google TPUv8 + Virgo + Boardfly 是这一晋升的首个产品级证据。论点出处：FundaAI 独立分析师视角（非 Google 官方）。

为什么从外围变成核心¶

传统视角下 optics 是"机房布线问题"——只要交换机厂商解决就好。bandwidth-driven 范式翻转了这个判断：

旧范式（compute-driven）	新范式（bandwidth-driven）
单芯片 FLOPS 是上限	bisection bandwidth 是上限
通信是"等数据完成 → 继续算"	通信是"芯片 1/3+ 时间在等数据"
网络层级算成本/可靠性账	网络层级算时延 + 跳数 + 拥塞确定性
OCS 是机房工程细节	OCS 是 die 间通信范式（Boardfly Pod 内 36 Group 走 OCS）
光模块是周边供应链	光模块是系统能否 scale 的卡点

在 MoE All2All + reasoning 多步 sampling 主导的 workload 下，跨芯片通信不再是少数 collectives——是主流通信模式。光通信链路的速率、密度、时延、可靠性直接决定 token throughput。

在 TPUv8 各层的体现¶

scale-up（Pod 内）— Boardfly 的 OCS¶

boardfly-topology Group 间用 OCS（Optical Circuit Switch） 全互联，不是 packet switch。这是把光交换从"跨园区长链路"用法下放到"Pod 内组间"用法的第一个产品级案例。1024 芯片间任意通信 ≤7 跳的工程答案，物理底座是 OCS 而非传统电交换。

scale-out（DCN）— Virgo 的高 radix Switch¶

virgo-fabric 47 Pb/s 双向带宽 / 单 fabric 134K 芯片，依赖高 radix Switch 减少层级——而高 radix 的物理实现绕不开高密度光模块 + 高速 SerDes（224G）+ co-packaged optics 趋势。

DC-to-DC — 跨 DC 100 万 TPU¶

Virgo 跨园区训练的物理底层是长距离光纤 + coherent optics。RTT、stragglers、重传都受光层指标制约，"近线性 scaling"宣称能否成立首先是光层是否兜得住。

供应链 / TAM 含义（FundaAI 推算）¶

FundaAI 给出的关键数字：

scale-up OCS port 比：1.5:1 → 2:1～10:1
scale-out OCS port 比：0.2:1 → 1:1
transceiver / coherent lite TAM：未来 2-3 年阶跃式扩张
TPU rack BOM：TCO 比 GB200 好 2x+，省下来的 CSP CapEx 倾向流向 optics + memory

含义：在 hidden-chokepoints 与 asymmetric-chokepoints 已识别的卡脖子清单（味之素 ABF / TOTO ESC / 燃气轮机 / 稀土 / 半导体设备）之外，光学供应链是 2026 起的新增隐性卡脖子点——但目前公众 / 媒体 / 政策视野尚未对其完整定价。

与 hidden-chokepoints 的关系¶

hidden-chokepoints 列了味之素 ABF、TOTO ESC、大型燃气轮机三个案例。光学供应链不完全适配"消费品技术溢出"模式，但适配"远离芯片但同样不可绕过的上游基础设施"模式：

终端用户不知道 AI agent 的 token throughput 受制于光模块产能
头部厂商集中度高（Coherent / Lumentum / Innolight / Eoptolink 等）
产能扩张周期长（激光器晶圆 + 封装产线）
一旦 OCS port 比阶跃，需求增长 5-50x，供给端跟不上

→ 应作为 hidden-chokepoints 的第四类案例（光学）处理，而非完全独立的现象。

国产追赶的额外难度¶

china-us-ai-gap 已指出国产芯片要追的不只是单芯片算力，而是 SKU 拆分 + DC fabric + 全系统协同。光学约束又叠了一层：

国产 OCS / co-packaged optics / 224G SerDes 生态相对薄弱
高速光模块依赖海外（含台系）封装能力
即使昇腾追上 TPUv8 的 chip-level FLOPS，DCN 层光通信能力跟不上 → bandwidth-driven 范式下系统能力仍落后

光学层的差距对外披露少，但可能比芯片层差距更结构性。

模型侧视角：DeepSeek "6.1 TFLOP/GBps" 覆盖不同物理层级（2026-04）¶

deepseek-v4 技术报告对硬件厂商给出方向看似相反的指引（"每 GBps 互联带宽足以覆盖 6.1 TFLOP/s 计算"），但这与本页 bandwidth-driven 视角不是对立，是覆盖不同物理层级：

	物理层级	带宽量级	论点结论
本页（FundaAI bandwidth-driven）	DC fabric / 跨 DC 光纤	Pb/s 量级	跨 DC scaling 仍是核心约束
DeepSeek 6.1 TFLOPS/GBps	NVLink / IB / 卡间互联	TB/s 量级	rack 内 NVLink 对 V4-Pro 富余 2.2x

DeepSeek 论文的精确边界是 rack 内 / pod 内的 EP 通信——通过 wave 切分 + FP8/BF16 混合精度通信 + DualPipe 把 ratio 推到 6.1，超过 GB300 现有 NVLink ratio (2.78)。论文完全没有覆盖 virgo-fabric 那一层（DC 级 134K 芯片 / 跨 DC 100 万 TPU）。两者讨论场景不重叠。

数字推导见 compute-vs-bandwidth-roofline：阈值 = 2d，与 hidden dim 线性相关。V4-Pro d=3072 → 6.1 阈值；Llama-3 70B d=8192 → 阈值 16.4；GPT-5 量级 d≥16384 → 阈值 32+。对 frontier 模型，GB300 NVLink 反而偏紧——NVIDIA 把 NVLink 推到 1.8 TBps 是按 frontier 设计，不是过度。

模型侧的"反向破解"仍然真实存在：engram-conditional-memory 的 host-memory offload 绕过 HBM 容量约束、wave 切分把 arithmetic intensity 推高、FP4 dispatch（DeepSeek 论文留的余地）继续压通信量。但所有这些都在 chip-to-chip / rack 内 EP 通信这一层——对 DC fabric / 跨 DC 光纤的 bandwidth-driven 论断没有反驳力。

结论修正：知识库初版把两侧处理成"对立张力"是过简化。正确的关系是 Roofline 框架在不同物理层级上的不同切片——两边在各自坐标点上都正确。详见 compute-vs-bandwidth-roofline。

待验证¶

FundaAI OCS port 比数字（1.5:1→10:1 / 0.2:1→1:1）暂无第三方独立验证，属预测性论断
TPU rack vs GB200 BOM 对比（TCO 2x+）的具体口径未公开，需 MLPerf 或 hyperscaler 财报侧验证
co-packaged optics 在 TPUv8 中是否已部署（Google 未明确披露），仍属推测

定义¶