- tags
- [AI, 硬件, Roofline, MoE, 系统架构, DeepSeek, NVIDIA, 国产芯片]
- created
- 2026-04-24
- updated
- 2026-04-24
- status
- published
- type
- report
- version
- 1
Executive Summary¶
DeepSeek V4 技术报告 §EP Scheme 给出"每 GBps 互联带宽足以覆盖 6.1 TFLOP/s 计算"的硬件设计建议,与 FundaAI 的 bandwidth-driven 视角看似对立。本报告通过抓 PDF 原文核对推导 + 算 GB300 真实数字得到三条结论:
-
6.1 不是黑箱:完整推导是 C/B ≤ 2d,V4-Pro hidden dim d=3072 → 阈值 6144 FLOPs/byte ≈ 6.1 TFLOPS/GBps。通信精度是 FP8 dispatch + BF16 combine(不是 FP4),论点绑定在 V4-Pro 这个具体模型上。
-
GB300 现实算账:单 GPU NVLink 5 对 V4-Pro × FP8 训练 C/B = 2.78 TFLOPS/GBps,对 6.1 阈值富余 2.2x。DeepSeek 论点对 V4-Pro × GB300 完全成立。但 FP4 训练或 GPT-5 量级模型(d≥8192,阈值升到 16+)下论点不再适用——NVIDIA 把 NVLink 推到 1.8 TBps 不是过度,是按 frontier 设计。
-
DeepSeek vs FundaAI 不在同一物理层级:DeepSeek 6.1 覆盖 NVLink/IB/卡间互联(TB/s),FundaAI bandwidth-driven 覆盖 DC fabric / 跨 DC 光纤(Pb/s)。DeepSeek 论文完全没覆盖 virgo-fabric 那一层。两边都对,但场景不重叠——知识库初版"对立张力"叙事过简化。
附带产物:国产芯片追赶门槛具象化为 NVLink-equivalent ~900 GBps(GB300 一半),按 V4-Pro × FP8 训练即够;FP4 时代升到 ~1.6 TBps,frontier 时代升到 ~3 TBps+。
1. 缘起:知识库初版的过简化¶
2026-04-24 第一轮摄取 DeepSeek V4 时,从 InfoQ 转引的中文报道里看到 "6.1 TFLOP/GBps" 这个数字,理解为 DeepSeek 给硬件厂商的反向指引——"通信已经够用,盲目加带宽边际递减"。当时把它与 FundaAI 在 optics-as-scaling-constraint 的 "compute-driven → bandwidth-driven、optics 成核心约束" 论点处理为直接对立,知识库写:
知识库保留这两个独立来源的张力,不强行合并——这是 2026 系统层最重要的争论之一。
用户回过头来追问"这个值得深入研究"——回头研究后发现这个处理过简化,有三个具体问题:
- 数字没溯源:6.1 是怎么来的?精度口径是什么?
- GB300 真实数字怎么样:V4 的论点对当代旗舰 GPU 是否成立?
- 两侧真的对立吗:还是在不同层级各自正确?
本报告记录三个问题的核对过程 + 修正结论。
2. 论文原文核对(V4 paper §EP Scheme,page 18 附近)¶
操作链¶
WebFetch / huggingface.co 域名预检挂掉,绕开方式:
curl -sL https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/resolve/main/DeepSeek_V4.pdf -o /tmp/dsv4/DeepSeek_V4.pdf
brew install poppler
pdftotext -layout /tmp/dsv4/DeepSeek_V4.pdf /tmp/dsv4/v4.txt
grep -B 2 -A 5 "6\.1\|TFLOP\|GBps" /tmp/dsv4/v4.txt
命中 §EP Scheme 段落。
完整原文段落¶
Computation-Communication Ratio. Full communication-computation overlap hinges on the computation-communication ratio, rather than the bandwidth solely. Denoting peak compute throughput as C and interconnect bandwidth as B, communication can be fully hidden when C / B ≤ V_comp / V_comm, where V_comp denotes the computation volume and V_comm refers to the communication volume.
For DeepSeek-V4-Pro, where each token-expert pair requires 6hd FLOPs (SwiGLU gate, up, and down projections) but only 3h bytes of communication (FP8 Dispatch + BF16 Combine), this simplifies to:
C / B ≤ 2d = 6144 FLOPs/Byte
That is, each GBps of interconnect bandwidth suffices to hide the communication for 6.1 TFLOP/s of compute. Once bandwidth meets this threshold, it ceases to be the bottleneck, and devoting additional silicon area to further bandwidth brings diminishing returns. We encourage future hardware designs to target such balance points rather than scale bandwidth unconditionally.
三条限定(之前知识库漏掉)¶
- "For DeepSeek-V4-Pro" — 论文措辞明确绑定在 V4-Pro 这个具体模型上,不是 MoE workload 普遍属性
- 通信精度是 FP8 Dispatch + BF16 Combine —— 不是 FP4。LatentMoE 2026-01 paper 假设的是 FP4 dispatch (0.5 byte),与 V4 通信精度不可直接对比
- 基于 SwiGLU 6hd FLOPs/expert 结构 —— expert 结构改变阈值上升
数字推导透明¶
阈值 = V_comp / V_comm = 6hd / 3h = 2d
V4-Pro 的 hidden dim d = 3072,所以 2d = 6144 FLOPs/byte ≈ 6.1 TFLOPS/GBps。
非黑箱、可外推到其他模型。
3. 阈值随模型 hidden dim 线性扩张¶
| 模型 | hidden d | 阈值(按 V4 同精度通信) |
|---|---|---|
| V4-Pro | 3072 | 6.1 TFLOPS/GBps |
| Llama-3 70B | 8192 | 16.4 TFLOPS/GBps |
| GPT-3 175B | 12288 | 24.6 TFLOPS/GBps |
| 假设 GPT-5 | 16384 | 32.8 TFLOPS/GBps |
V4-Pro d=3072 是相对偏小的(GPT-3 是 12288,Llama-3 70B 是 8192)。6.1 这个数字绑定在 V4-Pro 这个特定模型架构上,对更大 d 的 frontier 模型,阈值显著上升。
其他敏感参数: - dispatch 精度:FP8 → FP4(DeepSeek 论文留的余地)→ 通信量缩 17%,阈值微升 - expert 结构:6hd 系数随 SwiGLU 替换为更复杂结构而上升 → 阈值上升 - 训练精度:BF16/FP8 → FP4 全程 → compute 端翻 3x,直接吃掉边际
4. GB300 现实数值算账¶
NVIDIA GB300(Blackwell Ultra)规格¶
来源:Tom's Hardware / NVIDIA 官网 / VideoCardz / Glenn K Lockwood 综合
- 单 GPU dense FP4: 15 PFLOPS
- 单 GPU dense FP8: ~5 PFLOPS(FP4 的 1/3)
- 单 GPU dense BF16: ~2.5 PFLOPS
- NVLink 5: 1.8 TBps = 1800 GBps per GPU
- HBM3e: 288 GB / 8 TBps
- NVL72 rack: 72 GPUs / 1.1 EF dense FP4 / 360 PF FP8 / 130 TBps NVLink fabric
算账¶
| 精度 | C (FLOPS) | B (GBps) | C/B (TFLOPS/GBps) | 对比 6.1 阈值 |
|---|---|---|---|---|
| FP4 单 GPU | 15 PF | 1800 | 8.33 | 高 36% |
| FP8 单 GPU(V4-Pro 训练精度) | 5 PF | 1800 | 2.78 | 低 54%(富余 2.2x) |
| BF16 单 GPU | 2.5 PF | 1800 | 1.39 | 低 77% |
| FP8 NVL72 rack | 360 PF | 130000 | 2.77 | 低 54% |
| FP4 NVL72 rack | 1100 PF | 130000 | 8.46 | 高 39% |
NVL72 的 ratio 与单 GPU 几乎相同——证明 NVL72 是 chip-level 比例的线性堆叠。
对 V4-Pro × GB300 这个具体组合的判断¶
按论文 dispatch 用 FP8、combine 用 BF16 的口径,对应 GB300 单 GPU FP8 训练 workload:
C/B 实际 = 2.78 TFLOPS/GBps,DeepSeek 阈值 = 6.1 TFLOPS/GBps
GB300 NVLink 对 V4-Pro 富余 2.2x,DeepSeek 论点完全成立
GB300 NVLink 对 V4-Pro 不是瓶颈,再加带宽(GB400/GB500 推到 3.6 TBps)边际收益接近零。
但对 FP4 训练精度(DeepSeek 自己也在推),ratio 升到 8.33,反而超过阈值——FP4 时代 NVLink 偏紧。对 GPT-5 / Claude Opus 6 量级 (d ≥ 8192) 模型,阈值升到 16+ TFLOPS/GBps,GB300 NVLink 远不够用。
结论:NVIDIA 把 NVLink 推到 1.8 TBps 不是过度,是按 frontier 模型设计。DeepSeek 的论点暗示的是"对模型分层设计有空间",不是"NVIDIA 路线错了"。
5. 物理层级修正:DeepSeek vs FundaAI 不在同一层¶
这是本研究最大的叙事修正。
| 物理层级 | 带宽量级 | 论点结论 | |
|---|---|---|---|
| DeepSeek 6.1 TFLOPS/GBps | NVLink / IB / 卡间互联(chip-to-chip / rack 内 EP 通信) | TB/s 量级 | rack 内 NVLink 对 V4-Pro 富余 2.2x |
| FundaAI bandwidth-driven | DC fabric / 跨 DC 光纤 | Pb/s 量级 | 跨 DC scaling 仍是核心约束 |
DeepSeek 论文没有覆盖 virgo-fabric 那一层(DC 级 134K 芯片 / 跨 DC 100 万 TPU)。论点的精确边界是 rack 内 / pod 内的 EP 通信——这一层确实通过 wave 切分 + 混合精度通信 + DualPipe 把 ratio 推到 6.1,超过 GB300 现有 NVLink ratio。跨 DC scaling 仍然是 FundaAI bandwidth-driven 论点的领地,DeepSeek 没有反驳,只是没说。
两边其实都对,但场景不重叠——把它处理成"对立张力"过简化。正确的关系是 Roofline 框架在不同物理层级上的不同切片。
6. 国产芯片窗口期具象化¶
按 V4-Pro × FP8 训练的 ratio = 2.78 TFLOPS/GBps,国产芯片只要 NVLink-equivalent 互联做到约 900 GBps(GB300 一半),就够支撑 V4-Pro 训练。
这才是 6.1 论点对 china-us-ai-gap 与 model-hardware-decoupling 的真正含义——通信门槛具体可量化,不是模糊的"通信不重要"。
三档窗口期边界¶
| 训练场景 | 国产 NVLink-equivalent 门槛 | 与 GB300 (1800 GBps) 的差距 |
|---|---|---|
| V4-Pro × FP8(当前) | ~900 GBps | 1/2 |
| FP4 训练成主流 | ~1.6 TBps | 0.9 |
| Frontier 模型(GPT-5 量级 d=8192) | ~3 TBps | 1.7(超过现役 NVIDIA 旗舰) |
含义:国产追赶的窗口期与 frontier 模型 size 增长速度赛跑。如果国产 NVLink-equivalent 12-18 个月内做到 ~900 GBps,能稳住 V4-Pro 量级;做到 ~1.6 TBps,能跨过 FP4 时代;做到 ~3 TBps 才能追上 frontier。
7. 投资 / 战略含义¶
精确化后,三个时间窗下两侧各自适用:
| 时间窗 | DeepSeek 论点适用 | FundaAI 论点适用 | 投资暗示 |
|---|---|---|---|
| 2026 当下(V4-Pro 量级模型 + FP8 训练) | NVLink/IB 层(rack 内) | DCN / 跨 DC 层 | 光通信继续涨,NVLink 升级减速 |
| FP4 训练成主流 | 边界压缩 | 维持 | 光通信 + chip-level NVLink 都涨 |
| frontier 模型 d 翻倍(GPT-5 / Opus 6) | 不再适用,阈值升至 16+ | 维持 | 全栈带宽都偏紧 |
所以两个论点在不同子空间里都正确——读知识库的人不应该把它们读成对立判断,而应该读成 Roofline 框架在不同坐标点上的不同切片。
self-serving 维度的精确化¶
DeepSeek 论点确实 for V4-Pro 这个具体模型成立,但绑定在三个前提上: 1. d=3072(小模型量级) 2. FP8 dispatch + BF16 combine(混合精度) 3. SwiGLU 6hd FLOPs/expert 结构
这些前提是 V4 设计自己选的,不是 frontier 模型普遍属性。论点为 DeepSeek 跨硬件解耦战略提供 narrative 支撑——但 narrative 的精确边界在论文里写得很清楚("For DeepSeek-V4-Pro"),没有过度承诺。外界(包括知识库自己第一版)容易把 6.1 数字读成"通信普遍够用",那就误读了。
8. Roofline 框架与 LLM 时代演化¶
每个 LLM 时代都有一段 compute-bound 时期和一段 bandwidth-bound 时期: - GPT-3/4 dense 时代:compute-bound(dense matmul,arithmetic intensity 远超 B_crit) - MoE + reasoning + long context 时代:向 bandwidth-bound 漂移 - 但每次架构创新(FlashAttention / GQA / MoE / sparse attention / Engram / wave 切分)都把 arithmetic intensity 阶跃式推高——roofline 上的"工作点"在向右移
DeepSeek "波"切分本质就是主动把 arithmetic intensity 推高(让 compute 与 communication overlap)的算法实践。这与 LatentMoE (2026-01) 论文测量的 Qwen3-235B-A22B 在 throughput 设置下 communication-bound 不矛盾——前者描述优化后的工作点,后者描述未优化的 baseline。
判断真正的关键:前沿模型 size 增长率 vs 算法推高 arithmetic intensity 的速度——谁主导决定下一代是 bandwidth-bound 还是 compute-bound。
9. 对知识库的修正记录¶
本次研究产生的具体改动(详见 git commit 3ffc170):
- 新建 compute-vs-bandwidth-roofline —— Roofline 解码工具页(6.1 推导 + GB300 算账 + 物理层级修正 + 不同时间窗适用范围)
- 修正 deepseek-v4 "6.1 论点段":写完整公式 C/B ≤ 2d、三条限定、GB300 数值对比,删除"对立"措辞
- 修正 optics-as-scaling-constraint "模型侧反向视角"段:明确两侧覆盖不同物理层级(NVLink/IB vs DC fabric/光纤),知识库初版"对立张力"过简化
- 加 model-hardware-decoupling "国产芯片窗口期具象化"段:~900 GBps NVLink-equivalent 是 V4-Pro 的具体门槛 + 三档边界
- 追加 wiki/journal/2026-04-24.md 第四节"6.1 论点深化"
- 更新 wiki/index.md:AI 算力子分区加 compute-vs-bandwidth-roofline + 最近更新追加一行
10. 待验证 / 后续追踪¶
- DeepSeek "波"切分双栈 1.5-1.96x 加速未见第三方独立复现
- FP4 dispatch(DeepSeek 论文留的余地)实际上线后阈值如何变
- GPT-5 / Claude Opus 6 等更大 d 模型的 C/B 实测,目前只能按论文公式外推
- LatentMoE 2026-01 论文的 Qwen3-235B-A22B 测量是否能直接对照 V4-Pro(架构不同,需详细比较 hidden dim / dispatch precision)
- 国产昇腾 950 / 寒武纪互联带宽公开数据缺失,~900 GBps 门槛验证依赖产品规格披露
11. 引用源¶
一手文献¶
- DeepSeek V4 Technical Report (PDF) — page 18 附近 §EP Scheme(本报告核心引文)
- Insights into DeepSeek-V3 (ISCA 2025) — V3 paper hardware co-design 章节,V4 论点的前身
- LatentMoE: Toward Optimal Accuracy per FLOP and Parameter in Mixture of Experts (arXiv 2026-01) — Qwen3-235B-A22B MoE roofline on GB200,第三方独立测量
框架与对照¶
- Roofline model — Wikipedia — Williams et al. 2009 原始框架
- All About Rooflines — JAX Scaling Book — H100/B200 vs TPU 当代 roofline 数学
硬件规格¶
知识库内部 raw 沉淀¶
- raw/notes/deepseek-v4-6.1-flop-gbps-deep-dive-2026-04.md — 研究过程快照
- raw/notes/deepseek-v4-release-2026-04.md — V4 发布素材沉淀
- raw/notes/fundaai-tpuv8-commentary-2026-04.md — FundaAI bandwidth-driven 视角原始素材