- tags
- [AI, 硬件, Roofline, MoE, 系统架构, 网络]
- created
- 2026-04-24
- updated
- 2026-04-24
- sources
- [raw/notes/deepseek-v4-6.1-flop-gbps-deep-dive-2026-04.md, raw/notes/deepseek-v4-release-2026-04.md, raw/notes/fundaai-tpuv8-commentary-2026-04.md]
定义¶
Roofline(Williams et al. 2009)是硬件性能分析框架:每个 workload 有一个 arithmetic intensity(FLOPs/byte),与硬件 B_crit(FLOPs/byte 临界值,由 peak FLOPS / peak bandwidth 决定)比较——低于 B_crit 是 bandwidth-bound,高于是 compute-bound。
本页用 Roofline 解码 2026 系统层最重要的一场争论:optics-as-scaling-constraint bandwidth-driven(FundaAI)vs deepseek-v4 6.1 TFLOP/GBps(DeepSeek)。核心修正:两侧不在同一物理层级,把它处理成"对立"过简化。
DeepSeek V4 "6.1 TFLOP/GBps" 的完整推导¶
技术报告 §EP Scheme(page 18 附近)原文:
For DeepSeek-V4-Pro, where each token-expert pair requires 6hd FLOPs (SwiGLU gate, up, and down projections) but only 3h bytes of communication (FP8 Dispatch + BF16 Combine), this simplifies to:
C / B ≤ 2d = 6144 FLOPs/Byte
That is, each GBps of interconnect bandwidth suffices to hide the communication for 6.1 TFLOP/s of compute. Once bandwidth meets this threshold, it ceases to be the bottleneck, and devoting additional silicon area to further bandwidth brings diminishing returns.
数字推导透明(非黑箱):
- 每 token-expert pair 计算量 = 6hd FLOPs(SwiGLU gate + up + down 三个 projection)
- 通信量 = 3h bytes(FP8 Dispatch 1 byte + BF16 Combine 2 bytes)
- 阈值 C/B = 6hd / 3h = 2d
- V4-Pro 的 hidden dim d = 3072 → 2d = 6144 FLOPs/byte ≈ 6.1 TFLOPS/GBps
论点的精确边界(必读)¶
阈值 = 2d,与 hidden dim 线性相关:
| 模型 | hidden d | 阈值(按 V4 同精度通信) |
|---|---|---|
| V4-Pro | 3072 | 6.1 TFLOPS/GBps |
| Llama-3 70B | 8192 | 16.4 TFLOPS/GBps |
| GPT-3 175B | 12288 | 24.6 TFLOPS/GBps |
| 假设 GPT-5 | 16384 | 32.8 TFLOPS/GBps |
V4-Pro d=3072 是相对偏小的(GPT-3 是 12288,Llama-3 70B 是 8192)。6.1 这个数字绑定在 V4-Pro 这个特定模型架构上,不是 MoE workload 普遍属性。
其他敏感参数: - dispatch 精度:FP8 → FP4(DeepSeek 论文留的余地)→ 通信量缩 17%,阈值微升 - expert 结构:6hd 系数随 SwiGLU 替换为更复杂结构而上升 → 阈值上升 - 训练精度:BF16/FP8 → FP4 全程 → compute 端翻 3x,直接吃掉边际
GB300 现实数字算账¶
NVIDIA GB300 (Blackwell Ultra) 单 GPU NVLink 5 = 1.8 TBps = 1800 GBps。Dense FLOPS:FP4=15 PF, FP8≈5 PF, BF16≈2.5 PF。
| 精度 | C / B = FLOPS / NVLink | 对比 6.1 阈值 | 结论 |
|---|---|---|---|
| FP4 | 15 PF / 1.8 TBps = 8.33 TFLOPS/GBps | 高 36% | NVLink 偏紧 |
| FP8(V4-Pro 训练精度) | ~5 PF / 1.8 TBps = 2.78 TFLOPS/GBps | 低 54%(富余 2.2x) | NVLink 大幅富余 |
| BF16 | 2.5 PF / 1.8 TBps = 1.39 TFLOPS/GBps | 低 77% | NVLink 远超需 |
NVL72 rack(130 TBps NVLink fabric / 1.1 EF FP4 / 360 PF FP8)的 ratio 与单 GPU 几乎相同——证明 NVL72 是 chip-level 比例的线性堆叠。
对 V4-Pro × GB300 这个具体组合的判断:按论文 dispatch 用 FP8、combine 用 BF16 的口径,对应 FP8 训练 workload,C/B 实际 = 2.78 TFLOPS/GBps,DeepSeek 6.1 阈值富余 2.2x。GB300 NVLink 对 V4-Pro 不是瓶颈,再加带宽(GB400/GB500 推到 3.6 TBps)边际收益接近零——DeepSeek 论点对这个组合完全成立。
但对 FP4 训练精度(DeepSeek 自己也在推),ratio 升到 8.33,反而超过阈值——FP4 时代 NVLink 偏紧。对 GPT-5 / Claude Opus 6 量级 (d ≥ 8192) 模型,阈值升到 16+ TFLOPS/GBps,GB300 NVLink 远不够用——NVIDIA 把 NVLink 推到 1.8 TBps 不是过度,是按 frontier 模型设计。
两侧讨论的物理层级不同(核心修正)¶
之前知识库把 DeepSeek 与 FundaAI 处理成"对立"过简化。正确的关系是不同物理层级:
| 物理层级 | 带宽量级 | 论点结论 | |
|---|---|---|---|
| DeepSeek 6.1 TFLOPS/GBps | NVLink / IB / 卡间互联(chip-to-chip / rack 内 EP 通信) | TB/s 量级 | 现有 NVLink 对 V4-Pro 富余 2.2x |
| FundaAI bandwidth-driven | DC fabric / 跨 DC 光纤 | Pb/s 量级 | 跨 DC scaling 仍是核心约束 |
DeepSeek 论文没有覆盖 virgo-fabric 那一层(DC 级 134K 芯片 / 跨 DC 100 万 TPU)。论点的精确边界是 rack 内 / pod 内的 EP 通信——这一层确实通过 wave 切分 + 混合精度 + DualPipe 把 ratio 推到 6.1,超过 GB300 现有 NVLink ratio。跨 DC scaling 仍然是 FundaAI bandwidth-driven 论点的领地,DeepSeek 没有反驳,只是没说。
两边其实都对,但场景不重叠。
国产芯片窗口期(具象化)¶
按 V4-Pro × FP8 训练的 ratio = 2.78 TFLOPS/GBps,国产芯片只要 NVLink-equivalent 互联做到约 900 GBps(GB300 一半),就够支撑 V4-Pro 训练。
这才是 6.1 论点对 china-us-ai-gap 与 model-hardware-decoupling 的真正含义——通信门槛具体可量化,不是模糊的"通信不重要"。同样,对 FP4 训练时代或更大 d 模型,国产芯片的窗口期会收紧。
投资 / 战略含义¶
精确化后,三个时间窗下两侧各自适用:
| 时间窗 | DeepSeek 论点适用 | FundaAI 论点适用 | 投资暗示 |
|---|---|---|---|
| 2026 当下(V4-Pro 量级模型 + FP8 训练) | NVLink/IB 层(rack 内) | DCN / 跨 DC 层 | 光通信继续涨,NVLink 升级减速 |
| FP4 训练成主流 | 边界压缩 | 维持 | 光通信 + chip-level NVLink 都涨 |
| frontier 模型 d 翻倍(GPT-5 / Opus 6) | 不再适用,阈值升至 16+ | 维持 | 全栈带宽都偏紧 |
所以两个论点在不同子空间里都正确——读知识库的人不应该把它们读成对立判断,而应该读成 Roofline 框架在不同坐标点上的不同切片。
self-serving 维度的精确化¶
deepseek-v4 此前提到 DeepSeek 6.1 论点有 self-serving("通信不是 NVIDIA 独家护城河")成分。具象化后:
DeepSeek 论点确实 for V4-Pro 这个具体模型成立,但绑定在三个前提上: 1. d=3072(小模型量级) 2. FP8 dispatch + BF16 combine(混合精度) 3. SwiGLU 6hd FLOPs/expert 结构
这些前提是 V4 设计自己选的,不是 frontier 模型普遍属性。论点为 DeepSeek 跨硬件解耦战略提供 narrative 支撑——但 narrative 的精确边界在论文里写得很清楚("For DeepSeek-V4-Pro"),没有过度承诺。外界(包括知识库自己第一版)容易把 6.1 数字读成"通信普遍够用",那就误读了。
Roofline 框架与 LLM 时代演化¶
每个 LLM 时代都有一段 compute-bound 时期和一段 bandwidth-bound 时期: - GPT-3/4 dense 时代:compute-bound(dense matmul,arithmetic intensity 远超 B_crit) - MoE + reasoning + long context 时代:向 bandwidth-bound 漂移 - 但每次架构创新(FlashAttention / GQA / MoE / sparse attention / Engram / wave 切分)都把 arithmetic intensity 阶跃式推高——roofline 上的"工作点"在向右移
DeepSeek "波"切分本质就是主动把 arithmetic intensity 推高(让 compute 与 communication overlap)的算法实践。这与 LatentMoE (2026-01) 论文测量的 Qwen3-235B-A22B 在 throughput 设置下 communication-bound 不矛盾——前者描述优化后的工作点,后者描述未优化的 baseline。
判断真正的关键:前沿模型 size 增长率 vs 算法推高 arithmetic intensity 的速度——谁主导决定下一代是 bandwidth-bound 还是 compute-bound。
待验证¶
- DeepSeek "波"切分在 NVIDIA + Ascend 双栈的 1.5-1.96x 加速数字未见独立机构复现
- FP4 dispatch(DeepSeek 论文留的余地)实际上线后阈值如何变
- GPT-5 / Claude Opus 6 等更大 d 模型的 C/B 实测,目前只能按论文公式外推
- LatentMoE 2026-01 论文的 Qwen3 测量是否能直接对照 V4-Pro(架构不同)
完整研究链路¶
本概念页是 2026-04-24-deepseek-v4-6.1-tflop-gbps-deep-dive 研究报告的工具页提炼。报告含 PDF 抓取过程、原文完整段落、GB300 综合规格、三档国产追赶门槛、self-serving 边界精确化等完整论证,适合一次读完。
相关概念¶
- deepseek-v4 — 6.1 论点的源出处
- optics-as-scaling-constraint — FundaAI bandwidth-driven 视角的源出处
- model-hardware-decoupling — 6.1 论点对国产硬件窗口期的具象化(~900 GBps NVLink-equivalent)
- virgo-fabric — FundaAI 视角覆盖的 DC fabric 层
- training-inference-bifurcation — 训练 / 推理在 Roofline 上的不同工作点
- google-tpu-v8 — 硬件参照系
- ai-vendor-spec-traps — 6.1 这种"看起来权威但有边界"的数字应纳入批判性阅读 checklist
- china-us-ai-gap — 国产 NVLink-equivalent ~900 GBps 即够 V4-Pro 的窗口期具象化