- tags
- [AI, 大模型, 芯片, 战略, 国产, DeepSeek]
- created
- 2026-04-24
- updated
- 2026-04-24
- sources
- [raw/notes/deepseek-v4-release-2026-04.md]
定义¶
旗舰大模型从"为某一硬件栈深度优化"转向"在多个异构硬件栈上等价跑通"的战略。2026-04-24 deepseek-v4 是首个把这个战略明确产品化的开源旗舰:细粒度专家并行(EP)方案在 NVIDIA GPU 与华为 Ascend NPU 上双栈同时验证,1.5-1.73x 加速(RL rollout 达 1.96x),加速倍数两边相当。
这条战略在 china-us-ai-gap 的"国产追赶硬件"叙事之外,开了一条模型侧从运行时层面给国产硬件留窗口期的反向通道。
为什么是战略级议题¶
传统假设:大模型 = CUDA 生态深度绑定 → 国产芯片即使追上单芯片 FLOPS,软件栈差距数年。
V4 打破这个假设的方式不是"再造一遍 CUDA 生态",而是让模型架构本身对底层硬件抽象更宽容。具体技术承载:
"波"切分专家并行¶
波内通信完成立即开始计算,无需等其他专家。稳态下三件事并行:
- 当前波的计算
- 下一波 token 的传输
- 已完成专家结果的发送
这种通信-计算融合本身是硬件无关的——只要硬件支持基本的异步通信原语就可以实现。NVIDIA + Ascend 双栈达到几乎相同加速倍数(1.5-1.73x),是这条结论的实证。
FP4 → FP8 解量化无损¶
deepseek-v4 的 FP4 量化关键发现:FP8 动态范围足够吸收 FP4 子块尺度信息 → 复用现有 FP8 训练框架,无需为 FP4 重建工具链。
含义:硬件支持 FP8 即可承载 V4 量化方案,不强求新硬件单独支持 FP4 路径。这降低了"硬件支持新精度"的门槛,对国产芯片友好。
Engram 的 host-memory offload¶
engram-conditional-memory 的确定性寻址让大型 embedding 表可 offload 到 host 内存(CPU 系统 RAM)而非 GPU HBM——HBM 是 2026 国产芯片相对薄弱的环节之一。这是模型架构对硬件约束的反向破解。
当前限定(不能省)¶
战略叙事方向积极,但开源现实有三条限定必须显式标注:
- 开源工具链仍主要基于 CUDA:gaMoE / DeepGEMM / TileLang 当前 bit-级对齐 CUDA 工具链。技术报告原话承认这一点
- 昇腾 950 超节点未批量上市:官方 API 页面提到"V4-Pro 价格将随昇腾 950 超节点 2026 下半年批量上市大幅下调"——价格下调依赖该硬件节点,未发生
- 第三方独立验证缺失:双栈加速倍数(1.5-1.73x)是 DeepSeek 自报,未见独立机构在两种硬件上同时复现
跳过这三条限定就会被"国产追赶 / 跨硬件解耦"叙事过度承诺带偏。
国产芯片窗口期具象化(NVLink-equivalent ~900 GBps)¶
deepseek-v4 技术报告 §EP Scheme 给出的 6.1 TFLOP/GBps 阈值(详细推导见 compute-vs-bandwidth-roofline)让国产追赶门槛从模糊的"通信不重要"变成可量化的硬指标:
按 V4-Pro × FP8 训练精度,C/B 实际 = 2.78 TFLOPS/GBps(GB300 单 GPU FP8 5 PF / NVLink 1.8 TBps),对 6.1 阈值富余 2.2x。换算:
国产芯片只要 NVLink-equivalent 互联做到约 900 GBps(GB300 的一半),就够支撑 V4-Pro 训练。
含义: - 昇腾 950 / 寒武纪等芯片如果在 chip-level FLOPS 接近 GB300 一半 + 互联 ~900 GBps,按 V4-Pro workload 就能跑通 - 不需要在 NVLink/IB 上完全对标 NVIDIA 旗舰 - 这是一个可工程化复制的具体目标,不是模糊战略口号
窗口期的边界: - 对 FP4 训练(ratio = 8.33)→ 国产芯片需要 ~1.6 TBps 互联,门槛升 1.8x - 对 GPT-5 量级模型(d=8192+,阈值升到 16.4)→ 国产芯片需要 ~3 TBps,门槛升 5x+ - 国产追赶的窗口期与 frontier 模型 size 增长速度赛跑
这条具象化让 china-us-ai-gap 的"国产追赶硬件"叙事可以被精确审计——不再是"国产能不能赶上",而是"国产 NVLink-equivalent 何时能稳定做到 ~900 GBps、何时跨过 1.6 TBps"。
与硬件分叉的关系¶
training-inference-bifurcation 讲硬件层往下分叉为训练 / 推理两颗 SKU。模型-硬件解耦讲同一模型可以在多家硬件上跑。两者在不同维度操作:
| 训练-推理分叉 | 模型-硬件解耦 | |
|---|---|---|
| 主语 | 硬件 | 模型 |
| 方向 | 一颗 SKU 拆两颗 | 一个模型跑多家硬件 |
| 谁推动 | Google / NVIDIA / AWS | 模型厂商(DeepSeek) |
| 战略含义 | 通用加速器时代结束 | 单一硬件锁死时代结束 |
两者并行发生是 2026 系统层的双重重塑——硬件按 workload 分家,模型按硬件抽象解耦。
对 china-us-ai-gap 叙事的修正¶
原页论点:国产追赶要同时跟上单芯片算力 + SKU 拆分能力 + DC fabric + 全系统协同——结构性追赶难度上升。
模型-硬件解耦给这个论点加一个反向力量:
- 模型侧的运行时解耦把"国产硬件能跑 frontier 级模型"的门槛从全栈追赶降到 partial 追赶
- 国产芯片只要在双栈中证明可跑通 frontier 模型,就在生态意义上获得话语权——不必等到全栈与 NVIDIA 等价
- DeepSeek + Huawei + Cambricon 月数级工程合作,产生了完整可用的 frontier 级中国 AI 技术栈(从芯片到模型,无任何美国软件成分)——即使长上下文检索仍落后 ~10 分
但反向力量受三条限定约束(见上文),不应被读成"国产追赶已大幅领先"。
与 asymmetric-chokepoints 的关系¶
非对称博弈讲稀土 / 半导体设备等供给端杠杆。模型-硬件解耦是模型厂商主动降低自己对单一供给的依赖——不是被卡脖子后才反应,而是预先 hedge。这是对非对称博弈"工具化"的反向实践:
- 美国卡断 NVIDIA 早期接入 V4?DeepSeek 反过来刻意把窗口给国产芯片厂(据 The Information 等报道)
- 阿里 / 字节 / 腾讯批量下单数十万颗华为昇腾 950PR,价格数周涨 20%——需求端正反馈
- 黄仁勋在 Dwarkesh 播客警告 "DeepSeek 优化 V4 到华为芯片是 horrible outcome"——美方亦视为战略威胁
与 platform-layer-collapse 的镜像关系¶
平台层坍缩讲软件栈往上收敛(模型吞软件);模型-硬件解耦讲模型运行时往下扩散(一个模型跑多家硬件)。两者都是模型层主体地位上升的不同表现:
- 往上:模型吞 SDK / Agent runtime / 应用构建工具
- 往下:模型不再绑定单一硬件栈,硬件成为可替换的执行 backend
- 内部:engram-conditional-memory 把模型架构内部往下分层,hash 表 + dense + MoE 三种 primitive 共存
三个方向构成 2026 模型层的全方位主导。
待观察¶
- 昇腾 950 超节点批量上市后双栈加速倍数差距是否仍接近 1:1
- 第二个公开走双栈解耦战略的旗舰开源模型出现的时间(智谱 / Qwen / Kimi 是否跟进)
- 闭源模型(Anthropic / OpenAI / Google)是否有动机走类似战略(直觉判断:Google 自有 TPU、Anthropic 与 AWS 深度绑定,动机较弱;OpenAI 与微软绑定但需求最大,是潜在突破点)
- DeepSeek 是否在 V4 后会推出 Cambricon-only / Ascend-only 优化版本——纯国产栈的极端版本
相关概念¶
- deepseek-v4 — 跨硬件解耦战略的首个产品化案例
- engram-conditional-memory — 模型架构内部往下分层的同源信号
- china-us-ai-gap — 模型-硬件解耦给国产追赶节奏添加的反向力量
- training-inference-bifurcation — 硬件按 workload 分家,与模型按硬件解耦同期发生
- google-tpu-v8 — 硬件参照系一端
- asymmetric-chokepoints — 模型厂商主动 hedge 非对称博弈的工具化实践
- platform-layer-collapse — 模型主体地位上升的镜像方向(往上吞 vs 往下扩散)
- hidden-chokepoints — 模型解耦不能解决最底层的供应链卡脖子(光学 / 燃气轮机 / ABF)