模型-硬件解耦战略

tags: [AI, 大模型, 芯片, 战略, 国产, DeepSeek]
created: 2026-04-24
updated: 2026-04-24
sources: [raw/notes/deepseek-v4-release-2026-04.md]

定义¶

旗舰大模型从"为某一硬件栈深度优化"转向"在多个异构硬件栈上等价跑通"的战略。2026-04-24 deepseek-v4 是首个把这个战略明确产品化的开源旗舰：细粒度专家并行（EP）方案在 NVIDIA GPU 与华为 Ascend NPU 上双栈同时验证，1.5-1.73x 加速（RL rollout 达 1.96x），加速倍数两边相当。

这条战略在 china-us-ai-gap 的"国产追赶硬件"叙事之外，开了一条模型侧从运行时层面给国产硬件留窗口期的反向通道。

为什么是战略级议题¶

传统假设：大模型 = CUDA 生态深度绑定 → 国产芯片即使追上单芯片 FLOPS，软件栈差距数年。

V4 打破这个假设的方式不是"再造一遍 CUDA 生态"，而是让模型架构本身对底层硬件抽象更宽容。具体技术承载：

"波"切分专家并行¶

波内通信完成立即开始计算，无需等其他专家。稳态下三件事并行：

当前波的计算
下一波 token 的传输
已完成专家结果的发送

这种通信-计算融合本身是硬件无关的——只要硬件支持基本的异步通信原语就可以实现。NVIDIA + Ascend 双栈达到几乎相同加速倍数（1.5-1.73x），是这条结论的实证。

FP4 → FP8 解量化无损¶

deepseek-v4 的 FP4 量化关键发现：FP8 动态范围足够吸收 FP4 子块尺度信息 → 复用现有 FP8 训练框架，无需为 FP4 重建工具链。

含义：硬件支持 FP8 即可承载 V4 量化方案，不强求新硬件单独支持 FP4 路径。这降低了"硬件支持新精度"的门槛，对国产芯片友好。

Engram 的 host-memory offload¶

engram-conditional-memory 的确定性寻址让大型 embedding 表可 offload 到 host 内存（CPU 系统 RAM）而非 GPU HBM——HBM 是 2026 国产芯片相对薄弱的环节之一。这是模型架构对硬件约束的反向破解。

当前限定（不能省）¶

战略叙事方向积极，但开源现实有三条限定必须显式标注：

开源工具链仍主要基于 CUDA：gaMoE / DeepGEMM / TileLang 当前 bit-级对齐 CUDA 工具链。技术报告原话承认这一点
昇腾 950 超节点未批量上市：官方 API 页面提到"V4-Pro 价格将随昇腾 950 超节点 2026 下半年批量上市大幅下调"——价格下调依赖该硬件节点，未发生
第三方独立验证缺失：双栈加速倍数（1.5-1.73x）是 DeepSeek 自报，未见独立机构在两种硬件上同时复现

跳过这三条限定就会被"国产追赶 / 跨硬件解耦"叙事过度承诺带偏。

国产芯片窗口期具象化（NVLink-equivalent ~900 GBps）¶

deepseek-v4 技术报告 §EP Scheme 给出的 6.1 TFLOP/GBps 阈值（详细推导见 compute-vs-bandwidth-roofline）让国产追赶门槛从模糊的"通信不重要"变成可量化的硬指标：

按 V4-Pro × FP8 训练精度，C/B 实际 = 2.78 TFLOPS/GBps（GB300 单 GPU FP8 5 PF / NVLink 1.8 TBps），对 6.1 阈值富余 2.2x。换算：

国产芯片只要 NVLink-equivalent 互联做到约 900 GBps（GB300 的一半），就够支撑 V4-Pro 训练。

含义： - 昇腾 950 / 寒武纪等芯片如果在 chip-level FLOPS 接近 GB300 一半 + 互联 ~900 GBps，按 V4-Pro workload 就能跑通 - 不需要在 NVLink/IB 上完全对标 NVIDIA 旗舰 - 这是一个可工程化复制的具体目标，不是模糊战略口号

窗口期的边界： - 对 FP4 训练（ratio = 8.33）→ 国产芯片需要 ~1.6 TBps 互联，门槛升 1.8x - 对 GPT-5 量级模型（d=8192+，阈值升到 16.4）→ 国产芯片需要 ~3 TBps，门槛升 5x+ - 国产追赶的窗口期与 frontier 模型 size 增长速度赛跑

这条具象化让 china-us-ai-gap 的"国产追赶硬件"叙事可以被精确审计——不再是"国产能不能赶上"，而是"国产 NVLink-equivalent 何时能稳定做到 ~900 GBps、何时跨过 1.6 TBps"。

与硬件分叉的关系¶

training-inference-bifurcation 讲硬件层往下分叉为训练 / 推理两颗 SKU。模型-硬件解耦讲同一模型可以在多家硬件上跑。两者在不同维度操作：

	训练-推理分叉	模型-硬件解耦
主语	硬件	模型
方向	一颗 SKU 拆两颗	一个模型跑多家硬件
谁推动	Google / NVIDIA / AWS	模型厂商（DeepSeek）
战略含义	通用加速器时代结束	单一硬件锁死时代结束

两者并行发生是 2026 系统层的双重重塑——硬件按 workload 分家，模型按硬件抽象解耦。

对 china-us-ai-gap 叙事的修正¶

原页论点：国产追赶要同时跟上单芯片算力 + SKU 拆分能力 + DC fabric + 全系统协同——结构性追赶难度上升。

模型-硬件解耦给这个论点加一个反向力量：

模型侧的运行时解耦把"国产硬件能跑 frontier 级模型"的门槛从全栈追赶降到 partial 追赶
国产芯片只要在双栈中证明可跑通 frontier 模型，就在生态意义上获得话语权——不必等到全栈与 NVIDIA 等价
DeepSeek + Huawei + Cambricon 月数级工程合作，产生了完整可用的 frontier 级中国 AI 技术栈（从芯片到模型，无任何美国软件成分）——即使长上下文检索仍落后 ~10 分

但反向力量受三条限定约束（见上文），不应被读成"国产追赶已大幅领先"。

与 asymmetric-chokepoints 的关系¶

非对称博弈讲稀土 / 半导体设备等供给端杠杆。模型-硬件解耦是模型厂商主动降低自己对单一供给的依赖——不是被卡脖子后才反应，而是预先 hedge。这是对非对称博弈"工具化"的反向实践：

美国卡断 NVIDIA 早期接入 V4？DeepSeek 反过来刻意把窗口给国产芯片厂（据 The Information 等报道）
阿里 / 字节 / 腾讯批量下单数十万颗华为昇腾 950PR，价格数周涨 20%——需求端正反馈
黄仁勋在 Dwarkesh 播客警告 "DeepSeek 优化 V4 到华为芯片是 horrible outcome"——美方亦视为战略威胁

与 platform-layer-collapse 的镜像关系¶

平台层坍缩讲软件栈往上收敛（模型吞软件）；模型-硬件解耦讲模型运行时往下扩散（一个模型跑多家硬件）。两者都是模型层主体地位上升的不同表现：

往上：模型吞 SDK / Agent runtime / 应用构建工具
往下：模型不再绑定单一硬件栈，硬件成为可替换的执行 backend
内部：engram-conditional-memory 把模型架构内部往下分层，hash 表 + dense + MoE 三种 primitive 共存

三个方向构成 2026 模型层的全方位主导。

待观察¶

昇腾 950 超节点批量上市后双栈加速倍数差距是否仍接近 1:1
第二个公开走双栈解耦战略的旗舰开源模型出现的时间（智谱 / Qwen / Kimi 是否跟进）
闭源模型（Anthropic / OpenAI / Google）是否有动机走类似战略（直觉判断：Google 自有 TPU、Anthropic 与 AWS 深度绑定，动机较弱；OpenAI 与微软绑定但需求最大，是潜在突破点）
DeepSeek 是否在 V4 后会推出 Cambricon-only / Ascend-only 优化版本——纯国产栈的极端版本

定义¶