- tags
- [AI, 大模型, 开源, DeepSeek, 国产, 跨硬件]
- created
- 2026-04-24
- updated
- 2026-04-24
- sources
- [raw/notes/deepseek-v4-release-2026-04.md]
定义¶
DeepSeek 第 4 代旗舰开源大模型,2026-04-24 发布(与 GPT-5.5 同日),Apache 2.0 开源。两个 SKU:V4-Pro(1.6T 参数,对标 Gemini-Pro-3.1)+ V4-Flash(284B 参数,以极低成本接近 GPT-5.2 / Gemini 3.0 Pro 推理性能)。
真正的叙事不是"百万上下文"或"国产话语权",而是 DeepSeek 把架构创新方向往两个相互支撑的方向推:
- 跨硬件解耦:细粒度专家并行方案在 NVIDIA GPU 与华为 Ascend NPU 双栈完成验证(详见 model-hardware-decoupling)
- 模型内部分层:engram-conditional-memory "查—算分离"——固定知识进 hash 表 O(1) 取,与 platform-layer-collapse "模型吞软件"形成方向相反的镜像
关键要点¶
双 SKU 拆分¶
| V4-Pro | V4-Flash | |
|---|---|---|
| 参数 | 1.6T 总参数 | 284B 总参数 |
| 定位 | 性能比肩 Gemini-Pro-3.1 | 极低成本接近 GPT-5.2 / Gemini 3.0 Pro |
| 上下文 | 1M tokens | 1M tokens |
| 模态 | 仅文本(多模态在路上) | 仅文本 |
| 许可 | Apache 2.0 | Apache 2.0 |
这是模型层 SKU 拆分,对照 google-tpu-v8 的硬件层 SKU 拆分(v8t / v8i)——殊途同归:workload 已成熟到可以为不同场景独立设计。详见 training-inference-bifurcation。
注意力三层架构¶
百万上下文成标配,工程底层是三层稀疏注意力:
- CSA(Compressed Sparse Attention) m=4
- HCA(Heavily Compressed Attention) m'=128
- DSA(DeepSeek Sparse Attention) 沿用自 V3.2-Exp(首次细粒度稀疏注意力)
mHC:流形约束超连接¶
双随机矩阵流形约束,每层信号增益稳定 ~1.6 倍,计算利用率从 60% 提升到 85%+,减少 30%+ 原始计算依赖——让超深网络训练成为可能。
训练 + 后训练范式¶
- 预训练:32T+ tokens,FP4 + FP8 混合精度(MoE 专家 FP4,其他参数 FP8)
- Muon 优化器首次大规模应用于万亿参数:混合 Newton-Schulz(前 8 步快速收敛 + 后 2 步稳定)+ 混合 ZeRO(稠密参数背包均衡 + MoE 专家独立展平)+ MoE 梯度同步前 BF16 随机舍入量化(通信量减半)+ all-to-all + 本地 FP32 求和规避低精度累积误差
- 同策略蒸馏后训练:独立专家训练(数学 / 代码 / Agent / 指令跟随,每个 SFT + GRPO,三种推理模式 Non-think / Think High / Think Max)→ 同策略蒸馏融合到统一模型 → 生成式奖励模型替代标量奖励模型 → 逆向 KL 散度 + 全词表 logit 蒸馏
FP4 量化关键发现¶
MoE 专家权重 + CSA 索引器 QK 路径应用 FP4 QAT。关键发现:FP4 → FP8 解量化无损(FP8 动态范围足够吸收 FP4 子块尺度信息)→ 复用现有 FP8 训练框架,无需重建工具链。索引器 FP32 → BF16 量化带来 2x 加速,召回率保持 99.7%。
TileLang DSL 工程基建¶
主机代码生成把 dtype/shape 元数据嵌入 launcher,运行时验证开销从数十微秒降到 1 微秒以下;集成 Z3 SMT 求解器做形式整数分析;严格对齐 CUDA 工具链 bit 级可重现性(这是 V4 当前仍主要基于 CUDA 的体现之一——跨硬件解耦战略与开源工具链现实之间存在落差)。
Benchmark(厂商宣称,待第三方独立复现)¶
| 指标 | V4-Pro | 对照 |
|---|---|---|
| Codeforces Elo | 3206 | 人类第 23 / GPT-5.4 (xHigh) 3168 |
| SWE-Verified | 80.6% | Claude Opus 4.6 80.8% |
| Terminal Bench 2.0 | 67.9% | 与 GPT-5.4 持平 |
| SimpleQA-Verified | 57.9% | 远超前代开源(约 30%) |
| MRCR 1M(长上下文检索) | 83.5 | Claude Opus 4.6 92.9(仍领先) |
| CorpusQA 1M | 62.0 | Claude Opus 4.6 71.7(仍领先) |
诚实备注:长上下文检索 Opus 4.6 仍明显领先 V4-Pro,素材原文未强调。素材主推的"逼平 / 超越"主要在 Codeforces / SWE / Terminal Bench / SimpleQA 四项。读这类 benchmark 时建议同时参照 ai-vendor-spec-traps 的 6 条 checklist——开源模型也会在自己擅长的子集做选择性强调。
DeepSeek 内部员工已用 V4 做 Agentic Coding,体验优于 Sonnet 4.5、接近 Opus 4.6 非思考模式(内部使用反馈,非第三方)。
关键硬件设计建议("6.1 TFLOP/GBps"完整推导)¶
技术报告 §EP Scheme(page 18 附近)原文:
For DeepSeek-V4-Pro, where each token-expert pair requires 6hd FLOPs (SwiGLU gate, up, and down projections) but only 3h bytes of communication (FP8 Dispatch + BF16 Combine), this simplifies to:
C / B ≤ 2d = 6144 FLOPs/Byte
That is, each GBps of interconnect bandwidth suffices to hide the communication for 6.1 TFLOP/s of compute. ... We encourage future hardware designs to target such balance points rather than scale bandwidth unconditionally.
数字推导透明:阈值 C/B = 6hd / 3h = 2d,V4-Pro 的 d=3072 → 2d = 6144 FLOPs/byte ≈ 6.1 TFLOPS/GBps。
三条必读限定(之前知识库初版漏掉): 1. "For DeepSeek-V4-Pro"——绑定在 V4-Pro 这个特定模型,不是 MoE workload 普遍属性。Llama-3 70B d=8192 → 阈值 16.4,GPT-3 d=12288 → 阈值 24.6 2. 通信精度 FP8 Dispatch + BF16 Combine,不是 FP4——DeepSeek 自己有继续推 FP4 dispatch 的余地 3. 基于 SwiGLU 6hd FLOPs/expert 结构——expert 结构改变阈值上升
GB300 单 GPU NVLink 5 = 1.8 TBps,按 V4-Pro 的 FP8 训练精度算 C/B = 5 PF / 1.8 TBps = 2.78 TFLOPS/GBps,对 6.1 阈值富余 2.2x——DeepSeek 论点对 V4-Pro × GB300 这个组合完全成立。但对 FP4 训练(ratio = 8.33)或更大 d 模型(阈值升到 16+),论点不再适用。NVIDIA 把 NVLink 推到 1.8 TBps 不是过度,是按 frontier 模型设计。
与 FundaAI bandwidth-driven 视角的关系不是"对立",是"覆盖不同物理层级":DeepSeek 6.1 论点覆盖 NVLink/IB/卡间互联(TB/s 量级),FundaAI 论点覆盖 DC fabric / 跨 DC 光纤(Pb/s 量级)——DeepSeek 论文没有覆盖 virgo-fabric 那一层。详见独立工具页 compute-vs-bandwidth-roofline,含完整 Roofline 框架 + GB300 算账 + 三个时间窗下两侧各自适用范围。
Agent 适配清单¶
V4 针对 Claude Code / OpenClaw / OpenCode / CodeBuddy 等主流 Agent 产品做了适配优化。这条意味着 DeepSeek 把"被 Agent harness 调用"当作产品定义的一部分——参考 harness-engineering。
API 兼容路径¶
- 支持 OpenAI ChatCompletions 接口
- 支持 Anthropic 接口
deepseek-chat/deepseek-reasoner旧名 2026-07-24 停止使用(当前路由到deepseek-v4-flash)reasoning_effort参数(high / max)控制思考强度
兼容两套主流 API 是降低 Agent 迁移摩擦的工程决定,与 Agent 适配清单是同一战略的两面。
战略含义¶
月数级的工程合作(DeepSeek + Huawei + Cambricon),产生了之前不存在的东西:一个完整可用的、frontier 级中国 AI 技术栈,从芯片到模型,无任何美国软件成分。无论 V4 benchmark 是否完全匹配宣称数字,这个栈是真实存在的。
—— 第三方分析(NxCode 等)
但必须保留三条限定: 1. 当前开源工具链(gaMoE / DeepGEMM / TileLang)仍主要基于 CUDA bit-级对齐 2. "昇腾 950 超节点 2026 下半年批量上市" 还没发生,价格下调依赖该节点 3. 长上下文检索开源最强仍落后闭源最强 ~10 分
跨硬件解耦的完整论点 + 对国产追赶节奏的影响详见 model-hardware-decoupling。
DeepSeek 过去一年发布节奏¶
- 2025 除夕:R1(信号弹,全球开源震动)
- 2025-03-25:V3-0324
- 2025-05-28:R1-0528(128K 上下文,SuperCLUE 榜首)
- 2025-08-21:V3.1(混合推理架构)
- 2025-09-22:V3.1-Terminus
- 2025-09-29:V3.2-Exp(首次细粒度稀疏注意力 DSA)
- 2025-12-01:V3.2 + V3.2-Speciale(IMO/CMO/ICPC/IOI 四金)
- 2026-01-13:engram-conditional-memory 论文 + 代码开源(梁文锋署名)
- 2026-04-24:V4-Pro / V4-Flash(本次)
节奏特征:低调 + 持续迭代,不靠"爆款",靠累积。Engram 论文 2026-01 早早开源,3 个月后 V4 集成——研究 → 工程 → 旗舰 SKU 的节奏可被外界跟踪。这种"开源研究先行 → 旗舰落地"的范式与 Anthropic 的 KAIROS / ULTRAPLAN 泄露后才发布的路径相反。
相关概念¶
- engram-conditional-memory — V4 的核心架构创新,梁文锋署名,"查—算分离"
- model-hardware-decoupling — V4 把模型运行时从单一硬件依赖中解耦的战略论点页
- china-us-ai-gap — V4 是模型层国产追赶的最强样本之一(与智谱 GLM-5.1 并列),但闭源长上下文仍领先
- training-inference-bifurcation — V4-Pro/V4-Flash 模型层 SKU 拆分对照 TPUv8t/v8i 硬件层 SKU 拆分,殊途同归
- google-tpu-v8 — 同月(2026-04)硬件参照系,V4 跨 NVIDIA + Ascend 双栈是模型侧对硬件分叉的回应
- optics-as-scaling-constraint — V4 "6.1 TFLOP/GBps" 论点与 bandwidth-driven 范式形成对立判断
- platform-layer-collapse — 开源模型追平闭源是平台层坍缩的"被坍缩侧"对冲信号
- ai-vendor-spec-traps — V4 benchmark 的批判性阅读视角(Codeforces 3206 / SWE 80.6% 等数字待第三方复现)
- harness-engineering — V4 主动适配 Claude Code / OpenClaw / OpenCode / CodeBuddy 等 harness
- asymmetric-chokepoints — DeepSeek + Huawei + Cambricon 全栈是非对称博弈的供给端响应