DeepSeek V4（V4-Pro / V4-Flash）

tags: [AI, 大模型, 开源, DeepSeek, 国产, 跨硬件]
created: 2026-04-24
updated: 2026-04-24
sources: [raw/notes/deepseek-v4-release-2026-04.md]

定义¶

DeepSeek 第 4 代旗舰开源大模型，2026-04-24 发布（与 GPT-5.5 同日），Apache 2.0 开源。两个 SKU：V4-Pro（1.6T 参数，对标 Gemini-Pro-3.1）+ V4-Flash（284B 参数，以极低成本接近 GPT-5.2 / Gemini 3.0 Pro 推理性能）。

真正的叙事不是"百万上下文"或"国产话语权"，而是 DeepSeek 把架构创新方向往两个相互支撑的方向推：

跨硬件解耦：细粒度专家并行方案在 NVIDIA GPU 与华为 Ascend NPU 双栈完成验证（详见 model-hardware-decoupling）
模型内部分层：engram-conditional-memory "查—算分离"——固定知识进 hash 表 O(1) 取，与 platform-layer-collapse "模型吞软件"形成方向相反的镜像

关键要点¶

双 SKU 拆分¶

	V4-Pro	V4-Flash
参数	1.6T 总参数	284B 总参数
定位	性能比肩 Gemini-Pro-3.1	极低成本接近 GPT-5.2 / Gemini 3.0 Pro
上下文	1M tokens	1M tokens
模态	仅文本（多模态在路上）	仅文本
许可	Apache 2.0	Apache 2.0

这是模型层 SKU 拆分，对照 google-tpu-v8 的硬件层 SKU 拆分（v8t / v8i）——殊途同归：workload 已成熟到可以为不同场景独立设计。详见 training-inference-bifurcation。

注意力三层架构¶

百万上下文成标配，工程底层是三层稀疏注意力：

CSA（Compressed Sparse Attention） m=4
HCA（Heavily Compressed Attention） m'=128
DSA（DeepSeek Sparse Attention） 沿用自 V3.2-Exp（首次细粒度稀疏注意力）

mHC：流形约束超连接¶

双随机矩阵流形约束，每层信号增益稳定 ~1.6 倍，计算利用率从 60% 提升到 85%+，减少 30%+ 原始计算依赖——让超深网络训练成为可能。

训练 + 后训练范式¶

预训练：32T+ tokens，FP4 + FP8 混合精度（MoE 专家 FP4，其他参数 FP8）
Muon 优化器首次大规模应用于万亿参数：混合 Newton-Schulz（前 8 步快速收敛 + 后 2 步稳定）+ 混合 ZeRO（稠密参数背包均衡 + MoE 专家独立展平）+ MoE 梯度同步前 BF16 随机舍入量化（通信量减半）+ all-to-all + 本地 FP32 求和规避低精度累积误差
同策略蒸馏后训练：独立专家训练（数学 / 代码 / Agent / 指令跟随，每个 SFT + GRPO，三种推理模式 Non-think / Think High / Think Max）→ 同策略蒸馏融合到统一模型 → 生成式奖励模型替代标量奖励模型 → 逆向 KL 散度 + 全词表 logit 蒸馏

FP4 量化关键发现¶

MoE 专家权重 + CSA 索引器 QK 路径应用 FP4 QAT。关键发现：FP4 → FP8 解量化无损（FP8 动态范围足够吸收 FP4 子块尺度信息）→ 复用现有 FP8 训练框架，无需重建工具链。索引器 FP32 → BF16 量化带来 2x 加速，召回率保持 99.7%。

TileLang DSL 工程基建¶

主机代码生成把 dtype/shape 元数据嵌入 launcher，运行时验证开销从数十微秒降到 1 微秒以下；集成 Z3 SMT 求解器做形式整数分析；严格对齐 CUDA 工具链 bit 级可重现性（这是 V4 当前仍主要基于 CUDA 的体现之一——跨硬件解耦战略与开源工具链现实之间存在落差）。

Benchmark（厂商宣称，待第三方独立复现）¶

指标	V4-Pro	对照
Codeforces Elo	3206	人类第 23 / GPT-5.4 (xHigh) 3168
SWE-Verified	80.6%	Claude Opus 4.6 80.8%
Terminal Bench 2.0	67.9%	与 GPT-5.4 持平
SimpleQA-Verified	57.9%	远超前代开源（约 30%）
MRCR 1M（长上下文检索）	83.5	Claude Opus 4.6 92.9（仍领先）
CorpusQA 1M	62.0	Claude Opus 4.6 71.7（仍领先）

诚实备注：长上下文检索 Opus 4.6 仍明显领先 V4-Pro，素材原文未强调。素材主推的"逼平 / 超越"主要在 Codeforces / SWE / Terminal Bench / SimpleQA 四项。读这类 benchmark 时建议同时参照 ai-vendor-spec-traps 的 6 条 checklist——开源模型也会在自己擅长的子集做选择性强调。

DeepSeek 内部员工已用 V4 做 Agentic Coding，体验优于 Sonnet 4.5、接近 Opus 4.6 非思考模式（内部使用反馈，非第三方）。

关键硬件设计建议（"6.1 TFLOP/GBps"完整推导）¶

技术报告 §EP Scheme（page 18 附近）原文：

For DeepSeek-V4-Pro, where each token-expert pair requires 6hd FLOPs (SwiGLU gate, up, and down projections) but only 3h bytes of communication (FP8 Dispatch + BF16 Combine), this simplifies to:

C / B ≤ 2d = 6144 FLOPs/Byte

That is, each GBps of interconnect bandwidth suffices to hide the communication for 6.1 TFLOP/s of compute. ... We encourage future hardware designs to target such balance points rather than scale bandwidth unconditionally.

数字推导透明：阈值 C/B = 6hd / 3h = 2d，V4-Pro 的 d=3072 → 2d = 6144 FLOPs/byte ≈ 6.1 TFLOPS/GBps。

三条必读限定（之前知识库初版漏掉）： 1. "For DeepSeek-V4-Pro"——绑定在 V4-Pro 这个特定模型，不是 MoE workload 普遍属性。Llama-3 70B d=8192 → 阈值 16.4，GPT-3 d=12288 → 阈值 24.6 2. 通信精度 FP8 Dispatch + BF16 Combine，不是 FP4——DeepSeek 自己有继续推 FP4 dispatch 的余地 3. 基于 SwiGLU 6hd FLOPs/expert 结构——expert 结构改变阈值上升

GB300 单 GPU NVLink 5 = 1.8 TBps，按 V4-Pro 的 FP8 训练精度算 C/B = 5 PF / 1.8 TBps = 2.78 TFLOPS/GBps，对 6.1 阈值富余 2.2x——DeepSeek 论点对 V4-Pro × GB300 这个组合完全成立。但对 FP4 训练（ratio = 8.33）或更大 d 模型（阈值升到 16+），论点不再适用。NVIDIA 把 NVLink 推到 1.8 TBps 不是过度，是按 frontier 模型设计。

与 FundaAI bandwidth-driven 视角的关系不是"对立"，是"覆盖不同物理层级"：DeepSeek 6.1 论点覆盖 NVLink/IB/卡间互联（TB/s 量级），FundaAI 论点覆盖 DC fabric / 跨 DC 光纤（Pb/s 量级）——DeepSeek 论文没有覆盖 virgo-fabric 那一层。详见独立工具页 compute-vs-bandwidth-roofline，含完整 Roofline 框架 + GB300 算账 + 三个时间窗下两侧各自适用范围。

Agent 适配清单¶

V4 针对 Claude Code / OpenClaw / OpenCode / CodeBuddy 等主流 Agent 产品做了适配优化。这条意味着 DeepSeek 把"被 Agent harness 调用"当作产品定义的一部分——参考 harness-engineering。

API 兼容路径¶

支持 OpenAI ChatCompletions 接口
支持 Anthropic 接口
deepseek-chat / deepseek-reasoner 旧名 2026-07-24 停止使用（当前路由到 deepseek-v4-flash）
reasoning_effort 参数（high / max）控制思考强度

兼容两套主流 API 是降低 Agent 迁移摩擦的工程决定，与 Agent 适配清单是同一战略的两面。

战略含义¶

月数级的工程合作（DeepSeek + Huawei + Cambricon），产生了之前不存在的东西：一个完整可用的、frontier 级中国 AI 技术栈，从芯片到模型，无任何美国软件成分。无论 V4 benchmark 是否完全匹配宣称数字，这个栈是真实存在的。

—— 第三方分析（NxCode 等）

但必须保留三条限定： 1. 当前开源工具链（gaMoE / DeepGEMM / TileLang）仍主要基于 CUDA bit-级对齐 2. "昇腾 950 超节点 2026 下半年批量上市" 还没发生，价格下调依赖该节点 3. 长上下文检索开源最强仍落后闭源最强 ~10 分

跨硬件解耦的完整论点 + 对国产追赶节奏的影响详见 model-hardware-decoupling。

DeepSeek 过去一年发布节奏¶

2025 除夕：R1（信号弹，全球开源震动）
2025-03-25：V3-0324
2025-05-28：R1-0528（128K 上下文，SuperCLUE 榜首）
2025-08-21：V3.1（混合推理架构）
2025-09-22：V3.1-Terminus
2025-09-29：V3.2-Exp（首次细粒度稀疏注意力 DSA）
2025-12-01：V3.2 + V3.2-Speciale（IMO/CMO/ICPC/IOI 四金）
2026-01-13：engram-conditional-memory 论文 + 代码开源（梁文锋署名）
2026-04-24：V4-Pro / V4-Flash（本次）

节奏特征：低调 + 持续迭代，不靠"爆款"，靠累积。Engram 论文 2026-01 早早开源，3 个月后 V4 集成——研究 → 工程 → 旗舰 SKU 的节奏可被外界跟踪。这种"开源研究先行 → 旗舰落地"的范式与 Anthropic 的 KAIROS / ULTRAPLAN 泄露后才发布的路径相反。

定义¶