🏠 home › concepts › deepseek-v4
tags
[AI, 大模型, 开源, DeepSeek, 国产, 跨硬件]
created
2026-04-24
updated
2026-04-24
sources
[raw/notes/deepseek-v4-release-2026-04.md]

定义

DeepSeek 第 4 代旗舰开源大模型,2026-04-24 发布(与 GPT-5.5 同日),Apache 2.0 开源。两个 SKU:V4-Pro(1.6T 参数,对标 Gemini-Pro-3.1)+ V4-Flash(284B 参数,以极低成本接近 GPT-5.2 / Gemini 3.0 Pro 推理性能)。

真正的叙事不是"百万上下文"或"国产话语权",而是 DeepSeek 把架构创新方向往两个相互支撑的方向推:

  1. 跨硬件解耦:细粒度专家并行方案在 NVIDIA GPU 与华为 Ascend NPU 双栈完成验证(详见 model-hardware-decoupling
  2. 模型内部分层engram-conditional-memory "查—算分离"——固定知识进 hash 表 O(1) 取,与 platform-layer-collapse "模型吞软件"形成方向相反的镜像

关键要点

双 SKU 拆分

V4-Pro V4-Flash
参数 1.6T 总参数 284B 总参数
定位 性能比肩 Gemini-Pro-3.1 极低成本接近 GPT-5.2 / Gemini 3.0 Pro
上下文 1M tokens 1M tokens
模态 仅文本(多模态在路上) 仅文本
许可 Apache 2.0 Apache 2.0

这是模型层 SKU 拆分,对照 google-tpu-v8 的硬件层 SKU 拆分(v8t / v8i)——殊途同归:workload 已成熟到可以为不同场景独立设计。详见 training-inference-bifurcation

注意力三层架构

百万上下文成标配,工程底层是三层稀疏注意力:

mHC:流形约束超连接

双随机矩阵流形约束,每层信号增益稳定 ~1.6 倍,计算利用率从 60% 提升到 85%+,减少 30%+ 原始计算依赖——让超深网络训练成为可能。

训练 + 后训练范式

FP4 量化关键发现

MoE 专家权重 + CSA 索引器 QK 路径应用 FP4 QAT。关键发现:FP4 → FP8 解量化无损(FP8 动态范围足够吸收 FP4 子块尺度信息)→ 复用现有 FP8 训练框架,无需重建工具链。索引器 FP32 → BF16 量化带来 2x 加速,召回率保持 99.7%。

TileLang DSL 工程基建

主机代码生成把 dtype/shape 元数据嵌入 launcher,运行时验证开销从数十微秒降到 1 微秒以下;集成 Z3 SMT 求解器做形式整数分析;严格对齐 CUDA 工具链 bit 级可重现性(这是 V4 当前仍主要基于 CUDA 的体现之一——跨硬件解耦战略与开源工具链现实之间存在落差)。

Benchmark(厂商宣称,待第三方独立复现)

指标 V4-Pro 对照
Codeforces Elo 3206 人类第 23 / GPT-5.4 (xHigh) 3168
SWE-Verified 80.6% Claude Opus 4.6 80.8%
Terminal Bench 2.0 67.9% 与 GPT-5.4 持平
SimpleQA-Verified 57.9% 远超前代开源(约 30%)
MRCR 1M(长上下文检索) 83.5 Claude Opus 4.6 92.9(仍领先)
CorpusQA 1M 62.0 Claude Opus 4.6 71.7(仍领先)

诚实备注:长上下文检索 Opus 4.6 仍明显领先 V4-Pro,素材原文未强调。素材主推的"逼平 / 超越"主要在 Codeforces / SWE / Terminal Bench / SimpleQA 四项。读这类 benchmark 时建议同时参照 ai-vendor-spec-traps 的 6 条 checklist——开源模型也会在自己擅长的子集做选择性强调。

DeepSeek 内部员工已用 V4 做 Agentic Coding,体验优于 Sonnet 4.5、接近 Opus 4.6 非思考模式(内部使用反馈,非第三方)。

关键硬件设计建议("6.1 TFLOP/GBps"完整推导)

技术报告 §EP Scheme(page 18 附近)原文:

For DeepSeek-V4-Pro, where each token-expert pair requires 6hd FLOPs (SwiGLU gate, up, and down projections) but only 3h bytes of communication (FP8 Dispatch + BF16 Combine), this simplifies to:

    C / B ≤ 2d = 6144 FLOPs/Byte

That is, each GBps of interconnect bandwidth suffices to hide the communication for 6.1 TFLOP/s of compute. ... We encourage future hardware designs to target such balance points rather than scale bandwidth unconditionally.

数字推导透明:阈值 C/B = 6hd / 3h = 2d,V4-Pro 的 d=3072 → 2d = 6144 FLOPs/byte ≈ 6.1 TFLOPS/GBps。

三条必读限定(之前知识库初版漏掉): 1. "For DeepSeek-V4-Pro"——绑定在 V4-Pro 这个特定模型,不是 MoE workload 普遍属性。Llama-3 70B d=8192 → 阈值 16.4,GPT-3 d=12288 → 阈值 24.6 2. 通信精度 FP8 Dispatch + BF16 Combine,不是 FP4——DeepSeek 自己有继续推 FP4 dispatch 的余地 3. 基于 SwiGLU 6hd FLOPs/expert 结构——expert 结构改变阈值上升

GB300 单 GPU NVLink 5 = 1.8 TBps,按 V4-Pro 的 FP8 训练精度算 C/B = 5 PF / 1.8 TBps = 2.78 TFLOPS/GBps,对 6.1 阈值富余 2.2x——DeepSeek 论点对 V4-Pro × GB300 这个组合完全成立。但对 FP4 训练(ratio = 8.33)或更大 d 模型(阈值升到 16+),论点不再适用。NVIDIA 把 NVLink 推到 1.8 TBps 不是过度,是按 frontier 模型设计

与 FundaAI bandwidth-driven 视角的关系不是"对立",是"覆盖不同物理层级":DeepSeek 6.1 论点覆盖 NVLink/IB/卡间互联(TB/s 量级),FundaAI 论点覆盖 DC fabric / 跨 DC 光纤(Pb/s 量级)——DeepSeek 论文没有覆盖 virgo-fabric 那一层。详见独立工具页 compute-vs-bandwidth-roofline,含完整 Roofline 框架 + GB300 算账 + 三个时间窗下两侧各自适用范围。

Agent 适配清单

V4 针对 Claude Code / OpenClaw / OpenCode / CodeBuddy 等主流 Agent 产品做了适配优化。这条意味着 DeepSeek 把"被 Agent harness 调用"当作产品定义的一部分——参考 harness-engineering

API 兼容路径

兼容两套主流 API 是降低 Agent 迁移摩擦的工程决定,与 Agent 适配清单是同一战略的两面。

战略含义

月数级的工程合作(DeepSeek + Huawei + Cambricon),产生了之前不存在的东西:一个完整可用的、frontier 级中国 AI 技术栈,从芯片到模型,无任何美国软件成分。无论 V4 benchmark 是否完全匹配宣称数字,这个栈是真实存在的。

—— 第三方分析(NxCode 等)

但必须保留三条限定: 1. 当前开源工具链(gaMoE / DeepGEMM / TileLang)仍主要基于 CUDA bit-级对齐 2. "昇腾 950 超节点 2026 下半年批量上市" 还没发生,价格下调依赖该节点 3. 长上下文检索开源最强仍落后闭源最强 ~10 分

跨硬件解耦的完整论点 + 对国产追赶节奏的影响详见 model-hardware-decoupling

DeepSeek 过去一年发布节奏

节奏特征:低调 + 持续迭代,不靠"爆款",靠累积。Engram 论文 2026-01 早早开源,3 个月后 V4 集成——研究 → 工程 → 旗舰 SKU 的节奏可被外界跟踪。这种"开源研究先行 → 旗舰落地"的范式与 Anthropic 的 KAIROS / ULTRAPLAN 泄露后才发布的路径相反。

相关概念