AI 厂商性能宣称陷阱

tags: [AI, 硬件, 营销, 批判性阅读]
created: 2026-04-24
updated: 2026-04-28
sources: [raw/notes/google-tpuv8-deep-dive-2026-04.md, raw/notes/deepseek-v4-release-2026-04.md, raw/notes/karri-saarinen-some-notes-on-ai-2026-04-26.md]

定义¶

AI 加速器厂商发布 keynote 时常用的"标题党"宣称模式：通过偷换精度、混合 sparsity 系数、跨代分母换算等方式，把芯片性能数字做大。本页收录已观察到的具体陷阱，供阅读后续硅商发布会时核对。

已收录陷阱¶

陷阱 1：FP4 算力 vs FP8 算力分母偷换（2026-04 Google TPUv8）¶

Google 宣称：TPUv8t 相比 TPUv7 Ironwood 在 FP4 算力上 2.8x 提升。实际：分母用的 TPUv7 数字（42.5 EFlops，每芯片 4616T × 9216 芯片）实际是 FP8 算力，不是 FP4。同精度对比下提升幅度小于 2.8x。

核心套路：新代芯片刚加 FP4 支持时，没有跨代同精度数据可比 → 用旧代的 FP8 数当 FP4 数 → 翻倍优势凭空出现。

陷阱 2：Sparsity 系数加成¶

NVIDIA 历代 keynote 给出的 TFLOPS 经常默认带 2:4 sparsity 加成（2x 系数）。Dense workload 实际拿不到这个数。判断方法：看官方 spec sheet 脚注是否标 "with sparsity" / "structured sparsity"。

陷阱 3：单 chiplet vs 整 package 算力混报¶

多 die package（Blackwell B200 / TPUv8i 多 die）有时把整 package 算力直接对比上一代单 die，又用单 die 工艺数字宣传"能效"。判断方法：看 die count + 单 die 算力是否一致。

陷阱 4：Pod 算力 vs 单芯片算力扩展性宣称¶

把 Pod 总算力翻倍归功于"芯片性能翻倍"，但实际可能只是 Pod 芯片数翻倍。判断方法：看每芯片 spec 是否独立翻倍。

陷阱 5：跨 DC scaling "近线性"¶

声称跨 DC 训练 scaling 近线性，但 RTT/带宽/stragglers 会导致实际线性度衰减。这条很难独立验证——参考 virgo-fabric 行业分析师对 Google 134K + 100 万跨 DC 宣称的保留态度。

陷阱 6：开源旗舰 benchmark 的子集选择性强调（2026-04 DeepSeek V4）¶

deepseek-v4 自报 benchmark：Codeforces Elo 3206（人类第 23）/ SWE-Verified 80.6%（接近 Opus 4.6 的 80.8%）/ Terminal Bench 2.0 67.9%（与 GPT-5.4 持平）/ SimpleQA-Verified 57.9%（远超前代开源约 30%）。

但素材未强调的对照数据：

指标	V4-Pro	Claude Opus 4.6
MRCR 1M（长上下文检索）	83.5	92.9
CorpusQA 1M	62.0	71.7

核心套路：开源模型选 4-5 个自己擅长的子集（编码 / 数学 / 短上下文事实查找）做"逼平 / 超越"叙事，长上下文检索这种闭源仍领先 ~10 分的子集低调处理。

判断方法： 1. 看公司自报的 benchmark 覆盖了哪些维度 2. 找出他们没列出的维度——通常是落后的 3. 对长上下文模型，永远独立查 MRCR / CorpusQA / Needle-in-Haystack 等长上下文专项指标 4. 内部员工"实测"反馈（如 DeepSeek 内部用 V4 做 Agentic Coding 反馈"接近 Opus 4.6 非思考模式"）只是单一团队的工作流偏好，不是普适评价

DeepSeek 是高质量开源典型，这条不是质疑 V4 的工程含金量，而是任何厂商（开源 / 闭源 / 中 / 美）发 benchmark 都会做子集选择——读发布稿时默认假设"未提到的维度可能落后"。

阅读发布会的 6 条 checklist¶

精度对齐：FP4 vs FP4，FP8 vs FP8，不要 FP4 比 FP8
Sparsity 关闭：dense throughput 才是基线，sparsity 是 bonus
Die 数对齐：单 die 比单 die，整 package 比整 package
每芯片维度：Pod 算力增长拆开看每芯片是否真涨
同 workload 对齐：训练 spec 不要拿来对比推理 spec
第三方验证：等 MLPerf / 真实客户 workload 数据，再调整估值

方法论根基：Gell-Mann Amnesia 在硬件领域的工程化¶

Linear CEO Karri Saarinen 在 2026-04-26 X 长文给"批判性消费 AI 宣称"提供了方法论命名根基——本页 6 条 checklist 本质是 expertise-paradox 的工程化对抗机制：

"AI capabilities are described and understood as limitless to the casual observer."

"In areas you understand deeply, you see the gaps. ... In areas you know less about, the same output can feel like magic because you lack the judgment to see what is missing."

翻译到硬件 spec 场景：

Casual observer 看 NVIDIA / TPU / DeepSeek keynote → Dunning-Kruger 模式 → 看到的是 "X.X EFlops"、"2.8x 提升" → 接受为"AI 加速"
硬件 expert（半导体行业 / 芯片设计师 / FundaAI 类系统工程师）看同一份 keynote → Gell-Mann 模式 → 立即识别 FP4/FP8 偷换 / sparsity 加成 / die 数 / 同 workload 对齐问题

6 条 checklist 是给 casual observer 借用 expert 视角的工具——不是要让所有人变成硬件专家，是给非专家读发布稿时一份"该问什么问题"的清单，避免 Dunning-Kruger 模式直接接受厂商叙事。

这条与 Saarinen 主张的 "cautious optimism" 立场一致：

"I do not find much value in being a doomer, but I also do not find much value in wishful thinking. The more useful position is to observe carefully, try things, and keep judgment intact."

核心原则：批判性消费不是反对 AI / 硬件本身，是反对评估者认知机制带来的不对称信息接受——厂商 keynote 设计就是利用 Gell-Mann + Dunning-Kruger 双偏差让 casual observer 接受被加工过的数字。Checklist 是 casual observer 的认知校准工具。

为什么这条值得独立成页¶

AI 算力是 2026 资本市场最大叙事之一，万亿美金 capex 决策依赖这些数字。每一处偷换都会被层层放大到分析师模型 → 分析师报告 → 二级市场。保留批判性阅读的 6 步 checklist 是知识库防御性资产。

类比：profit-source-ethics 是利润来源伦理的批判清单，本页是性能宣称的批判清单——同一种"先建判断框架，再批判性消费叙事"的方法论。

定义¶