训练-推理硬件分叉

tags: [AI, 芯片, 硬件, 架构, 趋势]
created: 2026-04-24
updated: 2026-04-28
sources: [raw/notes/google-tpuv8-deep-dive-2026-04.md, raw/notes/deepseek-v4-release-2026-04.md, raw/notes/google-agent-platform-research-2026-04-28.md]

定义¶

通用 AI 加速器时代结束的标志：训练与推理 workload 在硬件需求上的差异已经大到无法用同一颗芯片高效服务，超大规模厂商开始为两类负载设计完全不同的 die、内存层级、网络拓扑、甚至专用 chiplet。

为什么必然分叉¶

维度	训练负载需求	推理负载需求
数据访问模式	大批量 dense + Embedding 不规则访问	长 KV Cache + 单 token sampling
内存优先级	HBM 容量与带宽	片上 SRAM（KV Cache 不出芯片）
通信模式	AllReduce / AllGather（梯度同步）	All2All（MoE token 路由）+ collectives 同步 sampling
网络拓扑	3D Torus（相邻设备通信高效）+ scale-out 大 fabric	扁平低跳数（任意芯片任意通信）
数值精度	训练精度（FP4 极限）	推理量化（INT4/FP4）
集群规模	Pod ~10K 芯片 → 跨 DC 100 万芯片单训练	Pod ~1K 芯片，多 Pod 独立服务
关键瓶颈	数据供给（TPUDirect Storage 喂饱 MXU）	sampling 同步时延（CAE 卸载 collectives）

强行用一颗芯片服务两类负载，会同时浪费两侧的硅面积。

产品级证据：Google TPUv8（2026-04）¶

google-tpu-v8 是首个把分叉做到产品 SKU 层面的旗舰加速器：

TPUv8t 保留 SparseCore（Embedding 加速）+ 3D Torus + Virgo Scale-out + FP4
TPUv8i 删掉 SparseCore，加 CAE（collectives chiplet）+ 3x SRAM + Boardfly 扁平拓扑

不是"训练芯片砍刀做推理"，而是从 die 平面图重新设计两条 SKU。

三种硅商路线对照¶

厂商	路线	含义
AWS	单 SKU 收敛（Trainium 同时训练推理）	押"通用 + 软件优化"能压住分叉
Google	双 SKU 拆分（v8t / v8i）	押 workload 分叉是结构性的，不可弥合
NVIDIA	Rack 内 scale-up + Pod 间 scale-out（Vera Rubin NVL72/144 同 SKU）	押"模块化堆叠"应对所有 workload

这是 2026-2027 算力路线分歧的本质：到底是软件抹平差异（AWS 押注），还是硬件就该分家（Google 押注）。

推理为何后置但更剧烈¶

推理芯片的工程化拆解比训练更剧烈，原因是： - 训练 job 跑几周但只有头部几家做，对硬件多样性容忍度低 - 推理 job 是 7×24 持续 serving，单分钱性能差异乘以巨大流量 - Reasoning 模型 + MoE 让推理本身的通信模式从"芯片本地"变成"任意芯片互通"——传统 3D Torus 反而成瓶颈

CAE chiplet 的存在揭示了一个洞察：推理工作流可被拆解到"专门做 collectives 的 chiplet"这个粒度——意味着推理已经是可被深度工程化的成熟 workload，而训练仍处于"多种实验性结构共存"的阶段。

模型层 SKU 拆分对照硬件层 SKU 拆分（2026-04）¶

同月发布的 deepseek-v4 在模型层做了与硬件层殊途同归的 SKU 拆分：

层	Pro / 训练侧 SKU	Flash / 推理侧 SKU
硬件（Google TPUv8）	TPUv8t（SparseCore + 3D Torus + Virgo + FP4）	TPUv8i（CAE + 3x SRAM + Boardfly）
模型（DeepSeek V4）	V4-Pro（1.6T 参数，对标 Gemini-Pro-3.1）	V4-Flash（284B 参数，接近 GPT-5.2 / Gemini 3.0 Pro）

两层 SKU 拆分独立发生但同向：workload 已成熟到可以为不同场景独立设计。模型层与硬件层的 SKU 边界不一定一一对应（V4-Pro 仍能跑推理 / V4-Flash 也能微调训练），但产品定位上"高规格 vs 低延迟"的二元区分进入了模型层。

含义：通用单一模型时代也在终结。"训一个最大的，剪枝 / 量化做小的"路径正在被"为不同场景独立设计两个模型 + 同步发布"取代——与硬件分叉是同一个产业成熟度信号的两面。

model-hardware-decoupling 把这一现象与跨硬件解耦合并到 V4 的整体战略叙事中。

TPU 8t/8i 进一步实证（2026-04-22 同期）¶

Google TPU v8 的双 SKU 拆分在同月 2026-04-22 Cloud Next 公布TPU 8t / 8i——v8 双 SKU 路线没撤回，反而更细化（单独的代工合作伙伴 Broadcom-训练 + MediaTek-推理 / Anthropic 3.5 GW anchor / 制程 2nm）。详见 google-agent-platform "TPU 8t/8i 同期宣布" 段。

含义：训练-推理硬件分叉不是单次产品决策，是 Google 长期路线——v7 还是单 SKU、v8 拆双 SKU、8t/8i 继续双 SKU + 供应链分叉，行业方向坐实。AWS 的"通用 + 软件优化压住分叉"押注与 Google 的"硬件就该分家"押注在 2026 还没分胜负，但 Google 用三代连续产品决策站稳了自己的判断。

与 platform-layer-collapse 的关系¶

平台层坍缩讲的是软件栈被模型厂商吞噬，硬件分叉讲的是芯片层被 workload 拆开。两者方向相反： - 软件层：往上收敛（一家厂商吞掉编辑器/SDK/Agent） - 硬件层：往下分叉（一颗 SKU 拆成训练+推理两颗）

共同信号：AI workload 已经成熟到可以重塑栈的两端——上端被吞，下端被拆。

定义¶