🏠 home › concepts › training-inference-bifurcation
tags
[AI, 芯片, 硬件, 架构, 趋势]
created
2026-04-24
updated
2026-04-28
sources
[raw/notes/google-tpuv8-deep-dive-2026-04.md, raw/notes/deepseek-v4-release-2026-04.md, raw/notes/google-agent-platform-research-2026-04-28.md]

定义

通用 AI 加速器时代结束的标志:训练与推理 workload 在硬件需求上的差异已经大到无法用同一颗芯片高效服务,超大规模厂商开始为两类负载设计完全不同的 die、内存层级、网络拓扑、甚至专用 chiplet。

为什么必然分叉

维度 训练负载需求 推理负载需求
数据访问模式 大批量 dense + Embedding 不规则访问 长 KV Cache + 单 token sampling
内存优先级 HBM 容量与带宽 片上 SRAM(KV Cache 不出芯片)
通信模式 AllReduce / AllGather(梯度同步) All2All(MoE token 路由)+ collectives 同步 sampling
网络拓扑 3D Torus(相邻设备通信高效)+ scale-out 大 fabric 扁平低跳数(任意芯片任意通信)
数值精度 训练精度(FP4 极限) 推理量化(INT4/FP4)
集群规模 Pod ~10K 芯片 → 跨 DC 100 万芯片单训练 Pod ~1K 芯片,多 Pod 独立服务
关键瓶颈 数据供给(TPUDirect Storage 喂饱 MXU) sampling 同步时延(CAE 卸载 collectives)

强行用一颗芯片服务两类负载,会同时浪费两侧的硅面积。

产品级证据:Google TPUv8(2026-04)

google-tpu-v8 是首个把分叉做到产品 SKU 层面的旗舰加速器:

不是"训练芯片砍刀做推理",而是从 die 平面图重新设计两条 SKU。

三种硅商路线对照

厂商 路线 含义
AWS 单 SKU 收敛(Trainium 同时训练推理) 押"通用 + 软件优化"能压住分叉
Google 双 SKU 拆分(v8t / v8i) 押 workload 分叉是结构性的,不可弥合
NVIDIA Rack 内 scale-up + Pod 间 scale-out(Vera Rubin NVL72/144 同 SKU) 押"模块化堆叠"应对所有 workload

这是 2026-2027 算力路线分歧的本质:到底是软件抹平差异(AWS 押注),还是硬件就该分家(Google 押注)。

推理为何后置但更剧烈

推理芯片的工程化拆解比训练更剧烈,原因是: - 训练 job 跑几周但只有头部几家做,对硬件多样性容忍度低 - 推理 job 是 7×24 持续 serving,单分钱性能差异乘以巨大流量 - Reasoning 模型 + MoE 让推理本身的通信模式从"芯片本地"变成"任意芯片互通"——传统 3D Torus 反而成瓶颈

CAE chiplet 的存在揭示了一个洞察:推理工作流可被拆解到"专门做 collectives 的 chiplet"这个粒度——意味着推理已经是可被深度工程化的成熟 workload,而训练仍处于"多种实验性结构共存"的阶段。

模型层 SKU 拆分对照硬件层 SKU 拆分(2026-04)

同月发布的 deepseek-v4模型层做了与硬件层殊途同归的 SKU 拆分:

Pro / 训练侧 SKU Flash / 推理侧 SKU
硬件(Google TPUv8) TPUv8t(SparseCore + 3D Torus + Virgo + FP4) TPUv8i(CAE + 3x SRAM + Boardfly)
模型(DeepSeek V4) V4-Pro(1.6T 参数,对标 Gemini-Pro-3.1) V4-Flash(284B 参数,接近 GPT-5.2 / Gemini 3.0 Pro)

两层 SKU 拆分独立发生但同向:workload 已成熟到可以为不同场景独立设计。模型层与硬件层的 SKU 边界不一定一一对应(V4-Pro 仍能跑推理 / V4-Flash 也能微调训练),但产品定位上"高规格 vs 低延迟"的二元区分进入了模型层。

含义:通用单一模型时代也在终结。"训一个最大的,剪枝 / 量化做小的"路径正在被"为不同场景独立设计两个模型 + 同步发布"取代——与硬件分叉是同一个产业成熟度信号的两面。

model-hardware-decoupling 把这一现象与跨硬件解耦合并到 V4 的整体战略叙事中。

TPU 8t/8i 进一步实证(2026-04-22 同期)

Google TPU v8 的双 SKU 拆分在同月 2026-04-22 Cloud Next 公布TPU 8t / 8i——v8 双 SKU 路线没撤回,反而更细化(单独的代工合作伙伴 Broadcom-训练 + MediaTek-推理 / Anthropic 3.5 GW anchor / 制程 2nm)。详见 google-agent-platform "TPU 8t/8i 同期宣布" 段。

含义:训练-推理硬件分叉不是单次产品决策,是 Google 长期路线——v7 还是单 SKU、v8 拆双 SKU、8t/8i 继续双 SKU + 供应链分叉,行业方向坐实。AWS 的"通用 + 软件优化压住分叉"押注与 Google 的"硬件就该分家"押注在 2026 还没分胜负,但 Google 用三代连续产品决策站稳了自己的判断。

platform-layer-collapse 的关系

平台层坍缩讲的是软件栈被模型厂商吞噬,硬件分叉讲的是芯片层被 workload 拆开。两者方向相反: - 软件层:往上收敛(一家厂商吞掉编辑器/SDK/Agent) - 硬件层:往下分叉(一颗 SKU 拆成训练+推理两颗)

共同信号:AI workload 已经成熟到可以重塑栈的两端——上端被吞,下端被拆。

相关概念