- tags
- [AI, 芯片, 硬件, 架构, 趋势]
- created
- 2026-04-24
- updated
- 2026-04-28
- sources
- [raw/notes/google-tpuv8-deep-dive-2026-04.md, raw/notes/deepseek-v4-release-2026-04.md, raw/notes/google-agent-platform-research-2026-04-28.md]
定义¶
通用 AI 加速器时代结束的标志:训练与推理 workload 在硬件需求上的差异已经大到无法用同一颗芯片高效服务,超大规模厂商开始为两类负载设计完全不同的 die、内存层级、网络拓扑、甚至专用 chiplet。
为什么必然分叉¶
| 维度 | 训练负载需求 | 推理负载需求 |
|---|---|---|
| 数据访问模式 | 大批量 dense + Embedding 不规则访问 | 长 KV Cache + 单 token sampling |
| 内存优先级 | HBM 容量与带宽 | 片上 SRAM(KV Cache 不出芯片) |
| 通信模式 | AllReduce / AllGather(梯度同步) | All2All(MoE token 路由)+ collectives 同步 sampling |
| 网络拓扑 | 3D Torus(相邻设备通信高效)+ scale-out 大 fabric | 扁平低跳数(任意芯片任意通信) |
| 数值精度 | 训练精度(FP4 极限) | 推理量化(INT4/FP4) |
| 集群规模 | Pod ~10K 芯片 → 跨 DC 100 万芯片单训练 | Pod ~1K 芯片,多 Pod 独立服务 |
| 关键瓶颈 | 数据供给(TPUDirect Storage 喂饱 MXU) | sampling 同步时延(CAE 卸载 collectives) |
强行用一颗芯片服务两类负载,会同时浪费两侧的硅面积。
产品级证据:Google TPUv8(2026-04)¶
google-tpu-v8 是首个把分叉做到产品 SKU 层面的旗舰加速器:
- TPUv8t 保留 SparseCore(Embedding 加速)+ 3D Torus + Virgo Scale-out + FP4
- TPUv8i 删掉 SparseCore,加 CAE(collectives chiplet)+ 3x SRAM + Boardfly 扁平拓扑
不是"训练芯片砍刀做推理",而是从 die 平面图重新设计两条 SKU。
三种硅商路线对照¶
| 厂商 | 路线 | 含义 |
|---|---|---|
| AWS | 单 SKU 收敛(Trainium 同时训练推理) | 押"通用 + 软件优化"能压住分叉 |
| 双 SKU 拆分(v8t / v8i) | 押 workload 分叉是结构性的,不可弥合 | |
| NVIDIA | Rack 内 scale-up + Pod 间 scale-out(Vera Rubin NVL72/144 同 SKU) | 押"模块化堆叠"应对所有 workload |
这是 2026-2027 算力路线分歧的本质:到底是软件抹平差异(AWS 押注),还是硬件就该分家(Google 押注)。
推理为何后置但更剧烈¶
推理芯片的工程化拆解比训练更剧烈,原因是: - 训练 job 跑几周但只有头部几家做,对硬件多样性容忍度低 - 推理 job 是 7×24 持续 serving,单分钱性能差异乘以巨大流量 - Reasoning 模型 + MoE 让推理本身的通信模式从"芯片本地"变成"任意芯片互通"——传统 3D Torus 反而成瓶颈
CAE chiplet 的存在揭示了一个洞察:推理工作流可被拆解到"专门做 collectives 的 chiplet"这个粒度——意味着推理已经是可被深度工程化的成熟 workload,而训练仍处于"多种实验性结构共存"的阶段。
模型层 SKU 拆分对照硬件层 SKU 拆分(2026-04)¶
同月发布的 deepseek-v4 在模型层做了与硬件层殊途同归的 SKU 拆分:
| 层 | Pro / 训练侧 SKU | Flash / 推理侧 SKU |
|---|---|---|
| 硬件(Google TPUv8) | TPUv8t(SparseCore + 3D Torus + Virgo + FP4) | TPUv8i(CAE + 3x SRAM + Boardfly) |
| 模型(DeepSeek V4) | V4-Pro(1.6T 参数,对标 Gemini-Pro-3.1) | V4-Flash(284B 参数,接近 GPT-5.2 / Gemini 3.0 Pro) |
两层 SKU 拆分独立发生但同向:workload 已成熟到可以为不同场景独立设计。模型层与硬件层的 SKU 边界不一定一一对应(V4-Pro 仍能跑推理 / V4-Flash 也能微调训练),但产品定位上"高规格 vs 低延迟"的二元区分进入了模型层。
含义:通用单一模型时代也在终结。"训一个最大的,剪枝 / 量化做小的"路径正在被"为不同场景独立设计两个模型 + 同步发布"取代——与硬件分叉是同一个产业成熟度信号的两面。
model-hardware-decoupling 把这一现象与跨硬件解耦合并到 V4 的整体战略叙事中。
TPU 8t/8i 进一步实证(2026-04-22 同期)¶
Google TPU v8 的双 SKU 拆分在同月 2026-04-22 Cloud Next 公布TPU 8t / 8i——v8 双 SKU 路线没撤回,反而更细化(单独的代工合作伙伴 Broadcom-训练 + MediaTek-推理 / Anthropic 3.5 GW anchor / 制程 2nm)。详见 google-agent-platform "TPU 8t/8i 同期宣布" 段。
含义:训练-推理硬件分叉不是单次产品决策,是 Google 长期路线——v7 还是单 SKU、v8 拆双 SKU、8t/8i 继续双 SKU + 供应链分叉,行业方向坐实。AWS 的"通用 + 软件优化压住分叉"押注与 Google 的"硬件就该分家"押注在 2026 还没分胜负,但 Google 用三代连续产品决策站稳了自己的判断。
与 platform-layer-collapse 的关系¶
平台层坍缩讲的是软件栈被模型厂商吞噬,硬件分叉讲的是芯片层被 workload 拆开。两者方向相反: - 软件层:往上收敛(一家厂商吞掉编辑器/SDK/Agent) - 硬件层:往下分叉(一颗 SKU 拆成训练+推理两颗)
共同信号:AI workload 已经成熟到可以重塑栈的两端——上端被吞,下端被拆。
相关概念¶
- google-tpu-v8 — 首个产品级 SKU 拆分,本概念的核心证据
- virgo-fabric — 训练侧专属 fabric,跨 DC 100 万 TPU 单训练
- boardfly-topology — 推理侧专属拓扑,扁平低跳数
- platform-layer-collapse — 软件栈往上收敛 vs 硬件往下分叉,方向相反
- china-us-ai-gap — 国产芯片是否能同时跟上两条路线决定追赶节奏
- deepseek-v4 — 模型层 SKU 拆分(V4-Pro / V4-Flash),与硬件层 SKU 拆分殊途同归
- model-hardware-decoupling — V4 同时承载模型层 SKU 拆分 + 跨硬件解耦的整体战略
- google-agent-platform — TPU 8t/8i 同期宣布(2026-04-22 Cloud Next)—— v8 双 SKU 路线没撤回反而更细化(供应链分叉 + Anthropic 3.5 GW anchor)