2026-04-24 变更日志¶

摄取 Google TPUv8 全面解析（公众号深度文，转引 Cloud Next 2026 官方）¶

来源：raw/notes/google-tpuv8-deep-dive-2026-04.md（公众号 TPU 系列深度解析，转引 Google Cloud Blog 2 篇官方原文：TPU 8t/8i deep dive + Virgo Network；发布事件 Google Cloud Next 2026，2026-04-22 拉斯维加斯）

新建页面¶

concepts/google-tpu-v8 — Google 第 8 代 TPU 主页：拆分动机、TPUv8t（训练）/TPUv8i（推理）双 SKU 详细参数、Virgo & Boardfly 简版、Axion ARM 主机、FP4/FP8 标题党问题、AWS/Google/NVIDIA 三家路线对照
concepts/training-inference-bifurcation — 训练-推理硬件分叉：通用加速器时代终结的论点页，列 7 个维度差异表 + 三家硅商路线对照 + 与平台层坍缩方向相反的镜像论点
concepts/virgo-fabric — Virgo DC fabric：134K 芯片 / 47 Pb/s / 跨 DC 100 万 TPU 单训练 / 同时承载 NVIDIA Vera Rubin NVL72 / 对单 DC 电力瓶颈的反作用
concepts/boardfly-topology — Boardfly 推理拓扑：3 层 BB(4)/Group(32)/Pod(1152) 结构 + Dragonfly 借鉴 + OCS 光交换 + 1024 芯片跳数 16→7 的工程答案
concepts/ai-vendor-spec-traps — AI 厂商性能宣称陷阱：FP4/FP8 分母偷换 + sparsity + 多 die + Pod 算力等 5 类陷阱 + 阅读发布会 6 条 checklist

关键知识提取¶

Google TPUv8 把训练-推理硬件分叉做到了产品 SKU 层 — 不是"训练芯片砍刀做推理"，而是 TPUv8t 保留 SparseCore + 3D Torus + Virgo + FP4，TPUv8i 删 SparseCore + 加 CAE + 3x SRAM + Boardfly 拓扑——die 平面图重新设计两条线。这与 AWS Trainium 单 SKU 收敛、NVIDIA NVL72/144 模块化堆叠形成 2026 三大硅商路线分歧 → 与 training-inference-bifurcation 的连接：本概念页就是为承接这条洞察而抽出的——TPUv8 是首个产品级证据，把"workload 分叉是结构性的"从假说变成被旗舰 SKU 验证的事实
跨 DC 100 万 TPU 单训练把电力卡脖子从绝对约束削成相对约束 — Virgo fabric 设计目标是把跨园区训练做成可行——训练规模不再被单 DC 电力上限锁死。这部分反向缓解了 hidden-chokepoints 中大型燃气轮机交付排队 2-3 年的隐性卡脖子，但电力总盘子仍是约束，且 "近线性 scaling" 宣称未被独立验证 → 与 hidden-chokepoints 的连接：原页认为燃气轮机是"看不见的垄断 + 数据中心建多快取决于电厂建多快"，本次摄取在该页新增"跨 DC 训练对电力瓶颈的反作用"段落，把 fabric 层创新对供应链卡脖子的"削弱但未消除"关系做出来
Boardfly 用 OCS + Dragonfly 思路解决 reasoning + MoE 的 All2All 通信瓶颈 — 3D Torus 在 1024 芯片下最远 16 跳，对 dense 训练相邻通信友好但对 MoE token 路由 + reasoning 多步 sampling 灾难性。Boardfly 的 7 跳是"网络层必须为推理 workload 重新设计"的直接产物——CAE chiplet 卸载 collectives 的努力会被远端 16 跳吃掉，所以拓扑层也得重做 → 与 training-inference-bifurcation 的连接：Boardfly 是训练-推理分叉在网络层的证据，与 die 层（CAE vs SparseCore）、内存层（384MB SRAM vs HBM 优先）、scale-out 层（Boardfly vs Virgo）一起构成"分叉是全栈的"完整图景
Google "2.8x FP4" 对比 Ironwood 的 "FP8" 是分母偷换 — 这是 keynote 营销陷阱的典型模式：新代芯片刚加 FP4 支持时没有跨代同精度数据可比 → 用旧代 FP8 数当 FP4 数 → 翻倍优势凭空出现。同精度对比下提升幅度小于 2.8x。AI 算力是 2026 资本市场最大叙事之一，万亿美金 capex 决策依赖这些数字，每一处偷换会被层层放大到二级市场 → 与 ai-vendor-spec-traps 的连接：本页就是为承接这条洞察而抽出的——把"批判性消费厂商宣称"做成 6 条 checklist 防御性资产，方法论上类比 profit-source-ethics（先建批判框架再批判性消费叙事）
硬件分叉与平台层坍缩是方向相反的镜像现象 — 软件层：模型厂商往上吞噬应用 / SDK / Agent runtime（platform-layer-collapse），栈在收敛；硬件层：通用 TPU 拆成训练 + 推理两颗 SKU，栈在分叉。共同信号：AI workload 已经成熟到可以重塑栈的两端——上端被吞，下端被拆 → 与 platform-layer-collapse 的连接：在该页相关概念加 training-inference-bifurcation 链接 + 注 "方向相反的镜像现象"。两个概念互为对照，加深"AI workload 成熟度"这一根本判断
国产芯片追赶难度结构性上升：要同时跟两条 SKU + DC fabric + 全系统协同 — 智谱 GLM-5.1 在昇腾 910B 上做到 SWE-Bench Pro 58.4 是国产硬件的强证据，但同月 Google 把硬件参照系再次推高。国产芯片要追的不再只是单芯片算力，而是 SKU 拆分能力 + DC fabric + 全系统协同——结构性追赶难度上升 → 与 china-us-ai-gap 的连接：原页只覆盖软件模型层差距（GLM-5.1 vs Claude Opus 4.6），本次在该页新增"硬件层差距：Google TPUv8 设的新参照系"段落，把硬件层参照系拉进差距讨论，且对照 ai-vendor-spec-traps 提醒不被 FP4/FP8 偷换分母放大焦虑

更新页面¶

concepts/china-us-ai-gap — 新增"硬件层差距：Google TPUv8 设的新参照系（2026-04）"整段，把硬件参照系拉进差距讨论；相关概念加 google-tpu-v8 / training-inference-bifurcation / ai-vendor-spec-traps；sources 加新 raw；updated → 2026-04-24
concepts/hidden-chokepoints — 新增"跨 DC 训练对电力瓶颈的反作用 — Virgo fabric 视角"段落；相关概念加 virgo-fabric / google-tpu-v8；sources 加新 raw；updated → 2026-04-24
concepts/platform-layer-collapse — 相关概念加 training-inference-bifurcation 一行 + 注"方向相反的镜像现象"
wiki/index.md — AI/Agent 工程章节下新设"AI 算力与硬件"子分区，挂 5 个新页；最近更新加一条 2026-04-24

事实核查记录¶

WebSearch "Google TPU v8 TPUv8t TPUv8i announcement 2026 Axion CPU" → 核实 TPUv8 在 2026-04-22 Google Cloud Next 2026 发布，TPUv8t codename Sunfish (Broadcom) / TPUv8i codename Zebrafish (MediaTek)，9600 chip pod / 134K Virgo / 1152 Boardfly / Axion ARM Neoverse N3 全部与素材吻合 → 用于 google-tpu-v8 主页所有规格段落
WebSearch "Google Virgo network fabric data center TPU 2026" → 核实 Virgo 134K / 47 Pb/s / 跨 DC >1M TPU / 80K NVIDIA GPU 单 DC / 960K 跨 DC / 2 层非阻塞 + 多平面架构 / 40% 时延降低 / "近线性 scaling" 行业分析师持保留态度等全部细节 → 用于 virgo-fabric 全页 + 跨 DC 反作用论点
客户文档陷阱检查：本次素材是公众号外部技术深度文，转引 Google Cloud Blog 官方原文，不是客户向 PRD/RFP/提案/合同，不触发该专项检查。素材中提到的"Sunfish/Zebrafish/Broadcom/MediaTek"等代号 + 合作方信息为搜索补充，已写进 google-tpu-v8 页

待办¶

"近线性 scaling 跨 DC" 等 MLPerf / 真实客户 workload 数据出来后回到 virgo-fabric 页加注一次实测验证条
AWS Trainium 3 / NVIDIA Vera Rubin NVL72 各自的 spec 详细页可在后续摄取时单独成页，把 training-inference-bifurcation 三家路线对照表升级为可点击网络
google-tpu-v8 页中"FP4 vs FP8 偷换"目前只有素材作者的 1 句话注脚，建议下次摄取 Google Ironwood 官方 spec 时补一次直接对账

补充：FundaAI 范式视角（2026-04-24 同日追加）¶

来源：raw/notes/fundaai-tpuv8-commentary-2026-04.md（FundaAI Substack 2 篇独立分析师评论文，非 Google 官方 blog；属性需明确标注） - https://fundaai.substack.com/p/deepai-infra-2026-shifting-from-brain - https://fundaai.substack.com/p/deeplite-googles-newly-introduced

新建页面¶

concepts/optics-as-scaling-constraint — 光学作为系统级 scaling 核心约束：optics/OCS/transceiver/激光器/光纤从外围辅助晋升为决定系统能否 scale 的硬约束 + Boardfly OCS / Virgo 高 radix Switch / 跨 DC 长距光纤三层体现 + FundaAI OCS port 比 TAM 推算 + 与 hidden-chokepoints 第四类案例的关系 + 国产追赶的额外光学层难度

关键知识提取（4 条）¶

这次升级的是 DCN（scale-out），不是 scale-up — TPUv8t 仍 3D Torus，只是 SerDes 升 224G；真正改的是 Virgo 把 scale-out 带宽 4x、做到 134K 单 fabric / 跨 DC 100 万 TPU。市场把发布读成"3D Torus 升级"是错的——拓扑层变化发生在 DCN 而非 chip-to-chip → 与 virgo-fabric 的连接：在该页新增"DCN vs scale-up 误读修正"段，引用 FundaAI in-rack switch tray 评注预言；这个区分对国产追赶的意义是"要补的是 DCN 全栈能力，不只是 chip-to-chip 互联"
Dragonfly 拓扑哲学统一 scale-up + scale-out — Boardfly（Pod 内 scale-up 范畴）借鉴 Dragonfly，Virgo（DCN / scale-out）也走"分组 + long links + 高 radix + OCS"思路。两层网络的设计哲学正在收敛，传统"Torus 做 scale-up / fat-tree 做 scale-out"的二分被打破——拓扑选择首先服从 workload 通信模式（All2All / bisection bandwidth 主导），不再首先服从物理分层 → 与 boardfly-topology 的连接：在该页新增"Dragonfly 哲学统一 scale-up + scale-out"段，把 Boardfly 与 Virgo 殊途同归讲清楚；这是 training-inference-bifurcation 的反向力量——硬件分叉但拓扑哲学收敛
compute-driven → bandwidth-driven 是范式转变（最高权重论点） — Google 不是在"升级网络"，而是承认整个 AI 系统从单芯片 FLOPS 上限走向 bisection bandwidth 上限。MoE All2All + reasoning 多步 sampling 让"chip 1/3+ 时间在等数据"成为常态。CAE chiplet / 224G SerDes / Virgo 4x 带宽 / Boardfly 7 跳全部是同一范式驱动力下的产物——单芯片算力已富余，通信成新硬约束 → 与 google-tpu-v8 的连接：在主页"定义"之后插入独立的"范式总论"段，把 die / scale-up / scale-out / DC-to-DC 四层证据全部串到 bandwidth-driven 框架下；这是给读者的"读 TPUv8 不要只读单芯片参数表"的元解读
Optics 从外围辅助晋升为系统级核心约束 — 光通信链路（OCS / transceiver / 激光器 / 长距光纤 / co-packaged optics）从"机房布线问题"变成"决定 token throughput 的硬瓶颈"。FundaAI 推算：scale-up OCS port 比 1.5:1 → 2:1～10:1，scale-out 0.2:1 → 1:1，TAM 阶跃式扩张。投资 / 产业含义：在味之素 ABF / TOTO ESC / 燃气轮机之外，光学供应链是 2026 起的新增隐性卡脖子点 → 与 optics-as-scaling-constraint 的连接：本概念页就是为承接这条洞察而抽出的；同时回连 hidden-chokepoints 作为该页待补的第四类案例 + 回连 china-us-ai-gap 作为国产追赶的额外结构性难度

更新页面¶

concepts/virgo-fabric — 新增"DCN vs scale-up 误读修正（FundaAI 视角）" + "bandwidth-driven 范式" 两段；相关概念加 optics-as-scaling-constraint；sources 加 fundaai 评注 raw；updated 仍 2026-04-24（同日追加）
concepts/boardfly-topology — 新增"Dragonfly 哲学统一 scale-up + scale-out（FundaAI 视角）"段；相关概念加 optics-as-scaling-constraint；sources 加 fundaai 评注 raw
concepts/google-tpu-v8 — "定义"后插入"范式总论：compute-driven → bandwidth-driven"独立段，串四层证据；相关概念加 optics-as-scaling-constraint；sources 加 fundaai 评注 raw
concepts/hidden-chokepoints — 相关概念加 optics-as-scaling-constraint 一行（标注"光学供应链是该页待补的第四类案例"）
wiki/index.md — AI 算力与硬件子分区加 optics-as-scaling-constraint 新条目；最近更新 2026-04-24 行追加 bandwidth-driven 框架补注

事实核查记录¶

WebSearch "FundaAI Substack DeepAI Infra 2026 shifting brain TPU Dragonfly" → 核实 FundaAI 原文表述 "The system constraint has shifted — from compute to bandwidth" 直接吻合 + "Dragonfly-topology based scale up and scale out integration" 直接吻合 + scale-up OCS port 比 1.5:1→2:1~10:1 / scale-out 0.2:1→1:1 数字吻合 + "GPU/TPU 大脑、optics 四肢"生物类比吻合 → 用于 4 条全部论点
客户文档陷阱检查：素材是独立分析师 Substack，不是客户向 PRD/RFP/提案/合同，不触发该专项检查；引用属性已在 raw 文件 + 各 wiki 页明确标注 "FundaAI 独立分析师视角"，避免与 Google 官方表述混同
"compute-driven → bandwidth-driven" 措辞是用户对 FundaAI 原文 "system constraint has shifted from compute to bandwidth" 的精炼表述，论点等价
未独立验证：FundaAI OCS port 比数字属预测性论断、TPU rack vs GB200 TCO 2x+ 口径未公开、co-packaged optics 是否已在 TPUv8 部署 → 全部已在 optics-as-scaling-constraint 页"待验证"段标注

待办¶

FundaAI OCS port 比 TAM 数字等待第三方独立来源（SemiAnalysis / Dell'Oro / LightCounting）回头交叉印证
下次摄取 hidden-chokepoints 类材料时考虑把光学正式收录为第四类案例（目前 optics-as-scaling-constraint 是独立页 + 回连，未来可能合并或保持互连）
co-packaged optics / 硅光器件的国产生态分析待补，是 china-us-ai-gap 硬件层差距的进一步细化

DeepSeek V4 开源（同日追加）¶

来源：raw/notes/deepseek-v4-release-2026-04.md（InfoQ 公众号文章，作者冬梅，转引 DeepSeek 官方公众号 + 技术报告 + Engram 2026-01 论文） - 模型开源：https://huggingface.co/collections/deepseek-ai/deepseek-v4 - 技术报告：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf - Engram 论文：https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

新建页面（3 页）¶

concepts/deepseek-v4 — V4-Pro / V4-Flash 双 SKU 主页，1M 上下文 + CSA/HCA/DSA 三层注意力 + Muon 优化器 + 同策略蒸馏 + benchmark 表（含 Opus 4.6 长上下文仍领先的诚实备注）
concepts/engram-conditional-memory — 梁文锋署名的"查—算分离"架构，新一轴稀疏性，27B Engram + MoE 在 iso-参数 / iso-FLOPs 下推理 +4pt / 知识 +4pt，确定性寻址支持 host memory offload 绕过 HBM 约束
concepts/model-hardware-decoupling — V4 把模型运行时从单一硬件依赖中解耦的战略论点页，"波"切分专家并行 NVIDIA + Ascend 双栈 1.5-1.73x 加速实证，叠加三条不能省的限定（CUDA 工具链 / 昇腾 950 未上市 / 第三方未复现）

关键知识提取（6 条）¶

跨硬件解耦战略首次产品化 — V4 是首个明确把细粒度专家并行（EP）方案在 NVIDIA GPU 与华为 Ascend NPU 双栈完成验证的旗舰开源模型；NxCode 等第三方分析认为这是首个"完整可用的、frontier 级中国 AI 技术栈，从芯片到模型，无任何美国软件成分"。但当前开源工具链 gaMoE / DeepGEMM / TileLang 仍主要基于 CUDA bit-级对齐，价格下调依赖 2026 下半年昇腾 950 超节点上市 → 与 model-hardware-decoupling 的连接：本概念页就是为承接这条战略而抽出的；同时回连 china-us-ai-gap 作为模型侧给国产追赶节奏添加的反向力量、回连 asymmetric-chokepoints 作为模型厂商主动 hedge 非对称博弈的工具化实践
模型层 SKU 拆分对照硬件层 SKU 拆分 — V4-Pro（1.6T 总参数，对标 Gemini-Pro-3.1）+ V4-Flash（284B 总参数，极低成本接近 GPT-5.2 / Gemini 3.0 Pro）双 SKU 拆分，逻辑与 Google TPUv8t / v8i 硬件层拆分同源不同层：workload 已成熟到可以为不同场景独立设计 → 与 training-inference-bifurcation 的连接：在该页新增"模型层 vs 硬件层 SKU 拆分对照"段；与 google-tpu-v8 行业脉络段形成跨层对照——硬件按 workload 分家、模型按场景分家、并发于同一时间窗
Engram "查—算分离" 是新一轴稀疏性（梁文锋署名） — 传统 Transformer 把事实性记忆与逻辑推理混在同一组 dense 参数里，等于用深度逻辑电路反复重建本该是哈希查找的操作。Engram 把固定模式存入哈希查找表 O(1) 调用，dense 参数专注推理。MoE 是 conditional computation（按 token 路由专家），Engram 是 conditional memory（按 token 查 hash 表），两者正交可叠加。论文给出新稀疏分配律：iso-参数 + iso-FLOPs 下最优 75-80% 计算 + 20-25% 记忆——对"MoE 已是终极稀疏方案"的实证否定 → 与 engram-conditional-memory 的连接：本概念页就是为承接这条架构创新而抽出的；CEO 个人下场署名通常代表公司战略方向，2026-01-13 论文 → 2026-04-24 V4 集成体现"开源研究先行 → 工程化跟进"的 DeepSeek 节奏
6.1 TFLOP/GBps 论点与 bandwidth-driven 范式形成对立 — 技术报告对硬件厂商的反向指引："当前每 GBps 互联带宽足以覆盖 6.1 TFLOP/s 的计算需求，盲目增加带宽会带来收益递减"。模型侧已经把通信 / 计算融合到 1.5-1.96x 加速（"波"切分专家——波内通信完成立即开始计算 + 当前波计算 + 下一波 token 传输 + 已完成专家结果发送三者并行），所以认为通信层已经够用 → 与 optics-as-scaling-constraint 的连接：在该页新增"模型侧反向视角"段，平衡 FundaAI 的"光学晋升核心约束"与 DeepSeek 的"通信已经够用"两个对立判断；知识库保留张力不强行合并，这是 2026 系统层的核心争论之一
Engram 的确定性寻址绕过 HBM 容量约束 — hash 函数确定性给定 token → 必然查到固定 entry → 大型 embedding 表可 offload 到 host memory（CPU 系统 RAM）而非 GPU HBM，runtime prefetch 开销可忽略。HBM 是 2026 国产芯片相对薄弱的环节之一——这是模型架构层对硬件层约束的反向破解，也是 model-hardware-decoupling 的具体技术承载之一 → 与 engram-conditional-memory / optics-as-scaling-constraint 双向连接
开源模型追平闭源是平台层坍缩的对冲信号 — V4-Pro Codeforces Elo 3206（人类第 23 / GPT-5.4 持平）/ SWE-Verified 80.6%（接近 Claude Opus 4.6 80.8%）/ Terminal Bench 2.0 67.9%（与 GPT-5.4 持平）/ SimpleQA-Verified 57.9%（远超前代开源约 30%）。但 MRCR 1M / CorpusQA 1M 长上下文检索 Opus 4.6 仍明显领先（约 10 分），素材原文未强调 → 与 platform-layer-collapse 的连接：在该页"反向力量"段新增"开源模型层追平闭源"信号；与 ai-vendor-spec-traps 的连接：DeepSeek 自报数字也需要 6 条 checklist，特别是"同 workload 对齐"——长上下文检索是 V4 相对薄弱的子集，被选择性弱化

更新页面（6 页）¶

concepts/china-us-ai-gap — 新增"模型层突破：跨硬件解耦"段，论点"国产追赶不只是补硬件，模型侧的运行时解耦战略可能反过来给国产硬件留窗口期"+ 三条限定 + 回连 model-hardware-decoupling
concepts/optics-as-scaling-constraint — 新增"模型侧反向视角：DeepSeek 6.1 TFLOP/GBps 论点"段，平衡两个对立判断；相关概念加 deepseek-v4 / engram-conditional-memory / model-hardware-decoupling
concepts/training-inference-bifurcation — 新增"模型层 SKU 拆分对照硬件层 SKU 拆分"段，DeepSeek V4-Pro / V4-Flash 与 TPUv8t / v8i 殊途同归；相关概念加 deepseek-v4 / engram-conditional-memory
concepts/ai-vendor-spec-traps — 新增 DeepSeek benchmark 宣称的批判性阅读视角（Codeforces Elo 3206 / SWE-Verified 80.6% / Terminal Bench 2.0 67.9% 等数字待第三方独立复现 + 长上下文子集被选择性弱化）
concepts/platform-layer-collapse — 反向力量段补充"开源模型层追平闭源"作为平台层坍缩的"被坍缩侧"对冲信号；相关概念加 deepseek-v4 / engram-conditional-memory / model-hardware-decoupling
concepts/google-tpu-v8 — 行业脉络段加一条 DeepSeek V4 跨 NVIDIA + Ascend 双栈验证作为模型侧对硬件分叉的回应；相关概念加 model-hardware-decoupling

事实核查记录¶

DeepSeek 官方技术报告核对 Codeforces Elo 3206 / SWE-Verified 80.6% / Terminal Bench 2.0 67.9% / SimpleQA-Verified 57.9% 数字直接吻合素材原文
Engram 论文 2026-01-13 GitHub 开源、梁文锋共同署名核实直接吻合
"6.1 TFLOP/GBps" 技术报告原话核实直接吻合，未做精炼改写
DeepSeek 自报数字（双栈加速倍数 1.5-1.73x、同策略蒸馏专家数 10+、内部员工使用反馈优于 Sonnet 4.5 / 接近 Opus 4.6 非思考模式）属厂商宣称，未见独立机构复现，已在 deepseek-v4 / model-hardware-decoupling / ai-vendor-spec-traps 三页明确标注"待第三方独立复现"
长上下文检索 MRCR 1M / CorpusQA 1M Opus 4.6 仍领先 V4-Pro 约 10 分——素材原文未强调，已在 deepseek-v4 主页 benchmark 表"诚实备注"段补回，避免被"夺回话语权"标题带偏
"完整可用的 frontier 级中国 AI 技术栈"是 NxCode 等第三方分析的判断，已在 deepseek-v4 战略含义段标注来源属性

待办¶

昇腾 950 超节点 2026 下半年批量上市后双栈加速倍数差距是否仍接近 1:1，需重新独立复核
第二个公开走双栈解耦战略的旗舰开源模型出现的时间——智谱 / Qwen / Kimi 是否跟进决定 model-hardware-decoupling 是单点事件还是趋势
27B Engram + MoE 的 75-80% / 20-25% 稀疏分配律在万亿参数级的 V4 落地后是否仍最优，需 DeepSeek 后续论文披露
DeepSeek 是否在 V4 后会推出 Cambricon-only / Ascend-only 优化版本——纯国产栈的极端版本
黄仁勋在 Dwarkesh 播客的 "DeepSeek 优化 V4 到华为芯片是 horrible outcome" 评论原始链接需补充进 raw（目前依赖第三方转引）

6.1 TFLOP/GBps 论点深化（同日追加，第四节）¶

来源：raw/notes/deepseek-v4-6.1-flop-gbps-deep-dive-2026-04.md（curl 直抓 V4 PDF + pdftotext 提取 + GB300 数值核查）

缘起：知识库初版把 DeepSeek "6.1 TFLOP/GBps" 与 FundaAI bandwidth-driven 处理成"对立张力"，过简化。回头读 V4 论文原文 + 算 GB300 数字后发现：两侧覆盖不同物理层级，各自坐标点上都正确，应作为 Roofline 框架的不同切片处理。

新建页面¶

concepts/compute-vs-bandwidth-roofline — Roofline 框架解码工具页：完整推导 C/B ≤ 2d、d=3072、FP8+BF16 通信精度、GB300 三精度算账（FP4=8.33 / FP8=2.78 / BF16=1.39 TFLOPS/GBps）、不同 hidden dim 模型的阈值表、三个时间窗下两侧各自适用范围

关键知识提取（4 条）¶

6.1 数字非黑箱，完全可推导 — 论文 §EP Scheme：每 token-expert pair 6hd FLOPs（SwiGLU 三 projection）/ 3h bytes 通信（FP8 dispatch + BF16 combine），简化 C/B ≤ 2d。V4-Pro d=3072 → 阈值 6144 FLOPs/byte = 6.1 TFLOPS/GBps。通信精度是 FP8 + BF16，不是 FP4——之前理解里这条偏差被原文修正 → 与 compute-vs-bandwidth-roofline 的连接：本页就是为承接完整推导而抽出的工具页
GB300 现实算账：V4-Pro × FP8 训练 NVLink 富余 2.2x — GB300 单 GPU NVLink 5 = 1.8 TBps，按 V4 训练精度（FP8）C/B = 5 PF / 1.8 TBps = 2.78 TFLOPS/GBps，远低于 6.1 阈值。DeepSeek 论点对这个组合完全成立。但 FP4 训练精度下 ratio 升到 8.33，超过阈值——FP4 时代 NVLink 反而偏紧。GPT-5 量级模型 d≥8192 阈值升到 16+，GB300 NVLink 远不够用。NVIDIA 把 NVLink 推到 1.8 TBps 不是过度，是按 frontier 模型设计 → 与 compute-vs-bandwidth-roofline / ai-vendor-spec-traps 的连接：这种"看起来权威但有边界"的数字应纳入批判性阅读 checklist
两侧不在同一物理层级，"对立"过简化 — DeepSeek 6.1 论点覆盖 NVLink/IB/卡间互联（TB/s 量级），FundaAI bandwidth-driven 覆盖 DC fabric / 跨 DC 光纤（Pb/s 量级）。DeepSeek 论文完全没有覆盖 virgo-fabric 那一层（DC 级 134K 芯片 / 跨 DC 100 万 TPU）。两边其实都对，但场景不重叠 → 与 optics-as-scaling-constraint / virgo-fabric 的连接：在 optics 页"模型侧反向视角"段重写为"覆盖不同物理层级"，删除"对立"措辞
国产芯片窗口期具象化 — 按 V4-Pro × FP8 训练 ratio = 2.78 TFLOPS/GBps，国产芯片只要 NVLink-equivalent 互联做到约 900 GBps（GB300 的一半），就够支撑 V4-Pro 训练。但 FP4 训练时门槛升到 ~1.6 TBps，frontier 模型时门槛升到 ~3 TBps+ → 与 model-hardware-decoupling / china-us-ai-gap 的连接：在 model-hardware-decoupling 加"国产芯片窗口期具象化"段——国产追赶"模糊的通信不重要"变成"可量化的具体目标 + 与 frontier 增长速度赛跑"

更新页面¶

concepts/deepseek-v4 — 6.1 段重写：完整公式 C/B ≤ 2d + 三条限定（V4-Pro 绑定 / FP8+BF16 通信精度 / SwiGLU 6hd 结构）+ GB300 数值算账 + "覆盖不同物理层级"措辞替代"对立"
concepts/optics-as-scaling-constraint — "模型侧反向视角"段重写：明确两侧覆盖不同物理层级（NVLink/IB vs DC fabric/光纤），知识库初版"对立张力"处理过简化
concepts/model-hardware-decoupling — 新增"国产芯片窗口期具象化"段：~900 GBps NVLink-equivalent 是 V4-Pro 的具体门槛 + 三档边界（FP8/FP4/frontier）
wiki/index.md — AI 算力子分区加 compute-vs-bandwidth-roofline + 最近更新追加一行

事实核查记录¶

直接抓 PDF（curl + pdftotext 绕过 WebFetch 服务问题）核对 V4 paper 原文，page 18 附近 §EP Scheme 段落完整保留
通信精度核对：原文 "FP8 Dispatch + BF16 Combine"，不是 FP4。修正之前对 FundaAI / LatentMoE 数字的对照（LatentMoE 假设 FP4 dispatch 0.5 byte，与 V4 不可直接对比）
GB300 数字综合 Tom's Hardware / NVIDIA 官网 / VideoCardz 三处来源，dense FP4 = 13-15 PFLOPS（不同来源略有出入，本页取 15）
DeepSeek "波"切分双栈 1.5-1.96x 加速仍属厂商自报，未独立复现，已在 ai-vendor-spec-traps 与新工具页"待验证"段标注

待办¶

FP4 dispatch（DeepSeek 论文留的余地）实际上线后阈值如何变，需后续模型版本披露
GPT-5 / Claude Opus 6 等更大 d 模型的 C/B 实测，目前只能按论文公式外推
LatentMoE 2026-01 测量的 Qwen3-235B-A22B 是否能直接对照 V4-Pro（架构不同，需详细比较 hidden dim / dispatch precision）
国产昇腾 950 / 寒武纪互联带宽公开数据缺失，~900 GBps 门槛验证依赖产品规格披露

摄取 BK7258 AI 玩具 IoT 架构导读（同日追加，第五节）¶

来源：raw/snippets/bk7258-build/iot-architecture-onboarding.md（Sentino 内部工程文档 /Users/momo/local/bk7258aitoypro/projects/common_components/IOT_ARCHITECTURE.md，700 行 / 七部分。写给"互联网后台背景"新人）

缘起：Sentino 内部为新加入的后台背景工程师写的入门文档。覆盖三件 wiki 此前没有上位概念页的事：(1) 后台 vs IoT 概念对照表 + 7 条嵌入式与后台关键差异；(2) 业务/适配/SDK/BSP 四层固件分层 + import/export = Hexagonal；(3) 4G 设备没有蓝牙时如何拿到 MQTT 接入点 + 5 种方案 + 信任根问题。这三块是补足 Sentino IoT 系列概念页的"上位上下文层"——之前 wiki 直接讲了 mqtt-device-protocol / ble-provisioning / device-lifecycle，但没有"为什么 IoT 跟后台不一样"的元层。

新建页面（3 页）¶

concepts/iot-platform-fundamentals — IoT 平台基础（后台视角）：用后台概念类比讲清楚 IoT。核心知识资产是后台 vs IoT 概念对照表（10 行：用户↔设备 / JWT↔HMAC-SHA1 / HTTP↔MQTT / 数据库 schema↔物模型 / OAuth↔配网 / Spring DI↔import callback / Hexagonal 等价）+ 7 条嵌入式与后台关键差异（"重启就解决问题"是合法手段、Flash 是唯一持久化、消息队列≈chan、多任务共享内存等）+ 端边管云四层 + 协议栈 + 设备影子 + 安全模型（含 Mirai 2016 事件） + 主流生态
concepts/embedded-firmware-layering — 嵌入式固件分层架构：业务/适配/SDK/BSP 四层 + import/export 命名约定（反向依赖视角）+ 等价 Hexagonal/Ports & Adapters + 三条业务链路示例（云→设备 / 开机自动上报 / 设备→云）+ "改需求改哪层"决策表 + 4G 形态下 BSP 重写业务零改动的具体清单
concepts/iot-device-bootstrap — IoT 设备引导（"开机第一个连谁"）：WiFi 蓝牙下发 MQTT 接入点的 8 字段 + 4G 设备 5 种方案对比（A 硬编码 / B 引导服务器 ★ AWS Fleet Provisioning + 阿里一型一密 + 腾讯动态注册 / C DNS GeoDNS / D HTTP 配置 / E LwM2M Bootstrap）+ 信任根问题（不可能零硬编码）+ 选型决策树 + Sentino SDK 已为方案 B 留好基础设施 + 三芯片架构（BK7258 + 外挂 MCU + Quectel CAT1 EG800G-EULD）+ SoC-MCU 协议命令字

关键知识提取（5 条）¶

"后台 vs IoT 概念对照表"是 wiki 缺失的元层 — 此前 wiki 直接讲 MQTT/BLE/设备生命周期/RTSA 各种具体技术，但缺 "为什么 IoT 跟后台不一样" 的上位陈述。后台工程师没有这一层会反复在"为什么不是 HTTP req/resp"、"为什么状态要存 Flash"、"为什么重启是解决方案"上撞墙。10 行对照表 + 7 条差异是这个心智模型的最短路径 → 与 iot-platform-fundamentals 的连接：本页就是为承接这条洞察而抽出的；同时回连 sentino-iot 在"经验教训"段加"后台背景工程师入门"指路条目，把这页定位为入门必读
import/export 命名约定 = Hexagonal/Ports & Adapters 的嵌入式版本 — Sentino 适配层（rino_interface）的 import/export 命名长期被认为是"嵌入式特殊命名"，但本质上完全等价于 Hexagonal 的 Driving Port / Driven Port——SDK 是六边形内核，import 是被动暴露给业务回填（≈Spring DI），export 是主动暴露给业务调用（≈ SDK 接口包）。这个识别让"为什么这么分层"从工程经验论变成有架构理论支撑的判断 → 与 embedded-firmware-layering 的连接：本页就是为承接这条架构判断而抽出的；同时与 harness-engineering 形成跨域同构连接——嵌入式适配层 ↔ Agent 平台 Harness 都是"把核心做成黑盒、把环境做成可替换层"，Sentino 在嵌入式和 Agent 平台两个领域做这种分层是组织级架构判断的一致性
"99% 的产品迭代只动业务层"是分层架构最直接的回报 — 业务/适配/SDK/BSP 四层每层的"知道什么/不知道什么/谁会换"具体到表格——加 DP 点改业务层 / 接入云端新增命令改适配层 / 换连接的云平台域名改 SDK / 换芯片整层换 BSP。4G 形态切换具体到改动清单：BSP 重写 + 适配层小调整 + 上层零改动。这把"分层有用"从抽象判断变成可量化承诺——客户对话时可以直接用这套数据 → 与 embedded-firmware-layering / sentino-iot 的连接：在 sentino-iot 关键决策段新增"底层 SDK 已为 4G 形态留好基础设施"一条，把"分层架构 + 已留位"两件事连成"Sentino 工程成熟度"的对外叙事
MQTT 接入点不在固件硬编码是 Sentino 一个重要但容易被误解的设计 — mqtt-iot.sentino.jp:8883 是配网时 APP 蓝牙下发到 Flash 的，不是固件常量。rino_iot_common.h:10 QCLOUD_IOT_MQTT_DIRECT_DOMAIN 是腾讯云原厂 SDK 留下的常量、当前业务流程不读它。这条事实在排查"MQTT 连不上"问题时容易被误以为是固件硬编码——实际是 Flash 里的配网信息。设计好处是 APP 端可以根据用户区域/账号路由到不同 MQTT 集群（国内/海外、生产/测试、多租户），固件出厂后不用换 → 与 ble-provisioning / iot-device-bootstrap / mqtt-device-protocol / sentino-iot 的连接：分别在四个页面加这一事实——BLE 配网包加完整 8 字段表 + sentino-iot 关键决策段加新条目 + mqtt-device-protocol 加 broker 地址来源 + 经验教训段加排查指南
"开机第一个连谁"在 4G 形态下是结构性问题，5 种方案 + 信任根不可避免 — 4G 设备没有蓝牙就不能用"配网时下发"路径，必须从 5 种方案里选：硬编码 / 引导服务器（行业主流，AWS Fleet Provisioning + 阿里一型一密 + 腾讯动态注册）/ DNS / HTTP 配置 / LwM2M。核心洞察是"不可能零硬编码"——固件总得硬编码某个入口作为信任根，区别只是入口的形态（host:port / Bootstrap URL / 逻辑域名 / 配置 URL / BS server URI）+ 信任怎么验证（TLS pin / DNSSEC / 文件签名 / DTLS PSK）。Sentino SDK factory_dynamic_register.c 已经为方案 B 留好基础设施，纯 4G 形态产品扩展路径清晰 → 与 iot-device-bootstrap 的连接：本页就是为承接这条结构性问题而抽出的；同时与 sentino-iot 关键决策段连接——Sentino 当前不需要 4G 形态但已经留好扩展能力，这条事实强化了"工程成熟度"的对外叙事

更新页面（6 页）¶

projects/sentino-iot — 关键决策段新增"MQTT 接入点不在固件硬编码"+ "底层 SDK 已为 4G 形态留好基础设施"两条；经验教训段新增"排查 MQTT 连不上不要先改固件常量"+ "后台背景工程师入门指路（先读 iot-platform-fundamentals 再读分层再读具体协议）"两条；相关概念加 3 个新页放在最上方；sources 加新 raw；updated → 2026-04-24
concepts/mqtt-device-protocol — 关键要点新增"Broker 地址不在固件"+ "Keepalive 60s 是 WiFi 设计值，4G 必须拉长"两条；新增"业务链路示例（设备 ↔ 云完整调用链）"整段含三条链路（云→设备 / 开机自动上报 / 设备→云）展示 SDK ↔ 适配 ↔ 业务三层穿透；相关概念加 3 个新页；sources 加新 raw
concepts/ble-provisioning — 新增"WiFi 模式蓝牙包的 8 字段（含 MQTT 接入信息）"完整表 + 设计含义段；相关概念加 3 个新页；sources 加新 raw
concepts/device-lifecycle — 相关概念加 iot-platform-fundamentals + iot-device-bootstrap；sources 加新 raw
concepts/bk7258-firmware — 新增"在固件代码组织中的位置"段，明确 BK7258 在 BSP+SDK 边界、业务零改动换芯片；相关概念加 embedded-firmware-layering / iot-platform-fundamentals / iot-device-bootstrap；sources 加新 raw
concepts/tuya-triplet — 相关概念加 iot-platform-fundamentals 一条（三元组在概念对照表中等价于"账号 username/password"）
wiki/index.md — Sentino 平台与基础子区在 sentino-memex 之后插入 3 个新条目（iot-platform-fundamentals / embedded-firmware-layering / iot-device-bootstrap）；最近更新加一条 2026-04-24

事实核查记录¶

WebSearch "Mirai botnet 2016 default password IoT cameras DDoS" → 核实 Mirai 2016-08 出现 / 攻击 Krebs (620 Gbps) + OVH (1 Tbps) + Dyn (10/21) / 利用默认密码 (root/xc3511 等 62 组 IP 摄像头/DVR/路由器凭证) / 通过 Telnet 23/2323 端口扫描 / 峰值感染 60 万台 IoT / 创始人 Paras Jha 等 3 人 2017-12 认罪 → 用于 iot-platform-fundamentals 安全模型段
WebSearch "AWS IoT Fleet Provisioning bootstrap dynamic registration" → 核实 AWS Fleet Provisioning by Claim 机制（设备出厂烧 claim cert / 首次连用 claim cert 申请独立 cert / 5 分钟内换证 / Provisioning Template / Pre-Provisioning Hooks Lambda 验证），与素材"方案 B 引导服务器"描述完全吻合 → 用于 iot-device-bootstrap 方案 B 章节加 AWS Fleet Provisioning by Claim 具体名称
WebSearch "Quectel EG800G-EULD Cat.1 module specs" → 核实 Quectel EG800G-EULD 真实模组：LTE Cat 1 bis based on 3GPP Rel-14 / 17.7×15.8×2.4mm LGA 封装 / 10 Mbps DL + 5 Mbps UL / -40°C~+85°C / EU 频段 B1/3/5/7/8/20/28 / 含 GNSS / UART+USB+AT 指令控制 → 用于 iot-device-bootstrap 三芯片架构段实证
客户文档陷阱检查：素材是 Sentino 内部技术教学文档，不是客户向 PRD/RFP/提案/合同，不触发该专项检查。文中提及的"腾讯云 IoT Explorer / 涂鸦 / 阿里云 / AWS IoT Core / 移远 Quectel / Mirai"等是行业横向对照、不是客户选型，已在 wiki 各页明确标注属性
"mqtt-iot.sentino.jp:8883 是 Sentino 自建 MQTT 集群、非腾讯云原厂"——直接来自素材原文 Part 1 第 5 节，与 wiki 既有 sentino-iot / agora-rtsa-sdk 描述吻合，不需要外部核查

待办¶

4G 形态 PoC：Sentino 是否有具体客户场景需要 4G 设备（车载玩偶 / 户外宠物 / 儿童手表）？如果有，bootstrap.sentino.jp 引导服务器规划可以按 iot-device-bootstrap 方案 B 路径具体化为产品需求
当前固件常量 DYN_REG_SERVER_URL（腾讯版本）替换为 Sentino 的时机——需要决定 Sentino 是否要为引导服务器单独搭一个域名，还是复用 api-iot.sentino.jp
安全模型段提到的"Sentino 是否做了 Mirai 类防御（强制改默认密码 / 设备证书 / 平台扫描）"——目前 wiki 没有覆盖 Sentino 设备出厂安全策略，下次摄取相关内部文档时单独成段（在 iot-platform-fundamentals 或新建 sentino-device-security 页）
物模型在 sentino-iot 是否独立成页——本次摄取没有把 ProductKey/DPID 详细物模型抽出概念页，因为 wiki 已有 ai-intelligent-agent 但更聚焦"角色配置"而非"硬件能力 schema"。Sentino 物模型规范化（特别是 IoT/Agent 双网关里"智能体"两个含义的对齐）值得后续单独整理
"嵌入式 import/export ↔ Hexagonal" 这个跨域架构同构是否值得抽到独立 concept 页（与 harness-engineering / agent-tool-design 形成"分层架构方法论"族）——本次先放在 embedded-firmware-layering 页内段落，后续如有更多素材再考虑独立化