2026-04-24 变更日志¶
摄取 Google TPUv8 全面解析(公众号深度文,转引 Cloud Next 2026 官方)¶
来源:raw/notes/google-tpuv8-deep-dive-2026-04.md(公众号 TPU 系列深度解析,转引 Google Cloud Blog 2 篇官方原文:TPU 8t/8i deep dive + Virgo Network;发布事件 Google Cloud Next 2026,2026-04-22 拉斯维加斯)
新建页面¶
concepts/google-tpu-v8— Google 第 8 代 TPU 主页:拆分动机、TPUv8t(训练)/TPUv8i(推理)双 SKU 详细参数、Virgo & Boardfly 简版、Axion ARM 主机、FP4/FP8 标题党问题、AWS/Google/NVIDIA 三家路线对照concepts/training-inference-bifurcation— 训练-推理硬件分叉:通用加速器时代终结的论点页,列 7 个维度差异表 + 三家硅商路线对照 + 与平台层坍缩方向相反的镜像论点concepts/virgo-fabric— Virgo DC fabric:134K 芯片 / 47 Pb/s / 跨 DC 100 万 TPU 单训练 / 同时承载 NVIDIA Vera Rubin NVL72 / 对单 DC 电力瓶颈的反作用concepts/boardfly-topology— Boardfly 推理拓扑:3 层 BB(4)/Group(32)/Pod(1152) 结构 + Dragonfly 借鉴 + OCS 光交换 + 1024 芯片跳数 16→7 的工程答案concepts/ai-vendor-spec-traps— AI 厂商性能宣称陷阱:FP4/FP8 分母偷换 + sparsity + 多 die + Pod 算力等 5 类陷阱 + 阅读发布会 6 条 checklist
关键知识提取¶
-
Google TPUv8 把训练-推理硬件分叉做到了产品 SKU 层 — 不是"训练芯片砍刀做推理",而是 TPUv8t 保留 SparseCore + 3D Torus + Virgo + FP4,TPUv8i 删 SparseCore + 加 CAE + 3x SRAM + Boardfly 拓扑——die 平面图重新设计两条线。这与 AWS Trainium 单 SKU 收敛、NVIDIA NVL72/144 模块化堆叠形成 2026 三大硅商路线分歧 → 与 training-inference-bifurcation 的连接:本概念页就是为承接这条洞察而抽出的——TPUv8 是首个产品级证据,把"workload 分叉是结构性的"从假说变成被旗舰 SKU 验证的事实
-
跨 DC 100 万 TPU 单训练把电力卡脖子从绝对约束削成相对约束 — Virgo fabric 设计目标是把跨园区训练做成可行——训练规模不再被单 DC 电力上限锁死。这部分反向缓解了 hidden-chokepoints 中大型燃气轮机交付排队 2-3 年的隐性卡脖子,但电力总盘子仍是约束,且 "近线性 scaling" 宣称未被独立验证 → 与 hidden-chokepoints 的连接:原页认为燃气轮机是"看不见的垄断 + 数据中心建多快取决于电厂建多快",本次摄取在该页新增"跨 DC 训练对电力瓶颈的反作用"段落,把 fabric 层创新对供应链卡脖子的"削弱但未消除"关系做出来
-
Boardfly 用 OCS + Dragonfly 思路解决 reasoning + MoE 的 All2All 通信瓶颈 — 3D Torus 在 1024 芯片下最远 16 跳,对 dense 训练相邻通信友好但对 MoE token 路由 + reasoning 多步 sampling 灾难性。Boardfly 的 7 跳是"网络层必须为推理 workload 重新设计"的直接产物——CAE chiplet 卸载 collectives 的努力会被远端 16 跳吃掉,所以拓扑层也得重做 → 与 training-inference-bifurcation 的连接:Boardfly 是训练-推理分叉在网络层的证据,与 die 层(CAE vs SparseCore)、内存层(384MB SRAM vs HBM 优先)、scale-out 层(Boardfly vs Virgo)一起构成"分叉是全栈的"完整图景
-
Google "2.8x FP4" 对比 Ironwood 的 "FP8" 是分母偷换 — 这是 keynote 营销陷阱的典型模式:新代芯片刚加 FP4 支持时没有跨代同精度数据可比 → 用旧代 FP8 数当 FP4 数 → 翻倍优势凭空出现。同精度对比下提升幅度小于 2.8x。AI 算力是 2026 资本市场最大叙事之一,万亿美金 capex 决策依赖这些数字,每一处偷换会被层层放大到二级市场 → 与 ai-vendor-spec-traps 的连接:本页就是为承接这条洞察而抽出的——把"批判性消费厂商宣称"做成 6 条 checklist 防御性资产,方法论上类比 profit-source-ethics(先建批判框架再批判性消费叙事)
-
硬件分叉与平台层坍缩是方向相反的镜像现象 — 软件层:模型厂商往上吞噬应用 / SDK / Agent runtime(platform-layer-collapse),栈在收敛;硬件层:通用 TPU 拆成训练 + 推理两颗 SKU,栈在分叉。共同信号:AI workload 已经成熟到可以重塑栈的两端——上端被吞,下端被拆 → 与 platform-layer-collapse 的连接:在该页相关概念加 training-inference-bifurcation 链接 + 注 "方向相反的镜像现象"。两个概念互为对照,加深"AI workload 成熟度"这一根本判断
-
国产芯片追赶难度结构性上升:要同时跟两条 SKU + DC fabric + 全系统协同 — 智谱 GLM-5.1 在昇腾 910B 上做到 SWE-Bench Pro 58.4 是国产硬件的强证据,但同月 Google 把硬件参照系再次推高。国产芯片要追的不再只是单芯片算力,而是 SKU 拆分能力 + DC fabric + 全系统协同——结构性追赶难度上升 → 与 china-us-ai-gap 的连接:原页只覆盖软件模型层差距(GLM-5.1 vs Claude Opus 4.6),本次在该页新增"硬件层差距:Google TPUv8 设的新参照系"段落,把硬件层参照系拉进差距讨论,且对照 ai-vendor-spec-traps 提醒不被 FP4/FP8 偷换分母放大焦虑
更新页面¶
concepts/china-us-ai-gap— 新增"硬件层差距:Google TPUv8 设的新参照系(2026-04)"整段,把硬件参照系拉进差距讨论;相关概念加 google-tpu-v8 / training-inference-bifurcation / ai-vendor-spec-traps;sources 加新 raw;updated → 2026-04-24concepts/hidden-chokepoints— 新增"跨 DC 训练对电力瓶颈的反作用 — Virgo fabric 视角"段落;相关概念加 virgo-fabric / google-tpu-v8;sources 加新 raw;updated → 2026-04-24concepts/platform-layer-collapse— 相关概念加 training-inference-bifurcation 一行 + 注"方向相反的镜像现象"wiki/index.md— AI/Agent 工程章节下新设"AI 算力与硬件"子分区,挂 5 个新页;最近更新加一条 2026-04-24
事实核查记录¶
- WebSearch "Google TPU v8 TPUv8t TPUv8i announcement 2026 Axion CPU" → 核实 TPUv8 在 2026-04-22 Google Cloud Next 2026 发布,TPUv8t codename Sunfish (Broadcom) / TPUv8i codename Zebrafish (MediaTek),9600 chip pod / 134K Virgo / 1152 Boardfly / Axion ARM Neoverse N3 全部与素材吻合 → 用于 google-tpu-v8 主页所有规格段落
- WebSearch "Google Virgo network fabric data center TPU 2026" → 核实 Virgo 134K / 47 Pb/s / 跨 DC >1M TPU / 80K NVIDIA GPU 单 DC / 960K 跨 DC / 2 层非阻塞 + 多平面架构 / 40% 时延降低 / "近线性 scaling" 行业分析师持保留态度等全部细节 → 用于 virgo-fabric 全页 + 跨 DC 反作用论点
- 客户文档陷阱检查:本次素材是公众号外部技术深度文,转引 Google Cloud Blog 官方原文,不是客户向 PRD/RFP/提案/合同,不触发该专项检查。素材中提到的"Sunfish/Zebrafish/Broadcom/MediaTek"等代号 + 合作方信息为搜索补充,已写进 google-tpu-v8 页
待办¶
- "近线性 scaling 跨 DC" 等 MLPerf / 真实客户 workload 数据出来后回到 virgo-fabric 页加注一次实测验证条
- AWS Trainium 3 / NVIDIA Vera Rubin NVL72 各自的 spec 详细页可在后续摄取时单独成页,把 training-inference-bifurcation 三家路线对照表升级为可点击网络
- google-tpu-v8 页中"FP4 vs FP8 偷换"目前只有素材作者的 1 句话注脚,建议下次摄取 Google Ironwood 官方 spec 时补一次直接对账
补充:FundaAI 范式视角(2026-04-24 同日追加)¶
来源:raw/notes/fundaai-tpuv8-commentary-2026-04.md(FundaAI Substack 2 篇独立分析师评论文,非 Google 官方 blog;属性需明确标注)
- https://fundaai.substack.com/p/deepai-infra-2026-shifting-from-brain
- https://fundaai.substack.com/p/deeplite-googles-newly-introduced
新建页面¶
concepts/optics-as-scaling-constraint— 光学作为系统级 scaling 核心约束:optics/OCS/transceiver/激光器/光纤从外围辅助晋升为决定系统能否 scale 的硬约束 + Boardfly OCS / Virgo 高 radix Switch / 跨 DC 长距光纤三层体现 + FundaAI OCS port 比 TAM 推算 + 与 hidden-chokepoints 第四类案例的关系 + 国产追赶的额外光学层难度
关键知识提取(4 条)¶
-
这次升级的是 DCN(scale-out),不是 scale-up — TPUv8t 仍 3D Torus,只是 SerDes 升 224G;真正改的是 Virgo 把 scale-out 带宽 4x、做到 134K 单 fabric / 跨 DC 100 万 TPU。市场把发布读成"3D Torus 升级"是错的——拓扑层变化发生在 DCN 而非 chip-to-chip → 与 virgo-fabric 的连接:在该页新增"DCN vs scale-up 误读修正"段,引用 FundaAI in-rack switch tray 评注预言;这个区分对国产追赶的意义是"要补的是 DCN 全栈能力,不只是 chip-to-chip 互联"
-
Dragonfly 拓扑哲学统一 scale-up + scale-out — Boardfly(Pod 内 scale-up 范畴)借鉴 Dragonfly,Virgo(DCN / scale-out)也走"分组 + long links + 高 radix + OCS"思路。两层网络的设计哲学正在收敛,传统"Torus 做 scale-up / fat-tree 做 scale-out"的二分被打破——拓扑选择首先服从 workload 通信模式(All2All / bisection bandwidth 主导),不再首先服从物理分层 → 与 boardfly-topology 的连接:在该页新增"Dragonfly 哲学统一 scale-up + scale-out"段,把 Boardfly 与 Virgo 殊途同归讲清楚;这是 training-inference-bifurcation 的反向力量——硬件分叉但拓扑哲学收敛
-
compute-driven → bandwidth-driven 是范式转变(最高权重论点) — Google 不是在"升级网络",而是承认整个 AI 系统从单芯片 FLOPS 上限走向 bisection bandwidth 上限。MoE All2All + reasoning 多步 sampling 让"chip 1/3+ 时间在等数据"成为常态。CAE chiplet / 224G SerDes / Virgo 4x 带宽 / Boardfly 7 跳全部是同一范式驱动力下的产物——单芯片算力已富余,通信成新硬约束 → 与 google-tpu-v8 的连接:在主页"定义"之后插入独立的"范式总论"段,把 die / scale-up / scale-out / DC-to-DC 四层证据全部串到 bandwidth-driven 框架下;这是给读者的"读 TPUv8 不要只读单芯片参数表"的元解读
-
Optics 从外围辅助晋升为系统级核心约束 — 光通信链路(OCS / transceiver / 激光器 / 长距光纤 / co-packaged optics)从"机房布线问题"变成"决定 token throughput 的硬瓶颈"。FundaAI 推算:scale-up OCS port 比 1.5:1 → 2:1~10:1,scale-out 0.2:1 → 1:1,TAM 阶跃式扩张。投资 / 产业含义:在味之素 ABF / TOTO ESC / 燃气轮机之外,光学供应链是 2026 起的新增隐性卡脖子点 → 与 optics-as-scaling-constraint 的连接:本概念页就是为承接这条洞察而抽出的;同时回连 hidden-chokepoints 作为该页待补的第四类案例 + 回连 china-us-ai-gap 作为国产追赶的额外结构性难度
更新页面¶
concepts/virgo-fabric— 新增"DCN vs scale-up 误读修正(FundaAI 视角)" + "bandwidth-driven 范式" 两段;相关概念加 optics-as-scaling-constraint;sources 加 fundaai 评注 raw;updated 仍 2026-04-24(同日追加)concepts/boardfly-topology— 新增"Dragonfly 哲学统一 scale-up + scale-out(FundaAI 视角)"段;相关概念加 optics-as-scaling-constraint;sources 加 fundaai 评注 rawconcepts/google-tpu-v8— "定义"后插入"范式总论:compute-driven → bandwidth-driven"独立段,串四层证据;相关概念加 optics-as-scaling-constraint;sources 加 fundaai 评注 rawconcepts/hidden-chokepoints— 相关概念加 optics-as-scaling-constraint 一行(标注"光学供应链是该页待补的第四类案例")wiki/index.md— AI 算力与硬件子分区加 optics-as-scaling-constraint 新条目;最近更新 2026-04-24 行追加 bandwidth-driven 框架补注
事实核查记录¶
- WebSearch "FundaAI Substack DeepAI Infra 2026 shifting brain TPU Dragonfly" → 核实 FundaAI 原文表述 "The system constraint has shifted — from compute to bandwidth" 直接吻合 + "Dragonfly-topology based scale up and scale out integration" 直接吻合 + scale-up OCS port 比 1.5:1→2:1~10:1 / scale-out 0.2:1→1:1 数字吻合 + "GPU/TPU 大脑、optics 四肢"生物类比吻合 → 用于 4 条全部论点
- 客户文档陷阱检查:素材是独立分析师 Substack,不是客户向 PRD/RFP/提案/合同,不触发该专项检查;引用属性已在 raw 文件 + 各 wiki 页明确标注 "FundaAI 独立分析师视角",避免与 Google 官方表述混同
- "compute-driven → bandwidth-driven" 措辞是用户对 FundaAI 原文 "system constraint has shifted from compute to bandwidth" 的精炼表述,论点等价
- 未独立验证:FundaAI OCS port 比数字属预测性论断、TPU rack vs GB200 TCO 2x+ 口径未公开、co-packaged optics 是否已在 TPUv8 部署 → 全部已在 optics-as-scaling-constraint 页"待验证"段标注
待办¶
- FundaAI OCS port 比 TAM 数字等待第三方独立来源(SemiAnalysis / Dell'Oro / LightCounting)回头交叉印证
- 下次摄取 hidden-chokepoints 类材料时考虑把光学正式收录为第四类案例(目前 optics-as-scaling-constraint 是独立页 + 回连,未来可能合并或保持互连)
- co-packaged optics / 硅光器件的国产生态分析待补,是 china-us-ai-gap 硬件层差距的进一步细化
DeepSeek V4 开源(同日追加)¶
来源:raw/notes/deepseek-v4-release-2026-04.md(InfoQ 公众号文章,作者冬梅,转引 DeepSeek 官方公众号 + 技术报告 + Engram 2026-01 论文)
- 模型开源:https://huggingface.co/collections/deepseek-ai/deepseek-v4
- 技术报告:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
- Engram 论文:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
新建页面(3 页)¶
concepts/deepseek-v4— V4-Pro / V4-Flash 双 SKU 主页,1M 上下文 + CSA/HCA/DSA 三层注意力 + Muon 优化器 + 同策略蒸馏 + benchmark 表(含 Opus 4.6 长上下文仍领先的诚实备注)concepts/engram-conditional-memory— 梁文锋署名的"查—算分离"架构,新一轴稀疏性,27B Engram + MoE 在 iso-参数 / iso-FLOPs 下推理 +4pt / 知识 +4pt,确定性寻址支持 host memory offload 绕过 HBM 约束concepts/model-hardware-decoupling— V4 把模型运行时从单一硬件依赖中解耦的战略论点页,"波"切分专家并行 NVIDIA + Ascend 双栈 1.5-1.73x 加速实证,叠加三条不能省的限定(CUDA 工具链 / 昇腾 950 未上市 / 第三方未复现)
关键知识提取(6 条)¶
-
跨硬件解耦战略首次产品化 — V4 是首个明确把细粒度专家并行(EP)方案在 NVIDIA GPU 与华为 Ascend NPU 双栈完成验证的旗舰开源模型;NxCode 等第三方分析认为这是首个"完整可用的、frontier 级中国 AI 技术栈,从芯片到模型,无任何美国软件成分"。但当前开源工具链 gaMoE / DeepGEMM / TileLang 仍主要基于 CUDA bit-级对齐,价格下调依赖 2026 下半年昇腾 950 超节点上市 → 与 model-hardware-decoupling 的连接:本概念页就是为承接这条战略而抽出的;同时回连 china-us-ai-gap 作为模型侧给国产追赶节奏添加的反向力量、回连 asymmetric-chokepoints 作为模型厂商主动 hedge 非对称博弈的工具化实践
-
模型层 SKU 拆分对照硬件层 SKU 拆分 — V4-Pro(1.6T 总参数,对标 Gemini-Pro-3.1)+ V4-Flash(284B 总参数,极低成本接近 GPT-5.2 / Gemini 3.0 Pro)双 SKU 拆分,逻辑与 Google TPUv8t / v8i 硬件层拆分同源不同层:workload 已成熟到可以为不同场景独立设计 → 与 training-inference-bifurcation 的连接:在该页新增"模型层 vs 硬件层 SKU 拆分对照"段;与 google-tpu-v8 行业脉络段形成跨层对照——硬件按 workload 分家、模型按场景分家、并发于同一时间窗
-
Engram "查—算分离" 是新一轴稀疏性(梁文锋署名) — 传统 Transformer 把事实性记忆与逻辑推理混在同一组 dense 参数里,等于用深度逻辑电路反复重建本该是哈希查找的操作。Engram 把固定模式存入哈希查找表 O(1) 调用,dense 参数专注推理。MoE 是 conditional computation(按 token 路由专家),Engram 是 conditional memory(按 token 查 hash 表),两者正交可叠加。论文给出新稀疏分配律:iso-参数 + iso-FLOPs 下最优 75-80% 计算 + 20-25% 记忆——对"MoE 已是终极稀疏方案"的实证否定 → 与 engram-conditional-memory 的连接:本概念页就是为承接这条架构创新而抽出的;CEO 个人下场署名通常代表公司战略方向,2026-01-13 论文 → 2026-04-24 V4 集成体现"开源研究先行 → 工程化跟进"的 DeepSeek 节奏
-
6.1 TFLOP/GBps 论点与 bandwidth-driven 范式形成对立 — 技术报告对硬件厂商的反向指引:"当前每 GBps 互联带宽足以覆盖 6.1 TFLOP/s 的计算需求,盲目增加带宽会带来收益递减"。模型侧已经把通信 / 计算融合到 1.5-1.96x 加速("波"切分专家——波内通信完成立即开始计算 + 当前波计算 + 下一波 token 传输 + 已完成专家结果发送三者并行),所以认为通信层已经够用 → 与 optics-as-scaling-constraint 的连接:在该页新增"模型侧反向视角"段,平衡 FundaAI 的"光学晋升核心约束"与 DeepSeek 的"通信已经够用"两个对立判断;知识库保留张力不强行合并,这是 2026 系统层的核心争论之一
-
Engram 的确定性寻址绕过 HBM 容量约束 — hash 函数确定性给定 token → 必然查到固定 entry → 大型 embedding 表可 offload 到 host memory(CPU 系统 RAM)而非 GPU HBM,runtime prefetch 开销可忽略。HBM 是 2026 国产芯片相对薄弱的环节之一——这是模型架构层对硬件层约束的反向破解,也是 model-hardware-decoupling 的具体技术承载之一 → 与 engram-conditional-memory / optics-as-scaling-constraint 双向连接
-
开源模型追平闭源是平台层坍缩的对冲信号 — V4-Pro Codeforces Elo 3206(人类第 23 / GPT-5.4 持平)/ SWE-Verified 80.6%(接近 Claude Opus 4.6 80.8%)/ Terminal Bench 2.0 67.9%(与 GPT-5.4 持平)/ SimpleQA-Verified 57.9%(远超前代开源约 30%)。但 MRCR 1M / CorpusQA 1M 长上下文检索 Opus 4.6 仍明显领先(约 10 分),素材原文未强调 → 与 platform-layer-collapse 的连接:在该页"反向力量"段新增"开源模型层追平闭源"信号;与 ai-vendor-spec-traps 的连接:DeepSeek 自报数字也需要 6 条 checklist,特别是"同 workload 对齐"——长上下文检索是 V4 相对薄弱的子集,被选择性弱化
更新页面(6 页)¶
concepts/china-us-ai-gap— 新增"模型层突破:跨硬件解耦"段,论点"国产追赶不只是补硬件,模型侧的运行时解耦战略可能反过来给国产硬件留窗口期"+ 三条限定 + 回连 model-hardware-decouplingconcepts/optics-as-scaling-constraint— 新增"模型侧反向视角:DeepSeek 6.1 TFLOP/GBps 论点"段,平衡两个对立判断;相关概念加 deepseek-v4 / engram-conditional-memory / model-hardware-decouplingconcepts/training-inference-bifurcation— 新增"模型层 SKU 拆分对照硬件层 SKU 拆分"段,DeepSeek V4-Pro / V4-Flash 与 TPUv8t / v8i 殊途同归;相关概念加 deepseek-v4 / engram-conditional-memoryconcepts/ai-vendor-spec-traps— 新增 DeepSeek benchmark 宣称的批判性阅读视角(Codeforces Elo 3206 / SWE-Verified 80.6% / Terminal Bench 2.0 67.9% 等数字待第三方独立复现 + 长上下文子集被选择性弱化)concepts/platform-layer-collapse— 反向力量段补充"开源模型层追平闭源"作为平台层坍缩的"被坍缩侧"对冲信号;相关概念加 deepseek-v4 / engram-conditional-memory / model-hardware-decouplingconcepts/google-tpu-v8— 行业脉络段加一条 DeepSeek V4 跨 NVIDIA + Ascend 双栈验证作为模型侧对硬件分叉的回应;相关概念加 model-hardware-decoupling
事实核查记录¶
- DeepSeek 官方技术报告核对 Codeforces Elo 3206 / SWE-Verified 80.6% / Terminal Bench 2.0 67.9% / SimpleQA-Verified 57.9% 数字直接吻合素材原文
- Engram 论文 2026-01-13 GitHub 开源、梁文锋共同署名核实直接吻合
- "6.1 TFLOP/GBps" 技术报告原话核实直接吻合,未做精炼改写
- DeepSeek 自报数字(双栈加速倍数 1.5-1.73x、同策略蒸馏专家数 10+、内部员工使用反馈优于 Sonnet 4.5 / 接近 Opus 4.6 非思考模式)属厂商宣称,未见独立机构复现,已在 deepseek-v4 / model-hardware-decoupling / ai-vendor-spec-traps 三页明确标注"待第三方独立复现"
- 长上下文检索 MRCR 1M / CorpusQA 1M Opus 4.6 仍领先 V4-Pro 约 10 分——素材原文未强调,已在 deepseek-v4 主页 benchmark 表"诚实备注"段补回,避免被"夺回话语权"标题带偏
- "完整可用的 frontier 级中国 AI 技术栈"是 NxCode 等第三方分析的判断,已在 deepseek-v4 战略含义段标注来源属性
待办¶
- 昇腾 950 超节点 2026 下半年批量上市后双栈加速倍数差距是否仍接近 1:1,需重新独立复核
- 第二个公开走双栈解耦战略的旗舰开源模型出现的时间——智谱 / Qwen / Kimi 是否跟进决定 model-hardware-decoupling 是单点事件还是趋势
- 27B Engram + MoE 的 75-80% / 20-25% 稀疏分配律在万亿参数级的 V4 落地后是否仍最优,需 DeepSeek 后续论文披露
- DeepSeek 是否在 V4 后会推出 Cambricon-only / Ascend-only 优化版本——纯国产栈的极端版本
- 黄仁勋在 Dwarkesh 播客的 "DeepSeek 优化 V4 到华为芯片是 horrible outcome" 评论原始链接需补充进 raw(目前依赖第三方转引)
6.1 TFLOP/GBps 论点深化(同日追加,第四节)¶
来源:raw/notes/deepseek-v4-6.1-flop-gbps-deep-dive-2026-04.md(curl 直抓 V4 PDF + pdftotext 提取 + GB300 数值核查)
缘起:知识库初版把 DeepSeek "6.1 TFLOP/GBps" 与 FundaAI bandwidth-driven 处理成"对立张力",过简化。回头读 V4 论文原文 + 算 GB300 数字后发现:两侧覆盖不同物理层级,各自坐标点上都正确,应作为 Roofline 框架的不同切片处理。
新建页面¶
concepts/compute-vs-bandwidth-roofline— Roofline 框架解码工具页:完整推导 C/B ≤ 2d、d=3072、FP8+BF16 通信精度、GB300 三精度算账(FP4=8.33 / FP8=2.78 / BF16=1.39 TFLOPS/GBps)、不同 hidden dim 模型的阈值表、三个时间窗下两侧各自适用范围
关键知识提取(4 条)¶
-
6.1 数字非黑箱,完全可推导 — 论文 §EP Scheme:每 token-expert pair 6hd FLOPs(SwiGLU 三 projection)/ 3h bytes 通信(FP8 dispatch + BF16 combine),简化 C/B ≤ 2d。V4-Pro d=3072 → 阈值 6144 FLOPs/byte = 6.1 TFLOPS/GBps。通信精度是 FP8 + BF16,不是 FP4——之前理解里这条偏差被原文修正 → 与 compute-vs-bandwidth-roofline 的连接:本页就是为承接完整推导而抽出的工具页
-
GB300 现实算账:V4-Pro × FP8 训练 NVLink 富余 2.2x — GB300 单 GPU NVLink 5 = 1.8 TBps,按 V4 训练精度(FP8)C/B = 5 PF / 1.8 TBps = 2.78 TFLOPS/GBps,远低于 6.1 阈值。DeepSeek 论点对这个组合完全成立。但 FP4 训练精度下 ratio 升到 8.33,超过阈值——FP4 时代 NVLink 反而偏紧。GPT-5 量级模型 d≥8192 阈值升到 16+,GB300 NVLink 远不够用。NVIDIA 把 NVLink 推到 1.8 TBps 不是过度,是按 frontier 模型设计 → 与 compute-vs-bandwidth-roofline / ai-vendor-spec-traps 的连接:这种"看起来权威但有边界"的数字应纳入批判性阅读 checklist
-
两侧不在同一物理层级,"对立"过简化 — DeepSeek 6.1 论点覆盖 NVLink/IB/卡间互联(TB/s 量级),FundaAI bandwidth-driven 覆盖 DC fabric / 跨 DC 光纤(Pb/s 量级)。DeepSeek 论文完全没有覆盖 virgo-fabric 那一层(DC 级 134K 芯片 / 跨 DC 100 万 TPU)。两边其实都对,但场景不重叠 → 与 optics-as-scaling-constraint / virgo-fabric 的连接:在 optics 页"模型侧反向视角"段重写为"覆盖不同物理层级",删除"对立"措辞
-
国产芯片窗口期具象化 — 按 V4-Pro × FP8 训练 ratio = 2.78 TFLOPS/GBps,国产芯片只要 NVLink-equivalent 互联做到约 900 GBps(GB300 的一半),就够支撑 V4-Pro 训练。但 FP4 训练时门槛升到 ~1.6 TBps,frontier 模型时门槛升到 ~3 TBps+ → 与 model-hardware-decoupling / china-us-ai-gap 的连接:在 model-hardware-decoupling 加"国产芯片窗口期具象化"段——国产追赶"模糊的通信不重要"变成"可量化的具体目标 + 与 frontier 增长速度赛跑"
更新页面¶
concepts/deepseek-v4— 6.1 段重写:完整公式 C/B ≤ 2d + 三条限定(V4-Pro 绑定 / FP8+BF16 通信精度 / SwiGLU 6hd 结构)+ GB300 数值算账 + "覆盖不同物理层级"措辞替代"对立"concepts/optics-as-scaling-constraint— "模型侧反向视角"段重写:明确两侧覆盖不同物理层级(NVLink/IB vs DC fabric/光纤),知识库初版"对立张力"处理过简化concepts/model-hardware-decoupling— 新增"国产芯片窗口期具象化"段:~900 GBps NVLink-equivalent 是 V4-Pro 的具体门槛 + 三档边界(FP8/FP4/frontier)wiki/index.md— AI 算力子分区加 compute-vs-bandwidth-roofline + 最近更新追加一行
事实核查记录¶
- 直接抓 PDF(curl + pdftotext 绕过 WebFetch 服务问题)核对 V4 paper 原文,page 18 附近 §EP Scheme 段落完整保留
- 通信精度核对:原文 "FP8 Dispatch + BF16 Combine",不是 FP4。修正之前对 FundaAI / LatentMoE 数字的对照(LatentMoE 假设 FP4 dispatch 0.5 byte,与 V4 不可直接对比)
- GB300 数字综合 Tom's Hardware / NVIDIA 官网 / VideoCardz 三处来源,dense FP4 = 13-15 PFLOPS(不同来源略有出入,本页取 15)
- DeepSeek "波"切分双栈 1.5-1.96x 加速仍属厂商自报,未独立复现,已在 ai-vendor-spec-traps 与新工具页"待验证"段标注
待办¶
- FP4 dispatch(DeepSeek 论文留的余地)实际上线后阈值如何变,需后续模型版本披露
- GPT-5 / Claude Opus 6 等更大 d 模型的 C/B 实测,目前只能按论文公式外推
- LatentMoE 2026-01 测量的 Qwen3-235B-A22B 是否能直接对照 V4-Pro(架构不同,需详细比较 hidden dim / dispatch precision)
- 国产昇腾 950 / 寒武纪互联带宽公开数据缺失,~900 GBps 门槛验证依赖产品规格披露
摄取 BK7258 AI 玩具 IoT 架构导读(同日追加,第五节)¶
来源:raw/snippets/bk7258-build/iot-architecture-onboarding.md(Sentino 内部工程文档 /Users/momo/local/bk7258aitoypro/projects/common_components/IOT_ARCHITECTURE.md,700 行 / 七部分。写给"互联网后台背景"新人)
缘起:Sentino 内部为新加入的后台背景工程师写的入门文档。覆盖三件 wiki 此前没有上位概念页的事:(1) 后台 vs IoT 概念对照表 + 7 条嵌入式与后台关键差异;(2) 业务/适配/SDK/BSP 四层固件分层 + import/export = Hexagonal;(3) 4G 设备没有蓝牙时如何拿到 MQTT 接入点 + 5 种方案 + 信任根问题。这三块是补足 Sentino IoT 系列概念页的"上位上下文层"——之前 wiki 直接讲了 mqtt-device-protocol / ble-provisioning / device-lifecycle,但没有"为什么 IoT 跟后台不一样"的元层。
新建页面(3 页)¶
concepts/iot-platform-fundamentals— IoT 平台基础(后台视角):用后台概念类比讲清楚 IoT。核心知识资产是后台 vs IoT 概念对照表(10 行:用户↔设备 / JWT↔HMAC-SHA1 / HTTP↔MQTT / 数据库 schema↔物模型 / OAuth↔配网 / Spring DI↔import callback / Hexagonal 等价)+ 7 条嵌入式与后台关键差异("重启就解决问题"是合法手段、Flash 是唯一持久化、消息队列≈chan、多任务共享内存等)+ 端边管云四层 + 协议栈 + 设备影子 + 安全模型(含 Mirai 2016 事件) + 主流生态concepts/embedded-firmware-layering— 嵌入式固件分层架构:业务/适配/SDK/BSP 四层 + import/export 命名约定(反向依赖视角)+ 等价 Hexagonal/Ports & Adapters + 三条业务链路示例(云→设备 / 开机自动上报 / 设备→云)+ "改需求改哪层"决策表 + 4G 形态下 BSP 重写业务零改动的具体清单concepts/iot-device-bootstrap— IoT 设备引导("开机第一个连谁"):WiFi 蓝牙下发 MQTT 接入点的 8 字段 + 4G 设备 5 种方案对比(A 硬编码 / B 引导服务器 ★ AWS Fleet Provisioning + 阿里一型一密 + 腾讯动态注册 / C DNS GeoDNS / D HTTP 配置 / E LwM2M Bootstrap)+ 信任根问题(不可能零硬编码)+ 选型决策树 + Sentino SDK 已为方案 B 留好基础设施 + 三芯片架构(BK7258 + 外挂 MCU + Quectel CAT1 EG800G-EULD)+ SoC-MCU 协议命令字
关键知识提取(5 条)¶
-
"后台 vs IoT 概念对照表"是 wiki 缺失的元层 — 此前 wiki 直接讲 MQTT/BLE/设备生命周期/RTSA 各种具体技术,但缺 "为什么 IoT 跟后台不一样" 的上位陈述。后台工程师没有这一层会反复在"为什么不是 HTTP req/resp"、"为什么状态要存 Flash"、"为什么重启是解决方案"上撞墙。10 行对照表 + 7 条差异是这个心智模型的最短路径 → 与 iot-platform-fundamentals 的连接:本页就是为承接这条洞察而抽出的;同时回连 sentino-iot 在"经验教训"段加"后台背景工程师入门"指路条目,把这页定位为入门必读
-
import/export 命名约定 = Hexagonal/Ports & Adapters 的嵌入式版本 — Sentino 适配层(rino_interface)的 import/export 命名长期被认为是"嵌入式特殊命名",但本质上完全等价于 Hexagonal 的 Driving Port / Driven Port——SDK 是六边形内核,import 是被动暴露给业务回填(≈Spring DI),export 是主动暴露给业务调用(≈ SDK 接口包)。这个识别让"为什么这么分层"从工程经验论变成有架构理论支撑的判断 → 与 embedded-firmware-layering 的连接:本页就是为承接这条架构判断而抽出的;同时与 harness-engineering 形成跨域同构连接——嵌入式适配层 ↔ Agent 平台 Harness 都是"把核心做成黑盒、把环境做成可替换层",Sentino 在嵌入式和 Agent 平台两个领域做这种分层是组织级架构判断的一致性
-
"99% 的产品迭代只动业务层"是分层架构最直接的回报 — 业务/适配/SDK/BSP 四层每层的"知道什么/不知道什么/谁会换"具体到表格——加 DP 点改业务层 / 接入云端新增命令改适配层 / 换连接的云平台域名改 SDK / 换芯片整层换 BSP。4G 形态切换具体到改动清单:BSP 重写 + 适配层小调整 + 上层零改动。这把"分层有用"从抽象判断变成可量化承诺——客户对话时可以直接用这套数据 → 与 embedded-firmware-layering / sentino-iot 的连接:在 sentino-iot 关键决策段新增"底层 SDK 已为 4G 形态留好基础设施"一条,把"分层架构 + 已留位"两件事连成"Sentino 工程成熟度"的对外叙事
-
MQTT 接入点不在固件硬编码是 Sentino 一个重要但容易被误解的设计 —
mqtt-iot.sentino.jp:8883是配网时 APP 蓝牙下发到 Flash 的,不是固件常量。rino_iot_common.h:10 QCLOUD_IOT_MQTT_DIRECT_DOMAIN是腾讯云原厂 SDK 留下的常量、当前业务流程不读它。这条事实在排查"MQTT 连不上"问题时容易被误以为是固件硬编码——实际是 Flash 里的配网信息。设计好处是 APP 端可以根据用户区域/账号路由到不同 MQTT 集群(国内/海外、生产/测试、多租户),固件出厂后不用换 → 与 ble-provisioning / iot-device-bootstrap / mqtt-device-protocol / sentino-iot 的连接:分别在四个页面加这一事实——BLE 配网包加完整 8 字段表 + sentino-iot 关键决策段加新条目 + mqtt-device-protocol 加 broker 地址来源 + 经验教训段加排查指南 -
"开机第一个连谁"在 4G 形态下是结构性问题,5 种方案 + 信任根不可避免 — 4G 设备没有蓝牙就不能用"配网时下发"路径,必须从 5 种方案里选:硬编码 / 引导服务器(行业主流,AWS Fleet Provisioning + 阿里一型一密 + 腾讯动态注册)/ DNS / HTTP 配置 / LwM2M。核心洞察是"不可能零硬编码"——固件总得硬编码某个入口作为信任根,区别只是入口的形态(host:port / Bootstrap URL / 逻辑域名 / 配置 URL / BS server URI)+ 信任怎么验证(TLS pin / DNSSEC / 文件签名 / DTLS PSK)。Sentino SDK
factory_dynamic_register.c已经为方案 B 留好基础设施,纯 4G 形态产品扩展路径清晰 → 与 iot-device-bootstrap 的连接:本页就是为承接这条结构性问题而抽出的;同时与 sentino-iot 关键决策段连接——Sentino 当前不需要 4G 形态但已经留好扩展能力,这条事实强化了"工程成熟度"的对外叙事
更新页面(6 页)¶
projects/sentino-iot— 关键决策段新增"MQTT 接入点不在固件硬编码"+ "底层 SDK 已为 4G 形态留好基础设施"两条;经验教训段新增"排查 MQTT 连不上不要先改固件常量"+ "后台背景工程师入门指路(先读 iot-platform-fundamentals 再读分层再读具体协议)"两条;相关概念加 3 个新页放在最上方;sources 加新 raw;updated → 2026-04-24concepts/mqtt-device-protocol— 关键要点新增"Broker 地址不在固件"+ "Keepalive 60s 是 WiFi 设计值,4G 必须拉长"两条;新增"业务链路示例(设备 ↔ 云完整调用链)"整段含三条链路(云→设备 / 开机自动上报 / 设备→云)展示 SDK ↔ 适配 ↔ 业务三层穿透;相关概念加 3 个新页;sources 加新 rawconcepts/ble-provisioning— 新增"WiFi 模式蓝牙包的 8 字段(含 MQTT 接入信息)"完整表 + 设计含义段;相关概念加 3 个新页;sources 加新 rawconcepts/device-lifecycle— 相关概念加 iot-platform-fundamentals + iot-device-bootstrap;sources 加新 rawconcepts/bk7258-firmware— 新增"在固件代码组织中的位置"段,明确 BK7258 在 BSP+SDK 边界、业务零改动换芯片;相关概念加 embedded-firmware-layering / iot-platform-fundamentals / iot-device-bootstrap;sources 加新 rawconcepts/tuya-triplet— 相关概念加 iot-platform-fundamentals 一条(三元组在概念对照表中等价于"账号 username/password")wiki/index.md— Sentino 平台与基础子区在 sentino-memex 之后插入 3 个新条目(iot-platform-fundamentals / embedded-firmware-layering / iot-device-bootstrap);最近更新加一条 2026-04-24
事实核查记录¶
- WebSearch "Mirai botnet 2016 default password IoT cameras DDoS" → 核实 Mirai 2016-08 出现 / 攻击 Krebs (620 Gbps) + OVH (1 Tbps) + Dyn (10/21) / 利用默认密码 (root/xc3511 等 62 组 IP 摄像头/DVR/路由器凭证) / 通过 Telnet 23/2323 端口扫描 / 峰值感染 60 万台 IoT / 创始人 Paras Jha 等 3 人 2017-12 认罪 → 用于 iot-platform-fundamentals 安全模型段
- WebSearch "AWS IoT Fleet Provisioning bootstrap dynamic registration" → 核实 AWS Fleet Provisioning by Claim 机制(设备出厂烧 claim cert / 首次连用 claim cert 申请独立 cert / 5 分钟内换证 / Provisioning Template / Pre-Provisioning Hooks Lambda 验证),与素材"方案 B 引导服务器"描述完全吻合 → 用于 iot-device-bootstrap 方案 B 章节加 AWS Fleet Provisioning by Claim 具体名称
- WebSearch "Quectel EG800G-EULD Cat.1 module specs" → 核实 Quectel EG800G-EULD 真实模组:LTE Cat 1 bis based on 3GPP Rel-14 / 17.7×15.8×2.4mm LGA 封装 / 10 Mbps DL + 5 Mbps UL / -40°C~+85°C / EU 频段 B1/3/5/7/8/20/28 / 含 GNSS / UART+USB+AT 指令控制 → 用于 iot-device-bootstrap 三芯片架构段实证
- 客户文档陷阱检查:素材是 Sentino 内部技术教学文档,不是客户向 PRD/RFP/提案/合同,不触发该专项检查。文中提及的"腾讯云 IoT Explorer / 涂鸦 / 阿里云 / AWS IoT Core / 移远 Quectel / Mirai"等是行业横向对照、不是客户选型,已在 wiki 各页明确标注属性
- "mqtt-iot.sentino.jp:8883 是 Sentino 自建 MQTT 集群、非腾讯云原厂"——直接来自素材原文 Part 1 第 5 节,与 wiki 既有 sentino-iot / agora-rtsa-sdk 描述吻合,不需要外部核查
待办¶
- 4G 形态 PoC:Sentino 是否有具体客户场景需要 4G 设备(车载玩偶 / 户外宠物 / 儿童手表)?如果有,bootstrap.sentino.jp 引导服务器规划可以按 iot-device-bootstrap 方案 B 路径具体化为产品需求
- 当前固件常量
DYN_REG_SERVER_URL(腾讯版本)替换为 Sentino 的时机——需要决定 Sentino 是否要为引导服务器单独搭一个域名,还是复用 api-iot.sentino.jp - 安全模型段提到的"Sentino 是否做了 Mirai 类防御(强制改默认密码 / 设备证书 / 平台扫描)"——目前 wiki 没有覆盖 Sentino 设备出厂安全策略,下次摄取相关内部文档时单独成段(在 iot-platform-fundamentals 或新建 sentino-device-security 页)
- 物模型在 sentino-iot 是否独立成页——本次摄取没有把 ProductKey/DPID 详细物模型抽出概念页,因为 wiki 已有 ai-intelligent-agent 但更聚焦"角色配置"而非"硬件能力 schema"。Sentino 物模型规范化(特别是 IoT/Agent 双网关里"智能体"两个含义的对齐)值得后续单独整理
- "嵌入式 import/export ↔ Hexagonal" 这个跨域架构同构是否值得抽到独立 concept 页(与 harness-engineering / agent-tool-design 形成"分层架构方法论"族)——本次先放在 embedded-firmware-layering 页内段落,后续如有更多素材再考虑独立化