🏠 home › journal › 2026-04-27

2026-04-27 变更日志

Dream-2026-04-27 Bucket 2 + Lint 1 修复

来源wiki/journal/dream-2026-04-27.md 分诊队列直接落地。

Bucket 2:补 4 条单向缺失的反向交叉引用

dream-2026-04-27 识别 5 条 Bucket 2 候选,其中 D(claude-agent-sdk ↔ agent-runtime-architecture)经核查实际已双向链接(dream 误报,将在下次 dream 反馈环改进 grep 校验逻辑),其余 4 条全部落地:

Lint 1:报告页 frontmatter 缺字段修复

scripts/lint.py 重跑:✓ Wiki 健康检查通过(共 108 个页面)

元观察

待办


摄取赵赛坡《你的工作经验,正在被写进 AI 系统》(同日追加)

来源raw/notes/zhao-saipo-work-experience-ai-skill-2026-04-27.md(赵赛坡 Poe newsletter 2026-04-27 评论文章,综合三案例 + 经验所有权讨论 + 审核成新瓶颈 + agent 落地难点判断)

新建页面(3 页)

关键知识提取

  1. 过程数据 vs 产出数据是 Agent 训练材料的关键新分轴 — 公开文本/代码/论文是产出数据(已商品化),鼠标轨迹/Slack 聊天/Jira 工单/SOP 是过程数据(最难获得的训练材料)。Anthropic 高管讨论花费高达 $1B 在 reinforcement learning gyms 训练基础设施上。三案例同源——都不再依赖产出数据,都把"人一步步把事情做完"当成核心资产 → 与 process-data-vs-output-data 的连接:本概念页就是为承接这条洞察而抽出的;同时回连 harness-engineering(Harness 是基础设施层 vs 过程数据是训练层,agent 工程的两面)+ ai-agent-moats(垂直专精护城河的真正载体是过程数据)

  2. 经验所有权落在劳动法-知产-数字治理三道法律空白的夹缝里 — 陈天昊(清华公管长聘副教授)核心论点:人的思维习惯/逻辑判断/部分经验过去依附在劳动者本人身上,现在企业要求"上交"时归属没有明确答案。劳动法没覆盖默会知识、知产法没覆盖流动经验、个保法没覆盖职业行为数据。"企业不会等规则完善后再行动"——已经在让员工写 skill,法律和公司制度往往会慢半拍 → 与 work-experience-ownership 的连接:本概念页就是为承接这条法律真空而抽出的;与 profit-source-ethics 形成姊妹关系——一页讲钱怎么赚,一页讲经验怎么收。机制 2 "资本-劳动身份分裂"在经验封装语境有具体应用:员工作为劳动者上交经验,作为投资人买回封装这些经验的 AI 公司股票

  3. AI 渗透各行业的共同瓶颈位移模式:产能上限 → 审核上限 — 媒体案例:日产 20→200 篇 / 85% 不需人工 / 但审核成卡点。"过去上限是编辑写作速度,现在上限变成审核能力"。这不是某行业的偶然现象,是 AI 介入产能侧的普遍模式。CREAO 选 3a 路径(审核也 AI 化),多数企业还停在 3b(审核保留人工 → AI 介入收益被吃掉) → 与 bottleneck-shift-output-to-review 的连接:本概念页就是为承接这条普遍模式而抽出的;与 ai-first-engineering CREAO 瓶颈级联原则同源但视角不同——CREAO 讲三个新瓶颈(PM/QA/人员)的解法,本页讲多数企业卡在审核瓶颈的中间状态

  4. 单纯 agent 外壳不长期值钱,因为审核能力 = 行业 know-how = 过程数据 — 赵赛坡判断:"模型可以调用,界面可以模仿,真正稀缺的是行业里的真实工作记录:谁有权限,谁能确认,哪些步骤可以跳过,异常出现时谁来决定。这些东西不在产品介绍里,通常藏在工单、群聊、会议纪要和老员工的习惯里。"——这给 platform-layer-collapse 加了第三个反向力量 → 与 platform-layer-collapse 的连接:在该页"反向力量"段新增"过程数据是不可坍缩的 substrate"段——模型厂商可以坍掉 vibe coding UI 层,但拿不到客户公司内部的过程数据。预测的新公司类型(流程改造/数据清洗/隐私合规/行业 skill 库/企业 AI 治理)正是模型厂商难以伸手的领域

  5. 个体 vs 组织 AI 困境补第五重:经验上交的合法性危机 — Sivulka "AI 让每个人变快了但公司没变强" 在数据视角有具体解释:组织变强的路径是把员工经验集中到组织级 AI,但集中过程触法律真空。这条困境的特殊性在于它不在 AI 技术能力范围内——靠模型升级解决不了"员工凭什么把自己的隐性知识无偿上交" → 与 individual-vs-institutional-ai 的连接:在该页"四重组织困境"段新增"第五重:经验上交的合法性危机"段,引用 work-experience-ownership 法律真空 + process-data-vs-output-data 数据侧解释;这是 Sivulka 论点的 2026-04 现实补充

  6. Sentino 战略含义:Standalone Agent 真正资产不在 latest 输出 — 当前 Standalone Agent 工具化模式让主 agent 通过 read_xx 读 latest,但真正的长期价值沉淀在 agent 执行过程——工具调用序列、中间判断、回退点、异常处置路径。这些目前没有结构化沉淀。同时 Memex 当前记产出(事实/偏好),未覆盖过程数据(agent 完成任务的最佳路径),是潜在扩展方向 → 与 sentino-agent / sentino-memex 的连接:在 sentino-agent 相关概念加 process-data-vs-output-data + work-experience-ownership + bottleneck-shift-output-to-review 三页;sentino-memex 加两页过程数据视角与 Memex 的关系判断

更新页面

事实核查记录

待办


摄取张铁蕾《为什么 agent 和 workflow 可以融合在同一个架构里?》(同日追加)

来源raw/notes/zhang-tielei-amphiflow-agent-workflow-fusion-2026-04-25.md(张铁蕾 公众号"铁蕾" 2026-04-25 19:57 北京,技术架构 deep-dive 含代码片段,介绍作者自创的 amphiflow 架构 + AmphiLoop 框架;GitHub https://github.com/bitsky-tech/AmphiLoop;前文引用《万字长文!两栖模式构建 Agent,与 OpenClaw/Hermes 不一样的解法》和《AI Agent 时代的软件开发范式》"编程范式从面向 step 到面向 goal")

新建页面(3 页)

关键知识提取

  1. amphiflow 是"workflow 优先 + agent 兜底"的第三条路 — 2026 行业语境里 workflow 类(n8n / dify)和自主性 agent 类(OpenClaw / Hermes / Eigent CoWork)是两条互斥的路。Amphiflow 把两者当成同一架构里的两种运行模式:默认 workflow(确定性、不耗 token)+ 出错时两级降级到 agent。第三条路独立于"全 workflow"和"全 agent"——区别于 platform-layer-collapse 的两个方向(模型坍缩 UI / 开源坍缩闭源),amphiflow 给中间层 agent 框架提供了不被任一方向直接冲击的新生存窗口 → 与 amphiflow-pattern 的连接:本概念页就是为承接这条架构定位而抽出的;回连 platform-layer-collapse(中间层新生存窗口)+ ai-agent-moats(workflow 模式不依赖 LLM = 成本结构是潜在新护城河维度)

  2. 决策与执行解耦让 workflow 与 agent 共享 OTA 循环 — 传统理解里 agent 模式(LLM 既产生决策也驱动循环)和 workflow 模式(代码既描述步骤也直接执行)是两套基础设施。AmphiLoop 用 Python yield + generator 把"描述"和"执行"分开——yield ActionCall(...) 那一刻只是产生 Decision,真正执行延迟到外层循环的 _action(decision, ctx)关键架构判断:执行层只看 Decision 不关心来源,LLM 与 workflow 代码都是合法源 → 与 decision-execution-decoupling 的连接:本概念页就是为承接这条架构原则而抽出的;与 agent-runtime-architecture Layer 4 关系——Layer 4 解耦"执行",amphiflow 进一步解耦"决策源",是 Layer 4 抽象往源头方向的延伸

  3. OTA 循环值得作为独立"原子词"独立成页 — wiki 已有 seal-architecture 但 SEAL 是 OTA 在语音场景的特化(+ 流式感知 + Think While Listening + Speak While Thinking)。OTA 自身的抽象边界比 SEAL 或 amphiflow 都更基础:OTA 不假设语音场景,也不假设 Think 必须由 LLM 产生。三层抽象关系:最基础是 OTA / 语音特化是 SEAL / 模式切换扩展是 amphiflow → 与 observe-think-act-cycle 的连接:本概念页就是为承接 OTA 作为基础抽象而抽出的;同时回连 seal-architecture 加上"OTA 是 SEAL 基础抽象"段(去掉语音特化后的通用循环),把 SEAL 重新定位为 OTA 的语音特化版本

  4. Amphiflow 是 iOS 外壳 + Android 内核的混合形态 — amphiflow 在 harness-engineering 两层定义里偏 iOS 模式(封闭定义运行环境):workflow 部分由 AmphiLoop 根据 TASK.md 引导生成代码、模式切换由框架统一管理、阈值由框架默认提供。但 workflow 内部用户可写动态控制流(for / while / if / continue),又给开发者保留了 Android 风格的灵活度。这与传统纯 workflow 工具(n8n 拖拽 GUI)和纯 agent 框架(OpenClaw 完全开放)都不同——给 Harness 两层定义之外加了第三种取舍维度 → 与 harness-engineering 的连接:在该页相关概念加 amphiflow-pattern 一行 + 注"iOS 外壳 + Android 内核的混合形态"

  5. 对 Sentino Standalone Agent v2 是潜在演进路径,但当前阶段不引入 — Sentino 当前 Standalone Agent = 纯 agent loop(指令 + 工具选择 + 触发条件 + LLM 自判完成)。amphiflow 视角的潜在 v2:高频固定模式 standalone agent 第一次跑通后凝固为 workflow,后续走 workflow + 异常降级。好处:token 成本与触发频率脱钩 + workflow 部分确定性 + agent 兜底保留灵活性。张力:(1) 与 agent-tool-design "逃生工具"原则有张力(workflow 凝固后"现造工具"自由度受限);(2) 与 CREAO "Coding Agent 是 connector 元工具" 主张方向相反(CREAO 让 agent 现写代码扩展长尾,amphiflow 让 workflow 凝固通用路径)。判断:当前阶段不引入;触发重新评估的两个条件——Standalone agent 实例数 >10K + 高频固定模式占比 >50%,或客户开始抱怨 standalone agent 行为不可预测 → 与 sentino-agent 的连接:在该页新增"Amphiflow 视角的 Standalone Agent v2 评估"整段,含当前 vs 潜在 v2 对照表 + 两条张力 + 重新评估触发条件;相关概念加 amphiflow-pattern + decision-execution-decoupling + observe-think-act-cycle 三页

  6. 作者商业立场需要显式标注 — 张铁蕾自称 "amphiflow 是世界上第一个决策与执行解耦的架构"。未独立核实——本知识库不替"世界第一"宣言背书。但从 2026-04 时点已知 agent runtime 看(OpenClaw / Hermes / n8n / dify / Claude Code Agent Loop),AmphiLoop 确实是第一个把"决策源"和"执行机制"明确做成两个解耦的轴并提供两种模式自动切换的——这条比"世界第一"自称更精确。两个新概念页都明确标注 "作者自称,未独立核实" → 与事实核查记录的关系:见下文事实核查段;与 ai-vendor-spec-traps 的方法论一致——批判性消费厂商/作者宣称是 wiki 的默认动作

更新页面

事实核查记录

待办


摄取 AGIHunt《Anthropic Kat Wu:从 6 个月到 1 天的发版秘密》(同日追加)

来源raw/notes/anthropic-kat-wu-pm-shipping-cadence-2026-04-25.md(搜狐 IT 频道转载 AGIHunt 文章 https://www.sohu.com/a/1014398717_122189055,2026-04-25 12:05 北京。原素材是 Lenny Rachitsky 播客访谈 Kat Wu,Anthropic Claude Code + Cowork PM)

新建页面(1 页)

关键知识提取

  1. Anthropic 6 个月→1 天发版的三个互锁机制 + 速度来自流程而非模型 — Kat Wu 明确:"大部分加速来自流程和团队文化"——内部用模型确实加快,但不是模型能力本身。三机制单独看都不新鲜(早期版本概念有 Beta、跨职能频道化各家都有、PM 工程化也有先例),关键是三件事必须同时成立:缺 Research Preview 则发布门槛高 → Launch Room 没东西可发;缺 Launch Room 则跨职能等齐才能发;缺工程师 PM 融合则节奏卡在沟通成本 → 与 research-preview-pattern 的连接:本概念页就是为承接这条三机制互锁判断而抽出的;与 pivot-speed-as-moat 的连接:在该页相关概念加 research-preview-pattern 一行 + 注"Anthropic 是该判断的第三个独立样本(CREAO + Cursor 之后),证明速度即护城河不是创业公司专利——千人级已建组织也可工程化达成"

  2. 删功能是模型升级的首要响应:Harness 不是单调累积 — Kat:"每次发布新模型,我们都会通读整个 system prompt,逐段反思:模型还需要这个提醒吗?如果不需要了,就删掉。"具体例子:Claude Code 早期待办事项功能 → 升级 Opus 4 后变可选(模型自主列清单了)。这条对 harness-engineering 的补充:Harness 不是单调累积——模型变强会让一部分 Harness 过时。"删 Harness"是与"加 Harness"并行的能力,与传统软件"功能只增不删"惯性方向相反。操作性反例:Anthropic 内部合并代码必须过 Claude 审查(早期不准到 4.5/4.6 才达可靠水平 → 从可选变强制门控)——删旧能力 + 加新门控同时发生才能让 Harness 与模型能力对齐 → 与 harness-engineering 的连接:在该页"反向印证 vibe coding"段之前新增"'删 Harness'与'加 Harness'并行:Anthropic 的模型升级习惯"整段;与 agent-tool-design 的连接:相关概念加 research-preview-pattern + 注"工具集设计的'减法'维度"

  3. 让模型自我反思是 Harness 改进方法论 — Kat 发现模型改完前端代码会跑测试但不打开页面看 UI,问模型为什么 → "system prompt 里某段话让它困惑" / "委派给 sub-agent 但没检查"。"对模型的决策保持好奇心,问它为什么做出那个选择,你就能看到是什么误导了它,然后修复。"给 Harness 设计补一条新原则:模型自己是 Harness 缺陷的最佳报告者——把 Harness 改进做成"问模型为什么"的循环 → 与 harness-engineering 的连接:在该页新增"让模型自我反思:Harness 改进的方法论"整段;与 decision-execution-decoupling 的连接:让模型反思是把 Decision 与 Execution 之间"为什么这样决策"显式化——在 OTA 循环外加一个"反思"半步

  4. "95% 不是真正的自动化"反向补强 CREAO 95% 操作定义 — Kat:"如果一个自动化不能 100% 工作,那它就不是真正的自动化。最后那 5% 确实需要更多时间。"两个判断不冲突,覆盖不同时点:CREAO 95% 是起步门槛(团队整体 AI 化率达到才叫 AI-first)+ Anthropic 100% 是单流程的合格线(任一被自动化的流程必须做到完全可靠才算"已自动化")。Kat 观察到三种最常见失败:从不自动化 / 沉迷工具配置 / 95% 后放弃。她自己用 Cowork 做 Gmail 收件箱清零未到 100% → 与 ai-first-engineering 的连接:在该页"95% 操作定义"段新增"Anthropic 视角的反向补强"子段,含两个判断的时点对照 + Kat 三种失败模式 + Sentino 应用建议"用 Kat 标准复审已用 AI 的工作流——是否任一流程做到了 100%"

  5. 工程师 PM 融合给 CREAO "架构师 vs 操作员" 加 Anthropic 视角 — Kat:"代码变得越来越便宜了。那什么变得更有价值呢?决定写什么。"Anthropic 招产品品味的工程师而非传统 PM。典型流程:工程师从社交媒体反馈开始 → 周末自己上线功能。与 CREAO 框架的对照:CREAO 是新组织从头设计;Anthropic 是头部公司主动改造已有 PM 角色。副作用警示:融合带来产品一致性问题——同一需求两个功能在做。Anthropic 取舍是接受代价(提供 /powerup 教程),不为消除冗余而放慢 → 与 ai-first-engineering 的连接:在该页新增"工程师 PM 融合:Anthropic 头部组织样本"整段,含与"架构师 vs 操作员"对照 + Sentino 应用判断(产品和工程紧密协作如子昕跟工程师每周工作 1-2 天,不必从头重构组织)+ 副作用警示(功能爆炸 + 内部对齐损耗在客户量未起量阶段更难承受)

  6. Cowork 实际用例对 Sentino 客户对接环节有直接参考价值 — Kat 自己用 Cowork:连接 Calendar/Slack/Gmail/Drive + 告知主题 + 1 小时生成 20 页 Code with Claude 大会演讲稿。Applied AI 团队用 Cowork 在客户会议前自动生成 briefing(客户身份 / 以往问题 / 待办事项 / 功能发布时间)。Kat 的产品分类:输出代码 → Claude Code / 输出非代码内容 → Cowork → 与 sentino-agent 的连接:在该页相关概念加 research-preview-pattern + 注"Cowork 给客户 briefing 自动生成的用例对 sentino-tenga / yukai-agora-poc / hotmind-client 客户对接环节有直接参考价值"

更新页面

事实核查记录

待办


OpenClaw 事件 fact correction(同日追加,第三节)

触发:用户读 Kat Wu ingest 后澄清——"OpenClaw 应用停服"的实际指代是"Anthropic 撤销 OpenClaw 通过 Claude 订阅 API 的 access"。WebSearch 进一步核实事件细节、经济学机制、行业 pattern。

结论:事件不是术语翻译问题,是知识库结构性升级——从 research-preview-pattern 一个隐喻性引用升级为 platform-layer-collapse 一个独立章节 + harness-engineering Cache 经济学条目实证 + ai-agent-moats 数据飞轮护城河补强。

事件事实链(WebSearch 2026-04-27 核实)

时间 事件
2025-11 Peter Steinberger 发布 Clawdbot,后改名 OpenClaw,开源 agent 框架
2026-02 Steinberger 加入 OpenAI
2026-02-20 Anthropic 法律条款明确禁止 subscription OAuth tokens 用于第三方工具
2026-02~03 服务端静默部署 OAuth token 拦截
2026-04-04 12:00 PT 政策正式执行——Claude Free/Pro/Max 订阅不再覆盖第三方 agentic 工具
2026-04-10 左右 Steinberger 公开抱怨 + 账号被以"suspicious"暂停 → 病毒式传播 → 几小时后恢复
后续 OpenClaw-style Claude CLI usage(如 claude -p)被允许

关键事实(之前 wiki 错的 / 缺的)

  1. 不是"OpenClaw 应用停服"——OpenClaw 仍可运行:用户自带 API key 走 pay-as-you-go 即可继续用
  2. 经济学具体:单 instance/天可耗 $1,000–$5,000 API 等价;$200 Max 订阅 = 5–10x 套利;135K instances 在跑——规模级 cross-subsidy 不可持续
  3. 政策范围:Boris Cherny X 表态"applies to all third-party harnesses"——不是单点针对 OpenClaw
  4. 第一方 vs 第三方有结构性 cache 优势:Anthropic 第一方工具优化 prompt cache hit rate,第三方工具绕过缓存——这是 harness-engineering "Cache 经济学是架构约束"判断的实证
  5. Google 2026-02 已先做同样事情:Antigravity / Gemini CLI / Gemini Code Assist 同样禁止第三方 OAuth piggyback——这是行业级 pattern,不是 Anthropic 个案
  6. 行业意义:从 flat-rate 订阅向 usage-based 计费的全行业转向

修正落地(4 个文件 + raw notes)

元观察(关于知识库工作流)

后续待观察


摄取 RootSwarm.ai 战略推演(Gemini 对话精简版,第四节)

来源raw/notes/rootswarm-strategy-brainstorm-2026-04-27.md(Gemini chat export 2026-04-27 15:23,原 38 轮 / 76 messages / ~75K tokens 经 5x 压缩为 248 行 raw 沉淀。原对话由用户读完 Kat Wu 文章后触发,做 sideproject RootSwarm.ai 的战略推演)

说明:raw 内容主要是 sideproject 私有战略,不全部入 wiki——只抽两个真正强的行业级洞察落地(用户拍板 Option 3)。

新建页面(1 页)

关键知识提取

  1. Agent 三元论是 MECE 分类轴:按"agent 输出后世界发生了什么"切分 —— Creator(多了数字资产)/ Refiner(多了结构化秩序)/ Operator(外部状态不可逆变化)。三类彼此独立、共同穷尽。任何 agent 行为属于这三类之一或多类组合 → 与 agent-creator-refiner-operator 的连接:本概念页就是为承接这条 MECE 分类而抽出的;与多个已有页(agent-tool-design / claude-agent-sdk / palantir-ontology)形成"三类各自代表"对应关系,是后续 agent 讨论的"原子词"

  2. Creator 是模型公司必吃赛道,纯 Creator 创业 = 在火山口建房子:Anthropic 的 Claude Code → Cowork → Computer Use 路径 / OpenAI Codex → VS Code 一键集成 / Google Antigravity IDE 都在收割 Creator。下一代旗舰模型发布时,纯 Creator 类创业护城河瞬间灰飞烟灭——这是 platform-layer-collapse 的核心动力 → 与 platform-layer-collapse / claude-agent-sdk 的连接:在两页相关概念加 agent-creator-refiner-operator + 注 "Creator 是模型公司必吃赛道"

  3. Refiner+Operator 结合体的三道结构性护城河: - Integration Moat(脏活累活的工程泥沼):模型公司只做标准 API,Refiner+Operator 全是非标脏活——千奇百怪的只读接口、易崩溃爬虫、网站登录校验、反爬机制 - Liability Wall(法律责任墙):模型公司极度害怕承担现实世界法律风险(自家 agent 替转账出错 → 天价集体诉讼),所以主动加 Safety Guardrails;第三方应用通过"agent 拟定草稿 + 人类一键确认"模式把责任还给用户 - Private State Machine(私有状态壁垒):Refiner+Operator 强依赖私有银行流水/日历/邮件——这些不属于大模型训练集 → 与 ai-agent-moats 的连接:在该页相关概念加 agent-creator-refiner-operator + 注 "三道结构性护城河,是中间层创业绕开模型公司重力场的具体路径"

  4. Palantir AIP 是 Refiner 类企业级重装甲;留下"动态 + 轻量"市场未被覆盖:Palantir AIP 占住"静态 + 重装甲"位置(FDE 驻场 + 客单 $1M+ + 多年合同 + 持久 Ontology)后,留下了完整的"动态 + 轻量"赛道(用户自助 + API 按需 + outcome-based 定价 + 即用即走)。"Palantir for the rest of us"——用户不部署本地数据库,扔给系统 500 个杂乱网页,10 分钟后吐出干净 Excel,做完销毁 → 与 palantir-ontology 的连接:在该页"对 Sentino 的启示"段之前新增"静态 vs 动态结构化引擎对照"整段,含对照表 + "Palantir for the rest of us" 类比 + 留出的市场空间判断

  5. 三元论 + amphiflow 正交可叠加:amphiflow(默认 workflow + agent 兜底)解决"决策怎么产生"——LLM vs 代码。三元论解决"agent 在系统中扮演什么角色"。Operator 类应用最适合 amphiflow 模式——不可逆错误代价高 → 默认 workflow + agent 兜底 + Human-in-the-loop 三层保障是必然架构 → 与 amphiflow-pattern 的连接:在该页相关概念加 agent-creator-refiner-operator + 注"Operator 类应用最适合 amphiflow"

  6. Sentino Standalone Agent 当前是 Refiner 形态,Operator 能力较弱:按三元论给 Sentino 做诊断——主 Agent 通过 read_xx 读 standalone agent latest 是 Refiner(把用户散落数据收敛成 latest),但当前未真正发起外部世界动作。潜在演进方向:未来给客户卖"AI 替我办事"价值时需补强 Operator 能力,与 amphiflow workflow 兜底架构天然契合;但 Liability Wall 风险需前置考虑(客户文档陷阱 / 医疗合规 / 性健康内容审核责任归属) → 与 sentino-agent 的连接:在该页相关概念加 agent-creator-refiner-operator + 完整诊断(当前形态 + 演进方向 + Liability Wall 警示)

更新页面

事实核查记录

待办


新建研究报告:Agent 三元论独立验证(第五节)

触发:用户在 ingest Agent 三元论(commit e06db55)落地后立即追问"Agent 三元论验证与分析"——对自己刚提出的概念主动求挑战,是 idea-meritocracy "极度求真 + 压力测试 + 反谄媚"原则的体现。

报告地址2026-04-27-agent-trichotomy-validation

报告摘要

落地修正(4 段加在 agent-creator-refiner-operator

  1. "适用边界"段补一条具体边界:"不适用 Conversational Companion / Personal Assistant 类"
  2. 新增"与学术分类法的正交关系"段——含 6+ 个学术分类对照表 + 正交关系判断
  3. 新增"Plan-and-Execute 模式:Refiner+Operator 工程分离的行业实证"段——含 Google Agent Bake-Off 原文引用 + Multi-agent Refiner+Validator+Operator 三段式分工
  4. 新增"Devin / Manus 反例:Operator 不可逆判断的产品级证据"段——含 13.86% 成功率 + drained without warning 两个反例 + 印证三元论判断 - 末尾加"完整研究链路:→ 2026-04-27-agent-trichotomy-validation"回连 - frontmatter sources 加 Google Agent Bake-Off + arXiv 2601.12560 两个独立来源

元观察


拒收虚假 Walmart "RetailForge" 营销稿 + 摄取真实 Walmart 战略(第六节)

触发:用户粘贴一篇标题《重磅发布: Walmart 用 AI 代理提升销售转化率 30% / Walmart RetailForge 重磅发布》的"零售 agent 平台"营销稿。WebSearch 二次核实发现"RetailForge Agent" / "RetailForge"在 Walmart 公开材料里完全不存在——是 AI 生成的虚假营销稿(混合真实公司名 + 杜撰产品名 + 不可核实数字)。

处理决策:拒收原素材,但 WebSearch 同时挖出 Walmart 真实的 agentic AI 战略——基于真实材料 ingest。

虚假素材识别记录(元数据沉淀)

典型 AI 生成虚假营销稿特征清单(写入 raw 元数据段供未来识别): 1. 杜撰产品名 + 真实公司(增加表面可信度) 2. 真实关键词混合(agent / 闭环 / 个性化推荐 / 双碳) 3. 数字过于完美(+30%、+29% 这种整数对) 4. 多国试点叙事但无具体门店名 5. 无具体发布日期 + 无第一手来源 + 无具体高管姓名

→ 与 ai-vendor-spec-traps 同源方法论。

新建文件(1 个 raw)

更新页面(4 页)

关键知识提取

  1. Wally + Self-Healing Inventory 是企业级 Refiner+Operator 实证,$55M 节省数字真实:Walmart Corporate 2025-07-17 公告原话 "This technology has already saved Walmart more than $55 million"——重点品类 volatile perishables / 具体场景 Mexico City + Coyol。这给三元论 2+3 战略加了一个企业级垂直整合实证,与已有的 Palantir AIP(重装甲)+ RootSwarm(轻量)形成完整产品光谱 → 与 agent-creator-refiner-operator 的连接:在该页加"Walmart Wally + Self-Healing"段 + 三档案例对照表

  2. UCP 是 MCP 生态成熟度的标志性事件:Google 2026-01-11 NRF 公布 + 2026-04-08 v2026-04-08 + 兼容 MCP/A2A/AP2 + 20+ 全球合作方。UCP 不是替代 MCP,是兼容 MCP 之上加 commerce 垂直 schemas——证明 MCP 已成"开放 agent 协议"基础层 → 与 mcp-protocol 的连接:在该页 "2026 展望" 段后新增独立章节"垂直扩展实证:UCP",含协议层级表

  3. WooCommerce 缺席 UCP 值得关注:占全球 43.4% 网站的 WordPress 系电商插件未参与 UCP,agentic commerce 长尾市场命运待观察——可能形成"大零售商 + 平台 SaaS(Shopify)享受 agentic commerce / SMB / 自建网站被边缘化"的两极分化 → 待观察:WooCommerce 是否会被纳入 UCP 或推自家协议?

  4. Sparky Sponsored Prompts 是 AI agent 商业模式新形态:在 conversational shopping flows 里嵌入广告("Sponsored Prompts")。零售/分发平台天然能做但模型公司(Anthropic / OpenAI)不会做——AI agent 商业模式正在多元分化而非收敛:模型公司 token + outcome-based / 零售平台 agent 内置广告 + 抽成 / 企业 SaaS outcome-based + 私有数据复利 → 与 ai-agent-moats 的连接:相关概念加 Sparky Sponsored Prompts 一行

  5. Walmart 同时在三层下注:UCP 早期合作方(公开外卖)+ 内部 Wally super agents 用 Microsoft Azure OpenAI(私有)+ 与 Google Gemini 合作做 Agentic Commerce(开放)—— 零售巨头的 multi-agent 布局是开放协议生态的最大客户之一 → 与 platform-layer-collapse 的连接:大企业垂直整合自建是中间层 agent 应用的反向坍缩信号

  6. 元方法论:虚假素材识别的 5 条特征清单:杜撰产品名 + 真实关键词混合 + 数字过于完美 + 试点无具体门店名 + 无具体高管/日期/来源——这是知识库工作流的元数据沉淀,比单次素材本身更有长期价值

事实核查记录

待办


fact-fix: Sentino 团队角色更新(CEO 变更)

事实:Lawrence 接任 CEO;Chris 转董事长。子昕(产品)/ 姜涛(技术负责人)不变。

改动: - wiki/projects/sentino-agent.md "六边形战士角色评估" 段——Chris(CEO) → Lawrence(CEO) + Chris(董事长) 双角色拆分;六边形战士论述同步调整为"两人各承担不同维度" - ~/.claude/projects/-Users-momo-obs/memory/project_sentino_team.md——更新角色表,保留 "Chris 曾任 CEO" 历史脚注,避免回看旧 ingest(如 TENGA / OpenClaw 讨论)时混淆发言权重

Why:用户 2026-04-27 在 SENTINO_BLUEPRINT v2 协作中告知。读群聊/历史 ingest 时若把 Chris 仍当 CEO 处理,会错估当前发言权重和决策路径。

未做:原 raw notes 与 journal 中历史出现的 "Chris(CEO)" 表述不回溯改写——它们是当时事实的快照,回溯改写会破坏时间维度的可信度。


摄取 Anthropic 4-23 博客《Building agents that reach production systems with MCP》

触发:用户粘贴 sohu / AGIHunt 中文转载(https://www.sohu.com/a/1013512394_122189055)。WebSearch 二次核实直接锁定 Anthropic 官方原文(claude.com/blog/building-agents-that-reach-production-systems-with-mcp)+ ScaleKit 一手开源 benchmark(github.com/scalekit-inc/mcp-vs-cli-benchmark)。

素材来源核查:AGIHunt 此前出现过术语映射不严谨问题(Kat Wu ingest 时"OpenClaw 应用停服"措辞不准)。本次 AGIHunt 整体准确,但有一处数字混淆(72% 实际是两个独立来源——ScaleKit reliability 72% + Apideck context 72%)。wiki 按一手来源准确分开标注。

新建文件(1 个 raw)

更新页面(3 页)

关键知识提取

  1. MCP SDK 月下载数 1 亿 → 3 亿(4 个月翻 3 倍) — Anthropic 4-23 官方博客原文:"The MCP SDKs recently surpassed 300 million downloads a month, up from 100 million at the start of the year"。这是 mcp-protocol 之前 wiki 写的 9700 万的直接升级 → 与 mcp-protocol 的连接:升级生态规模段

  2. ScaleKit 一手 benchmark 数据:CLI 32x 便宜 + 17x 月成本 + 72% vs 100% reliability — 75 轮 / Claude Sonnet 4 / GitHub Copilot MCP server 43 工具:CLI 1,365 tokens / MCP 44,026 tokens;月 10K 操作 CLI $3.20 / MCP $55.20;MCP 7 次失败全是 ConnectTimeout(infrastructure-level,模型无法 reason 或 retry) → 与 mcp-protocol 的连接:新章节"2026-Q1 社区批评" 段含 ScaleKit 一手数据表

  3. Tool Search 设计哲学:"工具按意图分组,不按 API 分" — 85%+ token 减少不只是工程优化,是工具集设计哲学的升级。Cloudflare 2 工具(search + execute)覆盖 2,500 API 端点是该原则的极端实证——把 CLI 哲学搬进 MCP 协议 → 与 agent-tool-design 的连接:相关概念加该原则

  4. MCP 没死,但范围明确收缩到"云端生产 agent 标准化接入层" — Anthropic 4-23 博客是对 4-04 OpenClaw 事件 + Perplexity 出走 + Peter Steinberger 痛批的官方叙事修正。三条最终分工:本地开发 = CLI+Skills / 云端生产 = MCP+Skills / 简单一对一 = 直连 API。"好的 MCP 服务器应该像 CLI 一样设计" → 与 mcp-protocol / platform-layer-collapse 的连接:mcp 页加"最终分工"表 + platform-layer-collapse 加反向叙事修正条目

  5. MCP + Skills 配套已成行业实践 — Claude 数据插件(10 Skills + 8 MCP servers 覆盖 Snowflake/Databricks/BigQuery/Hex)+ 第三方(Canva/Notion/Sentry)发布 MCP server 同时附带 Skills + 社区扩展让 Skills 从 MCP server 分发。Anthropic 把"MCP 管能力 / Skills 管编排"明确写进官方实践博客——回应 Peter "CLI + Skills 才是正道"批评,两者共存不矛盾 → 与 mcp-protocol 的连接:新章节"MCP + Skills 配套实证"

  6. MCP 演进事件链已成形(2024-11 → 2026-04-23) — Anthropic 4-23 博客是这条事件链的关键节点(社区危机 → 官方反击)。完整时间线含 OpenClaw 政策(4-04)+ Perplexity 出走(3-11)+ Peter 痛批(4 月中)+ Anthropic 反击(4-23) → 与 mcp-protocol 的连接:新增完整事件链时间线表

事实核查记录

待办