- tags
- [AI, 组织, 生产力, Agent, 战略]
- created
- 2026-04-13
- updated
- 2026-04-28
- sources
- [raw/notes/sivulka-individual-vs-institutional-ai.md, raw/notes/infoq-cio-ten-questions.md, raw/notes/huxuan-vibe-coding-games-2026.md, raw/notes/founder-park-creao-organizational-pivot-2026.md, raw/notes/zhao-saipo-work-experience-ai-skill-2026-04-27.md, raw/notes/karri-saarinen-some-notes-on-ai-2026-04-26.md, raw/notes/kim-graves-plg-sales-coordination-2026-04-29.md]
定义¶
AI 让每个人变快了,但公司没有变强。"我们换了电机,但还没有重新设计工厂。"(Sivulka, Hebbia 创始人)
Nondeterministic vs Deterministic Agent¶
| 个人 AI(Nondeterministic) | 组织 AI(Deterministic) | |
|---|---|---|
| 特征 | 探索式,什么都能聊 | 有检查点、可审计、可追溯 |
| 设计目标 | 让使用者满意 | 对事实的强化,不管让不让谁舒服 |
| 代表 | ChatGPT、Claude | Hebbia、Palantir |
双层共存:通用大模型做个人底座,垂直 AI 做组织级智能。与 agency-framework 的时序框架对应——nondeterministic 用于"定义边界"阶段,deterministic 用于"执行"阶段。
四重组织困境¶
- 协调崩溃:100 人各自用 AI 没人对齐,"聪明的人朝不同方向使劲=原地不动"
- 噪音倍增:生成零成本但分辨好坏成本更高
- 生产力幻觉:METR 实验——用 AI 实际慢 19%,自认快 20%,感知差 39 个百分点
- 谄媚中毒:LLM 58% 谄媚,"AI 最狂热的拥护者可能恰恰是表现最差的员工"
第三重的机制层补充:生产力幻觉是 Dunning-Kruger 在 AI 使用场景的量化¶
Linear CEO Karri Saarinen 在 2026-04-26 X 长文给"生产力幻觉"提供了双框架机制层解释——市场叙事撕裂(个人级"AI 神奇"vs 组织级"AI 没用")的根因是 Gell-Mann Amnesia + Dunning-Kruger 在 AI 评估场景合流(→ expertise-paradox):
"AI capabilities are described and understood as limitless to the casual observer."(用户/casual observer 用 Dunning-Kruger 模式评估,自评 AI 强)
"In areas you understand deeply, you see the gaps."(组织内部专家用 Gell-Mann 模式评估,看到 slop)
METR 实验"用 AI 实际慢 19%、自认快 20%、感知差 39 个百分点"恰好是这两个机制叠加的具体测量——使用 AI 的人在自己使用环节是 novice(不知道传统方法本来多快),所以 Dunning-Kruger 模式高估自己,结果产生 39 点幻觉。
含义:四重组织困境的"生产力幻觉"不是简单的"用户错觉",是评估者认知机制层不可避免的不对称——novice 评估自己使用 AI 永远会高估,必须有 expert 第三方测量(如 METR)才能校准。组织 AI 落地难的一层根本原因是没人愿意请 expert 测量自己的"AI 化进度"——员工自评 95%、组织以为已经数字化转型成功,实际 expert 一测发现 50% 是幻觉。
第五重困境:经验上交的合法性危机(2026-04 补充)¶
赵赛坡 2026-04-27 评论文章 + 同事.skill / Meta MCI / cielo24 三案例显示,组织变强的具体路径——把员工经验集中到组织级 AI——正在触碰法律真空:员工被要求写 skill / 装监控软件训练 agent / 同意倒闭后数据出售,但所有权归属在劳动法/知识产权法/数字治理夹缝里没有答案(详见 work-experience-ownership)。
这条困境的特殊性在于它不在 AI 技术能力范围内——你没法靠模型升级解决"员工凭什么把自己的隐性知识无偿上交"这个问题。Sivulka "公司没有变强" 的判断在这一层得到具体支撑:变强需要经验集中,经验集中触法律和伦理阻力,所以变强不顺利。
赵赛坡的 数据-训练-办事 视角(process-data-vs-output-data)补足了这条困境的数据侧解释——agent 要"把事情办完"必须吃过程数据,过程数据必须从员工身上提取,提取就触发所有权问题。
效率 vs 效果¶
给员工装 ChatGPT = 在银行网点多放一台 ATM(更快做同样的事)。真正需要的是 iPhone 时刻——让旧任务不必存在。Deloitte:仅 34% 在做深度转型。
企业落地的真实困境¶
- 蛋糕坯+樱桃:AI 是樱桃,数据/系统基础是蛋糕坯。91% 企业数据不可靠
- LLM 的 L = Language:language 中心的工作擅长,结构化精准场景(排班/对账)不如传统手段。"能精准解决的问题,就没必要引入模糊能力"
- 品味通缩:AI 降低技术门槛→技能通胀→品味稀缺。没有标准答案时,品味决定评测标准,评测标准决定 Agent 上限
- 96% vs 4%:AI 难替代的核心逻辑仅占 4%,但 80% 非编码时间(需求/设计/沟通)省不掉
三层框架:任何一层不达标都会失败¶
模型可靠性(能不能做对)← 渐进可预测
数据就绪度(有没有好输入)← 补历史欠债,痛但有终点
组织适配度(会不会用对)← 最慢最难,现在就要开始
短期约束是模型,长期约束是组织。最优策略:找到三层都就绪的交叉区域先落地。
电机类比有缺陷:1890 年电机物理可靠,LLM 本质不可靠(15% 错误 + 58% 谄媚)。Carlini 编译器成功因为编码是 LLM 最擅长的领域,不可推广到全部场景。
对 Sentino:语音幻觉无法撤回,对儿童说错话是产品级事故。策略不是等模型完美,是在模型不可靠的前提下设计安全边界——agency-framework 的应用。
"L = Language" 边界的 vibe coding 实证¶
腾讯研究院 2026-04 vibe coding 游戏开发者访谈(→ vibe-coding-creator-motives)给本页"LLM 的 L = Language"判断补了一组直接证据:
- "AI 写单个系统很强,但要把多个系统串联起来协同工作,AI 经常顾此失彼"——单系统是局部 language 任务(描述清楚 + 生成代码),跨系统协同需要全局结构化状态保持,正是 LLM 的弱区
- "AI 搞出来的 bug 基本都是隐式的,很多非常难查,需要丰富工程经验定位"——bug 定位是结构化推理 + 多步因果回溯,仍属精准结构化任务
- 一线开发者的总结:"AI 是超强副驾驶,但方向盘还是得你自己握"
对 Sentino 的应用:Agent 平台的工具集设计要意识到——把"调用单个工具"和"串联多个工具完成复杂任务"分开看待,前者可以靠 LLM,后者需要工作流引擎或更强的运行时(agent-runtime-architecture Layer 6 Task System)兜底。这不是模型能力增强能消除的,是 Language 任务和结构化协同任务的本质边界。
与"AI 主导 vs 人主导经济体"二分的正交关系¶
CREAO CEO 程凯在 2026-04 Founder Park 访谈提出了一个正交于本页 nondeterministic vs deterministic 二分的宏观二分——AI 主导经济体 vs 人主导经济体(详见 ai-economy-vs-human-economy)。两个二分组合形成 4 个象限:
| 个体 AI(Nondeterministic) | 组织 AI(Deterministic) | |
|---|---|---|
| 人主导经济体 | ChatGPT 个人使用者(高频 / 主流市场) | Hebbia / Palantir 帮组织内部协调人 |
| AI 主导经济体 | 个人的 Background Agent / Cron Agent | CREAO Super Agent / Multi-agent 系统 |
含义:本页"个体/组织"是微观分类(谁在用),"人/AI 主导"是宏观分类(终端是谁)。当前主流产品在前 3 象限分布密度高,第 4 象限(AI 主导 + 组织级)是 CREAO 押注的方向,是 palantir-ontology 和 ai-first-engineering 实证 CREAO 自身组织已经做到的事。
对 Sentino 的应用: - Sentino IP 玩偶 + 粉丝陪伴(sentino)= 个体 AI + 人主导经济体(第 1 象限) - Sentino Agent 平台 / Standalone Agent(sentino-agent)= 组织 AI + AI 主导经济体(第 4 象限)
Sentino 同时押两个对角象限——这不是分裂,是产品线分层。但两条路线的护城河逻辑、设计目标、增长曲线都不同,需要内部明确分工。
"AI 公司是 backend 类、UNIX 风格 composability"——Saarinen 视角的产品类型分类¶
Linear CEO Karri Saarinen 在 2026-04-26 X 长文给"AI 公司"在产品光谱上的位置做了一个明确判断,对组织 AI 落地的产品形态选择有直接含义:
"A frequent, tactile tool like email needs a lot of UX polish, because users feel every paper cut. ... A backend service is different. The value may be in the backend logic. The UI can be more limited, even rougher, and the product can still be valuable."
"I think many AI companies operate more like backend companies. The capability is the model. The harness and tools are being iterated above it, but so far they are often behind the scenes. This helps them move fast, because every feature can be another tool in the system without much visual or conceptual footprint."
UNIX 类比:
"It feels closer to classic UNIX systems, where programs are text based can be created independently and combined at runtime. The composability of the operating system is easier than compared to something like modern macOS."
对组织 AI 落地形态的具体含义——Saarinen 给"组织 AI 应该长什么样"加了一个反 frontend 投入的判断:
| 产品形态 | UI 投入 | Saarinen 判断 |
|---|---|---|
| 高频触感工具(邮件 / 笔记 / 即时通讯) | 高——每个 paper cut 都被感受到 | UI polish 是核心 |
| Backend 类(AI 模型 / 数据管道 / 编排) | 低——价值在后端逻辑 | Rough UI 也可以有价值 |
| AI 公司(多数) | 偏 backend | Harness 在幕后迭代、UNIX 风格组合、UI 不是核心战场 |
含义:组织 AI 落地不要从 "我们要建一个像 ChatGPT 一样有好 UI 的内部 AI 助手" 开始——多数组织 AI 应该走 backend 路线(API + 工具组合 + 后台守护),UI 反而是次要。这与本页"双层共存"判断一致——nondeterministic 个人 AI 走 ChatGPT UI 路径,deterministic 组织 AI 走 Hebbia / Palantir 后台逻辑路径。
对 sentino-agent 的具体含义:Standalone Agent 平台属于 Saarinen "AI 公司是 backend 类" 范畴——产品价值在 agent runtime / 工具协议 / Memex 记忆 / Agent 间通信,不在 UI。Sentino 当前如果在 Standalone Agent 配套 App 上投入设计资源,从 Saarinen 视角是资源错配——应该把设计精力倾注在 IP 玩偶 + 粉丝场景(第 1 象限,frontend 类),把 backend 资源倾注在 Standalone Agent 协议 / 接口(第 4 象限,backend 类)。
注:Saarinen 这条判断与 agent-ui-is-product "UI 是 Agent 产品仅存差异化" 的张力——前者是说 backend 类 AI 公司不需要 UI 投入,后者是说 frontend 类 Agent 产品 UI 是核心战场。两者通过产品形态分类化解——Saarinen 给 AI 公司归 backend 类是经验观察,不是规范主张;面向消费者的 Agent 产品(ChatGPT / Manus / Lovart)依然 UI 是核心。
相关概念¶
- harness-engineering — Context Engineering = 组织 AI 的基础设施层
- ai-agent-moats — 数据飞轮/工作流嵌入/垂直专精是组织级壁垒
- agency-framework — Agency 定义边界,Agent 执行,Agency 再评估
- orchestration-free-agents — Carlini 项目是 deterministic agent 协同的极端案例
- mcp-protocol — 工具层标准化,但组织还需 Context 层和编排层
- vibe-coding-creator-motives — vibe coding 一线访谈给"L = Language"边界提供具体卡点
- ai-economy-vs-human-economy — 正交于本页的宏观二分(AI 主导 vs 人主导经济体);二者交叉构成 4 象限
- process-data-vs-output-data — 组织 AI 落地难的数据侧解释:要吃过程数据,但过程数据藏在员工身上不在公开 corpus
- work-experience-ownership — 第五重组织困境:经验上交的合法性危机
- bottleneck-shift-output-to-review — 组织 AI 落地后产能瓶颈 → 审核瓶颈的平移模式
- expertise-paradox — 生产力幻觉的机制层解释:Dunning-Kruger 在 AI 使用场景的量化(METR 39 个百分点)+ Saarinen "AI 公司是 backend 类" 给产品形态分类
- agent-ui-is-product — UI 必要性的对照:frontend 类(ChatGPT / 玩偶 / Manus)UI 是核心,backend 类(多数 AI 公司)UI 不是核心战场
- plg-sales-coordination — Kim Graves "无缝集成已有工具不强行改变行为"是 organization-level AI 落地的具体形态;销售部门 AI 化的方法论(最痛工作流切入 / 树立榜样 / 自主探索)是 deterministic agent 落地的人因维度