🏠 home › concepts › process-data-vs-output-data
tags
[AI, Agent, 数据, 训练, 产业, 隐私]
created
2026-04-27
updated
2026-04-27
sources
[raw/notes/zhao-saipo-work-experience-ai-skill-2026-04-27.md]

定义

AI 训练数据的关键分轴正在从"质量/数量/语言"转向过程数据 vs 产出数据

产出数据(Output Data) 过程数据(Process Data)
内容 已完成的产物 完成产物的过程痕迹
例子 网页正文、代码、论文、知识库文章、PR 最终代码 鼠标轨迹、键盘输入、Slack 消息、Jira 工单流转、邮件往来、SOP、屏幕快照
过去地位 主流训练数据 噪音
当前地位 已商品化、被穷尽 最难获得的训练材料
训练目标 "把问题答得像样" "把事情办完"
获取难度 公开可爬 锁在私域,需要协议/购买/植入

赵赛坡 2026-04-27 评论文章核心论点:Agent 的难处不在回答,而在把事情办完——回答靠产出数据,办完靠过程数据

为什么过程数据突然变贵

过去几年大模型靠产出数据(公开文本、代码、论文、网页)已经把"回答问题"做到了商品化程度。但 agent 要替人办事,需要学的东西不在产出里:

一个员工完成任务,可能要先读邮件,再查文档,问同事,打开工单,翻历史记录,确认权限,重做一次表格,然后把结果发到群里。中间有犹豫,有返工,有误解,也有很多看似琐碎的判断。

这些过程数据回答以下"产出数据答不出来"的问题: - 谁发起任务,谁确认需求,谁补充上下文,谁在最后承担责任 - 哪些步骤可以跳过 - 异常出现时谁来决定 - 中间为什么犹豫、为什么返工 - 真正的权限边界(不只是文档写明的,是实际操作里被默许或被堵的)

三个并行案例:过程数据攫取的三种路径

2026-04 同时出现的三个事件展示了产业在三个完全不同方向同时挖过程数据:

路径 案例 数据来源 关键时间窗
植入员工电脑 Meta MCI(Model Capability Initiative) 在职员工:鼠标移动、点击、键盘输入、屏幕快照 2026-04,全美国员工
倒闭公司打包 cielo24 / SimpleClosure Asset Hub 已倒闭公司:13 年 Slack/Jira/邮件/Drive 2026 起一年 100 笔交易,单笔 $10K-$100K
同事经验封装 同事.skill (GitHub) 离职/在职同事:飞书/钉钉/邮件/聊天截图 2026-03-30 上线,5 天 6600+ stars

三个案例同源:都不再依赖产出数据,都把人"一步步把事情做完"的过程当成核心资产。员工、公司、AI 公司三方对这同一份数据的认知完全不同: - 员工以为留下的是协作记录 - 公司看到的是效率资产 - AI 公司看到的是训练材料

与 reinforcement learning gyms 的关系

Forbes 报道揭示了过程数据的具体训练用途——"reinforcement learning gyms"(强化学习训练场): - 控制环境里让 AI agent 演练职场任务 - 数据要求:详细的、真实世界的、捕捉工作流/沟通模式/决策过程 - Anthropic 高管讨论花费高达 $1B 在此类训练基础设施上

含义:过程数据不是"再多塞点 token 进上下文",是让 agent 在仿真环境里反复演练——这需要的数据结构和过去的纯文本 corpus 完全不同(要有可重放的状态机、可审计的决策点、可回滚的副作用边界)。

harness-engineering 的对照

Harness Engineering 关注的是让 agent 在新环境里能跑起来(cache 经济学、五层压缩、熔断器、并行化)。过程数据关注的是让 agent 学会人类怎么在这种环境里跑

两者是 agent 工程的两面: - Harness:环境给 agent 准备好(基础设施层) - 过程数据:教 agent 怎么用这个环境(训练层)

CREAO 的 "环境稳定 50→90 分" 论断(ai-first-engineering)讲 Harness 的杠杆。过程数据论点补上了"那剩下 10 分能不能突破,决定权在能不能拿到 frontier 级过程数据"。

individual-vs-institutional-ai 的连接

Sivulka 的"我们换了电机但没重新设计工厂"判断是从组织视角讲 AI 落地难。过程数据论点是从数据视角给同一难题的另一个解释——

组织 AI(Deterministic Agent)需要的不只是"组织流程接入 LLM",是"组织把自己变成机器可读的形态"。这个变换的底层动作就是把过程数据从员工脑子里、习惯里、隐性知识里提取出来变成 SOP / skill / 工单流

AI 要进入办公室,办公室里的工作就得先变成机器看得懂的格式。

隐私与所有权问题

过程数据的特殊性在于它本质上是身份的痕迹——长期员工的沟通模式、决策习惯、特定问题的处理方式都具有指纹般的独特性。即使匿名化也难以抹掉这种身份痕迹(Marc Rotenberg / Center for AI and Digital Policy 观点)。

由此引出 work-experience-ownership 的法律真空问题——过程数据的提取和销售目前在劳动法、知识产权法、数字治理之间的夹缝里。

与新型公司机会的关系

赵赛坡判断的"将催生的新公司类型":

它们不一定训练模型,却专门处理流程改造、数据清洗、隐私合规、行业 skill 库和企业 AI 治理。它们未必有最强模型,却可能掌握 agent 进入公司日常工作的入口。

这与 ai-agent-moats 的"垂直专精"和"工作流嵌入"两条护城河同源——过程数据是垂直专精的真正载体: - 通用 agent 知道怎么写邮件,但不知道某行业里"什么样的邮件谁会回" - 通用 agent 知道怎么查权限,但不知道某公司里"权限文档没写但实际能跳过哪一步"

行业过程数据(藏在工单、群聊、会议纪要、老员工习惯里)是真护城河;agent UI 不是。

Sentino 的应用含义

Sentino Agent 平台(sentino-agent)当前定位是 LLM 推理调度 + 工作流引擎,过程数据视角给三层启示:

  1. Standalone Agent 的数据价值不在 latest 输出——而在 agent 执行过程中产生的工具调用序列、中间判断、回退点(这些当前没有结构化沉淀)
  2. 客户接入后的真正资产——不是 prompt + 工具配置,而是客户实际场景下"哪些 prompt 调通哪些没调通 / 哪些工具被频繁触发哪些从来不被调用 / 哪些异常情况是怎么被人工兜底的"
  3. sentino-memex 记忆服务的潜在重叠:Memex 当前记的是"事实/偏好"(产出数据形态),但客户长期用下来积累的"agent 怎么完成这个任务的最佳路径"是过程数据,需要不同的数据结构和提取流水线

适用边界

相关概念