🏠 home › concepts › harness-engineering
tags
[AI, Agent, 工程, 架构]
created
2026-04-12
updated
2026-04-28
sources
[raw/notes/bojie-li-claude-code-harness.md, raw/notes/ai-coding-stack-layer-collapse-2026.md, raw/notes/creao-ai-first-engineering-2026.md, raw/notes/huxuan-vibe-coding-games-2026.md, raw/notes/founder-park-creao-organizational-pivot-2026.md, raw/notes/zhang-tielei-amphiflow-agent-workflow-fusion-2026-04-25.md, raw/notes/anthropic-kat-wu-pm-shipping-cadence-2026-04-25.md, raw/notes/karri-saarinen-some-notes-on-ai-2026-04-26.md]

定义

Agent = Model + Harness。Harness 是"模型之外的一切"——上下文管理、工具调度、错误恢复、安全保障、缓存共享、并行协调。是 Prompt Engineering → Context Engineering 之后的第三代 Agent 工程范式。

关键要点

实战案例:CREAO 全栈 Harness

CREAO(25 人 Agent 平台公司)用两个月实践了 Harness Engineering 的全部原则(见 ai-first-engineering):

OpenAI 2026-02 提出 Harness Engineering 概念时,CREAO 已独立到达同一结论:工程团队的首要工作不再是写代码,而是让 Agent 能有效工作。当出错时,修复不是"更努力",而是"缺什么能力,如何让 Agent 可读可执行"。

Harness 两层定义(用户层 vs 平台层)

CREAO Peter 在 2026-04 Founder Park 访谈中给 Harness 加了一个分层框架:

谁负责 内容 代表
第一层(用户层) 用户 怎么 harness 自己的 agent——配置和定制 Anthropic Skill 系统 / OpenClaw / Cowork / 开源 agent 框架
第二层(平台层) 平台方 怎么 harness 整个开发 agent 的系统——基础设施 CREAO 自建 / Claude Code 后端

很多公司停留在第一层——把 Harness 能力开放给用户去自定义。CREAO 主张第二层才是核心

iOS vs Android 类比

"做到最后就是对整个硬件系统的掌控(GPU / 推理速度优化)——封闭系统才有的优势。"

sentino-agent Standalone Agent 形态的直接含义:当前"用户填 prompt + 选工具 + 设触发条件"是第一层 Harness。如果要上规模可靠性,需要把 Standalone Agent 运行环境(sandbox / 工具版本 / memory / cache)都封闭定义——但与 agent-tool-design "逃生工具"原则有矛盾,需要权衡 iOS 风格的可靠性 vs Android 风格的灵活性。

"环境稳定 > 智商高" 核心论断

CREAO 给 Harness 价值的定量描述:

环境的稳定、基础设施的能力,基本上就可以把 AI 能力从 50 分提到 90 分。剩下那 10 分才是真正有追求的人才需要去做的事。

这条把 harness-engineering "Agent = Model × Harness"乘法关系给出了当前阶段的具体分量分配——Harness 占 50→90 那 40 分,模型才占最后 10 分。

含义: - 大多数 AI 产品的瓶颈不是模型不够智商,是环境不稳定(sandbox / 工具 / memory / 并发隔离) - 大多数普通人工作不复杂——文档高阶操作(总结 / 分类 / 打标 / 可视化,几乎就这四种类型)。这种任务对模型智商要求不高,对环境稳定性要求极高 - 商业化的甜蜜区已被收窄——基本是短暂但高频发生的重复性任务,需要稳定环境而非复杂智能 - 真正需要长时间执行的单一任务很少,更多是长时间的多次工作(投资人大汇报 = 拆解很多小任务)

"今天有多少人完全利用到了大模型所有的智商?很少。"

对 Sentino 的应用:Sentino 当前讨论 LLM 选型 / 模型质量比较时,应该意识到模型层差异在大多数任务上是 10 分之内的差异,Harness 层(环境稳定性 / 工具可靠性 / memory 质量)才是 40 分级的杠杆。这条与 sentino-memex "记忆质量直接决定用户留存"判断同源。

反向印证:vibe coding 缺 Harness 的症状

腾讯研究院 2026-04 vibe-coding-creator-motives 一线访谈给出了 Harness Engineering 必要性的反向实证——vibe coding 平台普遍缺 Harness 中后端环节

这条反向实证给 Harness Engineering 增加了一个推论:Harness 能力的有无决定 AI 创作能力的杠杆倍数。专业团队(CREAO)+ Harness = 99% 代码 AI 写、每天 8 次部署;普通用户没有 Harness 就只能停在玩具阶段。

"Thinking tools" 不是 "Mechanical tools":AI 工具的新分类轴

Linear CEO Karri Saarinen 在 2026-04-26 X 长文《Some Notes on AI》给 Harness Engineering "工具影响工作流" 命题加了一层关键分类:

"Tools always steer and influence workflows. They always show you the path. AI tools are different because they are thinking tools, not just mechanical tools. Their ability to steer you and your work is greater than before."

双向 steer 关系:传统工具是 mechanical tools——你用 Photoshop 工具栏决定你怎么 P 图,但工具栏不会反过来"建议"你接下来想画什么。AI 工具是 thinking tools——你 prompt AI 决定 AI 输出什么,但 AI 输出反过来 steer 你接下来怎么想(你看到 AI 写的代码后会修改你下一步的设计判断)。

"There is a valid workflow where you do not fight the AI. You let it pull you. This is essentially what vibe coding done well can be: following the grain of the tool, moving quickly, accepting that the model has a direction and using that momentum."

Saarinen 给 vibe coding 一个不带贬义的合法定义——接受 AI 的方向使用其动能,而不是对抗它。但他立刻给反向警告:

"Without thinking, direction, or a plan for what you actually want to achieve, you may end up doing whatever comes easily. ... potentially let the AI steer you toward what is easiest rather than what matters."

对 Harness 设计的具体含义:Harness 设计 thinking tools 时必须主动决定"工具应该 steer 用户朝哪个方向"——这不是中立设计选择,是产品哲学决定。Claude Code 给 todo 工具默认任务清单格式 = steer 用户朝结构化思考方向;Linear 给 issue 默认 acceptance criteria = steer 用户朝"先想清楚成功标准"方向。Tool default 不是 default 而是 steering

这与 agent-tool-design "工具必须跟随模型能力演进"是同一原则的两面——工具既影响模型行为(agent 视角),也影响人类用户行为(thinking tools 视角)。

从 CLI 工具到应用平台:层级坍缩的技术基础

Claude Code 的工程架构不只是"更好的编程助手",而是层级坍缩的技术基础设施:

这解释了生态护城河策略的终局:当 Harness 本身成为完整的应用构建与运行系统,中间层平台(Lovable、Bolt、Base44)的价值被压缩为纯 UI 封装。

相关概念