Harness 工程:实现长时间自动开发应用
核心洞察:真正有趣的工作,永远在能力的边界上。模型在进步,边界在移动,寻找下一个有价值的协作架构是关键。
Anthropic 团队在 2026 年分享了他们在 AI 自主编程方面的最新探索:通过设计一套多 AI 协同的 Harness 架构,让 AI 能够持续数小时独立完成全栈应用程序(如数字音频工作站 DAW)的开发。
1. 单 AI 的“软肋”:为什么需要架构?
在复杂的长任务中,单个 AI Agent 往往会遇到以下两个系统性障碍:
上下文焦虑 (Context Anxiety)
当任务处理时间拉长,上下文窗口逐渐填充,模型的表现会显著下降。
- 草率收尾:模型意识到上下文将满,会产生“心理压力”,开始匆忙结束任务或输出半成品代码。
- 性能衰减:长对话背景下模型容易丢失关键指令或架构约束。
自我评价失真 (Gratuitous Optimism)
AI 在评价自己的工作时往往过度乐观。
- 主观盲区:尤其在 UI/UX 设计等缺乏客观标准(如软件测试)的领域,AI 几乎总是给出高分。
- 改错动力不足:由于意识不到缺陷,AI 很难在单人循环中产生高质量的迭代方向。
2. 三 AI 协作架构 (The Squad)
为了突破上述瓶颈,Anthropic 采用了一套分工明确的协作系统:
| 角色 | 核心职责 | 关键策略 |
|---|---|---|
| 规划者 (Planner) | 产品逻辑与高层设计 | 拒绝微观细节。如果规划太死,错误会随多米诺骨牌传递。只定义交付物,留出执行空间。 |
| 生成者 (Generator) | 实际代码编写与实现 | 模块化实现功能点。配备 Git 进行版本控制,完成后进行自我检查再提交给 QA。 |
| 评估者 (Evaluator) | 代码审查与功能 QA | 配备 Playwright MCP。像真实用户一样点击应用、测试接口和库状态。 |
3. 核心工程机制
借鉴 GAN 的反馈回路
通过将“生成”与“评估”分离,调教一个独立的、极其严格的评估者,比让创作者学会自我批评更容易产生高质量的输出。
冲刺契约 (Sprint Contract)
每一轮功能实现前,生成者与评估者会进行“谈判”,由生成者提出实现路径与验证标准(QA 契约),双方达成一致后才动手,确保目标的一致性。
上下文重置 (Context Reset)
为了彻底解决“上下文焦虑”,团队不再依赖文本压缩,而是直接清空上下文:
- 启动一个全新的 AI 实例。
- 通过一份结构化交接文档传递当前状态和下一步计划。
- 相当于让精力充沛的“接班人”对照清单继续工作。
4. 实证案例:从零构建音乐制作软件 (DAW)
团队测试了仅通过一句话提示词(“构建一个功能完整的浏览器 DAW”),让三 AI 协作架构自主驱动开发。
- 运行时间:连续工作约 4 小时。
- 工程细节:生成者连续写了 2 小时代码。QA 在反馈中多次抓到了关键功能缺失(如乐器旋钮、EQ 曲线缺失),并驱动生成者完成了“最后一公里”的开发。
- 产出结果:交付了一个包含编曲视图、混音器、播放控制,且能通过自然语言驱动作曲的全栈 React 应用。
5. 总结:架构的意义
- 脚手架思维:模型越强,围绕它的架构就该越精简(不要做多余的约束)。
- 边界移动:模型在进步,但我们要用它去挑战之前根本做不到的更复杂材料。
- 工程师的价值:从过程复盘中寻找灵感,针对真实痛点设计专属的 Harness。