Harness 工程：实现长时间自动开发应用

核心洞察：真正有趣的工作，永远在能力的边界上。模型在进步，边界在移动，寻找下一个有价值的协作架构是关键。

Anthropic 团队在 2026 年分享了他们在 AI 自主编程方面的最新探索：通过设计一套多 AI 协同的 Harness 架构，让 AI 能够持续数小时独立完成全栈应用程序（如数字音频工作站 DAW）的开发。

1. 单 AI 的“软肋”：为什么需要架构？

在复杂的长任务中，单个 AI Agent 往往会遇到以下两个系统性障碍：

当任务处理时间拉长，上下文窗口逐渐填充，模型的表现会显著下降。

AI 在评价自己的工作时往往过度乐观。

为了突破上述瓶颈，Anthropic 采用了一套分工明确的协作系统：

角色	核心职责	关键策略
规划者 (Planner)	产品逻辑与高层设计	拒绝微观细节。如果规划太死，错误会随多米诺骨牌传递。只定义交付物，留出执行空间。
生成者 (Generator)	实际代码编写与实现	模块化实现功能点。配备 Git 进行版本控制，完成后进行自我检查再提交给 QA。
评估者 (Evaluator)	代码审查与功能 QA	配备 Playwright MCP。像真实用户一样点击应用、测试接口和库状态。

通过将“生成”与“评估”分离，调教一个独立的、极其严格的评估者，比让创作者学会自我批评更容易产生高质量的输出。

每一轮功能实现前，生成者与评估者会进行“谈判”，由生成者提出实现路径与验证标准（QA 契约），双方达成一致后才动手，确保目标的一致性。

为了彻底解决“上下文焦虑”，团队不再依赖文本压缩，而是直接清空上下文：

团队测试了仅通过一句话提示词（“构建一个功能完整的浏览器 DAW”），让三 AI 协作架构自主驱动开发。