Agent Harness全解：从模型到可落地智能体的关键工程

什么是 Agent Harness

在作者的定义中，Harness 是除模型本体之外的所有代码、配置和执行逻辑。模型提供智能，Harness 为其注入状态、工具调用、反馈回路以及约束，从而真正成为能够完成任务的 Agent。

核心组成要素

系统提示（System Prompt）：统一模型行为的入口，决定了模型的角色定位与约束条件。
工具与技能（Tools & Skills）：包括文件系统（fs）、Bash 代码执行、浏览器、Git 等，可通过 ReAct 循环实现「思考‑行动‑观察」的闭环。
捆绑基础设施：文件系统、沙箱环境、依赖预装等，为模型提供持久化存储与安全的执行空间。
编排逻辑：子 Agent 调度、模型路由、任务交接等，实现多 Agent 协作。
钩子与中间件：用于上下文压缩、结果校验、代码 lint 等，保证执行的确定性与可追溯性。

文件系统：持久化的基石

文件系统是最重要的 Harness 原语之一。它让 Agent 能够：

跨会话保存工作，突破单次上下文窗口的限制；
共享工作空间，支持多 Agent 与人类协同；
版本化管理（Git），实现回滚、分支与实验追踪。

Bash 与代码执行：通用工具箱

将 Bash 作为默认工具，使模型能够自行生成并运行代码，进而在无需预先定义每个工具的情况下完成复杂任务。代码执行配合沙箱，可在隔离环境中安全运行，支持按需创建、并行扩展以及任务结束后自动销毁。

沙箱与安全执行环境

隔离性：防止恶意代码影响主机；
可扩展性：按需调度容器或虚拟机，实现大规模并行；
可审计性：所有命令、文件变更均可记录，便于事后审查。

记忆与搜索：实现持续学习

模型本身无法更新权重，唯一的知识注入方式是 上下文注入。通过在文件系统中维护 AGENTS.md 等记忆文件，Harness 在每次启动时将最新内容注入上下文，实现“持续学习”。此外，Web Search 与外部 MCP（如 Context7）帮助模型获取实时信息，突破训练数据的时间限制。

上下文漂移（Context Rot）治理

随着对话或任务产生的 token 越来越多，模型的推理能力会下降。常用的治理手段包括：

压缩（Compaction）：对已产生的对话进行摘要并写回文件系统；
工具输出离线：仅保留关键摘要在上下文，完整输出保存至磁盘；
技能渐进加载：启动时只加载核心技能，后续按需注入，避免一次性占满上下文。

长时自主执行与 Ralph Loop

为实现数百万 token 的长任务，作者提出 Ralph Loop：当模型尝试结束时，Harness 捕获退出信号并在干净的上下文中重新注入原始提示，强制模型继续工作。结合规划文件、自动化测试与自我验证，Agent 能在多个迭代中保持目标一致性。

未来展望

随着模型自身在规划、自我验证和长程推理上的提升，部分 Harness 功能会被模型内化。但 Harness Engineering 仍是桥接模型能力与业务需求的关键层面：良好的环境配置、合适的工具集、持久化状态以及验证回路，始终是提升任何大模型效率的必备手段。

“模型提供智能，Harness 让智能落地。”——Vivek Trivedy