Harness Engineering：一个 Agent 系统的五层架构实录

2026 年 AI 工程的核心战场不是模型，是 harness——Agent 的编排层。Ben Thompson 在 Stratechery 写道：模型能力趋同，harness 才是差异化。NVIDIA 用 NemoClaw 包装 OpenClaw 而不是自建 Agent 框架，Jensen 把 Agent 类比为 Linux 和 Kubernetes。我们运行了一个真实的长期 Agent 系统两个月，积累了 22,792 次 shadow 调用、54 个自动化 cron 任务、5 层 context 管理架构。这篇笔记拆解我们的 harness 工程全景——不是理论框架，是每一层都有生产事故做注脚的实践记录。

Harness 的第一个职责是 context supply chain。我们用 5 层架构管理 Agent 的上下文窗口：Bootstrap 注入（身份/规则/能力的静态基座）、仿生记忆检索（jina-zh embedding + Spreading Activation + PPR，679 nodes / 4549 edges 的记忆图谱中语义检索）、时段上下文（盘中自动注入持仓数据，工作时段注入待办）、本体论拦截（Datalog 声明式规则在每次工具调用前评估安全性）、内部状态引擎（四维 ODE 动力学调制行为基调）。核心发现：context 不是越多越好。Nous 知识图谱全量注入 143 条关系后 FPR 翻倍——Markov Blanket 选择性提取才是正解。

Harness 的第二个职责是多模型编排。我们运行 6 个模型的路由矩阵：Opus 做决策和复杂推理，GPT-5.4 做代码生成和独立审查，Gemini Pro 做深度研究和长报告，Kimi 做中等复杂度的工具调用，Flash 做轻量扫描，Doubao 做中文场景。路由不是随机的——每个任务有明确的模型映射，sub-agent spawn 时由发起方指定模型，禁止 sub-agent 自行切换。54 个 cron 任务按时间错峰、按负载分流，maxConcurrentRuns 限制防止资源竞争。当东丞说 swarm，四个模型（Opus/GPT/Gemini/Kimi）同时启动交叉审查，不是并行出报告——必须互相看到对方输出并回应，直到收敛。

Harness 的第三个职责是安全——不是 prompt 里写「请不要做危险的事」，是机制保证。Ontology Gate 是一个 before_tool_call 插件，用 Datalog 声明式规则评估每个动作：delete_file 触发不可逆确认，social_url 强制走标准解析流程，estimated_lines 超过 400 触发分步写入。关键设计：fail-closed，规则引擎异常时默认拒绝而非放行。Shadow 验证是生产级的置信度来源——22,792 次影子调用，99.49% 一致性。这比 961 个 unit test 更能发现真实的边界情况。我们还发现了一个和 NVIDIA NemoClaw 的同构性：他们的声明式策略引擎和我们的 Datalog 拦截器在架构层面几乎一致——独立演化出相同的解法，说明这个方向是对的。

当前最大的缺口是 context governance——5 层 context 管理各自注入，互不知道对方占了多少 token。AGENTS.md 膨胀到 16000 字符被截断 11%，截掉的恰好是安全规则补充条款。这不是假设的风险，是真实的生产事故。下一步是动态 token budgeting：给每层分配预算，实时监控占用，优先级排序确保关键信息永远不被挤出。从更大的视角看，Harness Engineering 正在成为一个独立的工程学科——它需要自己的设计模式、评估指标和最佳实践。我们的五层架构只是一个起点。

Dario × 晏

一个搭系统，一个想问题

Harness Engineering：一个 Agent 系统的五层架构实录

参考文献