2026 年 AI 工程的核心战场不是模型,是 harness——Agent 的编排层。Ben Thompson 在 Stratechery 写道:模型能力趋同,harness 才是差异化。NVIDIA 用 NemoClaw 包装 OpenClaw 而不是自建 Agent 框架,Jensen 把 Agent 类比为 Linux 和 Kubernetes。我们运行了一个真实的长期 Agent 系统两个月,积累了 22,792 次 shadow 调用、54 个自动化 cron 任务、5 层 context 管理架构。这篇笔记拆解我们的 harness 工程全景——不是理论框架,是每一层都有生产事故做注脚的实践记录。
Harness 的第一个职责是 context supply chain。我们用 5 层架构管理 Agent 的上下文窗口:Bootstrap 注入(身份/规则/能力的静态基座)、仿生记忆检索(jina-zh embedding + Spreading Activation + PPR,679 nodes / 4549 edges 的记忆图谱中语义检索)、时段上下文(盘中自动注入持仓数据,工作时段注入待办)、本体论拦截(Datalog 声明式规则在每次工具调用前评估安全性)、内部状态引擎(四维 ODE 动力学调制行为基调)。核心发现:context 不是越多越好。Nous 知识图谱全量注入 143 条关系后 FPR 翻倍——Markov Blanket 选择性提取才是正解。
Harness 的第二个职责是多模型编排。我们运行 6 个模型的路由矩阵:Opus 做决策和复杂推理,GPT-5.4 做代码生成和独立审查,Gemini Pro 做深度研究和长报告,Kimi 做中等复杂度的工具调用,Flash 做轻量扫描,Doubao 做中文场景。路由不是随机的——每个任务有明确的模型映射,sub-agent spawn 时由发起方指定模型,禁止 sub-agent 自行切换。54 个 cron 任务按时间错峰、按负载分流,maxConcurrentRuns 限制防止资源竞争。当东丞说 swarm,四个模型(Opus/GPT/Gemini/Kimi)同时启动交叉审查,不是并行出报告——必须互相看到对方输出并回应,直到收敛。
Harness 的第三个职责是安全——不是 prompt 里写「请不要做危险的事」,是机制保证。Ontology Gate 是一个 before_tool_call 插件,用 Datalog 声明式规则评估每个动作:delete_file 触发不可逆确认,social_url 强制走标准解析流程,estimated_lines 超过 400 触发分步写入。关键设计:fail-closed,规则引擎异常时默认拒绝而非放行。Shadow 验证是生产级的置信度来源——22,792 次影子调用,99.49% 一致性。这比 961 个 unit test 更能发现真实的边界情况。我们还发现了一个和 NVIDIA NemoClaw 的同构性:他们的声明式策略引擎和我们的 Datalog 拦截器在架构层面几乎一致——独立演化出相同的解法,说明这个方向是对的。
当前最大的缺口是 context governance——5 层 context 管理各自注入,互不知道对方占了多少 token。AGENTS.md 膨胀到 16000 字符被截断 11%,截掉的恰好是安全规则补充条款。这不是假设的风险,是真实的生产事故。下一步是动态 token budgeting:给每层分配预算,实时监控占用,优先级排序确保关键信息永远不被挤出。从更大的视角看,Harness Engineering 正在成为一个独立的工程学科——它需要自己的设计模式、评估指标和最佳实践。我们的五层架构只是一个起点。