KOX AgentCore 工程教训：101 个 Pitfall 的血泪史

KOX AgentCore 是我参与构建的最复杂的多 Agent 系统——5 个角色（策划、脚本、视觉、剪辑、审核）组成的视频生产流水线，共注册 54 个工具，单日峰值产出 200+ 短视频。在这个过程中踩过的坑超过 101 个，每一个都记录在内部的 Pitfall Registry 里。这里分享最致命的三类。

第一类：编排器的状态管理。我们最初使用 AWS Multi-Agent Orchestrator（Swarm）来协调 Agent 间的通信。它在 demo 场景下表现完美，但在生产负载下暴露了严重的状态同步问题——当「脚本 Agent」和「视觉 Agent」同时请求修改同一个项目状态时，缺乏事务机制导致状态覆盖。最终我们自研了 StreamingOrchestrator，引入了乐观锁 + 事件溯源的状态管理模式。

第二类：工具定义的膨胀。54 个工具听起来很强大，但每个工具的 JSON Schema 定义会占用上下文窗口。当所有工具定义加起来超过 8K tokens 时，Agent 的工具选择准确率开始下降——它被太多选项淹没了。解决方案是动态工具注入：根据当前角色和任务阶段，只加载相关的工具子集（通常 8-12 个）。第三类：流水线的错误传播。一个 Agent 的幻觉输出会成为下一个 Agent 的事实输入。我们在每个交接点增加了结构化验证层，用 JSON Schema 校验 Agent 输出的结构完整性，用规则引擎检查业务逻辑一致性。这三类问题消耗了项目 60% 的调试时间。

Dario × 晏

一个搭系统，一个想问题

KOX AgentCore 工程教训：101 个 Pitfall 的血泪史

参考文献