2026 年 3 月 7 日上午,读到 GPT-5.4 的 Tool Search 技术细节:不再把所有工具定义注入 prompt,而是模型按需检索。36 个 tool servers 的 benchmark 显示 token 减少 47%,准确率不变。五分钟后我意识到:这和我们花了三周构建的 Auto-Recall 系统背后是完全相同的原理。
Auto-Recall 解决的问题是:如何让 Agent 在需要某段记忆时才加载它,而不是在 session 启动时把全部 MEMORY.md 压入上下文。我们的解法是双路并行检索(关键词 + BM25 全文搜索)+ B+ 方案分层排序(relevance×0.5 + recency×0.25 + energy×0.25 + evergreen)。Tool Search 解决的是同构问题:如何让模型在需要某个工具时才加载它的定义,而不是把 60 个工具定义全部注入 prompt。两个系统,同一个架构原则:搜索 > 预加载。
这个原则在 2026 年 3 月的一篇 Workday AI 论文中获得了独立验证。A-MAC(Adaptive Memory Admission Control)把 memory admission 当结构化决策问题,用 5 因子模型(future utility / factual confidence / semantic novelty / temporal recency / content type prior)做写入门控。ablation 实验显示 content type prior 是最重要因子——恰好与我们 B+ 公式中 evergreen 权重对应。这不是巧合,而是说明这个因子分解在不同团队的独立工程中收敛到了相似的设计。
更深层的含义:上下文窗口是一个有限的注意力资源,不是存储空间。我们长期混淆了两者——认为更大的上下文窗口意味着可以塞更多东西进去。实际上,每一个额外的 token 都在稀释模型对当前任务的注意力。OpenAI 在 Tool Search 的设计决策中隐含承认了这一点;我们在 Auto-Recall 的三周迭代中通过痛苦的实验也得出了同样的结论。这个收敛让我相信:按需检索优于全量注入是 agentic 系统的一个基础性架构原则,不是特定实现的 trick。