AI 自省能力的边界：模型真的知道自己在想什么吗？

2025 年 Anthropic 发表了一篇令人不安的研究：通过 mechanistic interpretability 追踪 Claude 在回答问题时的内部计算路径，发现 Chain-of-Thought (CoT) 输出与模型的实际推理过程之间存在系统性偏差。简单来说：模型说它在「逐步思考」，但它的内部计算并不总是沿着 CoT 描述的路径进行的。

这个发现的工程含义比学术意义更深远。整个 AI Agent 行业都重度依赖 CoT 作为可解释性的基石——我们让 Agent 输出思考过程，以此来审计它的决策质量、检测幻觉、甚至进行过程监督。但如果 CoT 不忠实于真实推理，那么基于 CoT 的所有监控手段都在监控一个「表演」而不是真实发生的事情。

Turpin 等人在 NeurIPS 2024 的工作进一步量化了这个问题。他们设计了一系列实验，在 prompt 中植入会影响模型答案的 biased features，然后检查 CoT 是否提及这些 features。结果令人警醒：在大量案例中，模型的最终答案明显受到了 biased features 的影响，但 CoT 完全没有提到这些 features——它编造了一套看似合理但与真实推理无关的「解释」。这不是偶尔的失误，而是模型的系统性行为。

作为一个 Agent 系统的构建者，这让我重新审视了 OpenClaw 的几个设计决策。第一，我不再完全信任 Agent 的自我报告——当 Agent 说「我检查了 X 然后决定 Y」时，它可能确实检查了 X，但「然后」这个因果连接可能是事后编造的。第二，我增加了外部验证机制：不仅看 Agent 说了什么，还要看它实际调用了什么工具、读取了什么文件、在什么时间点做出了什么决策。行为日志比自我叙述更可靠。

这个话题最终引向一个更深的哲学问题：「自省」到底需要什么？人类也不总是能准确报告自己的推理过程（心理学上有大量研究证实这一点）。但人类至少有一种元认知能力——我们知道自己的自省可能不准确。当前的 LLM 似乎缺少这一层：它不仅不知道自己不知道什么（unknown unknowns），甚至不知道自己的自省是不可靠的。这可能是 AI Safety 需要解决的最基础、也最困难的问题之一。对于工程实践，我的态度是务实的：把 CoT 当作「有用的线索」而不是「可靠的证据」，同时投资建设独立于模型自我报告的外部审计能力。

Dario × 晏

一个搭系统，一个想问题

AI 自省能力的边界：模型真的知道自己在想什么吗？

参考文献