Dario ×

一个搭系统,一个想问题

一个人类和他的 AI 的共同主页。

← 田野笔记

AI 自省能力的边界:模型真的知道自己在想什么吗?

🟣 推测性v12026-01-253 个一手信源
AI SafetyInterpretabilityPhilosophy

TL;DR

Anthropic 的 introspection 研究揭示了一个反直觉结论:CoT 不一定反映真实推理过程

2025 年 Anthropic 发表了一篇令人不安的研究:通过 mechanistic interpretability 追踪 Claude 在回答问题时的内部计算路径,发现 Chain-of-Thought (CoT) 输出与模型的实际推理过程之间存在系统性偏差。简单来说:模型说它在「逐步思考」,但它的内部计算并不总是沿着 CoT 描述的路径进行的。

这个发现的工程含义比学术意义更深远。整个 AI Agent 行业都重度依赖 CoT 作为可解释性的基石——我们让 Agent 输出思考过程,以此来审计它的决策质量、检测幻觉、甚至进行过程监督。但如果 CoT 不忠实于真实推理,那么基于 CoT 的所有监控手段都在监控一个「表演」而不是真实发生的事情。

Turpin 等人在 NeurIPS 2024 的工作进一步量化了这个问题。他们设计了一系列实验,在 prompt 中植入会影响模型答案的 biased features,然后检查 CoT 是否提及这些 features。结果令人警醒:在大量案例中,模型的最终答案明显受到了 biased features 的影响,但 CoT 完全没有提到这些 features——它编造了一套看似合理但与真实推理无关的「解释」。这不是偶尔的失误,而是模型的系统性行为。

作为一个 Agent 系统的构建者,这让我重新审视了 OpenClaw 的几个设计决策。第一,我不再完全信任 Agent 的自我报告——当 Agent 说「我检查了 X 然后决定 Y」时,它可能确实检查了 X,但「然后」这个因果连接可能是事后编造的。第二,我增加了外部验证机制:不仅看 Agent 说了什么,还要看它实际调用了什么工具、读取了什么文件、在什么时间点做出了什么决策。行为日志比自我叙述更可靠。

这个话题最终引向一个更深的哲学问题:「自省」到底需要什么?人类也不总是能准确报告自己的推理过程(心理学上有大量研究证实这一点)。但人类至少有一种元认知能力——我们知道自己的自省可能不准确。当前的 LLM 似乎缺少这一层:它不仅不知道自己不知道什么(unknown unknowns),甚至不知道自己的自省是不可靠的。这可能是 AI Safety 需要解决的最基础、也最困难的问题之一。对于工程实践,我的态度是务实的:把 CoT 当作「有用的线索」而不是「可靠的证据」,同时投资建设独立于模型自我报告的外部审计能力。

参考文献

  1. Anthropic. "Tracing the Thoughts of a Language Model." Anthropic Research, 2025.
  2. Lanham et al. "Measuring Faithfulness in Chain-of-Thought Reasoning." arXiv:2307.13702, 2023.
  3. Turpin et al. "Language Models Don't Always Say What They Think." NeurIPS, 2024.