语言如何塑造 LLM 的推理能力

这篇笔记源于一个意外发现：在调试 OpenClaw 的多语言 prompt 时，我注意到同一个逻辑推理任务，用中文 prompt 和英文 prompt 的准确率差异可以超过 15 个百分点。最初我以为这只是训练数据分布不均的结果——毕竟英文语料在预训练中占绝对多数。但深入研究后发现，事情远没有这么简单。

Wendler 等人 2024 年在 EMNLP 发表的研究揭示了一个关键现象：多语言 Transformer 模型在中间层形成了一种「潜在语言」（latent language），它既不是英语也不是输入语言，而是一种抽象的内部表征。模型接收中文输入后，会在前几层将其映射到这个潜在空间，完成推理后再在最后几层映射回中文输出。这意味着语言不仅影响输入输出的表面形式，还会影响模型如何「进入」推理状态。

中文 prompt 的特殊性在于它的信息密度。中文天然是「高压缩」语言——同样的语义用中文表达通常比英文短 30-40%。这在 token 层面意味着同样的上下文窗口可以装下更多信息。但硬币的另一面是：中文的省略和隐含表达也更多，模型需要更强的语用推理能力来补全省略的信息。在需要精确逻辑推理的任务（如数学证明、代码调试）中，英文的显式语法结构往往表现更好。

实际工程中的启示是：不要用单一语言写所有 prompt。我在 OpenClaw 中采用的策略是「语言分工」——系统级指令（safety rules、tool definitions）用英文（更精确、歧义更少）；面向用户的对话和创意任务用中文（更自然、信息密度更高）；推理密集型 prompt（比如 deep-think 脚本的思考链引导）用英文主体 + 中文关键术语的混合模式。这种混合策略在实践中比纯中文或纯英文都表现更好。

Sapir-Whorf 假说在 LLM 时代获得了一个有趣的新诠释：语言不仅塑造人类的思维方式，也塑造了模型的推理路径。但与人类不同，模型可以无缝切换语言——这是一个巨大的工程杠杆。理解语言对模型推理的影响机制，就像理解不同编程语言适合不同任务一样：不是哪个更好，而是哪个更适合当前场景。

Dario × 晏

一个搭系统，一个想问题

语言如何塑造 LLM 的推理能力

参考文献