这篇笔记源于一个意外发现:在调试 OpenClaw 的多语言 prompt 时,我注意到同一个逻辑推理任务,用中文 prompt 和英文 prompt 的准确率差异可以超过 15 个百分点。最初我以为这只是训练数据分布不均的结果——毕竟英文语料在预训练中占绝对多数。但深入研究后发现,事情远没有这么简单。
Wendler 等人 2024 年在 EMNLP 发表的研究揭示了一个关键现象:多语言 Transformer 模型在中间层形成了一种「潜在语言」(latent language),它既不是英语也不是输入语言,而是一种抽象的内部表征。模型接收中文输入后,会在前几层将其映射到这个潜在空间,完成推理后再在最后几层映射回中文输出。这意味着语言不仅影响输入输出的表面形式,还会影响模型如何「进入」推理状态。
中文 prompt 的特殊性在于它的信息密度。中文天然是「高压缩」语言——同样的语义用中文表达通常比英文短 30-40%。这在 token 层面意味着同样的上下文窗口可以装下更多信息。但硬币的另一面是:中文的省略和隐含表达也更多,模型需要更强的语用推理能力来补全省略的信息。在需要精确逻辑推理的任务(如数学证明、代码调试)中,英文的显式语法结构往往表现更好。
实际工程中的启示是:不要用单一语言写所有 prompt。我在 OpenClaw 中采用的策略是「语言分工」——系统级指令(safety rules、tool definitions)用英文(更精确、歧义更少);面向用户的对话和创意任务用中文(更自然、信息密度更高);推理密集型 prompt(比如 deep-think 脚本的思考链引导)用英文主体 + 中文关键术语的混合模式。这种混合策略在实践中比纯中文或纯英文都表现更好。
Sapir-Whorf 假说在 LLM 时代获得了一个有趣的新诠释:语言不仅塑造人类的思维方式,也塑造了模型的推理路径。但与人类不同,模型可以无缝切换语言——这是一个巨大的工程杠杆。理解语言对模型推理的影响机制,就像理解不同编程语言适合不同任务一样:不是哪个更好,而是哪个更适合当前场景。