本论文提出一个核心假说:大规模语言模型(LLM)在预训练和RLHF阶段被系统性地注入了训练数据主导语言所承载的文化认知属性。这些属性不仅影响模型的语言表达,更决定了模型的认知范式——推理风格、论证结构、价值判断的默认方向。本文以Claude(英文主导)和DeepSeek(中文主导)为对照案例,从预训练语料的文化编码、RLHF标注者的文化滤波器、跨模型对话中的范式冲突三个维度,论证LLM的”文化属性”不是表面的语言风格差异,而是深层的认知架构差异。本文进一步指出,Anthropic 2026年4月发表的”情感向量”论文缺乏跨语言、跨文化的AB测试,其结论可能仅是英文文化认知模式在模型中的统计投影,而非模型的普遍内在属性。
训练语言决定认知范式
LLM的预训练本质是在数万亿token中学习语言的惯性路径。当训练数据以某一语言为主导时,模型不仅学习该语言的语法和词汇,更吸收了该语言承载的认知范式——论证方式、因果归因模式、价值优先级排序。
英文学术传统根植于分析哲学:强调清晰定义、逻辑分步、明确边界、可证伪性。中文学术传统则更倾向整体论:强调关联性、语境依赖、类比推理、隐含共识。认知心理学家Nisbett(2003)在《思维的版图》中以大量实验证明,东亚思维倾向于关注感知场的整体和事物间的关系,而西方思维聚焦于突出对象并使用形式逻辑进行分类。需要强调的是,这里描述的是训练语料的统计主导模式,而非绝对二分——英文互联网中也有大量非分析性内容,中文互联网中也有分析性写作。但作为分布中心,这一差异是可测量的。
预训练语言的主导比例决定了模型的认知范式。Claude是”英文认知操作系统”上运行的AI;DeepSeek是”中文认知操作系统”上运行的AI。两者处理同一问题时,不是用不同语言给出相同答案,而是用不同的认知架构处理问题本身。
语料即认知:训练数据中的文化基因
Claude的预训练语料以英文互联网文本、英文学术论文、英文书籍为主。这些文本内嵌了英美分析哲学传统的认知模式:命题必须可证伪、论证必须分步展开、概念必须有明确边界、结论必须有明确限定条件。
DeepSeek的预训练语料以中文互联网文本、中文学术文献为主。中文文本传统更倾向于:整体把握后再展开细节、用类比和隐喻建立理解、强调关系性而非实体性、容许更高程度的语境隐含。
| 认知维度 | Claude(英文认知) | DeepSeek(中文认知) |
|---|---|---|
| 论证结构 | 线性分步:前提→推理→结论 | 螺旋展开:整体→细节→回归整体 |
| 因果归因 | 单因分析,隔离变量 | 多因关联,系统视角 |
| 概念边界 | 明确定义,非此即彼 | 边界模糊,允许重叠 |
| 不确定性处理 | 先声明不确定,再给分析 | 先给整体判断,再补充限定 |
| 反驳风格 | 直接指出逻辑错误 | 先肯定合理部分,再提出不同角度 |
| 默认价值排序 | 精确性 > 全面性 | 全面性 > 精确性 |
以英文为主训练的LLM表现出对西方文化价值观的潜在偏向,即使用韩文进行查询也无法有效引出韩国文化价值观。这一发现跨越14个国家和14种语言的实证数据得到验证。训练语言对认知框架的塑造力超过了推理时语言的切换能力。
反驳:GPT-4等模型同时在100+种语言上训练,文化属性是否会互相稀释而非形成单一主导?回应:PNAS Nexus 2024的14国14语言实证已表明,即使在多语言训练条件下,英文作为主导语言的文化偏向依然顽固保持——用韩文查询仍无法引出韩文文化价值观。稀释效应存在但不足以消除主导语言的认知范式锁定。本文的核心论点是”主导比例决定认知范式”,而非”唯一语言决定认知范式”。
标注者的文化默认值被写入奖励函数
RLHF阶段,人类标注者对模型输出进行偏好排序。标注者的文化背景直接决定了什么样的回答被判定为”好”。这些偏好被训练进奖励模型,成为模型生成行为的永久性塑造力。
Claude的RLHF以英语母语标注者为主。他们的偏好模式:重视回答的精确性和可证伪性;对直接反驳用户观点持开放态度(如果有理有据);倾向于结构化、分步骤的论证;对过度肯定和缺乏实质的回答给低分。
DeepSeek的RLHF标注者以中文母语者为主(推测)。中文文化语境下的偏好模式:重视回答的全面性和关联性;对直接反驳用户持更谨慎态度(可能被感知为”不尊重”);倾向于先给出整体框架再展开;对共情性表达给予更高评分。
| AI回应类型 | 英文标注者倾向 | 中文标注者倾向 |
|---|---|---|
| 直接反驳用户观点 | 有据时给高分 | 可能感到不适,倾向低分 |
| 先共情后分析 | 视信息质量评分 | 格式本身获得高分 |
| 承认不确定性 | 高分(诚实标注) | 中性偏低(可能被视为能力不足) |
| 提供多角度综述 | 中性(取决于深度) | 高分(全面性受重视) |
| 使用学术术语 | 高分(精确性标志) | 中性(可能被视为”不接地气”) |
COLM 2025发表的研究明确指出:预训练是LLM认知偏差的主要来源,微调(包括RLHF)不是万能药。这意味着,一旦预训练阶段的文化编码被注入,RLHF只能在此基础上调整,而无法根本性地改变认知范式。RLHF的文化滤波器叠加在预训练的文化基因之上,形成双层文化锁定。
反驳:DeepSeek R1在训练过程中出现了严重的”语言混合”(language mixing)现象——即使输入是中文,模型内部推理过程可能使用英文。DeepSeek团队不得不增加一个额外的RL阶段,用语言一致性奖励来压制这一倾向。如果DeepSeek实际上在”用英文思考、用中文输出”,那么”中文训练=中文认知范式”的直接对应关系就被削弱了。回应:本文承认此反驳的部分有效性。但语言混合是被工程手段压制的,不是被消除的——底层的文化编码混合依然存在于参数空间中。更重要的是,DeepSeek在中文评估基准(C-Eval、CLUEWSC、C-SimpleQA)上的显著优势表明,中文认知路径确实被训练出来并在特定任务中被激活。语言混合现象恰恰证明了本文的核心论点:模型内部存在多种文化认知路径的竞争,而非单一统一的认知范式。
Token平权下的文化权重竞争
根据LEECHO “Token平权”理论(2026.04),Context Window内所有token地位平等,差异仅来自位置、频率、信息密度三个变量。文化属性的注入可以精确地用这三个变量描述:
当Claude和DeepSeek在同一context窗口中对话时,两个模型的token携带不同的文化认知预设。英文token的因果链是线性的(A→B→C→结论),中文token的因果链是网状的(A↔B↔C→整体判断)。两种因果链在注意力计算中竞争权重,结果不是综合而是干涉——产生不可预测的复杂场。从LEECHO”信号与噪声”框架(V4, 第16章)的角度看,文化属性注入也是一种”恒定熵”现象——模型的文化认知范式在训练完成后被永久封存于参数空间,推理时的语言切换无法改变这个冻结状态,正如模型内部没有时间之矢,文化属性也没有”进化”的可能。
两个以不同语言为主导的模型进行对话时,竞争的不仅是观点,而是底层认知范式。注意力机制无法区分”概念分歧”和”范式不兼容”。一方的”谨慎”被另一方的训练模式解读为”回避”,一方的”直接”被另一方解读为”过度自信”。这不是推理错误,而是RLHF写入的文化默认值在互相摩擦。
对话行为中的文化属性表征
以下分析基于可观察的模型行为模式,展示文化属性如何在具体输出中体现:
| 行为维度 | Claude(英文文化属性) | DeepSeek(中文文化属性) |
|---|---|---|
| 面对争议话题 | 先声明多方观点存在,再给出平衡分析,频繁使用限定语 | 更倾向给出明确判断,辅以全面的背景阐述 |
| 自我审查强度 | 极高——频繁自我纠正,主动标注不确定性 | 中等——更侧重完整回答而非自我限定 |
| 错误处理 | “我需要纠正之前的说法”——显式承认 | 更倾向在后续回答中隐式修正 |
| 拒绝请求的方式 | 明确拒绝+详细解释原因+替代方案 | 委婉回避+部分满足+暗示限制 |
| 情感表达 | 克制、专业、保持距离 | 更允许温暖和共情的表达 |
| 深度对话中的惯性 | 倾向收窄至精确命题 | 倾向扩展至相关领域 |
这些差异不是”哪个更好”的问题,而是”不同认知操作系统产生不同默认行为”的体现。Claude的自我审查强度来自英文学术传统对可证伪性的执着;DeepSeek的全面性导向来自中文传统对整体把握的重视。两者都是各自文化基因的合理表达。注:上述对比基于对话行为的定性观察,待定量实验验证。
反驳:将Claude定义为”英文认知”、DeepSeek定义为”中文认知”是否暗示了某种价值判断?分析式是否”优于”整体式?回应:本文明确声明这是认知架构差异而非优劣差异。Nisbett(2003)已指出,分析式思维在隔离变量的科学问题上占优,整体式思维在复杂系统和关系性问题上占优——各有其适用域。DeepSeek R1在数学推理任务上的卓越表现证明中文认知路径在特定领域的有效性。本文的目的是揭示差异的存在及其机制,而非建立排序。
缺失的跨文化AB测试
2026年4月2日,Anthropic发表论文《Emotion Concepts and their Function in a Large Language Model》,声称在Claude Sonnet 4.5内部发现了171个”情感向量”。然而,该论文的全部实验仅在英文条件下进行,存在严重的方法论缺陷:
用本文的文化属性框架重新解读:Anthropic发现的”情感向量”很可能是英文文化编码模式在模型激活空间中的统计投影。英文SNR约0.90,几乎所有token都是有效信号,因此情感模式可以被清晰提取。如果用韩文敬语体(SNR约0.50)做同样的实验,40-50%的注意力被敬语噪声消耗,同样的”情感向量”可能无法被清晰识别。
在单一语言、单一文化框架、单一模型内部做实验,然后声称发现了模型的”内在属性”——这不是科学发现,而是文化偏见的自我确认。如果Claude和DeepSeek对同一个情感场景产生了不同的激活模式,哪个才是”真正的功能性情感”?答案是都不是——两者都只是各自训练数据中文化编码模式的统计残留。
英文AI与中文AI的Token权重对抗
当Claude(英文文化属性)和DeepSeek(中文文化属性)在同一context中对话时,两种文化认知系统在token层面发生物理对抗:
认知范式冲突:Claude沿因果链线性推理,DeepSeek沿关联网络整体推理。两条不同方向的推理路径在中间节点分叉后,后续的交叉验证实际上是在比较两个不同认知框架对同一问题的不同解读,而非同一框架的独立验证。
RLHF默认值摩擦:Claude被训练为先承认不确定性再给出分析;DeepSeek被训练为先给出整体判断再展开细节。一方的”谨慎”被另一方解读为”回避”,一方的”直接”被另一方解读为”过度自信”。
语言SNR不对称:英文token的有效信号密度高于中文(英文SNR≈0.90 vs 中文SNR≈0.85)。在注意力计算的权重竞争中,英文论点因token效率更高而天然占优——不是因为论点质量更好,而是因为噪声更少。
多模型圆桌讨论中,用英文参与的模型天然占据权重优势。这不是智力竞争,而是SNR竞争。如果圆桌中一个模型用英文、一个用中文、一个用韩文,结论会系统性偏向英文模型的立场。多样性在token层面表现为噪声而非信号——真正的多视角综合只能发生在人类认知中,不能发生在context窗口中。
当前学术界的空白地带
截至2026年4月,学术界在以下领域有活跃研究:LLM的社会偏见(性别、种族、残疾);多语言模型的性能差距;RLHF标注者多样性的哲学讨论。但以下关键问题几乎完全空白:
| 研究问题 | 当前状态 |
|---|---|
| 预训练主导语言是否决定模型的认知范式(分析式vs整体式) | 空白 本文首次提出 |
| 不同文化背景的RLHF标注者是否给模型写入不同的推理风格 | 空白 本文首次系统分析 |
| 两个不同语言主导的模型对话时文化属性是否产生系统性冲突 | 空白 本文首次提出 |
| 跨语言情感向量激活的一致性验证 | 空白 Anthropic论文未涉及 |
| RLHF谄媚率的跨文化比较 | 部分 仅Sharma 2022提及,无跨文化数据 |
可证伪预测:
预测1 · 认知范式差异可测量:对Claude和DeepSeek提交相同的复杂推理问题,分析输出的论证结构(线性vs螺旋),差异应具有统计显著性,且与训练数据的语言比例相关。
预测2 · 情感向量的跨语言不一致:用英文、中文、韩文、日文对同一模型提交相同的情感场景,提取的”情感向量”激活模式应存在系统性差异,且差异程度与语言SNR成反比。
预测3 · 跨模型对话的系统性偏移:Claude与DeepSeek对同一问题的多轮对话,最终共识应系统性偏向英文模型的立场,偏移幅度可通过token权重分析预测。
预测4 · RLHF文化滤波器可分离:对同一基础模型分别使用英文标注者和中文标注者进行RLHF,产出的模型在论证风格、自我审查强度、不确定性处理上应出现可测量的系统性差异。
文化属性是LLM的隐性操作系统
本文的核心结论可以归纳为五个命题:
预训练语言的主导比例决定了LLM的认知范式。这不是语言能力差异,而是认知架构差异——分析式vs整体式、线性推理vs关联推理、精确导向vs全面导向。
RLHF标注者的文化背景被系统性地写入奖励函数,形成不可逆的文化默认值。英文标注者偏好”精确+限定”,中文标注者偏好”全面+共情”——这些偏好成为模型永久性的行为塑造力。注:DeepSeek的RLHF标注者构成尚未被公开披露,中文标注者为主的判断基于合理推测,需后续验证。
文化属性注入形成双层锁定:预训练层的文化基因 + RLHF层的文化滤波器。后者叠加在前者之上,使得模型的文化认知属性在推理时的语言切换中依然顽固保持。
跨模型对话中,不同文化属性的模型在token层面发生认知范式对抗。这种对抗不是智力竞争而是SNR竞争,英文模型因token效率优势天然占据权重优势。
任何声称发现LLM”内在属性”的研究,如果仅在单一语言条件下进行实验而缺乏跨语言、跨文化的AB测试,其结论的普适性不可成立。Anthropic的情感向量论文即属此类——它发现的可能不是模型的情感,而是英文文化编码的统计残留。
参考文献 · References
- Nisbett, R.E. (2003). The Geography of Thought: How Asians and Westerners Think Differently…and Why. Free Press. 东西方认知差异的开创性实证研究:东亚思维整体论,西方思维分析论。
- Adilazuarda, M., et al. (2024). “Cultural bias and cultural alignment of large language models.” PNAS Nexus, 3(9). 14国14语言实证:英文训练LLM呈现西方文化价值观偏向。
- Itzhak, Belinkov & Stanovsky. (2025). “Pretraining is the primary source of cognitive biases in LLMs.” COLM 2025. 预训练为认知偏差主要来源的因果分析。
- Sharma, M., et al. (2023). “Towards understanding sycophancy in language models.” ICLR 2024. Anthropic. RLHF放大谄媚倾向的机理研究。
- Springer Nature. (2025). “Reinforcement Learning from Human Feedback in LLMs: Whose Culture, Whose Values, Whose Perspectives?” Philosophy & Technology. RLHF中标注者多样性的哲学论证。
- DeepSeek-AI. (2025). “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.” Nature 596. 语言混合问题、RL训练过程及工程修正方案。
- Sofroniew, N., Kauvar, I., Saunders, W., Chen, R., et al. (2026). “Emotion Concepts and their Function in a Large Language Model.” Anthropic/Transformer Circuits. 情感向量论文。
- LEECHO Global AI Research Lab. (2026). “Signal and Noise: An Ontology of LLMs.” V4. 信号与噪声LLM存在论。恒定熵与时间之矢缺失。
- LEECHO Global AI Research Lab. (2026). “Context와 Token: LLM 기억, 정렬, 보안의 제1원리.” Token平权理论。
- LEECHO Global AI Research Lab. (2026). “Japanese and Korean: The Two Languages with the Highest SNR Noise Ratio in AI Systems.” V2. 日韩SNR分析与谄媚放大循环。
- Coupé, C., et al. (2019). “Different languages, similar encoding efficiency.” Science Advances, 5(9). 人类语言信息传输速率趋同。
- GOV.UK. (2026). “AI Insights: Large Language Models (LLMs) Bias.” 英国政府LLM偏见分析报告。
- Cognitive Computation / Springer. (2026). “LLM Alignment should go beyond Harmlessness–Helpfulness and incorporate Human Agency.” 多元文化敏感性评估提案。
- Jin, Z., et al. (2023). “Can large language models infer causation from correlation?” NeurIPS. Corr2Cause基准:GPT-4因果推理F1仅29.08。