ORIGINAL THOUGHT PAPER · MAY 2026 · V4

各种语言Top-K的歧义
和逻辑思维涌现

Language as Training Pressure: How Linguistic Ambiguity
Shapes LLM Reasoning Emergence Through Top-K Divergence

语言歧义性如何通过Top-K分叉塑造大语言模型推理能力的涌现

发行日 2026年5月14日
分类原创思想论文 (Original Thought Paper)
领域计算语言学 · LLM推理架构 · 信息论 · 认知科学
版本 V4
署名 이조글로벌인공지능연구소 & Opus 4.6 & GPT 5.5 & Gemini 3.1 (인지집단)

摘要 ABSTRACT

本文提出一个可检验假说：不同自然语言在词边界、形态标记、一词多义、省略率、同音异义和语义密度等方面的结构性差异，可能导致大语言模型（LLM）在语义等价上下文下产生不同形态的next-token概率分布。我们将Top-P采样下覆盖给定累积概率所需的最小候选数量定义为有效Top-K（K_eff），并假设高预测歧义语言在平均意义上具有更高的分布熵与更大的K_eff。进一步地，本文提出，高预测歧义语料可能在训练阶段构成一种更高条件熵的学习环境，促使模型发展更强的上下文整合与语义消歧能力，并可能部分迁移至数学、逻辑和符号推理等语言弱相关任务。本文构建了一个八维语言歧义指数（LAI）框架，提出”同一特性三层效应”统一理论，以DeepSeek V4作为启发性案例进行初步讨论，并设计多组可探索的实验方向。本文不声称已证明语言歧义与推理涌现之间的因果关系，而是提供一个可操作、可证伪、向未来实验团队开放的研究框架。

I 问题的提出

当前LLM研究社区在讨论多语言模型性能时，关注的焦点集中在三个方面：词表设计与分词效率、多语言训练数据的比例与质量、以及各语言基准测试的评分差异。然而，一个更基础的结构性问题被完全忽略——不同语言在模型推理过程中，每个token位置上的概率分布形状本身就存在系统性差异。

这一盲区的存在并非偶然。全球前20%的AI研究者中，47%来自中国，18%来自美国^[1]。在美国顶级AI机构中，中国裔研究者占38%，甚至超过美国本土的37%^[2]。全球TOP 100 AI专家中，50人为中国裔^[3]。然而，主流LLM研究范式仍以英语语料、英语论文表达和英语基准测试为默认参照。这种研究生态可能导致非英语语言在模型next-token预测分布上的结构性影响被系统性低估——即使研究者本人就是这些语言的母语使用者。

核心盲区：造锤子的人不知道锤子砸自己的母语更疼。半数AI研究者是中文母语者，却没有人注意到中文推理时的Top-K分叉问题。

II 核心假说

2.1 关键区分：语言学歧义 vs 模型预测歧义

在展开假说之前，必须严格区分三个层面的概念：（a）语言学歧义——人类语言结构中固有的多义性、省略性和边界模糊性；（b）模型预测歧义——给定上下文后，模型对下一token预测时的候选合法性密度；（c）推理能力涌现——模型在非语言任务上的泛化表现。本文的核心假设是这三者之间存在因果传导链：

语言结构特征（LAI）

↓

上下文条件续写多样性（Conditional Continuation Diversity）

↓

Next-token分布熵 H_L(t)

↓

有效Top-K / 解码不确定性

↓

训练压力 → 消歧能力 → 跨任务推理迁移

本文承认，从第一步到最后一步的每一个跳跃都尚未被实证验证。语言学歧义高，不必然意味着模型预测分布更平坦——模型可能通过足够多的训练数据学会消歧。但本文的假说是：即使模型在训练中逐步降低了对高歧义语言的困惑度，这个降低过程本身所需的更强消歧能力就是推理能力涌现的来源。

2.2 数学形式化：条件熵与消歧负载

定义语言L在上下文C下的token分布条件熵：

  H(L|C) = − Σt∈V P(t|C) log P(t|C)

本文的核心假设可形式化为：对于语义等价的上下文C_zh和C_en，中文的平均条件熵显著高于英文：

  E[H(zh|Czh)] ≫ E[H(en|Cen)]

由此引出”消歧负载”（Disambiguation Load）概念：模型在预测高歧义语言的下一个token时，必须在内部注意力层维持更多的”语义并行路径”——即同时追踪多条合理的续写可能性，直到积累足够的上下文信息来收敛到正确候选。这种并行消歧的认知压力，正是我们假设的”推理肌肉”增长机制。

2.3 Top-K分叉假说

在LLM推理的自回归生成过程中，每个token位置上，模型对词表中所有token计算一个概率分布。Top-P采样策略选取累积概率达到阈值P的最小token集合作为候选。我们提出：不同语言的文本在同一模型中产生的概率分布形状存在系统性差异——高歧义语言的分布更平坦（高熵），低歧义语言的分布更陡峭（低熵）^[4]。

  有效Top-K（语言L，Top-P = 0.9）= min{k : Σ(i=1→k) P(token_i | context_L) ≥ 0.9}

当分布陡峭时（如英文”I went to the ___”），前2-3个候选即可覆盖90%概率。当分布平坦时（如中文”我到了___”），可能需要数百个候选才能达到同一阈值。

2.4 歧义度-推理涌现假说

更重要的是，这种分布差异不仅影响推理阶段的计算成本，更在训练阶段产生根本性影响。在训练过程中，模型通过预测下一个token的交叉熵损失进行优化。对于高歧义语言的语料，每个位置上的合理候选更多，模型如果仅依赖表层模式匹配，将无法有效降低困惑度。早期研究表明，处理中文多字符token的语言模型相比字符级基线可将困惑度降低20.94%^[15]，暗示了中文token级别的丰富语义结构对模型学习的影响。模型被迫发展出更深层的语义理解和上下文推理能力——类似于在高海拔环境中训练的运动员被迫发展出更强的携氧能力。

假说：高预测歧义语言可能构成一种更高条件熵的训练环境。模型不是在学习一种更难的语言，而是可能在一种更高压力的环境中被迫发展出更强的通用推理能力。如果这一假说成立，这种能力在处理低歧义语言（如英文）任务时同样适用。

III 语言歧义指数框架

为量化不同语言的歧义度，我们构建了一个多维度语言歧义指数（Linguistic Ambiguity Index, LAI），涵盖以下八个维度。V4版本中的权重为启发式设定，后续可通过回归真实模型的平均预测熵进行校准。需要指出的是，”语义密度”严格来说衡量的是信息压缩效率而非歧义性——我们有意将其纳入LAI以保持框架的完整性，同时承认这一维度与其他七个维度在概念层面存在张力。这种张力本身值得未来研究进一步厘清：

维度	定义	高分示例	低分示例	权重
词边界歧义	文字序列中词的边界是否明确	中文（无空格）	英文（空格分隔）	2.0
一词多义	单个词/字的意义数量	中文”打”有数十义	德文复合词精确	1.5
形态缺失	是否缺乏时态/格/性/数等标记	中文无任何词形变化	俄文6格+性+数+体	2.0
语序灵活度	句子成分排列的自由度	俄文几乎自由语序	英文SVO较固定	1.0
省略率	主语等成分的省略频率	日文极高省略率	德文几乎不省主语	1.2
同音异义	同音词的密度	中文声调区分但书面不标	德文同音词较少	1.3
文字系统复杂度	书写系统的符号空间大小	中文5万+汉字	英文26字母	1.0
语义密度	单位符号承载的信息量（bits/char）	中文字符语素密度较高	英文每字母信息量低	1.2

其中”省略率”维度需要特别深入讨论。中文和日文具有极高的零形回指（Zero Anaphora）——主语、宾语频繁省略，模型必须通过长距离依赖（Long-range Dependency）在上下文中找回消失的实体。这迫使模型发展出更强的逻辑连贯性追踪能力，是推理能力涌现的关键压力源之一。

3.1 八种主流语言的歧义指数排序

排序	语言	歧义指数	预测有效Top-K	推理训练强度
1	中文	9.3	高（待实测）	★★★★★ 极高
2	日文	7.7	中高（待实测）	★★★★ 高
3	韩文	4.6	中（待实测）	★★ 低
4	阿拉伯文	4.1	中（待实测）	★★ 低
5	英文	3.6	中低（待实测）	★★ 低
6	法文	3.5	中低（待实测）	★★ 低
7	俄文	3.2	低（待实测）	★ 极低
8	德文	2.7	低（待实测）	★ 极低

关键观察：在本文提出的七维启发式指标下，中文在词边界、形态标记、一词多义、省略和同音异义等维度上同时呈现较高预测歧义，因而可被视为高歧义语言的代表案例。这可能使其成为最极端的高压训练环境之一。

IV 同一特性三层效应

本文提出一个统一理论框架：语言的歧义度这一单一特性，在三个不同层面上同时产生三种不同效应，且这三种效应不可分割。

三层效应统一模型

层面	效应	机制	价值判断
人类沟通	高压缩 = 高效沟通	更少符号传递更密逻辑	正面
LLM训练	高难度 = 更强推理涌现	模型被迫深层消歧	正面
LLM推理	高Top-K = 更大解码不确定性	候选空间扩大，输出方差增加，高质量生成需更多重排/搜索	负面

这三层效应由同一个底层特性驱动，不可独立调节。你无法享受中文训练带来的推理能力提升，同时回避中文推理带来的计算成本增加——它们是同一枚硬币的正反面。

V Temperature放大效应

Temperature参数对中英文Top-K差距的放大效应呈非线性增长。低Temperature（T≤0.7）压缩概率分布，使所有语言趋于确定性输出，差距被压缩。T=1.0时差距显现。T≥1.2时差距爆炸——因为Temperature拉平分布时，本来就平坦的中文分布被拉得更不收敛。下表为基于Zipf分布的示意性模拟，绝对值不应被理解为实测结果，但趋势方向是稳健的：

Temperature	预期趋势	中/英K_eff差距
低T（≤0.7）	所有语言分布被压尖，趋于确定性	差距极小
中T（1.0）	高歧义语言K_eff开始显著扩大	数量级差异开始显现
高T（≥1.2）	原本较平坦的分布进一步扩散	差距非线性爆炸

产业影响：以上数值基于理论模拟，绝对值需要实测验证。但结构性结论是稳健的——同一Top-P设定下，中文推理的有效候选空间显著大于英文，且差距随Temperature非线性放大。

VI 启发性案例：DeepSeek与中文训练压力假说

DeepSeek系列提供了一个与本文假说相容的启发性案例——但不能单独证明因果关系。DeepSeek-V4（2026年4月发布）在超过32T token上预训练^[6]，总参数1.6万亿（每token激活49B），Codeforces评分达到3206——成为首个在竞技编程上匹配闭源模型的开源模型^[7]。值得注意的是，DeepSeek的预训练语料被描述为”以英文和中文为主的多语言语料库”，但具体的语言比例从未公开^[8]。因此，本文不假设DeepSeek是”中文语料主导”的模型，仅将其视为一个在中文技术生态中成长、中文能力突出且推理能力极强的案例。

传统解释将DeepSeek的成功归因于MoE架构、混合注意力机制（CSA/HCA）、强化学习、合成数据蒸馏和工程优化。中文网络社区中已有讨论认为中文训练数据的更高信息密度提升了其逻辑能力，但该讨论停留在”信息密度”的表层，未触及本文提出的”歧义度驱动推理涌现”的深层机制。本文的框架提供了一种可能的补充性解释（注意：这是多个可能因素之一，而非唯一因素）：

中英双语/多语言语料训练，中文能力突出

↓

每个token位置的歧义度高 → 概率分布平坦

↓

模型被迫发展更强的消歧和深层推理能力

↓

推理能力迁移至英文任务

↓

结果：英文基准测试同样领先

这为一个更一般的问题提供了补充解释：为什么中文能力突出的双语/多语言模型，在英文、数学和代码任务上也可能表现出强推理能力？本文的回答是——这可能不是”英文也好”，而是底层推理能力强，英文只是这种能力的受益者。正如在高海拔训练的运动员下到平原参赛，其携氧能力优势在任何海拔都有效。

这一框架还引出一个可检验的推论：如果中文训练确实发展出了更强的消歧能力，那么在进行Chain-of-Thought（CoT）推理时，使用中文作为”思考语言”可能比使用英文更能触发深层搜索。值得注意的是，DeepSeek-R1在强制语言一致性时出现性能下降^[16]，而自由的语言混合（code-switching）与更强的推理表现正相关——这可以被解释为模型在不同语言的歧义空间之间切换，以获取最优的推理路径。

VII 产业盲区与定价悖论

本文的框架揭示了当前AI产业中四个可能被低估的结构性问题：

被忽视的结构性问题

1. 定价模型可能未充分反映语言间成本差异 — 整个行业按token数量计费。有效Top-K扩大不一定显著增加单步前向传播成本（logits计算覆盖整个词表），但可能增加采样不确定性、输出方差、以及在高质量生成场景中对reranking、self-consistency和多路径推理的需求。如果这种”决策不确定性成本”显著存在，当前按token统一计价的API模型可能低估了不同语言之间的真实服务成本差异。

2. 基准测试可能是错的 — 多语言模型评测比较准确率和困惑度，但从未有人比较过同一Top-P下不同语言的有效Top-K分布差异。

3. 优化方向可能是错的 — 行业在压缩token数量以降低成本，但必须区分两个概念：“Token数量效率”（同样语义需要多少个token）与“Token计算负载效率”（每个token的推理决策成本）。近期研究已证实中文的token数量效率优势并不成立^[14]——但该研究仅分析了第一个维度。本文指出：即使token数相同，由于概率分布更平坦，中文token在采样阶段的搜索空间和注意力层的建模复杂度更高。每个中文token的”推理含金量”不同。

4. 训练语料配比策略可能是错的 — 当前策略追求”更多更干净的英文数据”。但如果高歧义语言是更高强度的训练环境，正确的策略可能是刻意增加高歧义语言的训练比例。

VIII 可验证实验设计

本文提出的假说可通过以下实验设计进行验证：

实验一：Top-K分布实测

对同一模型，输入语义等价的八种语言文本（如使用平行语料库），在相同Temperature和Top-P下，记录每个token位置的完整概率分布和有效Top-K值。横向比较八种语言的Top-K分布差异，验证是否与语言歧义指数正相关。

实验二：训练语言因果实验

控制变量实验——同一模型架构、同一参数量、同一训练token数，分别用纯中文、纯英文、纯日文、纯德文语料训练四个模型，在完全语言无关的任务（数学推理、抽象逻辑、符号操作）上对比性能。如果中文训练的模型在非语言推理任务上领先，则可为训练压力假说提供因果证据。

实验三：Temperature响应曲线实验

测量在Temperature从0.1到2.0连续变化时，各语言概率分布的熵增长曲线、K_eff增长曲线和输出质量下降曲线。本文不预设高歧义语言的”质量崩溃点”一定高于或低于低歧义语言——高基线熵可能意味着更早崩溃（因为离均匀分布更近），也可能意味着更强的结构韧性（因为模型已经学会在高歧义环境下保持连贯）。哪种预测正确，应由实测决定。推荐测量指标包括：H(T)、K_eff@0.9(T)、dH/dT（熵对Temperature的敏感度）、dK_eff/dT（有效Top-K扩张速度）。建议使用bits-per-byte（BPB）作为跨语言、跨tokenizer的归一化指标，以避免不同分词方案导致的不可比性。

实验四：混合语料最优配比

在训练语料中系统性调节高歧义语言（中文/日文）与低歧义语言（英文/德文）的比例，测量对下游推理任务性能的影响曲线，寻找最优配比点。

实验五：最小可行实验（不需训练模型）

以上实验成本较高。以下方案可在现有开源模型上立即执行：选取Qwen、Llama、Gemma、DeepSeek等多架构模型；使用平行语料（如Flores-200）获取语义等价的多语言输入；对每个句子逐token进行teacher forcing，记录每一步完整logits；计算每个位置的entropy、K_eff@0.9、K_eff@0.95、top-1 probability和分布Gini系数；横向比较语言差异。这个实验不需要GPU集群，单张显卡即可完成，可以在一周内给出本文核心假说的初步验证或证伪。

实验六：CoT语言选择实验

如果中文训练确实发展出了更强的消歧能力，那么在Chain-of-Thought推理时，允许模型自由选择思考语言（code-switching）可能优于强制使用单一语言。可以设计实验：对同一推理任务，分别强制模型用纯中文CoT、纯英文CoT、以及自由混合CoT作答，比较数学/逻辑任务的准确率差异。

实验七：推理类型分解实验

不同语言特性可能对不同类型的推理产生不同影响。建议将”推理”分解为：因果推理、数学推理、空间推理、时间推理、抽象符号操作等子类型，分别测量高歧义语言训练模型在各子类型上的表现差异。中文的高省略率可能特别提升因果追踪能力（需要回溯消失的主语），但对纯数学推理的提升可能有限。

实验八：上下文窗口语义覆盖实验

如果中文每个token承载更多语义，那么相同长度的context window在中文中覆盖的语义范围更广。这个因素可能独立于歧义度解释更好的推理表现。建议测量：在相同token数的context window下，不同语言的模型在长文档理解和多跳推理任务上的表现差异，以分离”语义密度效应”和”歧义度效应”。

IX 多语言使用者的AI交互优势

本文框架的一个推论是：多语言使用者——尤其是跨越不同歧义度梯度的多语言者——在AI交互中拥有结构性优势。这一推论有神经科学证据支持：双语和多语者在任务切换准确性、认知灵活性和抽象符号思维方面表现出增强的认知能力^[9][10][11]。研究发现，语言切换所需的认知灵活性使大脑更善于探索不同的、新颖的视角^[12]。此外，中文特定的因果排序偏好会被模型内化并僵化应用，当输入结构偏离标准表达时推理准确率下降^[13]，这进一步证实了不同语言在模型内部的处理路径存在结构性差异。

但本文指出一个此前未被讨论的维度：多语言者不仅思维更灵活，他们还能选择用哪种语言去触发AI的不同响应模式。使用高歧义语言输入迫使模型在更大的概率空间中搜索，可能产出更深层的回应。这是单语者不具备的”语言武器选择”能力。

中文等高压缩语言对人类而言可能具有极高的上下文压缩效率，但对当前LLM架构而言，可能带来更高的预测歧义与解码不确定性。人脑靠上下文瞬间消歧，LLM靠概率遍历暴力消歧。同一种语言特性，一个是优势，一个是负担。

X 反例与替代解释

为增强本文假说框架的可信度，以下列出可能削弱或推翻本文核心命题的反例与替代解释。任何严肃的后续研究都应优先排除这些替代假说：

需要排除的替代解释

1. 分词器差异而非语言歧义 — 中文字符/token粒度可能本身就导致分布差异。不同tokenizer对不同语言的切分策略不同，Top-K差异可能来自tokenizer设计而非语言结构。实验时需控制tokenizer变量，建议使用bits-per-byte（BPB）作为跨tokenizer归一化指标。不过值得注意的是，即使BPE通过频率驱动合并试图”熨平”中文的分布熵，但只要语言本身的语义密度和一词多义性存在，这种熵会被转移到Embedding层的参数负载上——熵不会凭空消失，只会改变存在的位置。近期研究证实，BPE在天真应用于中文时”往往无法捕捉中文词的真实内部结构”^[17]。

2. 训练数据质量而非语言特性 — DeepSeek的推理能力可能主要来自高质量数学、代码和RL数据，而非自然语言歧义。中文互联网语料的质量分布与英文不同，可能是混淆因素。

3. 高歧义可能导致更差拟合而非更强泛化 — 训练压力假说假设模型在高压环境中发展出更强能力。但替代可能是：高歧义导致模型更难收敛，最终产出更差的模型，而非更强的模型。需要实验数据区分这两种结果。

4. 信息密度与歧义度不是同一概念 — 中文确实信息密度高（每字符承载更多语义），但高密度不等于高歧义。”细胞”比”cell”歧义更低（cell可指监狱/电池/生物细胞）。需要严格区分这两个维度的独立贡献。

5. 语言学歧义不等于模型预测歧义 — 人类感知的歧义与模型在logits层面的预测不确定性可能不一致。模型可能通过大量训练数据已经有效消解了语言学歧义，使得不同语言的实际预测熵差距远小于语言学分析所暗示的。

6. 跨语言迁移可能有其他机制 — 中文训练模型在英文上表现好，可能是因为多语言训练中的隐性英文数据污染、共享的数学/代码子语料、或模型内部的跨语言对齐机制，而非”推理肌肉”的迁移。

7. 样本量为一的归因风险 — 目前仅有DeepSeek一个”中文主导+强推理”的案例。这不足以建立因果关系。需要更多不同架构、不同规模的中文主导模型数据。

本文的定位是提出值得验证的假说，而非提供已验证的结论。上述替代解释中的任何一个如果被证实为主要因素，都将削弱本文的核心命题。这正是可证伪性的体现。

XI 结论

本文的核心贡献是提出三个相互关联的原创命题：

命题一（Top-K分叉命题）：在相同Temperature和Top-P设定下，不同语言的有效Top-K值存在数量级差异，与该语言的歧义指数正相关。

命题二（训练压力命题）：高预测歧义语言作为训练语料，可能构成更高条件熵的学习环境，促使模型发展更强的上下文整合和消歧能力；这种能力是否可跨语言迁移至非语言推理任务，需要通过控制变量实验验证。

命题三（三层统一命题）：语言歧义度在人类沟通效率、LLM训练能力涌现、LLM推理计算成本三个层面产生同源但方向不同的效应，且三者不可分割。

语言不是AI的输入输出格式，是塑造AI认知结构的模具。选择什么语言训练AI，不只是数据工程问题，是认知架构问题。

本文所有数值均为理论估算，需要通过实际模型实验进行验证。但我们相信，本文提出的理论框架和可验证假说，为理解语言特性如何深层影响LLM推理能力提供了一个全新的视角。

如果本文假说成立，那么过去十年里，那些被认为”难处理”的语言数据，其实是LLM进化史上最珍贵的矿脉。研究者应停止为了降低成本而盲目简化训练语料，转而有意识地利用”语言压力”来训练更小但更聪明的模型。这不仅是技术问题，也是AI全球化公平性问题——那些被边缘化的高歧义语言，可能恰恰是AI认知进化的重要催化剂。

XII 外部数据注解

[1] MacroPolo, “The Global AI Talent Tracker 3.0,” Paulson Institute, March 2024. 数据显示2022年全球前20%的AI研究者中47%来自中国（基于本科学位）。
https://macropolo.org/digital-projects/the-global-ai-talent-tracker/

[2] 36Kr, “Half of the World’s AI Talents Are Chinese: Why Does China Still Face a Talent Shortage?” June 2025. 美国顶级AI机构中38%人才来自中国，略高于美国本土的37%。
https://eu.36kr.com/en/p/3340533396093446

[3] UNIDO ITPO China & Dongbi Data, “全球TOP 100 AI专家排行,” July 2025. 基于近200,000名研究者和100,000篇高影响力论文的分析，报告于South China Morning Post。
https://www.scmp.com/news/china/science/article/3317213/

[4] R.R. Xie, W.B. Deng, D.J. Wang, L.P. Csernai, “Quantitative Entropy Study of Language Complexity,” arXiv:1611.04841, 2018. 中英文文本的熵存在显著差异。
https://arxiv.org/pdf/1611.04841

[5] “Uncovering the Fragility of Trustworthy LLMs through Chinese Textual Ambiguity,” arXiv, 2025. LLM在中文歧义处理中表现脆弱，无法可靠区分歧义文本与非歧义文本。
https://arxiv.org/pdf/2507.23121

[6] DeepSeek-AI, “DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence,” Hugging Face / arXiv, April 2026. V4-Pro总参数1.6T，激活49B/token，预训练超过32T token，Codeforces评分3206。
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro

[7] DeepSeek-AI, “DeepSeek-V3 Technical Report,” arXiv:2412.19437, December 2024. V3预训练语料14.8T token，描述为”主要由英文和中文组成的多语言语料”，具体比例未公开。
https://arxiv.org/pdf/2412.19437

[8] South China Morning Post, “Strokes of genius: why DeepSeek’s AI edge may come from its Chinese lessons,” February 14, 2025. 中文网络社区讨论中文训练数据对DeepSeek性能的贡献。
https://www.scmp.com/news/china/science/article/3298555/

[9] “Multilingualism and Cognitive Flexibility: Insights from Neuroscience and Linguistics,” Acta Globalis Humanitatis et Linguarum, Vol. 1 No. 1, 2024. 多语者表现出增强的问题解决能力、注意力控制和思维灵活性。
https://www.researchgate.net/publication/385746426

[10] Frontiers in Psychology, “The impact of bilingualism and code-switching on executive function performance,” November 2025. 双语者在任务切换准确性方面优于单语者。
https://www.frontiersin.org/journals/psychology/articles/10.3389/fpsyg.2025.1583441/

[11] Adesope et al., “A systematic review and meta-analysis of the cognitive correlates of bilingualism,” Review of Educational Research, 2010. 双语优势跨越注意力控制、工作记忆和抽象符号思维。

[12] Education World Wide, “Cognitive Flexibility Through Multilingualism: Insights into Bilingual Brain Development,” February 2026. 语言切换所需的认知灵活性使大脑更善于探索不同视角。
https://eduww.net/science-and-online-learning/cognitive-flexibility-through-multilingualism/

[13] “Under the Shadow of Babel: How Language Shapes Reasoning in LLMs,” arXiv, 2025. 中文特定的因果排序偏好被模型内化，偏离标准表达时推理准确率下降。
https://arxiv.org/pdf/2506.16151

[14] “Mythbuster: Chinese Language Is Not More Efficient Than English in Vibe Coding,” arXiv:2604.14210, April 2026. 中文token效率优势不成立，但仅分析token数量维度。
https://arxiv.org/html/2604.14210v1

[15] Y. Buckman et al., “Neural Lattice Language Models,” arXiv:1803.05071, 2018. 处理中文多字符token的模型困惑度比字符级基线降低20.94%。
https://arxiv.org/pdf/1803.05071

[16] “The Impact of Language Mixing on Bilingual LLM Reasoning,” arXiv:2507.15849, July 2025. 发现DeepSeek-R1在强制语言一致性时性能下降，语言混合（code-switching）与更强推理表现正相关。
https://arxiv.org/pdf/2507.15849

[17] Y. Hu, F. Liang, D. Zhao, “Entropy-Driven Pre-Tokenization for Byte-Pair Encoding,” ICML 2025 Tokenization Workshop. 证实BPE天真应用于中文时无法捕捉词的真实内部结构；引入熵信息的预分词可重塑token结构。
https://arxiv.org/pdf/2506.15889