Thought Paper · 思考论文

语料，LLM的另一个阀门Corpus: The Other Valve of LLM

LLM研究的主流注意力集中于模型架构与训练方法论。但一个更上游的瓶颈被系统性忽视：语料本身的多维质量——语义精度、语域纯度、数据卫生——以及横切于所有维度的翻译对齐问题，共同决定了模型世界表征的质量天花板。

이초글로벌인공지능연구소 LEECHO Global AI Research Lab & Opus 4.6
2026年4月9日 · V3

摘要 · Abstract

当前LLM研究的主要注意力集中在模型端——更大的参数、更好的架构、更精细的对齐技术。这些工作隐含一个前提：语料是足够好的世界表征，瓶颈在模型端。本文挑战这一假设，提出语料端存在一个独立的、多维的质量瓶颈——“语料阀门”（Corpus Valve）。该阀门由三个平行的单语言质量维度——语义精度、语域纯度、数据卫生——和一个横切于所有维度的跨语言接口维度——翻译对齐——共同构成。本文进一步提出”语料决定论的弱形式”并给出其精确边界：语料质量不是对LLM能力的绝对约束，而是决定了模型端优化的收益曲线形状——当质量低于阈值时，模型端优化陷入收益加速递减的”亚缩放”区间；当质量足够高时，正常的幂律缩放才能恢复。近年的缩放定律实证研究为这一边界提供了直接支撑，包括芝加哥大学提出的无量纲数据质量参数Q对Chinchilla框架的扩展。四层缺陷均通过LLM的生成-再训练循环被自我强化，构成AI时代萨丕尔-沃尔夫效应的完整机制。

语料阀门3+1维质量模型语义精度语域纯度数据卫生翻译对齐（横切层）亚缩放现象语料决定论弱形式반복≠迭代

Section 01

被忽视的前提：语料真的足够好吗

The Overlooked Premise: Is the Corpus Good Enough?

2022至2025年间，LLM领域最受关注的方向依次是推理能力增强、幻觉抑制、对齐技术、安全性保障和多模态扩展。这些工作共享一个隐含假设：训练语料是给定的、大致合格的输入，瓶颈在模型如何从中学习。

但缩放定律本身正在暗示这一假设的裂缝。Epoch AI估算，质量和去重调整后的人类生成公共文本有效存量约300万亿token，按当前趋势将在2026至2032年间耗尽。2024年，前沿模型的性能提升主要由后训练和测试时计算驱动，预训练方面进展有限——业界开始猜测预训练缩放定律正在触顶。Anthropic CEO Dario Amodei估计AI系统因数据不足而停滞的概率约为10%。

然而，”数据不足”的叙事掩盖了一个更根本的问题：现有数据的质量本身就在多个维度上存在系统性缺陷。数据量的枯竭是量的问题，但语料阀门指向的是质的问题——即使数据量充足，如果语义精度不够、语域混乱、数据污染、翻译失真，模型学到的世界表征仍然有天花板。

三个实际发生的事件揭示了这些质的维度：

现象一。中美两国面对数据中心从CPU到GPU的架构转型，给出了截然不同的命名反应——中国造出”智算中心”，英文沿用”data center”加修饰词。同一技术现实在不同语言的语料中具有不同的语义分辨率。

现象二。Google Gemini在用中文解释PPO算法的clipping机制时，输出了”步子迈太大扯着蛋”这一贴吧口语——技术正确但语域严重错位。中文互联网的语料质量问题直接渗透进了模型输出。

现象三。一篇论文的韩文版中，LLM将”迭代”翻译为”반복”（反复）。”迭代”蕴含方向性、递进性和收敛性，”반복”仅表示无方向的重复。翻译在表面上完全”正确”，但核心技术语义被无声抹除。

Section 02

语料阀门的结构：三个平行维度与一个横切层

Structure of the Corpus Valve: Three Parallel Dimensions and One Cross-Cutting Layer

“语料阀门”并非单一变量，而是一个3+1维的质量结构：三个平行维度作用于单一语言内部的语料质量，一个横切层作用于语言之间的接口质量。

图1 · 3+1维语料阀门拓扑

维度 A · DIMENSION A

语义精度

术语是否精确追踪
物理世界的变化

维度 B · DIMENSION B

语域纯度

技术内容是否被
非技术语体混入

维度 C · DIMENSION C

数据卫生

语料是否包含
有害或异常内容

↓↓↓

横切层 Cross-Cut

翻译对齐 Translation Alignment

横穿所有维度，作用于语言之间的接口。每一个维度的质量差异，都在经过此层时被重新映射——精确的概念可能被降级，模糊的概念可能被固化，污染的内容可能被跨语言传播。

三个平行维度（A/B/C）各自独立地约束单一语言的语料质量，彼此并列而非依赖。翻译对齐层横切于三者之下，作为跨语言接口决定质量在传播中是被保持、降级还是失真。

维度	问题本质	实证案例	影响维度	现有检测手段
A 语义精度	术语未追踪物理变化	“data center”覆盖CPU与GPU设施	世界模型分辨率	几乎不存在
B 语域纯度	技术内容混入口语体	Gemini用贴吧用语解释PPO	输出得体性基线	部分（语域分类器）
C 数据卫生	含有害/异常内容	色情token频率异常偏高	安全性与可信度	较成熟（毒性检测）
× 翻译对齐	跨语言映射丢失语义特征	반복（反复）≠ 迭代	多语言认知一致性	几乎不存在

“现有检测手段”列的分布高度不对称：最具结构性影响的语义精度层和翻译对齐层，恰恰是目前最缺乏工具支持的。

Section 03

维度A：语义精度——当旧词遮蔽新现实

Dimension A: Semantic Precision — When Old Words Obscure New Realities

2012年以来，数据中心的物理本质发生了根本性变化。单台CPU服务器功耗300～600W，GPU服务器3,000～10,000W。机架密度从5～15kW跃升至40～250kW以上。冷却从风冷转向液冷，网络从南北向转向GPU-to-GPU东西向通信。这是架构范式的断裂，不是渐进升级。

中国工信部将算力基础设施划分为通用算力中心（CPU）、智算中心（GPU/AI加速器）和超算中心（HPC），每个术语精确锁定一种硬件架构。英语在”data center”前加修饰词：AI data center、GPU data center。NVIDIA CEO黄仁勋2024年起推”AI Factory”概念，试图将隐喻从”存储”扭转为”生产”——但中文的”算力中心”根本不需要这一步，”算”这个词根本身就是动词，天然是生产性的。

术语精度差异根植于多重结构性原因：英语的形态学限制了复合造词的灵活性；”data center”承载万亿美元级沉没成本和全球规模的路径依赖锁定；而技术接收方在引入新技术时天然拥有一次术语重构窗口——如果抓住这个窗口，反而可以实现比原发语言更高的精度。这解释了一个反直觉的格局：技术原发语言在术语精度上可能劣于技术接收语言。

向量空间效应

中文”数据中心”与”智算中心”在LLM向量空间中大概率形成拓扑分离的独立概念簇；英文”data center”与”AI data center”共享核心词根，高度重叠。模型在英文侧难以学到清晰的概念边界——这是语义精度差异直接刻印在模型内部表征上的方式。

Section 04

维度B：语域纯度——当贴吧混进了教科书

Dimension B: Register Purity — When Forum Slang Enters the Textbook

Gemini用”步子迈太大扯着蛋”解释PPO的clipping机制，技术上正确但语域属于极度口语化的社交媒体，而非技术文档。这意味着训练语料中PPO相关文本大量来自UGC平台而非教科书或论文。

隐蔽性

语域纯度问题不同于”内容错误”——内容可以是对的，但表达方式不合语境。也不同于”数据卫生”——不含有害信息，但语域不适配。现有语料清洗流程关注毒性和事实准确性，几乎不关注语域适配性。一条贴吧体的PPO解释会顺利通过所有过滤器。

这个问题在中文语料中尤为严重。研究指出，尽管中文互联网数据总量巨大，高质量预训练数据集相对稀缺，大型语料如Wudao存在严重的质量参差。英文侧可从大量peer-reviewed论文和专业出版物中获取高语域训练数据。由此形成一个对称格局：在维度A（语义精度），中文优于英文；在维度B（语域纯度），英文优于中文。

Section 05

维度C：数据卫生——当色情频率高于问候

Dimension C: Data Hygiene — When Pornography Outranks Greetings

2025年EMNLP研究通过分析LLM的BPE词表推测中文训练数据污染，发现23个LLM的9个词表中大量涉及色情、网赌和异常内容的PoC token。

2.6×

某色情token出现频率相对于”您好”（GPT-4o词表估算）

23个

被检测的LLM

0

GPT-4/4-turbo/3.5中检出的PoC token

GPT-4/4-turbo/3.5词表未检出PoC token，可能意味着更干净的训练语料。研究还发现：数据污染需要足够的语言表征量才能产生效果——低资源语言几乎不受影响——中英文这样的高资源语言恰恰受影响最严重。

这一维度是三个平行维度中研究最充分、工具链最成熟的。但工具链的成熟也制造了认知偏差：研究社区倾向于将”语料质量”等同于”数据卫生”，忽视了语义精度和语域纯度同样重要但更难检测的维度。

Section 06

横切层：翻译对齐——最隐蔽的语义杀手

Cross-Cutting Layer: Translation Alignment — The Stealthiest Semantic Killer

“반복”是韩语汉字词”反复”，核心语义是无方向性的重复。”迭代”的核心语义是在前一次结果基础上递进逼近目标，天然包含方向性、递进性和收敛性。当LLM将论文标题中的”迭代”翻译为”반복”时，三个核心语义特征被无声抹除——而模型在大量中韩平行语料中学到了这一对齐关系，因为日常语境中两词确实常互译。技术语境下的精细差异被日常语境的统计频率淹没。

横切层的独特危险性

翻译对齐的失效与三个平行维度有本质区别：它在表面上完全”正确”。没有语法错误、没有语域混乱、没有有害内容。任何现有清洗流程——毒性检测、去重、事实核查、语法检查——都不会标记”반복=迭代”为问题。它会无阻通过所有过滤器，被LLM学习为”正确的对齐”，然后在多语言输出中持续复制语义降级。

翻译对齐之所以是”横切层”而非第四个平行维度，是因为它不直接作用于单一语言内部的语料质量，而是作用于语言之间的接口。每一个平行维度的质量差异，在经过翻译对齐层时都会被重新映射：维度A的精确术语可能在翻译中降级（智算中心→AI data center）；维度B的语域混乱可能跨语言传播；维度C的数据污染可能渗透到目标语言。翻译对齐层决定的不是语料本身的质量，而是质量在语言间传递时的保真度。

源语言概念	核心语义特征	“等价”映射	丢失的特征
迭代（中文）	方向性、递进性、收敛性	반복（韩文）	全部三个特征
智算中心（中文）	智能算力、GPU主导	AI data center（英文）	“算”的动词性生产隐喻
Inference（英文）	模型推断	推理（中文）	歧义：逻辑推理 vs 模型推断
Alignment（英文）	价值校准	对齐（中文）	歧义：排版对齐 vs 价值校准

Section 07

交互效应：翻译对齐如何消解与放大三维度的质量差异

Interaction Effects: How Translation Alignment Dissolves and Amplifies Quality Gaps

横切层与三个平行维度的交互产生了两条主要的复合回路，而这些回路的现实影响被AI研究人才的构成所放大。

57.7%

中美两国AI研究者占全球比重（UNIDO 2025）

63,000+

美国AI研究者

53,000

中国AI研究者

~42%

NeurIPS 2019华裔作者占比

卡内基国际和平基金会的分析显示，顶级AI论文中中国出身研究者的贡献与美国本土作者相当甚至更多。AAAI 2020中50%的录用论文包含中国出身研究者的贡献。2024年中国学者的AI论文数量（23,695篇）超过美国、英国和欧盟的总和。

这意味着全球AI知识生产中最大的单一贡献群体是中文母语者。当他们将中文中精确分离的概念写入英文论文时，翻译对齐层系统性地消解维度A的优势——”智算中心”退化为”AI data center”，精确的概念边界在翻译中被模糊化。这些英文论文随即成为LLM训练语料。

图2 · 横切层与平行维度的交互

维度A：中文术语精度优势
“智算中心”精确分离

→

横切层：翻译降级
→ “AI data center”

→

精度优势被消解
英文语料继承模糊性

维度B+C：中文语料质量短板
语域混乱 × 数据污染

→

横切层：污染跨语言传播
中文低质量语料渗透多语言模型

→

短板被放大
影响超出中文边界

横切层对中文语料的效应是不对称的：消解中文在维度A上的优势，同时放大中文在维度B/C上的劣势。最终，中文语料的综合质量呈现”优势被消解、短板被放大”的不对称格局。

这一不对称格局与下一节将讨论的”弱形式”边界条件直接相关：横切层的消解效应可能将某种语言在特定维度上的质量推到临界阈值以下，从而触发亚缩放——即模型端优化收益加速递减的区间。换言之，横切层不只是传递质量差异，它还可能是触发质量阈值崩塌的机制。

Section 08

语料决定论的弱形式：精确的边界条件

Weak Corpus Determinism: Precise Boundary Conditions

“语料决定论”不是”语料决定一切”（强形式），而是一个有精确边界的弱形式主张。2025年ACL发表的研究直接提供了界定这一边界的实证基础。

89%→72%

微调数据中引入噪声后的精度降幅

亚缩放

高冗余数据集上的缩放效率显著下降

<40%

GPT-4在长尾实体上的事实精度（高频实体>90%）

300T

人类公共文本有效存量（token，Epoch AI估算）

关键发现如下：2025年ACL研究提出”密度”指标来衡量数据集的冗余与多样性。高密度（高冗余、低多样性）数据集导致亚缩放现象（sub-scaling）——缩放曲线弯曲加剧，大模型的拟合精度显著下降。LLaMA 2在缩放效率上甚至优于采用更先进策略的LLaMA 3，原因在于后者的数据集密度更高。

信息论分析进一步显示，LLM在长尾知识上存在根本性的样本复杂度瓶颈：对于缺乏可压缩结构的事实性知识（如生日、精确数值），每个事实必须被独立记忆，所需样本量与事实总量成线性关系——当事实规模达百万级时，这超出了任何可行语料库的容量。

弱形式的精确边界

语料质量对LLM能力的约束不是绝对上限（强形式），而是决定了模型端优化的收益曲线形状（弱形式）。具体而言：当语料在某一质量维度低于阈值时，模型端优化遵循加速递减的收益律——参数翻倍可能只带来个位数百分比的改进（亚缩放）。但当语料质量超过阈值后，模型端优化可以有效释放能力，收益曲线恢复正常的幂律形态。语料阀门不是一道墙，而是一个调节收益曲线坡度的旋钮。

条件	语料质量 < 阈值	语料质量 ≥ 阈值
模型端优化收益	加速递减（亚缩放）	正常幂律缩放
参数翻倍的边际效果	1-2%改进	可预测的、显著的改进
瓶颈所在	语料端（上游）	模型端（下游）
优化策略	先修复语料质量	继续缩放模型

Section 09

自我强化陷阱与萨丕尔-沃尔夫的AI重构

Self-Reinforcing Trap and Sapir-Whorf Reconstructed for AI

语料阀门与模型阀门的关键不对称性在于自我强化的方向。模型端的改进是正循环：更好的模型→更好的输出→更好的反馈→进一步改进。但语料端存在负向陷阱：低质量语料→LLM学习缺陷→LLM输出复制缺陷→生成的文本成为新语料→下一代LLM继承并放大缺陷。

这在三个平行维度和横切层上同时运作：模型学到了模糊的术语边界（维度A），就会在输出中继续使用模糊术语；学到了贴吧式的技术表达（维度B），就会在回答中复制这种语域；学到了”반복=迭代”的对齐关系（横切层），就会在翻译中持续复制这种语义降级。

这构成了萨丕尔-沃尔夫假说的AI时代重构。原始假说的弱形式是”一种语言结构→一种认知倾向”，它是单维的、单向的。本文的重构在三个方向上扩展了它：

3+1维重构 · 3+1 Dimensional Reconstruction

从单维到多维：原始假说只涉及”语言结构”这一个维度。重构后的版本区分了语料质量的三个平行维度和一个横切层，每一个维度各自独立地约束LLM在不同能力维度上的表现——维度A约束世界模型分辨率，维度B约束输出得体性，维度C约束安全基线，横切层约束多语言一致性。

从单向到循环：原始假说是”语言→认知”的单向影响。重构后增加了反向通道：”LLM的输出→新语料→下一代LLM”，使约束从单次影响变为自我强化的正反馈循环。

从人到人机系统：原始假说作用于”说某种语言的人”。重构后的作用对象是”基于某种语言语料训练的LLM+使用该LLM的人”——语言对认知的约束从人类个体扩展到人机协作系统，影响范围和速度都被放大。

Section 10

结论：语料是LLM进步的基础设施

Conclusion: Corpus is the Infrastructure of LLM Progress

第一，语料对LLM认知能力的约束是多维的：三个平行的单语言维度（语义精度、语域纯度、数据卫生）和一个横切的跨语言接口维度（翻译对齐）。它们各自独立，且横切层系统性地消解各语言的独特优势、放大其独特劣势。

第二，语料阀门对模型端优化施加的不是绝对约束，而是调节收益曲线形状的弱约束。当语料质量低于阈值时，缩放陷入亚缩放区间；当质量足够高时，模型端优化恢复正常收益。这是”语料决定论弱形式”的精确含义。

第三，语料缺陷通过LLM的生成-再训练循环被自我强化。这一负向陷阱在三个平行维度和横切层上同时运作，构成AI时代萨丕尔-沃尔夫效应的完整机制。

第四，不同语言在3+1维上各有结构性长短板。中文在维度A有优势但在维度B/C有劣势；英文在维度B有优势但在维度A有劣势；横切层则不对称地消解优势、放大劣势。没有任何一种语言在所有维度上同时占优。

终极命题

芯片是LLM的算力基础设施，模型架构是LLM的计算基础设施，而语料是LLM的认知基础设施。当前的缩放困境——预训练收益递减、高质量数据枯竭——其本质不是数据量的耗尽，而是语料多维质量的结构性欠账。”语料阀门”是理解这一困境的关键概念：它不是一道墙，而是一个调节模型端优化收益曲线坡度的旋钮。识别并修复这个旋钮的每一个维度——语义精度、语域纯度、数据卫生、翻译对齐——才能重新打开缩放的空间。

上述理论框架的政策含义是：高质量、多维度达标的训练语料是AI竞争中一个被严重低估的战略资产。新词汇的及时生成、技术语域的纯净维护、训练数据的卫生保障、跨语言映射的语义保真——这不是数据工程的琐事，而是LLM进步的基础设施建设。打开语料阀门，需要在语料端投入与模型端同等量级的研究资源和战略关注。

参考文献 · References

Tianwei Z. et al. (2025). “Speculating LLMs’ Chinese Training Data Pollution from Their Tokens.” EMNLP 2025.
Du, Y. et al. (2025). “OpenCSG Chinese Corpus: High-quality Chinese Datasets for LLM Training.” arXiv:2501.08197.
Du, C. et al. (2024). “Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model.” arXiv:2404.04167.
Chen, Z., Wang, S., Xiao, T., Wang, Y., Chen, S., Cai, X., He, J. & Wang, J. (2025). “Revisiting Scaling Laws for Language Models: The Role of Data Quality and Training Strategies.” ACL 2025, pp. 23881–23899.
Villalobos, P. et al. (2024). “Will we run out of data? Limits of LLM scaling based on human-generated data.” arXiv:2211.04325.
Xiao, C. et al. (2025). “Densing law of LLMs.” Nature Machine Intelligence.
“On the Fundamental Limits of LLMs at Scale.” arXiv:2511.12869, 2026.
Subramanyam, A., Chen, Y. & Grossman, R. L. (2025). “Scaling Laws Revisited: Modeling the Role of Data Quality in Language Model Pretraining.” arXiv:2510.03313.
He, Y. et al. (2025). “Scaling Laws for Multilingual Language Models.” Findings of ACL 2025, pp. 4257–4273.
Deng, C. et al. (2024). “Investigating Data Contamination in Modern Benchmarks for LLMs.” NAACL 2024.
Kocyigit et al. (2025). “A Survey on Data Contamination for Large Language Models.” arXiv:2502.14425.
UNIDO & 东壁数据 (2025). “全球人工智能研究态势报告（2015–2024）.”
Carnegie Endowment (2025). “Have Top Chinese AI Researchers Stayed in the United States?”
Stanford HAI (2025). “The 2025 AI Index Report.”
Digital Science (2025). “DeepSeek and the New Geopolitics of AI.” Published in Science, July 2025.
工信部等十一部门 (2024). “关于推动新型信息基础设施协调发展有关事项的通知.”
NVIDIA (2024). “AI Factories Are Redefining Data Centers.” GTC 2024 Keynote.
Sapir, E. (1929). “The Status of Linguistics as a Science.” Language, 5(4).
Whorf, B. L. (1956). Language, Thought, and Reality. MIT Press.
David, P. A. (1985). “Clio and the economics of QWERTY.” American Economic Review, 75(2).