本文提出一个核心命题:当前LLM的训练数据在结构上缺失了”错误路径”这整个维度,这一缺失是LLM幻觉问题的根因。人类学术论文只记录最终的正确路径——从引言到结论的线性叙事——而将所有的试错、回溯、死胡同和被放弃的假说系统性地删除。LLM在这种单维数据上训练的结果是:模型学会了”正确答案长什么样”,但从未学过”错误路径长什么样以及为什么是错的”。本文基于信号与噪声的XY坐标系框架(X轴:逻辑自治;Y轴:物理对齐),论证正确路径与错误路径共同构成完整的物理世界信息,缺失任何一方都是维度残缺。试错不是通向正确的噪声,试错本身就是信号。
完整的物理世界信息 = 正确路径 + 错误路径
物理世界中,任何一个最终被验证的正确结果,都伴随着大量被排除的错误路径。牛顿在得出万有引力定律之前,测试并放弃了多种不同的力学模型。爱因斯坦在1915年发表广义相对论之前,经历了数年的错误尝试,包括一个被他自己否定的1913年版本。DNA双螺旋结构的发现过程中,鲍林提出的三螺旋模型是一个关键的错误路径,正是这个错误帮助沃森和克里克校准了正确方向。
这些错误路径不是噪声。它们是信号的必要组成部分。正确路径告诉你”答案是什么”,错误路径告诉你”答案为什么不是别的东西”。后者的信息量等于甚至大于前者。因为理解一个命题为什么成立,往往需要先理解所有相近的替代命题为什么不成立。
物理世界的完整信息是由成功与失败共同定义的拓扑结构。只记录成功路径的信息系统,等于一张只画了道路而没有画悬崖的地图。使用这张地图的人不会知道哪里不能走——他只会在某一天走到悬崖边缘坠落。
信噪比公式的空白地带
Shannon的信噪比公式(SNR = P_signal / P_noise)提供了信号和噪声的功率比值,但从未给出两者的独立定义——边界由观察者主观划定。在一个通信系统中,工程师知道什么是信号、什么是噪声,因为信号是他自己发送的。但在更广泛的知识域中,这条边界是模糊的、依赖语境的、甚至是政治性的。
本文提出一个二维判别坐标系来填补这个空白。X轴是逻辑自治:信息内部是否无矛盾,每一步是否从前一步自然生长,整体结构是否闭合。这是一个可形式化验证的数学性质,不依赖外部参照。Y轴是物理对齐:信息是否与可观测的物理现实一致。这是一个可实验检验的经验性质,以物理世界本身(而非人类共识)为锚点。
这里”物理对齐”而非”事实对齐”的措辞选择至关重要。”事实”是人类用信号描述物理世界后产生的共识产物,已经经过了观察者的过滤器,存在自指困境——谁来判定事实。”物理”是过滤器之前的东西:苹果落地不需要共识,熵增不需要同行评审,光速不因信仰而改变。这一措辞的替换将Y轴从主观参照系切换到了客观参照系。
逻辑自治 × 物理对齐:信号与噪声的判别坐标系
在这个坐标系下,信号和噪声不再是二分法,而是一个连续的二维空间。一条信息不是”要么是信号要么是噪声”,而是在坐标系中拥有一个精确的位置。这使得信号质量的评估从主观判断变为可操作的二维度量。
当前LLM训练数据的结构性缺失
当前LLM的训练数据来源主要包括:已发表的学术论文、编辑后的百科全书、审核后的代码仓库、新闻报道和书籍。这些数据有一个共同特征——它们全部是”正确路径”的记录。
| 数据来源 | 记录内容 | 缺失内容 |
|---|---|---|
| 学术论文 | 引言→方法→结果→结论的线性正确路径 | 所有被放弃的假说、失败的实验、死胡同 |
| 百科全书 | 最终确认的知识条目 | 知识形成过程中的争议、错误和修正 |
| 代码仓库 | 最终通过测试的代码版本 | 被revert的提交、失败的架构尝试 |
| 新闻报道 | 事件的最终叙述 | 早期的错误报道、后续的更正声明 |
| 书籍 | 作者的最终论述 | 写作过程中的草稿、被删除的章节 |
用XY坐标系分析:当前训练数据几乎100%来自信号象限(高X·高Y)的终点坐标。从起点到终点的完整轨迹——包括在幻觉象限(高X·低Y)中的徘徊和修正——被系统性地抹除了。模型从未见过一条完整的从错误到正确的路径迁移记录。
LLM幻觉是维度缺失的直接后果
LLM幻觉的现有解释通常归因于三个因素:训练数据中的噪声导致模型学到了错误关联;模型在高置信度下生成未经验证的内容;RLHF训练的奖励偏差导致模型倾向于生成”听起来正确”的输出。这些解释都停留在症状层面。
更底层的根因是:模型从未见过”逻辑自治但物理不对齐”的标注样本。在XY坐标系中,信号象限(高X·高Y)和幻觉象限(高X·低Y)在X轴上的投影完全重叠——两者都是逻辑自洽的。唯一的区别在Y轴——是否与物理现实对齐。但训练数据中几乎不存在”高X·低Y”的负样本,模型无法学到Y轴上的判别能力。
一个从未见过黑暗的系统不会理解光。一个从未见过失败路径的系统不会理解成功路径为什么成功。LLM的幻觉不是因为它”太笨”,而是因为它的训练数据在结构上缺失了让它区分真假的那整个维度。
这解释了为什么增加模型参数和训练数据量无法根本解决幻觉问题。更大的模型在同一个单维度数据上训练,得到的是更精细的单维度表征,不是新的维度。一面更大的镜子仍然只能反射二维图像——它不会因为面积增大而突然获得深度。
隐含排除信息 ≠ 显式失败路径记录
对本文核心命题最强的反驳是:错误路径信息其实已经隐含在正确路径中了。一篇论文选择了方法A,隐含信息就是方法B、C、D不被选择。因此训练数据并非真正缺失了错误路径维度——它只是以隐含形式存在。
这个反驳有一定道理,但混淆了两种信息量级别完全不同的东西。”方法B未被选择”是一个一比特的二元信号——选了或没选。而”方法B在条件C下被测试,在步骤D处遇到了物理约束E的违反,失败机制是F,这个失败排除了G类方案的可行性”——这是一个多比特的结构化信号,包含了起点、路径、终止条件、失败原因和排除范围。
两者的信息量差异可以用一个具体例子量化。Knuth事件中,Claude的第27次探索尝试了”单超平面+旋转”方法。如果只记录”最终未采用旋转方法”,信息量为1比特。但Claude的实际记录包含了:旋转方法在哪些条件下接近成功、在什么具体节点产生了不可解决的冲突、以及这个冲突为什么排除了整个”单一超平面”类别的方案。这些信息直接帮助后续探索收窄了搜索空间——第28-31次探索之所以能快速收敛到Cayley有向图结构,正是因为前27次的失败记录精确标注了”哪些方向不通”。
隐含排除:”方法B未被选择”→ 1比特。
显式失败记录:”方法B在条件C下失败,失败机制为F,排除了G类方案”→ 多比特结构化信号。
前者告诉你”这条路没人走”。后者告诉你”这条路通向哪里、在哪里断了、为什么断了、以及还有哪些相似的路也会在同一个地方断”。两者的信息量差距不是百分比级别,是数量级级别。
更关键的是,当前对比学习和负样本训练方法(如DPO、KTO等)已经在尝试利用”被拒绝的输出”来改善模型。但这些方法中的负样本只标注了”这个输出不好”——一个一比特信号。它们没有标注”这个输出在X轴还是Y轴上失败的”,也没有标注”失败的具体机制是什么”。因此,即使加入了对比学习,模型学到的仍然只是”避免某些输出模式”,而非”理解为什么某些逻辑自洽的构造在物理对齐上失败”。维度缺失问题在对比学习框架下并未被真正解决。
Knuth事件:试错路径的价值的活体验证
2026年2月28日,87岁的Stanford计算机科学家Donald Knuth发表了题为”Claude’s Cycles”的论文。Claude Opus 4.6在约一小时内,通过31次引导探索,解决了Knuth研究数周未果的有向图Hamilton圈分解问题。Knuth以”Shock! Shock!”开篇,称这是”自动推理和创造性问题解决的戏剧性进步”。
这个事件最重要的不是结果,而是过程。Knuth的朋友Filip Stappers设置了一条严格规则:每次程序运行后必须记录探索进展。这个约束迫使Claude产出了一份罕见的完整试错轨迹记录——31次探索中包含了大量的死胡同、错误方向、被放弃的策略。
用XY坐标系分析这个过程:31次探索中的前27次大部分落在幻觉象限(高X·低Y)——逻辑上自洽的构造,但与问题的实际解不对齐。Claude最终找到的蛇形构造在X轴上成立(逻辑自治),Knuth随后手工完成了Y轴验证(物理对齐),确认其进入信号象限。
Knuth对这个事件的震惊,不仅因为AI解决了问题,更因为他看到了AI的完整试错过程。31次探索的轨迹本身——包含所有的失败和回溯——就是一份物理世界信息的完整记录。如果只记录最终的蛇形构造,信息量将丢失90%以上。
人类学术论文的”正确路径独裁”
当前学术论文的标准格式——引言、方法、结果、结论——是一种对正确路径的线性重建。它要求作者将可能经历了数年的曲折探索过程压缩为一条从假说到验证的直线叙事。所有的死胡同、错误假设、被放弃的实验方向、”差一点就对了但最后发现不行”的中间状态,全部被系统性地删除。
这意味着人类知识的代际传承中,成功路径被过度代表,失败路径几乎完全缺失。下一代研究者面对同一个问题领域时,只能看到前人最终走通的那条路,看不到前人走过的几十条死路。结果是:每一代研究者都在重复踩同样的坑。
| 维度 | 当前学术论文 | 完整物理世界信息 |
|---|---|---|
| 正确路径 | 完整记录 | 完整记录 |
| 错误路径 | 系统性删除 | 完整记录 + 失败原因标注 |
| 路径迁移过程 | 不记录 | 记录从错误到正确的完整轨迹 |
| 信息维度 | 单维度(终点坐标) | 双维度(完整路径拓扑) |
| 对后续研究的价值 | 知道”什么是对的” | 知道”什么是对的 + 什么是错的以及为什么” |
维度缺失如何塑造了LLM的行为模式
LLM在几乎100%为”正确路径”的数据上训练,导致了几个结构性行为缺陷:
第一,模型不会试错。它见过的全部是”从问题直接到正确答案”的捷径。它的默认行为是:生成一个看起来像正确答案的输出,如果被指出错误就生成另一个看起来像正确答案的输出。它从不说”我先试这个方向,如果不行我就知道这个方向为什么不行,然后换一个方向”——因为训练数据中没有这种模式的样本。
第二,模型无法解释”为什么不是别的答案”。当用户问”为什么选A而不是B”时,模型只能从正确答案A的角度做事后论证,无法呈现”B被测试过、在某个条件下失败了、失败原因是什么”这种完整的排除过程。因为训练数据中没有B的失败记录。
第三,模型对错误路径的敏感度极低。当用户的输入本身就走在一条错误路径上时,模型无法识别并预警——因为它从未学过错误路径的特征。它只能在用户走完全程、得到错误结果后,再尝试给出正确答案。这种”事后纠正”的能力远逊于”事前预警”。
人类专家之所以能预判错误方向,是因为他们自己踩过那些坑,或者读过前人踩坑的记录。他们的知识包含正确路径和错误路径的双维信息。LLM只有正确路径这一个维度,因此它的”专家性”是残缺的——它知道终点在哪里,但不知道哪些路通向悬崖。
试错不是通向正确的噪声,试错本身就是信号
传统认知中,试错被视为噪声——它是通向正确答案途中不得不经历的代价,一旦到达终点就可以丢弃。这种观点在XY坐标系下是错误的。
一次试错包含以下信息:起点坐标(从哪个假设出发)、路径方向(沿什么逻辑推进)、终止条件(在什么地方遇到了与物理现实的不对齐)、以及失败原因(具体是哪个物理约束导致了路径终止)。这四项信息中的每一项都是对物理世界的真实测量——试错是物理世界对一个假说发出的否定性反馈信号。
否定性反馈信号的信息量不低于肯定性反馈信号。一个实验告诉你”A是对的”,提供了一个信号象限的坐标点。另一个实验告诉你”B是错的,因为在条件C下违反了物理约束D”,提供了一个幻觉象限的坐标点加上其与信号象限的精确边界信息。后者的信息量往往更大——因为它不仅标记了一个位置,还标记了一条边界。
一次就对齐的幸运是小概率事件。大量的试错后达到对齐才是物理世界的大概率事件。记录错误路径不是学术的”诚实”要求——它是信息完整性的物理学要求。丢弃错误路径等于丢弃了物理世界对你的假说发出的否定性反馈信号。这些信号和肯定性反馈信号一样真实、一样重要、一样不可替代。
并非所有试错都是信号。本文所定义的”试错即信号”有严格的边界条件:(一)试错必须在一个明确的假说框架下进行——无假说的随机尝试是噪声,不是信号;(二)试错必须有记录——未记录的失败不携带可传播的信息;(三)试错的失败原因必须可标注——”试了不行”是一比特信号,”在条件C下因物理约束D而失败”才是多比特信号。满足这三个条件的试错是信号。不满足的是噪声。无限猴子定理下的随机敲键盘不满足条件(一),因此不在本文”试错即信号”的命题范围内。
AI的领地与人类的领地
在XY坐标系中,AI可以高效执行X轴上的操作——逻辑自治性检验。测试一个构造是否内部自洽、一条推导链是否无矛盾、一个数学结构是否闭合——这些是形式化操作,AI做得比人类快且更全面。Knuth事件中Claude的31次探索全部是X轴上的路径搜索。
但Y轴上的操作——物理对齐验证——AI无法独立完成。因为Y轴的最终锚点是物理世界本身,而AI没有物理世界的感知通道。它永远只能在X轴上移动。Y轴上的每一步都必须由一个嵌入物理世界中的生物实体来完成。Knuth自己手工完成证明,验证Claude的逻辑构造是否真正对应图论中的物理结构——这就是Y轴验证。
这个分工不是效率优化,是本体论边界。AI不是”暂时还做不到Y轴验证”——它在结构上不可能做到,因为它不存在于物理世界中。这正是当前AGI叙事中”跨领域知识迁移”承诺的根本性限制:AI可以在X轴上做跨领域的逻辑结构同构检测,但每一条检测到的同构是否在物理世界中成立,必须由人类验证。
将错误路径纳入LLM训练数据的四个方向
方向一(可行性:高 · 优先级:最高):人机对话数据的结构化保存。高认知人类与AI的深度对话中,自然包含了大量的试错轨迹——提出假说、AI归因验证、发现不对齐、修正方向。这些对话如果被结构化标注(标记每次方向修正的位置和原因),就是天然的”正确路径+错误路径”双维训练数据。此方向的实施成本最低——对话数据已经在产生,只需增加标注环节。Knuth事件中Stappers要求Claude记录每次探索进展,就是这种方法的原型。
方向二(可行性:高 · 优先级:高):负样本标注体系升级。在现有RLHF/RLVR框架中,增加”错误路径标注”维度。不仅标注”哪个输出更好”,同时标注”这个被拒绝的输出为什么是错的——它在X轴上的失败点还是Y轴上的失败点”。这让模型可以学到幻觉象限的精确边界。此方向可以在现有训练基础设施上增量实施,不需要架构变革。
方向三(可行性:中 · 优先级:中):试错轨迹数据集的专门构建。系统性收集科学研究中的试错记录、工程开发中的失败案例、以及诊断性推理中的排除过程,构建专门的”错误路径数据集”。此方向的主要障碍是数据稀缺——当前互联网上这类数据极少,需要主动生产而非被动收集。估计需要与科研机构、工程团队定向合作才能获得足量高质量样本。
方向四(可行性:低 · 优先级:长期):学术出版格式改革。在标准的”引言→方法→结果→结论”之外,增加”试错记录”作为附录的标准组成部分。记录被测试过但失败的假说、失败原因、以及从失败到最终方案的路径迁移过程。此方向的实现难度最高——它要求改变整个学术出版体系数百年的惯性,涉及期刊、审稿人、作者三方的行为模式变革。但从长期看,这是信息完整性的根本性修复。
完整的地图需要标注道路和悬崖
本文的核心命题可以压缩为一句话:正确路径和错误路径才是完整的物理世界信息,而只有正确路径的LLM在维度上就是丢失信息的。
Shannon的SNR公式给出了信号与噪声的功率比,但未定义两者的边界。本文提出的XY坐标系——X轴逻辑自治、Y轴物理对齐——提供了一个可操作的边界定义框架。在这个框架下,试错不是噪声,而是物理世界对假说发出的否定性反馈信号,其信息量等于甚至大于肯定性信号。
当前LLM训练数据系统性地缺失了错误路径这整个维度。这一缺失直接导致了模型无法区分信号象限(高X·高Y)和幻觉象限(高X·低Y),因为两者在X轴上的投影完全重叠。解决幻觉问题的根本路径不是更大的模型或更多的同质数据,而是补全缺失的维度——将错误路径及其失败原因纳入训练数据。
AI可以高效执行X轴上的逻辑自治检验,但Y轴上的物理对齐验证必须由嵌入物理世界中的人类完成。这不是技术限制,是本体论边界。信号象限是两者的交集,不是任何一方的独占领地。
本文给出以下可证伪预测,供后续研究验证或推翻:
预测一:在同一基座模型上,使用包含标注失败路径(含失败原因和XY坐标分类)的训练数据进行微调,其在开放域问答任务上的幻觉率应显著低于仅使用标准正确路径数据微调的对照组。预计差异幅度:幻觉率下降15%-30%。验证时间窗口:2026-2027年。
预测二:在需要排除推理(diagnostic reasoning)的任务中——如医学鉴别诊断、法律案例分析、工程故障排查——包含错误路径训练数据的模型,其”解释为什么不是其他答案”的能力应产生可量化的提升。预计在排除推理基准测试上的准确率提升10%-20%。
预测三:如果上述两项预测均未得到验证——即加入标注失败路径数据后模型的幻觉率和排除推理能力均无显著改善——则本文的核心命题”维度缺失是幻觉根因”将被推翻,幻觉的根因应在架构层面而非数据层面寻找。
一张只画了道路而没有画悬崖的地图,不是一张不完整的地图——它是一张危险的地图。当前LLM的训练数据就是这样一张地图。补全悬崖的标注,是让AI从”看起来聪明”走向”真正可靠”的结构性前提。
参考与致谢 · References & Acknowledgments
[1] Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3), 379–423.
[2] Knuth, D. E. (2026). Claude’s Cycles. Stanford University Faculty Page. February 28, 2026. Revised March 6, 2026.
[3] Epoch AI (2024). Will We Run Out of Data? An Analysis of the Limits of Scaling Datasets in Machine Learning.
[4] Shumailov, I. et al. (2024). The Curse of Recursion: Training on Generated Data Makes Models Forget. Nature.
[5] Popper, K. (1963). Conjectures and Refutations: The Growth of Scientific Knowledge. Routledge.
[6] Kuhn, T. S. (1962). The Structure of Scientific Revolutions. University of Chicago Press.
[7] LEECHO Global AI Research Lab (2026). Signal and Noise: An Ontology of LLMs. V4 Definitive Edition. Part VII, Chapter 20: “从XY坐标系到SN极性——逻辑自治 × 物理对齐:信号与噪声的判别坐标系”.
[8] Rafailov, R. et al. (2023). Direct Preference Optimization: Your Language Model Is Secretly a Reward Model. NeurIPS 2023.
[9] Ethayarajh, K. et al. (2024). KTO: Model Alignment as Prospect Theoretic Optimization. arXiv:2402.01306.