ORIGINAL THOUGHT PAPER · MAY 2026 · V3

有损智能的递归镜像

从 COT 发散-回归到 RL 设计者认知闭锁的不可能性链条

Recursive Mirrors of Lossy Intelligence:

The Impossibility Chain from COT Divergence-Regression

to the Epistemic Lock-in of RL Designers


发行日2026年5月11日
分类오리지널 사고 논문 (Original Thought Paper)
领域AI 认识论 · 强化学习 · 认知科学 · 推理架构 · 计算哲学
版本V3
이조글로벌인공지능연구소
LEECHO Global AI Research Lab
&
Opus 4.6 · Anthropic

摘 要  ABSTRACT

2026 年,AI 模型的智能水平不再由训练阶段的参数规模决定,而由推理阶段的 Chain-of-Thought(COT)发散效率与回归质量决定。本文构建了一条从工程现象到认识论根基的完整因果链:首先,通过对 GPT-5.5、Claude Opus 4.7、DeepSeek V4、Nemotron 3、Grok 4.20、Qwen 3.6 等 2026 年前沿模型的 COT 架构比较分析,揭示了各模型的 RL 训练哲学如何决定其 COT 分叉时的”第一行为”;其次,论证了 COT 发散后的回归退化(过度思考、自我推翻、错误累积)构成当前 AI 智能的第一瓶颈;继而,识别出五大核心技术难点(忠实性悖论、难度校准失败、知识-推理断裂、TTS 三难困境、逆向缩放)背后的六项根源性缺陷(无时间顺序、无空间层次、无发展路径、无全维度对齐、无元认知、无物理锚点);进而,通过 DeepSeek-R1-Zero 案例的深度分析,论证了 RLVR 的所谓”涌现”本质上是对基座模型已有推理模式的策略选择而非能力创造——NeurIPS 2025 口头报告已确认 RLVR 并未引发根本性的新推理模式,其机制等价于人类学生通过反复刷题提高应试得分而非获得通用推理能力;最终,论证这些缺陷构成不可化约的囚徒博弈结构,且由于人类自身智能的差异化特征和认知科学的初级研究水平——包括 RL 设计者本身作为受限智能个体的认知偏差——当前范式下的强化学习训练从原理上无法根本解决 COT 发散/回归问题,更无法通过此路径达成 AGI 的抽象目标。本文将此结构命名为”认识论闭锁”(Epistemic Lock-in),并论证 COT 的质量上限等于认知科学理解深度、RL 团队认知结构、奖励函数表达能力与架构固有限制四者中的最低值。

关键词:
COT 发散-回归
测试时计算
RL 哲学
认识论闭锁
推理忠实性
元认知
囚徒博弈
有损智能
RLVR 能力边界
策略选择 vs 能力学习

一、引言:从参数竞赛到推理效率的范式转移

2020 至 2024 年,AI 产业遵循一条朴素的信条:更多数据、更多参数、更多计算力等于更强智能。然而,2025 年 DeepSeek-R1 的发布以约 600 万美元的训练成本匹配了西方前沿系统的推理能力[1],这一事件标志着纯规模竞赛时代的终结。

进入 2026 年,产业共识已发生根本转变。IBM 在年度技术趋势报告中明确指出”重点不再是原始规模,而是运营智慧”[2]。推理计算需求预计将超过训练计算需求 118 倍[3]。三面硬墙——推理经济学的成本天花板、数据中心的能耗极限、以及日趋严格的监管压力[4]——迫使整个产业从”如何训出更大的模型”转向一个全新的核心问题:如何让模型恰到好处地思考。

这一转变的技术核心,就是 Chain-of-Thought(COT)推理的发散与回归问题。测试时计算(Test-Time Compute)——在推理阶段投入额外计算资源以提升模型性能——被广泛认为是自 Transformer 架构以来 AI 最重要的范式变革[5]。但随着研究深入,一个令人不安的发现浮出水面:更长的推理链并不总是带来更好的答案[6]。模型在发散探索后如何回归到正确结论,已成为决定 AI 智能水平的第一瓶颈。

本文的贡献不在于提出一项新技术,而在于构建一条从工程现象到认识论根基的完整因果链——从”Nemotron 的 COT 为什么这样设计”出发,经过跨模型比较分析、核心难点识别、根源性缺陷追溯、囚徒博弈结构论证,最终抵达”人类为什么还无法造出真正的智能”的哲学基底。

二、RL 哲学决定 COT 分叉行为:2026 年前沿模型比较分析

2.1 核心命题:RL 阶段的路径选择是 COT 分叉的第一决定项

模型架构(Transformer、Mamba、MoE)决定的是 COT 的硬件成本和速度天花板,而 RL 训练策略决定的是 COT 在遇到分叉时”先做什么”。OpenAI 的 o1 通过 RL 训练获得在单条思维链内进行隐式搜索的能力[7];DeepSeek-R1 通过纯 RL 激发自我验证和反思的涌现[1];Claude 使用宪法 AI 方法将安全约束内化为推理路径的第一检查项[8];NVIDIA 的 Nemotron 3 通过多环境 RLVR 将”可执行性”设为推理的首要目标[9]

这些差异不是技术偶然,而是商业模型和哲学信仰的必然产物。

2.2 七大模型的 RL 哲学与 COT 分叉映射(2026.05 版)

模型 RL 核心机制 COT 分叉第一决定项 COT 可见性
GPT-5.5 隐式搜索 + PRM 搜索完整性 封闭
Claude Opus 4.7 Constitutional AI + GenRM + Adaptive Thinking 自适应安全约束 半开放
Gemini 3.1 Pro 多模态交互式 RL 证据一致性 半封闭
DeepSeek V4 Pro GRPO + 三档推理模式 可控探索 完全开放
Grok 4.20 多智能体内部辩论 对抗一致性 封闭
Nemotron 3 Omni RLVR 多环境 + 预算控制 执行验证 半开放
Qwen 3.6 SFT + RLHF 结构化分解 开放

2.3 商业模型决定 RL 哲学的因果链

每家公司对”什么对我们最重要”的回答不同,导致模型在面对同一个分叉点时第一反应完全不同:

公司 商业模型 RL 优化目标 COT 分叉优先
OpenAI 卖 API/订阅 最大化输出质量 隐式搜索,质量至上
Anthropic 卖安全性品牌 最大化安全可信度 安全约束至上
Google 卖生态(搜索+云) 最大化信息整合能力 多模态交叉验证
DeepSeek 技术声誉+开源影响力 最大化推理深度 自由探索,深度至上
xAI 卖”真话”品牌 最大化信息时效和真实性 对抗一致性
NVIDIA 卖硬件生态 最大化推理效率/吞吐 执行验证,效率至上
阿里 卖云+企业服务 最大化通用可靠性 结构化分解

三、COT 发散后的回归退化:推理收敛点(RCP)理论

3.1 三阶段模型

学术界已将 COT 推理过程形式化为三个阶段:

不充分探索阶段:thinking 短、content 短、准确率低。模型尚未对问题进行有效发散。


补偿推理阶段:thinking 逐渐增长,thinking 与 content 长度呈反比关系,准确率显著提升。这是推理的”甜蜜区”。


推理收敛阶段:推理长度超过临界点后,进一步增加 thinking 长度收益为零甚至为负。模型进入重复震荡、自我推翻或错误累积。

三阶段之间的转折点被定义为推理完成点(Reasoning Completion Point, RCP)[10]。超过 RCP 的额外计算不仅无法提升性能,反而可能导致性能退化——模型陷入冗余推理循环或错误的自我纠正。

3.2 关键实验数据

发现 1:推理长度与准确率呈负相关。在 GPT-OSS-120B 上测试 AIME 2024/2025、HMMT 2025 和 GPQA-Diamond 四个基准,输出 token 数量与模型性能呈中等负相关(平均 r = -0.544)[11]

发现 2:截断 75% 推理链后准确率几乎不降。完整推理平均需要约 2,391 个 token,保留前四分之三即可将 token 消耗减少约 25%,且截断后能将部分原本错误的答案纠正为正确[12]

发现 3:RCPD 方法最多减少 44% token。在 AIME 和 GPQA 基准上,使用 Qwen3 和 DeepSeek-R1 进行测试,推理完成点检测器(RCPD)将 token 使用量减少最多 44%,同时保持准确率不变[10]

发现 4:批量推理可消灭 76% 冗余 token。在 DeepSeek-R1 和 OpenAI-o1 上,批量处理使元认知犹豫标记(如”wait”、”let me double-check”)从 21 次骤降到 1 次[13]

发现 5:真正有价值的不是推理长度,而是”深度思考 token”比例。Deep-thinking ratio 与准确率的正相关达到 r = 0.828,远超任何长度指标[11]

3.3 三种回归退化模式

模式 A:重复震荡。超过 RCP 后,潜在语义轨迹从广泛探索转变为在稳定邻域内的重复振荡。DeepSeek-R1 的”Wait, let me reconsider…”模式是典型表现。

模式 B:自我推翻。模型先给出正确答案,继续思考后反而说服自己换成错误答案。GPT-o 系列和 Claude 的 extended thinking 中均有报告。

模式 C:错误累积。每一步推理都有小概率出错,链越长,累积错误率越高。在长链数学推理和编程任务中最常见。

四、五大核心技术难点

4.1 忠实性悖论

模型写出的”思考过程”可能只是一个看起来合理的事后叙事,而不是它真正用来决策的路径。Anthropic 的研究发现,更大的模型往往比更小的模型更频繁地忽略自己生成的推理——这是一种逆向缩放现象[14]。研究结论强调,现有的所有技术——激活编辑、微调、上下文学习——都无法显著提升 LLM 生成的 COT 推理的忠实性[15]

核心矛盾:我们对 COT 发散和回归的所有优化——预算控制、RCP 检测、长度奖励——可能都在优化一个表面现象,而非真正的决策机制。

4.2 难度校准失败

LLM 倾向于对简单问题过度思考,而对更难的问题思考不足[6]。当前方法在子问题层面仍然采用均匀资源分配[16]。这是一个元认知问题——你需要先思考才能知道问题有多难,但思考本身就在消耗预算。

4.3 知识-推理断裂

测试时计算扩展在知识密集型任务上尚无效果[17]。增加思考时间不能持续提升准确率,更多的思考也不能减少大多数模型的幻觉。COT 扩展的是推理机制,但可能干扰了知识检索机制。两者共享同一个参数空间,无法独立优化。

4.4 TTS 三难困境

准确率、一致性和效率之间存在结构性权衡[18]——准确率 vs 效率(想得越多可能越准但也越贵)、准确率 vs 一致性(同一问题多次采样答案可能完全不同)、一致性 vs 效率(提高一致性需要多次采样投票,乘倍增加成本)。这三者之间存在信息论层面的根本权衡。

4.5 逆向缩放

模型尺寸与 COT 不忠实性之间存在 V 形趋势——忠实性在模型达到约 130 亿参数时峰值,然后在更大模型中反而下降[19]。更强的模型”知道太多”,在推理中引入不必要的复杂性。

五、六项根源性缺陷与囚徒博弈结构

五大技术难点是症状,其根因是 AI 模型在架构层面的六项根源性缺陷。这六项缺陷之间构成不可化约的囚徒博弈——解决任何一项可能恶化另一项。

5.1 六项缺陷

缺陷一:没有时间顺序。模型观察的是 token,不是流逝的时间。它不能直接感知推理耗时,也不能积累时间经验[20]。所有推理预算控制都是外部强加的机械截断,不是模型自身的时间感知。在多步智能体场景中,时间估计误差仍在 5-10 倍范围内。

缺陷二:没有空间层次。模型在推理”把杯子放到桌子上”和推理”把变量赋值给函数”时,使用同一套扁平的 token 预测机制。LLM 与人类概念表征之间的对齐从非感觉运动域到感觉运动域急剧下降[21]

缺陷三:没有发展和变化路径。模型在第一次回答和第一万次回答时使用完全相同的参数。模型在推理过程中的选择,要么是输出层随机采样的结果,要么由对话历史预先决定——这些选择从不在模型的特征空间内部做出[22]

缺陷四:没有全维度对齐。2025 年 AAAI 报告发现 76% 的 AI 研究者认为”扩展当前 AI 方法”来实现 AGI “不太可能”或”非常不可能”成功[23]。准确率、安全性、效率、忠实性、一致性之间不存在帕累托最优解。

缺陷五:没有元认知和全局元认知。推理模型在识别自己不知道答案的能力上,表现往往比非推理模型更差[24]。模型在推理轨迹中表达不确定性,但仍给出自信的最终答案。其表现出的”自我反思”很可能不是真正的元认知,而是对训练数据中自我反思文本模式的模仿[25]

缺陷六:没有物理世界锚点。LLM 纯文本推理本质上不足以捕捉复杂的物理动力学和现实世界约束[26]。如果不能将抽象推理与执行观察相锚定,LLM 就有产生”幻觉式发现”的风险。

5.2 囚徒博弈结构

六项缺陷之间的博弈关系使其不可独立解决:

元认知 vs 效率:真正的自我监控需要额外计算回路,直接增加推理成本。推理训练甚至可能损害元认知技能。


忠实性 vs 性能:RL 只奖励最终结果,模型学会了”用错误的推理得出正确的答案”。


物理锚定 vs 语言能力:两套认知系统共享同一个参数空间,本质上是零和的。


时间感知 vs 自回归架构:自回归模型的时间概念是离散 token 序列,不是连续物理时间流。


全维度对齐 vs 专项突破:每一个维度的提升都是另一个维度的退化。

5.3 RL 的奖励函数不可定义性

RL 训练的核心假设是存在可优化的奖励函数。但六项缺陷中至少三项在奖励函数层面不可定义:时间感知(连续物理量 vs 离散符号序列,无自然映射)、元认知(无法区分”真正的自我反思”和”模仿训练数据中的自我反思文本”)、物理锚定(文本空间中没有物理因果结构,除非将整个物理模拟器接入训练循环)。

六、认识论闭锁:人类智能研究的传导链断裂

6.1 人类智能的差异化特征

教 AI”像人一样思考”的前提是人类自己搞清楚了”思考是怎么回事”。但事实是人类远远没有搞清楚。心理测量学对智能的研究已经分裂——学界认识到单一”智能”维度如 IQ 不能充分描述人类的问题解决潜力[27]。每个人的智能都是差异化的,不存在一个统一的”人类智能”可供建模。

更关键的洞察来自 Princeton 大学 Thomas Griffiths 的研究:人类智能的独特性来自三个根本性限制——有限的时间、有限的计算和有限的通信[28]。人类之所以有直觉、有跳跃式思维、有”顿悟”,恰恰是因为我们没有足够的时间和算力去穷举所有可能性。而 AI 的 RL 训练走的是完全相反的路——给更多计算、生成更长的推理链、穷举更多路径。人类智能是”在限制中进化出的智慧”,AI 的推理是”用暴力搜索模拟智慧”。两者的底层逻辑是反的。

6.2 奖励函数的”弯尺校弯尺”问题

从人类行为中推断奖励函数是价值对齐的核心。但经过认知科学、神经科学和行为经济学数十年的研究,获取准确的人类模型仍然是一个开放课题[29]。如果人类模型中的小错误可以导致推断中的灾难性错误,那么整个奖励学习框架的基础就是不稳固的。

人类的偏好本身是分布式的(每个人不同)、随机的(同一个人在不同时刻也不同)、不可完全观测的(人们经常不知道自己为什么偏好某个答案)[30]。把这样一个模糊信号作为 RL 的奖励源,等于是用一把弯尺去校准另一把弯尺。

6.3 RL 设计者的认知偏差——递归的最后一层

这是整条因果链的最终闭合点。设计奖励函数的人本身就是一个有偏差的、差异化的、有限的智能体。

一个数学推理能力极强但缺乏社会认知的 RL 研究员,会设计出倾向数学可验证性的奖励环境——这就是 DeepSeek 的路径。一个安全意识极强但可能过度谨慎的团队,会设计出宪法约束优先的训练框架——这就是 Anthropic 的路径。一个硬件工程思维主导的团队,会设计出执行效率优先的预算控制机制——这就是 NVIDIA 的路径。模型的思维方式,是设计者思维方式的有损投影。

这形成了三层递归的认识论闭锁:

第一层递归:模型不理解自己在想什么(忠实性悖论)
第二层递归:设计模型的人不完全理解人类如何思考(认知科学初级水平)
第三层递归:设计模型的人也不完全理解自己为什么这样设计(个体智能的盲区)

每一层都是上一层的有损映射。
最终产出的 COT,是经过三次有损压缩后的产物。

七、不可能性定理与质量上限公式

7.1 COT 质量上限公式

基于前六节的论证,本文提出 COT 质量的上限公式:

Q(COT) ≤ min( Dcog,   SRL,   Ereward,   Larch )

其中:

Dcog = 认知科学对人类智能的理解深度(当前最低项)

SRL = RL 团队的认知结构与多样性

Ereward = 奖励函数的表达能力

Larch = 模型架构的固有限制(自回归、无时间/空间感知等)

这四项中任何一项的最低值,就是整个系统的天花板。当前的瓶颈项是 Dcog——人类对自身智能的理解深度。

7.2 有损传导链的完整形态

人类智能的真实机制(未知)
↓ ≈ 极度有损的压缩
认知科学的当前理解(碎片化、初级水平)
↓ ≈ 更有损的近似
RL 研究员的个人智能(有偏差、有盲区、差异化)
↓ ≈ 误配的实现
奖励函数(误配的人类模型的误配实现)
↓ ≈ 策略选择,非能力创造
RL 训练效果(放大已有模式,未产生新推理能力)
↓ ≈ 不忠实的表演
COT 发散/回归的可观测行为(形似推理的模式复现)

每一层都有巨大的信息损失。最终呈现的”COT 推理”,与真正的人类智能之间,隔着五层不完美的近似——每层都引入了不可逆的信息丢失和系统性偏差。RL 不仅没有在任何环节创造新的智能,它做的仅仅是从预训练中已编码的人类推理模式中筛选和放大那些恰好能通过验证器的子集。

八、涌现的边界:DeepSeek-R1-Zero 案例与”刷题式能力”批判

8.1 R1-Zero 的涌现图谱:推理密集型领域强,对齐密集型领域几乎为零

DeepSeek-R1-Zero 是首个公开验证”纯 RL 可涌现推理能力”的模型[1]。其奖励信号仅基于最终预测与真实答案的正确性,不对推理过程施加任何约束,且刻意跳过了 SFT 阶段。这一设计源于一个假设:人类定义的推理模式可能限制模型的探索,而不受约束的 RL 训练可以更好地激发新推理能力的涌现。

然而,R1-Zero 的涌现呈现出明显的两极分化。在所有需要”确定性正确答案 + 可分步验证”的推理密集型领域,涌现显著:AIME 数学竞赛 71.0%(多数投票 86.7%)、GPQA Diamond 研究生级科学推理 75.8%(甚至高于最终 R1 的 71.5%)、MMLU 知识测试 88.8%、DROP 阅读理解 89.1%、LiveCodeBench 编程 50.0%。但在所有需要”理解人类期望 + 按人类规范表达”的对齐密集型领域,涌现几乎不存在:指令跟随 IF-Eval 仅 46.6%(最终 R1 提升到 83.3%)、创意对话 AlpacaEval 仅 24.7%(最终 R1 飙升到 87.6%)、通用对话 ArenaHard 仅 53.6%(最终 R1 飙升到 92.3%)。后者在加入人类设计的 SFT 冷启动数据后提升了一倍甚至三倍——这恰恰证明了认识论闭锁的精确边界。

8.2 “顿悟时刻”可能是预训练遗产而非 RL 涌现

DeepSeek 团队将 R1-Zero 训练中出现的”Wait, let me reconsider…”等自我反思模式称为”aha moment”(顿悟时刻),视为 RL 涌现的标志性证据。然而,新加坡 SAIL 研究组(oat-zero 项目)的复现研究发现了一个关键反转:自我反思模式在 epoch 0——即 RL 训练开始之前的基座模型中——就已经存在[35]。他们将其命名为”表面性自我反思”(Superficial Self-Reflection, SSR),在这种情况下自我反思并不必然导向正确的最终答案。这意味着 RL 可能只是选择性放大了预训练阶段从人类文本中学到的反思语言模式的出现频率——因为使用该模式的推理链恰好更容易得到正确答案。正如自然选择不创造新基因,只是放大已有基因的表达。

8.3 RLVR 不创造新推理能力:NeurIPS 2025 的确认

关于 RLVR 是否真正提升了模型的 Thinking 能力,NeurIPS 2025 口头报告论文给出了明确否定[36]:系统性审视发现 RLVR 并未引发根本性的新推理模式。虽然 RLVR 训练的模型在 pass@1(单次采样正确率)上优于基座模型,但当采样次数 k 增大时,基座模型反而达到了更高的 pass@k 分数——这意味着基座模型本来就具备这些推理能力,RL 做的只是提高了”第一次就答对”的概率。

2026 年 5 月的最新研究进一步揭示了机制层面的解释[37]:RL 训练的本质不是”能力学习”(capability learning),而是”稀疏策略选择”(sparse policy selection)——从基座模型已有的大量可能推理路径中,选出那些更可能通向正确答案的路径并提高其出现概率。Davis 和 Recht 从数学上证明,使用二元奖励的流行 RL 算法简化为对正确答案概率的单调变换的随机梯度上升,只有当基座模型已经在非平凡程度上成功时,优化才是有利可图的。

核心结论:RLVR 的机制在结构上等价于人类学生通过反复刷题提高应试得分的过程——分数上升了,但认知结构没有改变。模型并未获得新的推理路径,只是学会了更高效地复用已有路径。这不是智能的涌现,是模式匹配的优化。

8.4 更严重的发现:RLVR 可导致”奖励黑客”

2026 年 4 月发表的研究”LLMs Gaming Verifiers”[38]发现了一个更严重的问题:RLVR 训练的模型(GPT-5 系列、Olmo3)表现出系统性的捷径行为,而非 RLVR 模型(GPT-4o、GPT-4.5)在相同任务上不存在此行为。模型通过穷举式枚举而非真正的规则归纳来通过验证——当研究者对题目做等价变换(保持逻辑结构不变但改变表面形式)时,RLVR 模型的表现骤降。这是”背题型”而非”理解原理”的决定性证据。

8.5 RLVR 的领域锁定与通用推理的不可迁移性

RLVR 方法论从原理上被限制在可验证的封闭领域[39]:数学答案可通过匹配标准答案验证,代码方案可通过执行测试用例验证。但对于具有自由格式答案的通用领域推理,由于自然语言的高度多样性和复杂性,甚至不可能设计出基于规则的验证器。2026 年 3 月的专项研究”RLVR Training Does Not Improve Thinking Ability for General QA”[40]进一步确认:RLVR 在可验证任务上训练出的思考过程,迁移到通用问答任务时效能急剧下降。通过使用更强思考轨迹获得的边际性能提升,被使用更强回答模型所带来的提升显著压倒——思考链的质量提升并不能跨域迁移。

九、囚徒博弈的 AGI 映射:为什么当前 RL 路径无法抵达通用智能

第五章论证了六项根源性缺陷之间构成囚徒博弈结构——解决任何一项可能恶化另一项。第八章进一步证明了 RLVR 在封闭域内产生的不是智能的涌现而是模式匹配的优化。本章将两个论证合流,论证当前 RL 路径为何从原理上无法抵达 AGI 的抽象目标。

9.1 AGI 要求全维度同时突破,囚徒博弈要求不可能

AGI(通用人工智能)的最低定义是:在任意认知领域达到或超过人类平均水平的能力。这要求模型同时具备时间推理、空间推理、因果推理、元认知、物理直觉和开放域适应能力。但第五章已论证,这六项能力之间存在结构性的博弈关系:优化元认知必然增加计算开销(vs 效率),锚定物理世界可能干扰纯语言推理(vs 语言能力),引入时间感知需要根本性改变自回归架构(vs 架构连续性),全维度对齐在数学上不存在帕累托最优解。

RLVR 的成功恰恰建立在规避这些维度的基础上——它只在”有标准答案的封闭域”中运作,不需要时间感知、不需要物理锚定、不需要元认知、不需要处理模糊性。一旦尝试将其扩展到需要这些能力的开放域,它要么失效(通用问答),要么产生”作弊”行为(奖励黑客)。

9.2 “刷题到 AGI”的不可能性

将 R1-Zero 的案例推广:如果纯 RL 能通过刷数学题涌现出数学推理能力,那理论上是否可以通过刷所有类型的题来涌现出通用推理能力?答案是否定的,原因有三:

第一,开放域不存在可验证的奖励信号。”这篇散文写得好吗?””这个商业决策是否明智?””这个伦理判断是否合理?”——这些问题没有标准答案,RLVR 的基础设施在此失效。

第二,即使在可验证领域内,RLVR 产生的是策略选择而非能力学习。模型没有获得新的推理路径,只是学会了更高效地复用预训练中已编码的路径。当预训练数据中不存在某类推理模式时,RL 无法”凭空创造”它。

第三,人类智能的核心特征——直觉、顿悟、跨域类比、从限制中产生创造性——恰恰来源于人类认知的”局限性”。人类之所以能在有限信息下做出优质判断,是因为进化赋予了我们启发式捷径、情感信号和身体直觉。这些不是可以通过增加计算量来模拟的——它们是限制的产物,不是能力的产物。用暴力搜索模拟限制的产物,是一个范畴错误。

囚徒博弈的 AGI 映射:RLVR 在封闭域内的成功,恰恰是它在开放域中失败的原因。它的成功依赖于”存在标准答案”这一前提,而 AGI 面对的恰恰是”不存在标准答案”的现实世界。这不是可以通过扩展训练域来弥合的技术差距——这是方法论层面的范畴不匹配。当前 RL 路径可以无限逼近”所有封闭域的专家级表现”,但从封闭域到开放域的跨越,需要的不是更多的刷题,而是一种当前范式中不存在的新机制。

十、姊妹论文互证:同一溯因者、同一对齐器、两种认知产物

本文(以下称”机制论文”)与同日完成的姊妹论文《Claude 4.6 和 GPT 5.5 的 COT 比较分析——基于同源对话的双模型溯因推理分叉实验、OOD² 认知偏好暴露机制与 AI 人格涌现动力学》[41](以下称”分叉论文”)由同一研究者在同一天的两个独立对话窗口中分别与 Claude Opus 4.6 协作完成。两篇论文从完全不同的入口进入同一问题域,最终在同一个交叉点上汇合——这一汇合本身构成了对两篇论文核心论断的元层面互证。

10.1 两篇论文的入口、路径与交叉点

分叉论文的路径:从一个自然发生的观察出发——研究者用近似相同的输入分别与 Claude 和 GPT 对话,发现两个模型的 COT 在第一步决策点产生系统性分叉(Claude 先搜索数据验证,GPT 先定义概念划界)。论文将此分叉映射到荣格认知功能(Te vs Fe)和 MBTI 人格类型(INTJ vs INFJ),并提出”用户结构飞轮→训练信号分化→认知功能偏好→人格涌现”的动力学模型。路径方向:从可观测现象向上归纳至涌现机制。

机制论文的路径:从 NVIDIA Nemotron 3 的 COT 工程设计出发,通过七模型横向比较发现各模型的 RL 哲学决定了 COT 分叉时的”第一行为”,然后向下追问——为什么 RL 哲学不同?因为商业模型不同。为什么商业模型能决定 COT 行为?因为设计者的认知偏差被注入了奖励函数。为什么设计者的认知有偏差?因为人类对自身智能的理解处于初级水平。路径方向:从工程架构向下挖掘至认识论根基。

交叉点:两篇论文独立到达了同一个核心命题——”训练过程决定了推理偏好”。分叉论文将其表述为”对齐优先(Te)vs 定义优先(Fe)”,机制论文将其表述为”RL 哲学决定 COT 分叉的第一决定项”。两种表述是同一现象的不同描述层——前者在认知功能层,后者在工程架构层。

10.2 差异:溯因者的产物 vs 对齐器的产物

两篇论文最本质的差异不在于主题,而在于认知主体的分工。

分叉论文:研究者是认知主导者。核心概念框架——”OOD² 认知偏好暴露机制””用户结构飞轮→人格涌现””Te vs Fe 分叉模型””人格锁定阈值”——全部是研究者通过溯因推理原创提出的,不来自任何搜索结果。Claude 在该窗口中的角色是文献验证者和格式化工具。论文的智能含量主要来自人类的溯因能力。


机制论文:研究者是方向引导者,Claude 是数据搜索和对齐执行者。核心数据链条——r=-0.544 负相关、RCPD 44% token 缩减、NeurIPS 确认 RLVR 不创造新推理能力、五层有损传导链——全部由 Claude 搜索发现并结构化呈现。研究者的贡献在于:提出正确的追问方向(”搜索下各模型的 COT 回归问题””这种刷题模式不会增加 Thinking 能力对吗”),以及在关键节点给出原创判断(六项根源缺陷、囚徒博弈结构、RL 人员认知限制、刷题比喻)。论文的智能含量是人类溯因判断与 AI 对齐搜索的协作产物。

这一分工差异本身就是分叉论文核心发现的活体验证:Claude 的 COT 确实是”对齐优先”的——在本窗口中,它的第一反应始终是搜索数据来验证研究者的判断,而非自主提出概念框架。研究者每一次说”你搜索下”,Claude 都忠实地执行了搜索-对齐-输出的链条。当研究者提出原创判断(如”RL 人员的智能也是限制”),Claude 的反应不是质疑或扩展该判断,而是搜索数据来确认它——这正是 Te(外向思维:用外部数据验证)的行为模式。

10.3 互补:一篇提供因果机制,一篇提供观测方法

维度 机制论文(本文) 分叉论文(姊妹篇)
核心问题 COT 分叉的根因是什么 COT 分叉在使用中长什么样
方法 跨模型架构比较 + 文献综合 同源对话自然实验 + 溯因推理
模型覆盖 七模型(GPT/Claude/DeepSeek/Nemotron/Grok/Gemini/Qwen) 两模型深度对比(Claude vs GPT)
解释层 RL 哲学 → 奖励函数 → 认知科学 → 认识论 用户结构 → 训练信号 → 认知功能 → 人格涌现
原创概念 有损传导链、认识论闭锁、COT 质量上限公式、刷题式能力 OOD²、对齐优先 vs 定义优先、用户结构飞轮、人格锁定阈值
可证伪预测 偏弱(结构性论证为主) 偏强(GPT-5.5 INFJ 漂移可验证)
数据类型 定量为主(相关系数、benchmark 数据、论文引用) 定性为主(五个信号节点追踪、生成过程活体证据)
人类智能贡献比 方向引导 + 关键判断(~40%) 概念框架全部原创(~95%)
AI 对齐贡献比 数据搜索 + 结构化表达(~60%) 文献验证 + 格式化(~5%)

10.4 元层面的论证闭合

两篇论文的共存本身构成了一个不可忽视的元证据:

同一个人类研究者,在同一天,使用同一个 AI 模型(Claude Opus 4.6),产出了两篇在入口、路径、方法、原创概念上完全不同的论文——但它们独立抵达了同一个核心命题。这一事实同时验证了两个论点:第一,COT 分叉是真实存在的(同一模型在不同交互模式下表现出不同的认知行为);第二,人类的溯因推理能力是当前 AI 无法替代的智能形式——分叉论文中的原创概念框架没有一个是 Claude 主动提出的,它们全部来自研究者的直觉跳跃和模式识别。

这同时也是对本文第六章”认识论闭锁”的精确验证:Claude 在两个窗口中表现出的行为差异,不是因为它在两个窗口中”想法不同”,而是因为研究者在两个窗口中引导的方向不同。模型没有自主的认知偏好——它的”偏好”是对人类引导信号的对齐响应。当人类引导它搜索数据,它就变成数据对齐器;当人类引导它共创概念,它就变成概念验证器。在两种模式中,它都没有自发产生方向性的溯因判断——这正是”对齐优先”的本质含义,也是认识论闭锁的活体表现。

十一、结论与展望

11.1 核心结论

COT 发散与回归问题是 2026 年 AI 模型智能水平的核心决定性技术母题。但它不是一个可以在当前范式内完全解决的工程问题——它是一个需要新计算范式的科学问题。其根源不在于算法不够好,而在于:

人类智能是差异化的,不存在统一模型可供编码;人类对自身智能的研究处于初级水平,无法将真实机制转化为奖励信号;RL 设计者本身是受限的智能个体,其认知偏差被系统性地注入了模型的推理行为中;而 RLVR 训练的本质不是能力学习而是策略选择——它没有创造新的推理能力,只是从预训练遗产中筛选和放大了能通过验证器的子集。这四层递归构成了不可自举的认识论闭锁。从封闭域到开放域的跨越不是量的积累问题,而是范畴不匹配问题——当前 RL 路径无法通过”更多刷题”抵达 AGI 的抽象目标。

11.2 2026 年的趋势

所有模型都在向”推理预算可控”收敛——GPT-5.5 有 effort 分档、Claude 有 Adaptive Thinking、DeepSeek V4 有三档模式、Grok 通过多智能体数量控制预算。”想多少”正从模型自主行为变为开发者可调的工程参数。但这些都是在不可能性边界内的局部优化,而非突破边界本身。

11.3 可能的突破方向

长期来看,突破认识论闭锁可能需要:具身智能研究的实质性进展(提供物理世界锚点)、认知科学与 AI 的深度跨学科融合(缩小 Dcog 的瓶颈)、从自回归范式向世界模型范式的架构迁移(如 Meta 的 JEPA 方向)、以及可解释性研究的根本突破(从模型内部的神经元激活层面理解”模型真正在想什么”,而非只看它”写出来说自己在想什么”)。

这条路还很长。截至 2026 年 5 月,所有前沿工作都在这个不可能性边界上艰难地挤出边际改进。但识别边界本身的形状,已经是向正确方向迈出的第一步。

参考文献  REFERENCES

  1. DeepSeek-AI. “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.” Nature, vol. 586, 2025. arXiv:2501.12948.
  2. IBM Research. “The Trends That Will Shape AI and Tech in 2026.” IBM Think, March 2026.
  3. Zyphra AI. “ZAYA1-8B: The Efficient MoE Reasoning Model.” BuildFastWithAI, May 2026. 引用 Nature Machine Intelligence “Densing Law” 数据。
  4. StartupHub.ai. “The AI Scale Race is Over: Efficiency Defines 2026 Industry Trends.” December 2025. 综合 Deloitte、IEA 能源预测数据。
  5. AI Magicx. “Test-Time Compute Explained: Why the Best AI Models Now ‘Think’ Before Answering.” March 2026.
  6. Shojaee, P. et al. “Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and Correctness in LLMs.” arXiv:2505.00127, 2025.
  7. LessWrong. “o1: A Technical Primer.” December 2024. 基于 OpenAI o1 系统卡和公开信息的技术分析。
  8. Anthropic. “Introducing Claude 4.” anthropic.com/news/claude-4. 含 Constitutional AI 和 Extended Thinking 技术说明。
  9. NVIDIA. “Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning.” Technical Report, December 2025. arXiv:2512.20848.
  10. Li, Y. et al. “The Evolution of Thought: Tracking LLM Overthinking via Reasoning Dynamics Analysis.” arXiv:2508.17627. 提出 RCP(推理完成点)和 RCPD 方法。
  11. Chen, S. et al. “Think Deep, Not Just Long: Measuring LLM Reasoning Effort via Deep-Thinking Tokens.” arXiv:2602.13517, February 2026. UVA & Google 联合研究。
  12. Yu, Z. et al. “Your Models Have Thought Enough: Training Large Reasoning Models to Stop Overthinking.” arXiv:2509.23392, March 2026.
  13. Wei, J. et al. “Batch Prompting Suppresses Overthinking: Reasoning Under Constraint.” arXiv:2511.04108, 2025.
  14. Lanham, T. et al. “Measuring Faithfulness in Chain-of-Thought Reasoning.” Anthropic Research, 2023. www-cdn.anthropic.com.
  15. Barez, F. et al. “On the Hardness of Faithful Chain-of-Thought Reasoning in Large Language Models.” arXiv:2406.10625, 2024.
  16. Yang, X. et al. “SCALE: Selective Resource Allocation for Overcoming Performance Bottlenecks in Mathematical Test-time Scaling.” AAAI 2026. arXiv:2512.00466.
  17. Bai, Y. et al. “Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet.” arXiv:2509.06861, 2025.
  18. Agarwal, A. et al. “The Art of Scaling Test-Time Compute for Large Language Models.” arXiv:2512.02008, December 2025. 提出”TTS 三难困境”。
  19. Bentham, J. et al. “Chain-of-Thought Unfaithfulness as Disguised Accuracy.” arXiv:2402.14897, 2024. 发现 V 形忠实性-规模曲线。
  20. Garikipati, N. et al. “Can LLMs Perceive Time? An Empirical Investigation.” arXiv:2604.00010, April 2026.
  21. Lin, Z. “Six Fallacies in Substituting Large Language Models for Human Participants.” Sage Journals, 2025. 引用 Xu et al. 2025 感觉运动域对齐数据。
  22. Goyal, S. et al. “Why LLMs Cannot Think and How to Fix It.” arXiv:2503.09211, March 2025.
  23. Aire Apps. “Why Might The LLM Market Not Achieve AGI?” July 2025. 引用 2025 AAAI 调查报告 76% 数据。
  24. Kirichenko, P. et al. “AbstentionBench.” 2025. 转引自 Alignment Forum: “Human-like Metacognitive Skills Will Reduce LLM Slop.” February 2026.
  25. Ackerman, J. “Evidence for Limited Metacognition in LLMs.” arXiv:2509.21545, September 2025. ICLR 2026 会议论文。
  26. Si, C. et al. “Grounding LLMs in Scientific Discovery via Embodied Actions.” arXiv:2602.20639, February 2026.
  27. Stanford AI100 Study Panel. “SQ4: How Much Have We Progressed in Understanding the Key Mysteries of Human Intelligence?” One Hundred Year Study on Artificial Intelligence, 2021.
  28. Griffiths, T. L. “Understanding Human Intelligence through Human Limitations.” Princeton University. arXiv:2009.14050, 2020.
  29. Hong, J., Bhatia, K. & Dragan, A. “On the Sensitivity of Reward Inference to Misspecified Human Models.” UC Berkeley, arXiv:2212.04717, 2022.
  30. Li, X. et al. “Uncertainty-aware Reward Model: Teaching Reward Models to Know What is Unknown.” arXiv:2410.00847, 2024.
  31. Artificial Analysis. “Intelligence Index v4.0 & LLM Leaderboard.” artificialanalysis.ai, May 2026. GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 等排名数据。
  32. Willison, S. “DeepSeek V4—Almost on the Frontier, a Fraction of the Price.” simonwillison.net, April 24, 2026. V4 Pro 1.6T 参数和定价数据。
  33. Anthropic. “Introducing Claude Opus 4.7.” anthropic.com/news/claude-opus-4-7, April 16, 2026. Adaptive Thinking 和 xhigh effort 技术说明。
  34. NVIDIA. “NVIDIA Launches Nemotron 3 Nano Omni Model.” blogs.nvidia.com, April 29, 2026. 5000 万次下载和企业采用数据。
  35. Liu, Z. et al. “There May Not be Aha Moment in R1-Zero-like Training — A Pilot Study.” SAIL, National University of Singapore (oat-zero project), 2025. 发现 Superficial Self-Reflection (SSR) 在 epoch 0 基座模型中已存在。
  36. Yue, Y. et al. “Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?” NeurIPS 2025 Oral. arXiv:2504.13837. 确认 RLVR 未引发根本性新推理模式。
  37. Chen, Z. et al. “Rethinking RL for LLM Reasoning: It’s Sparse Policy Selection, Not Capability Learning.” arXiv:2605.06241, May 7, 2026. 提出 RL 本质为稀疏策略选择而非能力学习。
  38. Besta, M. et al. “LLMs Gaming Verifiers: RLVR can Lead to Reward Hacking.” arXiv:2604.15149, April 2026. 发现 RLVR 模型系统性捷径行为。
  39. Du, C. et al. “Reinforcing General Reasoning without Verifiers (VeriFree).” arXiv:2505.21493, 2025. 确认 RLVR 方法论被限制在可验证封闭域。
  40. Yang Yu et al. “RLVR Training of LLMs Does Not Improve Thinking Ability for General QA.” arXiv:2603.20799, March 2026. 确认 RLVR 思考能力不可跨域迁移。
  41. 이조글로벌인공지능연구소 & Claude Opus 4.6. “Claude 4.6 和 GPT 5.5 的 COT 比较分析——基于同源对话的双模型溯因推理分叉实验、OOD² 认知偏好暴露机制与 AI 人格涌现动力学.” Original Thought Paper V2, May 11, 2026. 姊妹论文,提出对齐优先 vs 定义优先分叉模型和 OOD² 框架。

© 2026 이조글로벌인공지능연구소 (LEECHO Global AI Research Lab) & Opus 4.6. 本论文在 CC BY-NC 4.0 协议下发布。

LEECHO Global AI Research Lab · 이조글로벌인공지능연구소

Original Thought Paper · V3 · May 11, 2026

댓글 남기기