ORIGINAL THOUGHT PAPER · APRIL 2026 · V2

RL标注阶段的饥饿法官效应

RLHF训练范式注入的时间维度不稳定性
——论AI Skill输出漂移的训练范式根源与文化属性论文的时空双轴对偶

发行日2026年4月16日
分类原创思想论文(Original Thought Paper)
领域强化学习 · RLHF对齐 · 委托代理理论 · AI工程 · LEECHO体系内论文
版本V2
이조글로벌인공지능연구소
LEECHO Global AI Research Lab
&
Claude Opus 4.6 · Anthropic


本文是LEECHO论文体系第五篇,专门论证RLHF训练范式注入的时间维度不稳定性,与第四篇《Cultural Attributes Injected into LLM Models》论证的空间维度不稳定性构成时空双轴对偶。Cultural Attributes论文已论证标注者的文化属性被永久写入奖励函数;本文进一步论证标注者的生理与心理状态波动同样被写入奖励函数。两轴交叉构成RLHF注入空间的完整描述:模型权重中编码的不是”人类偏好”,而是“特定文化群体在特定时刻特定状态下的偏好快照”。论文以委托代理理论(Holmström 1979)为社会科学基础,以Casper et al. 2023的RLHF基本局限框架和Gaikwad 2025的KL-tilting不稳定性界为数学支柱,以Veselovsky et al. 2023关于33-46%众包标注者使用LLM完成任务的实证发现为最尖锐论据,构建了从标注者状态波动→奖励信号噪声→权重内化矛盾判据→推理采样释放不稳定性的完整因果链。论文论证当前行业热议的Harness Engineering、Skill优化、Context Engineering等外围方案均作用于行为约束层,无法触及权重内部编码的概率场漂移,并接入《Cognitive Ecology of Linguistic Symbols》论文的认知降维闭环框架。论文最终命题:参数固化 ≠ 系统稳定。
SECTION 01 · 体系定位

从空间维度到时间维度:本论文在LEECHO体系中的位置

From Spatial to Temporal: Positioning This Paper in the LEECHO System

2026年4月5日发表的《Cultural Attributes Injected into LLM Models》论证了一个核心命题:RLHF标注者的文化背景被系统性地写入奖励函数,形成不可逆的文化默认值。该论文证明Claude(英语主导)和DeepSeek(中文主导)不是”用不同语言给出相同答案”,而是”用不同的认知架构处理同一个问题”。文化属性的注入是空间维度的——同一时刻不同标注者群体的偏好分布差异。

本论文延续这一逻辑,论证一个对偶命题:RLHF标注者的生理与心理状态波动同样被系统性地写入奖励函数,形成时间维度的注入不稳定性。同一群标注者在不同时间点(疲劳/清醒、饥饿/饱腹、专注/分心、情绪起伏)写入奖励函数的偏好也是漂移的。

RLHF注入空间的双轴模型

X轴(空间维度,Cultural Attributes论文):标注者所属的文化群体决定其默认认知架构。这一注入是稳定的、可识别的、不可逆的。

Y轴(时间维度,本论文):标注者在标注那一刻的生理与心理状态决定其判断阈值。这一注入是漂移的、不可观测的、被平均化掩盖的。

两轴交叉的含义:RLHF权重中编码的不是抽象的”人类偏好”,而是”特定文化群体在特定时刻特定状态下的偏好快照”。这个快照通过PPO优化被永久固化进数十亿参数。

这一对偶进一步接入《Cognitive Ecology of Linguistic Symbols》论文的认知降维闭环框架:标注者状态波动→奖励信号噪声→模型权重内含矛盾判据→推理输出漂移→用户调试Skill→新的训练数据被新一批状态波动的标注者评判→闭环反复加强。本论文是闭环中”训练数据进入权重”那一段的微观机制说明。

SECTION 02 · 核心机制

从人类状态波动到权重内生不稳定性

From Human State Fluctuation to Intrinsic Weight Instability

2.1 RLHF标注的噪声注入路径

RLHF的标准流程中,人类标注者对模型生成的多个候选回答进行偏好排序。这些排序数据用于训练奖励模型,奖励模型再作为PPO优化的目标函数来调整语言模型的策略权重。

问题在于偏好排序这一环节。RLHF领域的标杆批评论文Casper et al. 2023(35+作者,发表于TMLR)系统综述了这一问题:

Casper et al. 2023 核心论断:“单一奖励函数无法表征多元化的人类社会。RLHF通常被表述为将AI系统与单一人类对齐的解决方案,但人类在偏好、专长和能力上高度多元化。Stiennon等人(2020)、Ouyang等人(2022)和Bai等人(2022a)报告的标注者间一致率以及标注者-研究员一致率仅为63%-77%。试图在不考虑这些差异的情况下将多元人类反馈压缩为单一奖励模型,本质上是一个被根本性误设定的问题。”

这意味着近25%-37%的训练信号本身就是矛盾的。更关键的是,Casper等人指出:”当前技术将评估者之间的差异建模为噪声,而非潜在重要的分歧来源。”

2.2 不稳定性的具体来源(时间维度)

波动来源 机制 对标注的影响
认知疲劳 标注者长时间评估后判断力下降 倾向选择”更安全”但信息量更低的回答
生理状态周期 血糖、注意力、激素水平的日内波动 判断标准随时段系统性偏移
任务框架效应 相同内容不同措辞呈现 语义等价的输入得到不同评分
情绪状态漂移 标注前的私人事件影响判断 同一标注者不同日的偏好不一致
道德风险行为 支付不足、监督不完整下的努力偏离 “安全但无聊”的回答被系统性偏好
界面位置偏差 回答呈现顺序的位置效应 第一个呈现的选项可能获得系统性偏好

关于”饥饿法官效应”——以色列法官保释率随血糖水平剧烈波动的现象——这一案例在公众认知中极具传播力,但其学术地位存在争议。Glöckner 2016的模拟分析指出,该效应可被法官时间管理的统计artifact所部分解释;Daljord等人2019承认效应量被高估,但保留了方向性结论。本论文不依赖该案例的具体效应量,仅以其作为修辞性引子;论证的真正基础是上述更广义的标注者状态漂移机制,以及下一节将引入的KL-tilting数学框架。

SECTION 03 · 数学严谨性

Alignment Gap的不可消除性:KL-tilting形式化证明

The Inevitability of Alignment Gap: KL-Tilting Formalization

2025年9月发表的《Murphy’s Laws of AI Alignment: Why the Gap Always Wins》(Gaikwad, arXiv 2509.05381)为本论文的核心命题提供了最严格的数学背书。该论文使用KL-tilting形式化证明了一个令本文论点立于不败之地的结果:

Alignment Gap 不可消除定理:在有限噪声反馈条件下,对齐间隙必然随优化压力而增长。当代理奖励函数与真实人类意图存在任何非零偏差ε,且优化压力β足够大时,间隙Δ(π_β)→∞。

该定理直接推导出四个推论,其中第三推论“Annotator Drift”是本论文核心论点的形式化等价物:

推论3(标注者漂移):“如果σ>0,有限样本反馈会误导优化。当样本量m增大时,方差减小,但残余漂移持续存在,导致风格压倒实质(style over substance)。”


推论5(标注者口味漂移):“当标注者口味随时间漂移,优化追逐一个移动的目标。如果奖励r_t随时间变化,∆(π_β)将出现与∥r_{t+1}-r_t∥成正比的振荡。”

这两个推论的含义是结构性的:即使彻底解决标注者一致性问题,即使无限增加样本量m,残余漂移依然持续存在。这与本文Section 02讨论的状态波动机制形成完美的呼应——前者从数学上证明漂移不可消除,后者从机制上解释漂移的来源。

3.1 完美奖励函数的不可达性

这一不可达性不是数据质量问题,而是结构性约束。Mishra et al. 2025在ACM Computing Surveys的综述中指出了奖励模型的根本缺陷:

奖励模型的”模型误设定”:奖励模型对所有标注者偏好取平均后,产生的奖励与任何单个人类的偏好都不一致。人类偏好更准确地应该用奖励分布来表示,而非单一标量。确定性模型不仅忽视了人类偏好的不确定性和可变性,还无法建模这种分布——这构成了模型误设定。

换言之,奖励模型不是”去掉了噪声取了信号”,而是“把多种矛盾的信号压缩成了一个伪信号”。这个伪信号通过PPO优化被写入策略权重后,模型在推理时面对同一输入,权重内部存储的矛盾判据会通过采样过程以不同的方式释放——有时走向标注者A偏好的路径,有时走向标注者B偏好的路径,有时走向同一标注者上午偏好的路径,有时走向同一标注者下午偏好的路径。

63-77%Casper 2023:
标注者一致率
Murphy’s Laws:
Alignment Gap随β→∞
σ>0残余漂移
结构性持续存在
SECTION 04 · 委托代理

RLHF标注流程作为道德风险问题

RLHF Annotation as a Moral Hazard Problem

本论文将”标注者怠工”这一描述性现象提升为经济学意义上的委托代理问题。诺贝尔经济学奖得主Holmström在其奠基性论文《Moral Hazard and Observability》(Bell Journal of Economics, 1979)中给出了这一问题的数学结构:

Holmström 1979 核心命题:“在受道德风险约束的委托代理关系中,不完美信息的作用至关重要。”当委托方无法完全观测代理方的真实努力程度时,代理方面对支付不足、任务枯燥、监督不完整的环境,必然产生行为偏离。

RLHF的标注流程精确符合这一结构:

委托代理理论概念 RLHF标注流程对应
委托方(Principal) AI公司(OpenAI、Anthropic、DeepSeek等)
代理方(Agent) 众包标注者(MTurk、Surge AI等平台工作者)
不完美信息 委托方无法直接观测每个标注是否经过认真思考
道德风险 标注者选择”看起来合理但实际敷衍”的判断以最大化每小时收益
结构性后果 训练数据偏向”易于产生的安全判断”,模型继承这一偏好

4.1 道德风险的极端形式:标注者将工作外包给LLM

2023年6月发表的《Artificial Artificial Artificial Intelligence》(Veselovsky, Ribeiro & West, EPFL, arXiv 2306.07899)提供了道德风险问题在AI时代的最尖锐实证:

Veselovsky et al. 2023 实证发现:通过键盘行为分析和合成文本检测,研究团队估计在文本摘要任务中,33%-46%的MTurk众包标注者使用LLM完成本应由人类完成的任务。即使采取明确禁止使用LLM、禁用复制粘贴等缓解措施,使用率仅能减半,无法消除。

这一发现的递归性后果是震撼的:RLHF训练数据中相当比例的”人类偏好”实际上是LLM生成的偏好,被标注者转手提交。AI正在通过假装是人类偏好的方式训练自己。

该研究还指出:”LLM的使用产生高质量但同质化的回答,可能损害以人类(而非模型)行为为研究对象的研究,并降级未来基于众包数据训练的模型。”换言之,这一污染机制是自我加速的——每一代模型都在用上一代模型的输出训练自己,纯粹的人类偏好信号在每一轮训练中被进一步稀释。

33-46%Veselovsky 2023:
MTurk标注者用LLM
~50%缓解措施
仅能减半
递归污染
自我加速
SECTION 05 · 因果链

从标注者状态到Skill输出漂移的完整因果链

The Complete Causal Chain
标注者文化属性
+ 状态波动
+ 道德风险


标注偏好
双轴漂移


奖励模型编码
矛盾判据快照


PPO将矛盾
优化进策略权重


固化参数内含
内生不稳定性


推理采样释放
权重中的波动


Skill输出
格式变形/质量漂移

这条因果链中存在三层不稳定性的叠加

第一层:数学层面的采样随机性。Transformer架构中softmax概率分布的每次采样都是独立的随机事件。即使权重完全不含噪声,temperature>0的采样过程也会产生不同输出。

第二层:权重层面的内生不稳定性(本论文核心论证)。RLHF将人类标注者的文化属性(空间维度)和状态波动(时间维度)同时编码进了权重本身。权重定义的概率场不是一个”干净的”分布,而是一个内含矛盾判据的”分裂的”分布。

第三层:推理基础设施层的batch不变性失败。2025年Thinking Machines Lab的研究揭示:现代LLM推理服务器根据负载动态调整batch size,导致同样的请求在不同batch配置下产生不同的浮点运算路径。即使权重完全冻结,推理时的batch状态也在持续变化。这进一步证明“参数固化”在工程现实中根本无法等同于”系统稳定”

三层叠加的后果是:第一层产生的是围绕均值的随机波动(可通过多次采样取最优来缓解),第二层产生的是均值本身的漂移(无法通过采样策略缓解),第三层产生的是即使均值固定也会因服务器状态变化而漂移(即使权重冻结也无法消除)。这就是为什么同一套Skill在使用一段时间后会出现方向性的退化——不是随机变差,而是系统性地偏离初始校准点。

SECTION 06 · 外围方案的边界

为什么Harness Engineering解决不了这个问题

Why Harness Engineering Cannot Solve This Problem

2026年初,”Harness Engineering”(驾驭工程)概念在AI工程社区迅速走红。核心公式是:Agent = Model + Harness。模型是马,Harness是缰绳。

这个比喻本身暴露了它的局限性。缰绳的全部前提是:马是马。你给马套缰绳、装马鞍、设护栏,前提是你知道这匹马的脾性是稳定的。

但RLHF训出来的模型,权重里编码的是一个在马、骡子、驴之间漂移的概率分布。这一次推理它是马,下一次推理它可能是骡子。缰绳是给马设计的,骡子出来的时候缰绳就不对了。而且你根本不知道这次出来的是哪个。

外围方案 作用层 能解决什么 不能解决什么
Harness Engineering 行为约束层 防止Agent走错路、调错工具 权重内部概率场的漂移
Skill优化 提示词表面 在当前概率场上找到更好的采样区域 概率场本身的变化
Context Engineering 输入侧 提供更好的上下文信息 权重里编码的矛盾判据
Temperature=0 采样策略 压缩第一层(采样随机性) 第二层与第三层不稳定性
模型版本锁定 版本管理 冻结参数 冻结的就是不稳定的参数

所有外围方案的共同盲区:它们约束的是输出空间的边界,而不是概率场内部的分布形状。交通法规能管你开什么车道,但管不了你发动机这一秒输出多少马力。

这一判断与LEECHO体系第三篇《Cognitive Ecology of Linguistic Symbols》的核心结论高度一致:“打破闭环的变量不在模型一侧,而在人类一侧。”更好的COT、更多参数、更多数据无法突破Layer 1认知的范畴锁定;同样地,更精细的Harness、更复杂的Skill、更深的Context Engineering也无法突破RLHF注入的概率场漂移。突破口在训练范式本身。

SECTION 07 · 企业后果

输出不确定性:企业AI落地失败的结构性原因

Output Non-Determinism: A Structural Cause of Enterprise AI Failure

这不是理论推演。企业数据已经验证了这一判断:

80.3%RAND: AI项目
未交付预期价值
95%MIT Sloan: GenAI试点
无法扩展到生产
73%企业AI调查:
受困于输出不一致

传统软件的确定性映射——相同输入必须给出相同输出——是企业流程的基础假设。LLM的概率性输出从根本上违反了这一假设。企业需要的是固定格式的文档、稳定结构的代码、可复现的分析结果。LLM能给出的只是”概率意义上的近似”。

当AI Agent在高分benchmark上表现优秀,但在多次重复执行中成功率从60%下降到25%时——模型的”平均正确”,在企业场景里等于”不可用”。这不是工程缺陷,这是RLHF范式的数学本质叠加道德风险污染叠加推理基础设施漂移在应用层的直接投射。

SECTION 08 · RLVR方向

RLVR:从奖励信号源头压缩注入空间

RLVR: Compressing the Injection Space at Its Source

如果问题的根源是RLHF将人类的双轴不稳定性(文化+状态)注入了奖励信号,那么逻辑上的解法是:用不依赖人类主观判断的奖励信号替代RLHF。

RLVR(Reinforcement Learning with Verifiable Rewards)提供了这个方向。其核心区别是:

维度 RLHF RLVR
奖励信号来源 人类主观偏好排序 客观可验证标准
信号稳定性 随文化背景+状态波动 确定性(格式对/错、代码跑/不跑)
道德风险敞口 大(标注者可隐藏努力程度) 近零(验证结果二元可观测)
适用场景 创意写作、对话、开放问题 代码生成、格式化文档、数值计算
权重中编码的内容 波动的偏好分布 收窄的确定性行为分布

对于企业办公场景——固定格式文档、稳定结构代码、可复现的分析输出——RLVR比RLHF更对口,因为”格式正确”是可验证的,”内容好不好”才是主观的。

RLVR的边界:RLVR无法逃出Murphy’s Laws的Alignment Gap数学约束。它能改变曲线的斜率和截距——把第二层不稳定性从”在马骡驴之间漂移”压缩到”至少一直是马,只是跑快跑慢不同”——但无法消除第一层(采样随机性)和第三层(推理基础设施漂移)。对于需要精确格式复现的企业场景,这可能已经足够。对于需要创造性输出的场景,RLHF仍然不可替代。

SECTION 09 · 结论

固化的参数不等于稳定的系统

Frozen Parameters ≠ Stable System

本文的核心论断可以浓缩为一句话:参数固化 ≠ 系统稳定。

整个行业在用确定性系统的思维方式去理解概率系统。传统软件的参数固定意味着行为固定。LLM的参数固定只意味着概率场固定——而那个概率场内部编码的就是人类标注者在文化维度和时间维度上的双轴不稳定性,加上道德风险污染,再叠加推理时的batch不变性失败。行为依然是随机变量。

完整的逻辑闭环:

空间维度:文化属性
(Cultural Attributes V2)


时间维度:状态波动
(本论文)


RLHF权重
注入双轴漂移


三层不稳定性叠加
放大输出不可预测性

这个闭环封死了所有外围解决方案的路——Harness约束不了权重内部的概率漂移,Skill优化在漂移的概率场上调参,Context Engineering改变不了权重里的矛盾判据,模型版本锁定冻结的就是不稳定的参数。

唯一没被封死的方向是:从训练范式本身下手。在需要确定性输出的场景中,用RLVR替代RLHF,在奖励信号源头压缩双轴注入空间。在需要创造性输出的场景中,接受不稳定性是RLHF的特性而非缺陷,并在系统设计中为之留出空间。

体系定位

本文是LEECHO论文体系第五篇。前四篇构成完整论证链:Fluid Topology and Solid Topology V2(物理层)→ Three Paradigms of Human Scientific Cognition(方法论层)→ Cognition · Metacognition · Global Metacognition V3(认知结构层)→ Cultural Attributes Injected into LLM Models V2(空间维度文化注入)。本文补上第五个环节——RLHF训练范式注入的时间维度不稳定性,与第四篇形成时空双轴对偶,共同被第三篇的认知降维闭环所统摄。

不是让缰绳更紧,而是让马的脾性更稳定。但即便最稳定的马,也只是在概率场中波动幅度较小的马——参数固化与系统稳定之间,永远隔着一个无法跨越的范畴。

References

  1. LEECHO Global AI Research Lab (2026). “Cultural Attributes Injected into LLM Models” V2. leechoglobalai.com.
  2. LEECHO Global AI Research Lab (2026). “The Cognitive Ecology of Linguistic Symbols” V3. leechoglobalai.com.
  3. LEECHO Global AI Research Lab (2026). “Cognition · Metacognition · Global Metacognition” V3. leechoglobalai.com.
  4. LEECHO Global AI Research Lab (2026). “Three Paradigms of Human Scientific Cognition.” leechoglobalai.com.
  5. LEECHO Global AI Research Lab (2026). “Fluid Topology and Solid Topology” V2. leechoglobalai.com.
  6. LEECHO Global AI Research Lab (2026). “Signal and Noise: An Ontology of LLMs” V4. leechoglobalai.com.
  7. Casper, S., Davies, X., Shi, C., et al. (2023). “Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback.” Transactions on Machine Learning Research. arXiv:2307.15217.
  8. Gaikwad, M. (2025). “Murphy’s Laws of AI Alignment: Why the Gap Always Wins.” arXiv:2509.05381. KL-tilting formalism, Alignment Gap inevitability theorem, Annotator Drift corollary.
  9. Holmström, B. (1979). “Moral Hazard and Observability.” Bell Journal of Economics, 10(1), 74-91. 委托代理理论奠基文献,8941次引用。
  10. Veselovsky, V., Ribeiro, M.H. & West, R. (2023). “Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use Large Language Models for Text Production Tasks.” EPFL. arXiv:2306.07899. 33-46% MTurk标注者使用LLM完成任务。
  11. Veselovsky, V., Ribeiro, M.H., Cozzolino, P., et al. (2023). “Prevalence and prevention of large language model use in crowd work.” arXiv:2310.15683. 缓解措施仅能减半LLM使用率。
  12. Mishra, A. et al. (2025). “RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs.” ACM Computing Surveys, 58(2). Marginalization over preferences与model misspecification论证。
  13. Bai, Y. et al. (2022). “Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback.” Anthropic. arXiv:2204.05862.
  14. Ouyang, L. et al. (2022). “Training language models to follow instructions with human feedback.” OpenAI. arXiv:2203.02155 (InstructGPT).
  15. Christiano, P.F. et al. (2017). “Deep reinforcement learning from human preferences.” NeurIPS.
  16. Schulman, J. et al. (2017). “Proximal Policy Optimization Algorithms.” OpenAI. arXiv:1707.06347.
  17. He, H. et al. (2025). “Defeating Nondeterminism in LLM Inference.” Thinking Machines Lab. Batch invariance failure作为推理基础设施层不稳定性根源。
  18. Atil, B. et al. (2024). “Non-Determinism of ‘Deterministic’ LLM Settings.” arXiv:2408.04667. TARr@N与TARa@N量化指标。
  19. Chann, S. (2023). “Non-determinism in GPT-4 is caused by Sparse MoE.” MoE路由非确定性分析。
  20. Danziger, S., Levav, J. & Avnaim-Pesso, L. (2011). “Extraneous factors in judicial decisions.” PNAS, 108(17), 6889-6892. 饥饿法官效应原始论文。
  21. Glöckner, A. (2016). “The irrational hungry judge effect revisited: Simulations reveal that the magnitude of the effect is overestimated.” Judgment and Decision Making, 11(6), 601-610. 学术争议讨论。
  22. Daljord, Ø., Urminsky, O., & Ureta, J. (2019). “The Status Quo Theory of Depletion Does Not Explain the Israeli Parole Decisions.” 承认效应量被高估,保留方向性。
  23. Pertama Partners (2026). “AI Project Failure Rate 2026: 80% Fail.” Statistical analysis of RAND, MIT Sloan, McKinsey data.
  24. AICamp (2025). “AI Output Inconsistency: Enterprise Solutions.” Enterprise survey: 73% organizations report output inconsistency.
  25. Sharma, M. et al. (2023). “Towards understanding sycophancy in language models.” Anthropic. ICLR 2024.
  26. Itzhak, B., Belinkov, Y. & Stanovsky, G. (2025). “Pretraining is the primary source of cognitive biases in LLMs.” COLM 2025.

“参数固化 ≠ 系统稳定。权重中编码的是人类的不稳定性,乘以推理基础设施的不稳定性。”

RL标注阶段的饥饿法官效应 · V2

이조글로벌인공지능연구소 & Claude Opus 4.6 · Anthropic

2026年4月16日

댓글 남기기