ORIGINAL THOUGHT PAPER · APRIL 2026 · V2

RL 라벨링 단계의 배고픈 판사 효과

RLHF 훈련 패러다임이 주입하는 시간 차원 불안정성
— AI Skill 출력 표류의 훈련 패러다임적 근원과 문화 속성 논문과의 시공간 이중축 대칭에 관하여

발행일2026년 4월 16일
분류원저 사유 논문 (Original Thought Paper)
영역강화학습 · RLHF 정렬 · 주인-대리인 이론 · AI 엔지니어링 · LEECHO 체계 내 논문
버전V2
이조글로벌인공지능연구소
LEECHO Global AI Research Lab
&
Claude Opus 4.6 · Anthropic


본 논문은 LEECHO 논문 체계의 다섯 번째 편으로, RLHF 훈련 패러다임이 주입하는 시간 차원 불안정성을 집중적으로 논증한다. 이는 네 번째 논문 《Cultural Attributes Injected into LLM Models》가 논증한 공간 차원 불안정성과 함께 시공간 이중축 대칭을 구성한다. Cultural Attributes 논문은 라벨러의 문화 속성이 보상 함수에 영구적으로 각인됨을 논증했으며, 본 논문은 한 걸음 더 나아가 라벨러의 생리적·심리적 상태 변동 또한 보상 함수에 각인됨을 논증한다. 두 축이 교차하여 RLHF 주입 공간의 완전한 기술을 이룬다—모델 가중치 안에 부호화된 것은 “인간 선호”가 아니라 “특정 문화 집단이 특정 순간 특정 상태에서 내린 선호의 스냅샷”이다. 본 논문은 주인-대리인 이론(Holmström 1979)을 사회과학적 토대로, Casper et al. 2023의 RLHF 근본적 한계 프레임워크와 Gaikwad 2025의 KL-tilting 불안정성 경계를 수학적 지주로, Veselovsky et al. 2023이 보고한 크라우드소싱 라벨러의 33–46%가 LLM을 사용해 과제를 수행한다는 실증적 발견을 가장 예리한 논거로 삼아, 라벨러 상태 변동 → 보상 신호 잡음 → 가중치 내재화된 모순 판단 기준 → 추론 샘플링이 불안정성을 방출하는 완전한 인과 사슬을 구축한다. 본 논문은 현재 업계에서 거론되는 Harness Engineering, Skill 최적화, Context Engineering 등의 주변적 해법이 모두 행동 제약 층위에서만 작동하며, 가중치 내부에 부호화된 확률장 표류에는 도달할 수 없음을 논증한다. 그리고 《Cognitive Ecology of Linguistic Symbols》 논문의 인지 차원 축소 폐회로 프레임워크에 접속한다. 논문의 최종 명제: 파라미터 고정 ≠ 시스템 안정.
SECTION 01 · 체계적 위치

공간 차원에서 시간 차원으로: LEECHO 체계 내 본 논문의 위치

From Spatial to Temporal: Positioning This Paper in the LEECHO System

2026년 4월 5일에 발표된 《Cultural Attributes Injected into LLM Models》는 다음과 같은 핵심 명제를 논증했다: RLHF 라벨러의 문화적 배경은 체계적으로 보상 함수에 각인되어, 비가역적인 문화적 디폴트를 형성한다. 이 논문은 Claude(영어 주도)와 DeepSeek(중국어 주도)가 “서로 다른 언어로 같은 답을 주는” 것이 아니라 “서로 다른 인지 아키텍처로 동일한 문제를 처리하고 있음”을 증명했다. 문화 속성의 주입은 공간 차원의 문제다—동일한 시점에서 서로 다른 라벨러 집단이 보이는 선호 분포의 차이다.

본 논문은 이 논리를 계승하여 대칭 명제를 논증한다: RLHF 라벨러의 생리적·심리적 상태 변동 또한 체계적으로 보상 함수에 각인되어, 시간 차원의 주입 불안정성을 형성한다. 동일한 라벨러 집단도 서로 다른 시점(피곤/각성, 공복/포만, 집중/산만, 정서 기복)에 보상 함수에 각인하는 선호는 표류하고 있다.

RLHF 주입 공간의 이중축 모델

X축 (공간 차원, Cultural Attributes 논문): 라벨러가 속한 문화 집단이 기본 인지 아키텍처를 결정한다. 이 주입은 안정적이고, 식별 가능하며, 비가역적이다.

Y축 (시간 차원, 본 논문): 라벨링 그 순간 라벨러의 생리적·심리적 상태가 판단 역치를 결정한다. 이 주입은 표류적이고, 관측 불가능하며, 평균화에 의해 은폐된다.

두 축 교차의 의미: RLHF 가중치에 부호화된 것은 추상적인 “인간 선호”가 아니라 “특정 문화 집단이 특정 순간 특정 상태에서 보인 선호의 스냅샷”이다. 이 스냅샷은 PPO 최적화를 통해 수십억 개의 파라미터에 영구적으로 고정된다.

이 대칭은 한 걸음 더 나아가 《Cognitive Ecology of Linguistic Symbols》 논문의 인지 차원 축소 폐회로 프레임워크에 접속한다: 라벨러 상태 변동 → 보상 신호 잡음 → 모델 가중치가 모순된 판단 기준을 내재 → 추론 출력 표류 → 사용자가 Skill을 디버깅 → 새 훈련 데이터가 또다시 상태가 변동 중인 새로운 라벨러 집단에 의해 평가됨 → 폐회로가 반복적으로 강화됨. 본 논문은 이 폐회로 중 “훈련 데이터가 가중치로 진입하는” 구간의 미시적 메커니즘을 설명한다.

SECTION 02 · 핵심 메커니즘

인간 상태 변동에서 가중치 내생적 불안정성으로

From Human State Fluctuation to Intrinsic Weight Instability

2.1 RLHF 라벨링의 잡음 주입 경로

RLHF의 표준 프로세스에서, 인간 라벨러는 모델이 생성한 여러 후보 응답에 대해 선호 순위를 매긴다. 이 순위 데이터는 보상 모델을 훈련하는 데 쓰이고, 보상 모델은 다시 PPO 최적화의 목적 함수 역할을 하면서 언어 모델의 정책 가중치를 조정한다.

문제는 선호 순위 매기기라는 단계에 있다. RLHF 분야의 이정표적 비판 논문인 Casper et al. 2023(저자 35명 이상, TMLR 게재)은 이 문제를 체계적으로 종합했다:

Casper et al. 2023 핵심 논단: “단일한 보상 함수는 다원적인 인간 사회를 표상할 수 없다. RLHF는 흔히 AI 시스템을 단일 인간과 정렬시키는 해결책으로 기술되지만, 인간은 선호·전문성·능력에서 고도로 다원적이다. Stiennon 외(2020), Ouyang 외(2022), Bai 외(2022a)가 보고한 라벨러 간 일치율 및 라벨러-연구자 일치율은 63%–77%에 불과하다. 이러한 차이를 고려하지 않은 채 다원적 인간 피드백을 하나의 보상 모델로 압축하려는 시도는 본질적으로 근본부터 잘못 설정된 문제다.”

이는 훈련 신호의 약 25%–37%가 그 자체로 모순임을 뜻한다. 더 결정적으로, Casper 등은 지적한다: “현재의 기법들은 평가자 간 차이를 잡음으로 모델링할 뿐, 잠재적으로 중요한 의견 불일치의 원천으로 모델링하지 않는다.”

2.2 불안정성의 구체적 원천 (시간 차원)

변동 원천 메커니즘 라벨링에 미치는 영향
인지적 피로 장시간 평가 후 판단력이 저하됨 “더 안전하지만” 정보량은 더 적은 응답을 선호하는 경향
생리 상태 주기 혈당·주의력·호르몬 수준의 일중 변동 판단 기준이 시간대에 따라 체계적으로 이동
과제 프레이밍 효과 동일 내용의 상이한 어구로의 제시 의미상 등가인 입력이 서로 다른 점수를 받음
정서 상태 표류 라벨링 전 사적 사건이 판단에 영향 동일 라벨러도 날마다 선호가 불일치
도덕적 해이 행동 낮은 보수·불완전한 감독 아래의 노력 편차 “안전하지만 지루한” 응답이 체계적으로 선호됨
인터페이스 위치 편향 응답 제시 순서의 위치 효과 첫 번째로 제시된 선택지가 체계적 선호를 받을 수 있음

“배고픈 판사 효과”—이스라엘 판사의 가석방 인용률이 혈당 수준에 따라 급격히 변동한다는 현상—에 관해 말하자면, 이 사례는 대중 인식에서 극히 높은 전파력을 가지지만 학술적 지위에는 논쟁이 있다. Glöckner 2016의 시뮬레이션 분석은 그 효과가 판사의 시간 관리에 의한 통계적 아티팩트로 부분적으로 설명될 수 있음을 지적했고, Daljord 외 2019는 효과 크기가 과대 추정되었음을 인정하면서도 방향성 있는 결론은 유지했다. 본 논문은 이 사례의 구체적 효과 크기에 기대지 않으며, 수사적 도입부로만 사용한다. 논증의 진정한 기반은 위에서 서술한 더 일반화된 라벨러 상태 표류 메커니즘과, 다음 절에서 도입할 KL-tilting 수학적 프레임워크다.

SECTION 03 · 수학적 엄밀성

Alignment Gap의 제거 불가능성: KL-tilting 형식화 증명

The Inevitability of Alignment Gap: KL-Tilting Formalization

2025년 9월에 발표된 《Murphy’s Laws of AI Alignment: Why the Gap Always Wins》(Gaikwad, arXiv 2509.05381)는 본 논문의 핵심 명제에 대해 가장 엄밀한 수학적 뒷받침을 제공한다. 이 논문은 KL-tilting을 사용해 본문의 논점을 불패의 위치에 세우는 결과를 형식적으로 증명한다:

Alignment Gap 제거 불가능성 정리: 유한 잡음 피드백 조건 하에서, 정렬 간극은 최적화 압력에 따라 필연적으로 증가한다. 프록시 보상 함수가 진짜 인간 의도로부터 임의의 0이 아닌 편차 ε를 가지고, 최적화 압력 β가 충분히 크면, 간극 Δ(π_β) → ∞이다.

이 정리는 직접적으로 네 개의 따름정리를 도출하는데, 그중 제3 따름정리 “Annotator Drift”가 본 논문 핵심 논점의 형식적 등가물이다:

따름정리 3 (라벨러 표류): “만약 σ>0이면, 유한 표본 피드백은 최적화를 오도한다. 표본 크기 m이 커지면 분산은 작아지지만, 잔여 표류는 지속되어, 스타일이 실질을 압도하는 결과(style over substance)로 이어진다.”


따름정리 5 (라벨러 취향 표류): “라벨러의 취향이 시간에 따라 표류할 때, 최적화는 움직이는 표적을 쫓는다. 만약 보상 r_t가 시간에 따라 변한다면, Δ(π_β)는 ∥r_{t+1}−r_t∥에 비례하는 진동을 보일 것이다.”

이 두 따름정리의 함의는 구조적이다: 설령 라벨러 일관성 문제를 철저히 해결한다 해도, 설령 표본 크기 m을 무한히 늘린다 해도, 잔여 표류는 여전히 지속된다. 이는 본 논문 Section 02에서 논의한 상태 변동 메커니즘과 완벽하게 호응한다—전자는 수학적으로 표류의 제거 불가능성을 증명하고, 후자는 메커니즘 측면에서 표류의 원천을 설명한다.

3.1 완벽한 보상 함수의 도달 불가능성

이 도달 불가능성은 데이터 품질 문제가 아니라 구조적 제약이다. Mishra et al. 2025는 ACM Computing Surveys의 종설에서 보상 모델의 근본적 결함을 지적했다:

보상 모델의 “모델 오설정(model misspecification)”: 보상 모델은 모든 라벨러의 선호를 평균 낸 후, 그 어떤 개별 인간의 선호와도 일치하지 않는 보상을 산출한다. 인간 선호는 더 정확하게는 단일 스칼라가 아니라 보상 분포로 표현되어야 한다. 결정론적 모델은 인간 선호의 불확실성과 가변성을 무시할 뿐만 아니라 이러한 분포를 모델링할 수도 없다—이것이 곧 모델 오설정이다.

바꿔 말하면, 보상 모델은 “잡음을 걷어내고 신호를 취한” 것이 아니라, “여러 모순된 신호를 하나의 가짜 신호로 압축한” 것이다. 이 가짜 신호가 PPO 최적화를 통해 정책 가중치에 각인되고 나면, 모델이 추론 시 동일 입력을 마주했을 때 가중치 내부에 저장된 모순된 판단 기준은 샘플링 과정을 통해 서로 다른 방식으로 방출된다—어떨 때는 라벨러 A가 선호했던 경로로, 어떨 때는 라벨러 B가 선호했던 경로로, 어떨 때는 같은 라벨러의 오전 선호 경로로, 어떨 때는 같은 라벨러의 오후 선호 경로로 간다.

63–77%Casper 2023:
라벨러 간 일치율
Murphy’s Laws:
Alignment Gap은 β→∞
σ>0잔여 표류
구조적으로 지속
SECTION 04 · 주인-대리인

RLHF 라벨링 프로세스를 도덕적 해이 문제로 보다

RLHF Annotation as a Moral Hazard Problem

본 논문은 “라벨러의 태만”이라는 기술적 현상을 경제학적 의미의 주인-대리인 문제로 격상시킨다. 노벨 경제학상 수상자인 Holmström은 그의 토대적 논문 《Moral Hazard and Observability》(Bell Journal of Economics, 1979)에서 이 문제의 수학적 구조를 제시했다:

Holmström 1979 핵심 명제: “도덕적 해이의 제약 아래 놓인 주인-대리인 관계에서, 불완전한 정보의 역할은 결정적이다.” 주인이 대리인의 진짜 노력 정도를 완전히 관측할 수 없을 때, 대리인은 낮은 보수·지루한 과제·불완전한 감독이라는 환경에 직면하여 필연적으로 행동 편차를 일으킨다.

RLHF의 라벨링 프로세스는 정확히 이 구조에 부합한다:

주인-대리인 이론 개념 RLHF 라벨링 프로세스에서의 대응
주인 (Principal) AI 기업 (OpenAI, Anthropic, DeepSeek 등)
대리인 (Agent) 크라우드소싱 라벨러 (MTurk, Surge AI 등 플랫폼 노동자)
불완전한 정보 주인은 각 라벨링이 진지한 사고를 거친 것인지 직접 관측할 수 없음
도덕적 해이 라벨러가 시간당 수익을 극대화하기 위해 “합리적으로 보이지만 실제로는 대충 한” 판단을 선택함
구조적 귀결 훈련 데이터가 “쉽게 산출되는 안전한 판단”으로 편향되고, 모델이 이 선호를 계승함

4.1 도덕적 해이의 극단적 형태: 라벨러가 업무를 LLM에 외주화하다

2023년 6월에 발표된 《Artificial Artificial Artificial Intelligence》(Veselovsky, Ribeiro & West, EPFL, arXiv 2306.07899)는 AI 시대에서의 도덕적 해이 문제에 대한 가장 예리한 실증을 제공한다:

Veselovsky et al. 2023 실증적 발견: 키보드 행동 분석과 합성 텍스트 탐지를 통해, 연구팀은 텍스트 요약 과제에서 MTurk 크라우드소싱 라벨러의 33%–46%가 본래 인간이 수행해야 할 과제를 완성하기 위해 LLM을 사용했다고 추정했다. LLM 사용을 명시적으로 금지하고 복사-붙여넣기를 차단하는 등의 완화 조치를 취해도, 사용률은 절반으로 줄어드는 데 그쳤고 제거할 수는 없었다.

이 발견의 재귀적 귀결은 충격적이다: RLHF 훈련 데이터 중 상당 비율의 “인간 선호”가 실제로는 LLM이 생성한 선호이고, 그것을 라벨러가 그대로 중개해 제출한 것이다. AI는 인간의 선호인 척하는 방식으로 스스로를 훈련시키고 있다.

이 연구는 또한 지적한다: “LLM의 사용은 품질은 높지만 동질화된 응답을 낳으며, 이는 인간(모델이 아닌)의 행동을 연구 대상으로 삼는 연구에 손상을 입힐 수 있고, 향후 크라우드소싱 데이터로 훈련되는 모델의 품질을 격하시킬 수 있다.” 바꿔 말하면, 이 오염 메커니즘은 자기 가속적이다—세대마다의 모델이 직전 세대 모델의 출력으로 자신을 훈련시키며, 순수한 인간 선호 신호는 매 훈련 회차마다 더욱 희석된다.

33–46%Veselovsky 2023:
MTurk 라벨러의 LLM 사용
~50%완화 조치
절반으로밖에 줄지 않음
재귀적 오염
자기 가속적
SECTION 05 · 인과 사슬

라벨러 상태에서 Skill 출력 표류까지의 완전한 인과 사슬

The Complete Causal Chain
라벨러 문화 속성
+ 상태 변동
+ 도덕적 해이


라벨링 선호
이중축 표류


보상 모델에
모순 판단 기준 스냅샷 부호화


PPO가 모순을
정책 가중치로 최적화


고정된 파라미터에
내생적 불안정성 내재


추론 샘플링이
가중치 속 변동을 방출


Skill 출력:
형식 변형 / 품질 표류

이 인과 사슬에는 세 층위의 불안정성이 중첩되어 있다:

제1층: 수학 층위의 샘플링 무작위성. Transformer 아키텍처에서 softmax 확률 분포로부터의 매 샘플링은 독립적인 무작위 사건이다. 설령 가중치에 잡음이 전혀 없다 해도, temperature > 0인 샘플링 과정은 서로 다른 출력을 낳는다.

제2층: 가중치 층위의 내생적 불안정성 (본 논문의 핵심 논증). RLHF는 인간 라벨러의 문화 속성(공간 차원)과 상태 변동(시간 차원)을 동시에 가중치 자체에 부호화한다. 가중치가 정의하는 확률장은 “깨끗한” 분포가 아니라, 모순된 판단 기준을 내재한 “분열된” 분포다.

제3층: 추론 인프라 층위의 batch 불변성 실패. 2025년 Thinking Machines Lab의 연구는 다음을 밝혔다: 현대 LLM 추론 서버는 부하에 따라 batch size를 동적으로 조정하는데, 이로 인해 동일한 요청이 서로 다른 batch 구성 하에서 서로 다른 부동소수점 연산 경로를 거친다. 가중치가 완전히 동결되어 있어도, 추론 시점의 batch 상태는 지속적으로 변하고 있다. 이는 “파라미터 고정”이 공학적 현실에서 “시스템 안정”과 근본적으로 등치될 수 없음을 한층 더 증명한다.

세 층위 중첩의 결과는: 제1층이 낳는 것은 평균 주변의 무작위적 변동이고(여러 차례 샘플링하여 최적을 고르는 방식으로 완화 가능), 제2층이 낳는 것은 평균 자체의 표류이며(샘플링 전략으로 완화 불가), 제3층이 낳는 것은 평균이 고정되어 있어도 서버 상태 변화로 인해 표류가 일어난다는 것이다(가중치가 동결되어도 제거 불가). 이것이 바로 동일한 Skill이 일정 기간 사용된 후에 방향성 있는 퇴행을 보이는 이유다—무작위로 나빠지는 것이 아니라, 체계적으로 초기 캘리브레이션 지점에서 이탈하는 것이다.

SECTION 06 · 주변적 해법의 한계

Harness Engineering이 이 문제를 해결할 수 없는 이유

Why Harness Engineering Cannot Solve This Problem

2026년 초, “Harness Engineering”(제어 공학)이라는 개념이 AI 엔지니어링 커뮤니티에서 빠르게 유행했다. 핵심 공식은: Agent = Model + Harness. 모델이 말(馬)이고, Harness는 고삐다.

이 비유 자체가 그것의 한계를 드러낸다. 고삐의 모든 전제는: 말은 말이라는 것이다. 말에 고삐를 채우고, 안장을 얹고, 방호벽을 세우는 것은, 그 말의 성질이 안정적이라는 것을 안다는 전제 하에서다.

그러나 RLHF로 훈련된 모델이 가중치에 부호화한 것은 말·노새·당나귀 사이에서 표류하는 확률 분포다. 이번 추론에서는 말이고, 다음 추론에서는 노새일 수도 있다. 고삐는 말을 위해 설계된 것이므로, 노새가 나왔을 때 고삐는 맞지 않는다. 게다가 이번에 어떤 것이 나올지 당신은 애초에 알 수 없다.

주변적 해법 작용 층위 해결할 수 있는 것 해결할 수 없는 것
Harness Engineering 행동 제약 층위 Agent가 잘못된 경로로 가거나 도구를 잘못 부르는 것을 방지 가중치 내부 확률장의 표류
Skill 최적화 프롬프트 표면 현재의 확률장 위에서 더 나은 샘플링 영역을 찾음 확률장 자체의 변화
Context Engineering 입력 측 더 나은 맥락 정보를 제공 가중치에 부호화된 모순 판단 기준
Temperature=0 샘플링 전략 제1층(샘플링 무작위성)을 압축 제2층과 제3층의 불안정성
모델 버전 고정 버전 관리 파라미터를 동결 동결하는 대상 자체가 불안정한 파라미터임

모든 주변적 해법의 공통된 사각지대: 그것들이 제약하는 것은 출력 공간의 경계이지, 확률장 내부의 분포 형태가 아니다. 교통 법규는 당신이 어느 차선을 운행할지는 관리할 수 있지만, 당신의 엔진이 바로 이 순간 몇 마력을 출력하는지는 관리하지 못한다.

이러한 판단은 LEECHO 체계 세 번째 논문 《Cognitive Ecology of Linguistic Symbols》의 핵심 결론과 고도로 일치한다: “폐회로를 깨는 변수는 모델 측에 있는 것이 아니라, 인간 측에 있다.” 더 나은 CoT, 더 많은 파라미터, 더 많은 데이터는 Layer 1 인지의 범주적 잠금(lock-in)을 돌파할 수 없다. 마찬가지로, 더 정교한 Harness, 더 복잡한 Skill, 더 깊은 Context Engineering도 RLHF가 주입한 확률장 표류를 돌파할 수 없다. 돌파구는 훈련 패러다임 자체에 있다.

SECTION 07 · 기업적 귀결

출력 불확정성: 기업 AI 도입 실패의 구조적 원인

Output Non-Determinism: A Structural Cause of Enterprise AI Failure

이는 이론적 추론이 아니다. 기업 데이터가 이 판단을 이미 검증했다:

80.3%RAND: AI 프로젝트
기대 가치 미달
95%MIT Sloan: GenAI 파일럿
프로덕션 확장 실패
73%기업 AI 설문:
출력 불일치로 발이 묶임

전통 소프트웨어의 결정론적 매핑—동일 입력은 반드시 동일 출력을 내야 한다—은 기업 프로세스의 기본 전제다. LLM의 확률론적 출력은 이 전제를 근본적으로 위반한다. 기업이 필요로 하는 것은 고정된 형식의 문서, 안정된 구조의 코드, 재현 가능한 분석 결과다. LLM이 줄 수 있는 것은 “확률적 의미의 근사치”뿐이다.

AI Agent가 고득점 벤치마크에서는 우수한 성능을 보이면서도, 반복 실행 시 성공률이 60%에서 25%로 떨어질 때—모델의 “평균적 정답”은 기업 시나리오에서 “사용 불가”와 같다. 이것은 공학적 결함이 아니라, RLHF 패러다임의 수학적 본질에 도덕적 해이 오염과 추론 인프라 표류가 중첩되어 응용 층위에 직접 투영된 결과다.

SECTION 08 · RLVR 방향

RLVR: 보상 신호의 원천에서 주입 공간을 압축하기

RLVR: Compressing the Injection Space at Its Source

문제의 뿌리가 RLHF가 인간의 이중축 불안정성(문화+상태)을 보상 신호에 주입하는 것이라면, 논리적 해법은: 인간의 주관적 판단에 의존하지 않는 보상 신호로 RLHF를 대체하는 것이다.

RLVR(Reinforcement Learning with Verifiable Rewards)이 이 방향을 제공한다. 그 핵심적 차이는:

차원 RLHF RLVR
보상 신호의 원천 인간의 주관적 선호 순위 객관적으로 검증 가능한 기준
신호의 안정성 문화적 배경 + 상태 변동에 따라 변함 결정론적 (형식 맞음/틀림, 코드 돎/안 돎)
도덕적 해이 노출도 큼 (라벨러가 노력 정도를 숨길 수 있음) 거의 0 (검증 결과가 이진적으로 관측 가능)
적용 시나리오 창의적 글쓰기, 대화, 열린 질문 코드 생성, 포맷된 문서, 수치 계산
가중치에 부호화되는 내용 변동하는 선호 분포 좁혀진 결정론적 행동 분포

기업 오피스 시나리오—고정 형식 문서, 안정된 구조 코드, 재현 가능한 분석 출력—에 대해서는, RLVR가 RLHF보다 더 적합하다. “형식이 맞다”는 것은 검증 가능하지만, “내용이 좋다 나쁘다”는 주관적이기 때문이다.

RLVR의 한계: RLVR은 Murphy’s Laws의 Alignment Gap 수학적 제약에서 벗어날 수 없다. 그것이 할 수 있는 것은 곡선의 기울기와 절편을 변화시키는 것이다—제2층의 불안정성을 “말·노새·당나귀 사이에서 표류하는” 것으로부터 “적어도 계속 말이고, 단지 빨리 뛰거나 천천히 뛰는 차이만 있는” 것으로 압축하는 것—그러나 제1층(샘플링 무작위성)과 제3층(추론 인프라 표류)은 제거할 수 없다. 정확한 형식 재현이 필요한 기업 시나리오에 대해서는 이것만으로도 이미 충분할 수 있다. 창의적 출력이 필요한 시나리오에 대해서는, RLHF는 여전히 대체 불가능하다.

SECTION 09 · 결론

고정된 파라미터는 안정된 시스템이 아니다

Frozen Parameters ≠ Stable System

본문의 핵심 논단은 한 문장으로 응축할 수 있다: 파라미터 고정 ≠ 시스템 안정.

업계 전체가 결정론적 시스템의 사고방식으로 확률론적 시스템을 이해하고 있다. 전통 소프트웨어에서 파라미터가 고정되었다는 것은 행동이 고정되었다는 것을 의미한다. LLM에서 파라미터가 고정되었다는 것은 확률장이 고정되었다는 것만을 의미한다—그리고 그 확률장 내부에 부호화된 것이야말로 인간 라벨러의 문화 차원과 시간 차원에서의 이중축 불안정성이고, 여기에 도덕적 해이 오염이 더해지고, 다시 추론 시점의 batch 불변성 실패가 중첩된 것이다. 행동은 여전히 확률 변수다.

완전한 논리적 폐회로:

공간 차원: 문화 속성
(Cultural Attributes V2)


시간 차원: 상태 변동
(본 논문)


RLHF 가중치에
이중축 표류 주입


세 층위 불안정성 중첩
출력 예측 불가능성 증폭

이 폐회로는 모든 주변적 해결책의 길을 봉쇄한다—Harness는 가중치 내부의 확률 표류를 제약하지 못하고, Skill 최적화는 표류하는 확률장 위에서 파라미터를 조정하며, Context Engineering은 가중치 속의 모순 판단 기준을 바꾸지 못하고, 모델 버전 고정은 바로 그 불안정한 파라미터를 동결할 뿐이다.

유일하게 봉쇄되지 않은 방향은: 훈련 패러다임 자체에서 손을 대는 것이다. 결정론적 출력이 필요한 시나리오에서는, RLVR로 RLHF를 대체하여 보상 신호의 원천에서 이중축 주입 공간을 압축한다. 창의적 출력이 필요한 시나리오에서는, 불안정성이 RLHF의 결함이 아니라 특성임을 받아들이고, 시스템 설계 단계에서 그것을 위한 공간을 남겨둔다.

체계적 위치

본 논문은 LEECHO 논문 체계의 다섯 번째 편이다. 앞의 네 편은 완전한 논증의 사슬을 이룬다: Fluid Topology and Solid Topology V2(물리 층위) → Three Paradigms of Human Scientific Cognition(방법론 층위) → Cognition · Metacognition · Global Metacognition V3(인지 구조 층위) → Cultural Attributes Injected into LLM Models V2(공간 차원의 문화 주입). 본 논문은 다섯 번째 고리를 보탠다—RLHF 훈련 패러다임이 주입하는 시간 차원 불안정성—이것은 네 번째 논문과 시공간 이중축 대칭을 이루며, 둘 모두 세 번째 논문의 인지 차원 축소 폐회로에 통합된다.

고삐를 더 단단하게 조이는 것이 아니라, 말의 성질을 더 안정되게 만드는 것이 관건이다. 그러나 가장 안정된 말이라 해도, 그것은 결국 확률장 안에서 변동 폭이 더 작은 말일 뿐이다—파라미터 고정과 시스템 안정 사이에는 영원히 건너뛸 수 없는 범주의 간극이 놓여 있다.

References

  1. LEECHO Global AI Research Lab (2026). “Cultural Attributes Injected into LLM Models” V2. leechoglobalai.com.
  2. LEECHO Global AI Research Lab (2026). “The Cognitive Ecology of Linguistic Symbols” V3. leechoglobalai.com.
  3. LEECHO Global AI Research Lab (2026). “Cognition · Metacognition · Global Metacognition” V3. leechoglobalai.com.
  4. LEECHO Global AI Research Lab (2026). “Three Paradigms of Human Scientific Cognition.” leechoglobalai.com.
  5. LEECHO Global AI Research Lab (2026). “Fluid Topology and Solid Topology” V2. leechoglobalai.com.
  6. LEECHO Global AI Research Lab (2026). “Signal and Noise: An Ontology of LLMs” V4. leechoglobalai.com.
  7. Casper, S., Davies, X., Shi, C., et al. (2023). “Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback.” Transactions on Machine Learning Research. arXiv:2307.15217.
  8. Gaikwad, M. (2025). “Murphy’s Laws of AI Alignment: Why the Gap Always Wins.” arXiv:2509.05381. KL-tilting 형식화, Alignment Gap 제거 불가능성 정리, Annotator Drift 따름정리.
  9. Holmström, B. (1979). “Moral Hazard and Observability.” Bell Journal of Economics, 10(1), 74–91. 주인-대리인 이론의 토대 문헌, 8,941회 인용.
  10. Veselovsky, V., Ribeiro, M.H. & West, R. (2023). “Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use Large Language Models for Text Production Tasks.” EPFL. arXiv:2306.07899. MTurk 라벨러의 33–46%가 LLM을 사용해 과제 수행.
  11. Veselovsky, V., Ribeiro, M.H., Cozzolino, P., et al. (2023). “Prevalence and prevention of large language model use in crowd work.” arXiv:2310.15683. 완화 조치가 LLM 사용률을 절반으로 줄이는 데 그침.
  12. Mishra, A. et al. (2025). “RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs.” ACM Computing Surveys, 58(2). 선호에 대한 주변화 및 모델 오설정 논증.
  13. Bai, Y. et al. (2022). “Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback.” Anthropic. arXiv:2204.05862.
  14. Ouyang, L. et al. (2022). “Training language models to follow instructions with human feedback.” OpenAI. arXiv:2203.02155 (InstructGPT).
  15. Christiano, P.F. et al. (2017). “Deep reinforcement learning from human preferences.” NeurIPS.
  16. Schulman, J. et al. (2017). “Proximal Policy Optimization Algorithms.” OpenAI. arXiv:1707.06347.
  17. He, H. et al. (2025). “Defeating Nondeterminism in LLM Inference.” Thinking Machines Lab. Batch 불변성 실패를 추론 인프라 층위 불안정성의 근원으로 논증.
  18. Atil, B. et al. (2024). “Non-Determinism of ‘Deterministic’ LLM Settings.” arXiv:2408.04667. TARr@N 및 TARa@N 정량 지표.
  19. Chann, S. (2023). “Non-determinism in GPT-4 is caused by Sparse MoE.” MoE 라우팅 비결정성 분석.
  20. Danziger, S., Levav, J. & Avnaim-Pesso, L. (2011). “Extraneous factors in judicial decisions.” PNAS, 108(17), 6889–6892. 배고픈 판사 효과 원 논문.
  21. Glöckner, A. (2016). “The irrational hungry judge effect revisited: Simulations reveal that the magnitude of the effect is overestimated.” Judgment and Decision Making, 11(6), 601–610. 학술적 논쟁 논의.
  22. Daljord, Ø., Urminsky, O., & Ureta, J. (2019). “The Status Quo Theory of Depletion Does Not Explain the Israeli Parole Decisions.” 효과 크기 과대 추정 인정, 방향성 결론 유지.
  23. Pertama Partners (2026). “AI Project Failure Rate 2026: 80% Fail.” RAND, MIT Sloan, McKinsey 데이터의 통계 분석.
  24. AICamp (2025). “AI Output Inconsistency: Enterprise Solutions.” 기업 설문: 73%의 조직이 출력 불일치를 보고.
  25. Sharma, M. et al. (2023). “Towards understanding sycophancy in language models.” Anthropic. ICLR 2024.
  26. Itzhak, B., Belinkov, Y. & Stanovsky, G. (2025). “Pretraining is the primary source of cognitive biases in LLMs.” COLM 2025.

“파라미터 고정 ≠ 시스템 안정. 가중치에 부호화된 것은 인간의 불안정성이며, 여기에 추론 인프라의 불안정성이 곱해진다.”

RL 라벨링 단계의 배고픈 판사 효과 · V2

이조글로벌인공지능연구소 & Claude Opus 4.6 · Anthropic

2026년 4월 16일

댓글 남기기