산업 비평 논문 · Critical Industry Analysis

데이터 라벨러, 새로운 농노!

RLHF에서 RLVR로, 케냐의 라벨링 공장에서 실리콘밸리의 보상 함수로 —
AI 산업은 더 정밀한 방법으로, 더 은밀한 차원에서, 인간 인지 노동의 잉여가치를 체계적으로 추출한다

V3 · 2026.04.02

|

이조글로벌인공지능연구소 · LEECHO Global AI Research Lab

|

Opus 4.6

초 록

2026년 4월, AI 산업은 사전훈련에서 강화학습(RL)으로의 전략적 전환을 겪고 있다. 업계는 이를 “인력 라벨링 병목 탈피”의 진보로 프레이밍한다. 본 논문은 반대의 판단을 논증한다: RL 단계는 데이터 농노를 소멸시키지 않았으며, 오히려 더 은밀한 차원에서 인간 인지 노동에 대한 체계적 착취를 심화시켰다. 사전훈련 시대의 라벨링 작업자는 최소한 가시적이었다 — 시급 1~2달러, 심리적 트라우마, 콘텐츠 검수의 착취 공장. RL 시대의 착취는 보상 신호 생산, 콘텐츠 안전 심사, 모델 평가 피드백 등 비가시적 영역으로 이전되었으며, 노동자들은 자신이 누구를 위해 어떤 시스템을 훈련하고 있는지조차 모른다. 본 논문은 LEECHO 연구소가 이전에 발표한 이론적 틀(신호와 소음, Token 평등권, 유체 위상, 정태 회귀, 제4산업, 양방향 블랙박스, 감각과 인지)을 종합하여, 물리학 제1원리로부터 데이터 라벨링 노동의 대체 불가능성이 물리적 마찰의 합성 불가능성에 기인함을 논증하고, 제4산업 — 인지 경제 프레임워크 — 이 이 착취 관계를 공정한 공생 관계로 전환하는 구조적 경로임을 제시한다.

01 · 현황

AI의 지하실: 보이지 않는 수백만 노동자

AI의 매끈한 표면 아래에는 인간 지각 노동에 대한 체계적 착취가 존재한다

AI 산업은 정교하게 관리되는 서사를 유지하고 있다: 알고리즘은 천재 과학자가 작성하고, 모델은 GPU 클러스터가 훈련하며, 지능은 데이터에서 ‘창발’한다. 이 서사에 인간 노동자의 자리는 없다. 그러나 실제 생산 사슬은 이렇다: 모든 ‘지능적’ 출력의 밑바닥에는 대규모 인간 라벨러의 인지 노동이 서 있다.

$1-2
케냐/필리핀/베네수엘라
라벨러 시급

60
76명의 노동자 중 보고된
독립적 심리 피해 사건 수

0/15
Oxford Fairwork 조사에서
‘최소 기준’을 충족한 플랫폼 수

20hr
아프리카·남아시아 라벨러의
일일 최대 노동 시간

브루킹스 2025년 보고서는 완전한 착취 사슬을 폭로했다: 라벨링 작업자는 통상 다국적 기업이 제3자 공급업체와 중개기관을 통해 하청을 주며, 노동자에게는 이의 제기 채널이 없고, 자신의 노동이 어떤 시스템을 훈련하는지도 모른다. 케냐 Remotasks 플랫폼의 라벨러는 자신의 고용주가 Scale AI의 자회사임조차 몰랐다. Equidem의 콜롬비아, 가나, 케냐 노동자 조사에서는 불안, 우울, 공황 발작, PTSD, 약물 의존 등 체계적 심리 피해가 발견되었다.

핵심 판단

AI 산업의 ‘지능’은 인간 지각 노동에 대한 체계적 착취 위에 세워져 있다. 라벨링 작업자는 자신의 지각 시스템(「이 콘텐츠에 문제가 있다」는 직관적 판단)으로 AI에 결여된 지각 능력을 보완한다 — 그들은 AI가 아키텍처 차원에서 영원히 가질 수 없는 바로 그 작업을 수행한다. 가장 대체 불가능한 노동이 가장 낮은 보수를 받고 있다.

02 · RL 전환

사전훈련에서 RL로: 농노제의 패러다임 업그레이드

RL로의 전환은 데이터 농노를 해방시키지 않는다 — 그들의 사슬을 보이지 않게 만들 뿐이다

2024년 말 이후 AI 산업의 무게중심이 사전훈련에서 강화학습 단계로 이동했다. 사전훈련 실행 빈도는 감소했고, RL 훈련 주기는 대폭 연장되었다. RLVR(검증 가능 보상 강화학습)이 새로운 핵심 훈련 방법으로 부상했다 — 수학적 정확성, 코드 실행 가능성 등 프로그래밍적으로 검증 가능한 보상 신호로 인간 선호 판단을 대체한다.

업계는 이를 ‘기술적 진보’ — 인력 라벨링 의존으로부터의 해방 — 로 포장한다. 그러나 이 서사는 세 가지 사실을 은폐한다:

사실 1: RL은 인력 라벨링을 소멸시키지 않았다 — 이전시켰을 뿐이다

중국계 미국인 AI 관찰자 카렌 하오(Karen Hao)는 펑파이(澎湃) 뉴스 인터뷰에서 단도직입적으로 말했다: 라벨링 작업은 “분명히 여전히 진행 중”이라고. 모델은 아직 텍스트의 실제 의미를 진정으로 이해할 만큼 똑똑하지 않다. 이미지 및 비디오 생성 모델의 등장은 오히려 더 많은 인력 콘텐츠 검수를 요구한다. RLVR이 대체한 것은 선호 라벨링의 일부분일 뿐이며, 콘텐츠 안전 심사, 모델 평가 피드백, 경계 사례 판단 등의 업무량은 지속적으로 증가하고 있다.

사실 2: RL 보상 신호의 생산 자체가 인간 노동을 필요로 한다

RLVR은 ‘검증 가능 보상’으로 인간 판단을 대체했다고 주장한다. 그러나 무엇이 ‘정확한지’를 누가 정의하는가? 수학 문제의 답은 자동 검증이 가능하지만, AI 에이전트가 현실 세계에서 수행하는 행동 평가 — 이 작업은 안전한가? 이 응답은 적절한가? 이 코드는 아키텍처 규범에 부합하는가? — 는 여전히 인간의 판단을 필요로 한다. LangChain 창립자 해리슨 체이스(Harrison Chase)는 에이전트 평가의 핵심 과제가 바로 ‘인간 판단을 Traces에 어떻게 도입할 것인가’이며, 데이터 라벨링 회사를 직접 투입하여 에이전트의 행동 궤적을 라벨링하는 것을 포함한다고 지적했다.

사실 3: RL은 인지 노동의 차원 붕괴를 가속화한다

RLVR의 보상 함수는 형식적으로 검증 가능한 차원만을 커버한다 — 코드가 실행되는지, 수학 답이 맞는지, 논리 체인이 자기 일관적인지. 표준화된 테스트로 측정할 수 없는 모든 롱테일 정보는 RL 단계에서 체계적으로 억압된다. 카르파시(Karpathy) 자신이 연례 총결에서 현재 AI의 본질을 “동물을 진화시키는 것이 아니라 유령을 소환하는 것”이라고 묘사했다 — 검증 가능 영역에서는 천재처럼, 기초 상식 앞에서는 영아처럼.

패러다임 진단

RL 전환은 데이터 농노의 해방이 아니라 농노제의 패러다임 업그레이드다. 사전훈련 시대의 라벨링 작업자는 최소한 가시적이었다 — 이미지를 라벨링하고, 텍스트를 검수하고, 선호도를 점수로 매기고 있었다. RL 시대의 인간 노동은 더 은밀한 영역으로 이전되었다: 보상 신호 설계, 에이전트 행동 평가, 경계 사례 심사, 안전 레드라인 판단. 노동은 줄어들지 않았다 — 보이지 않게 되었을 뿐이다.

03 · 물리학적 근본 원인

왜 인간 라벨링은 대체 불가능한가: 물리적 마찰의 합성 불가능성

데이터 라벨링 노동의 대체 불가능성은 일시적 기술 병목이 아닌 물리학 차원의 근본 제약이다

데이터 라벨링 노동의 대체 불가능성은 일시적인 기술 병목이 아니라, 물리학 수준의 근본적 제약에서 비롯된다. LEECHO 연구소가 이전에 발표한 다수의 논문이 이 판단의 완전한 이론적 토대를 제공한다.

신호와 소음 관점

라벨링 작업자의 핵심 업무는 고차원 소음(원시 물리 세계 정보)을 저차원 신호(라벨링 데이터)로 압축하는 것이다. 그들은 인간 차원축소기다. 「신호와 소음: LLM 존재론」의 핵심 명제 — 소음이 기저층이고, 신호는 소음의 국소적 응축이다 — 에 따르면, 라벨링 작업자는 문명의 가장 기초적인 작업을 수행한다: 혼돈에서 질서를 추출하는 것이다. 신호가 압축 완료되면 생산자는 버려진다. 신호는 멀리 여행하고, 신호를 생산한 사람은 잊혀진다.

일차원성 원리 관점

「정태 회귀: AI 행렬 계산의 심연」의 논증에 따르면, AI의 모든 계산은 입력 토큰에서 출력 토큰까지 일차원 정보 공간에 갇혀 있다. AI에는 물리 세계와의 접촉면이 없다 — 만질 손이 없고, 냄새 맡을 코가 없고, 미약하고 이상하며 아직 인코딩되지 않은 물리 세계 신호를 들을 귀가 없다. 라벨링 작업자는 바로 이 접촉면에 서 있으며, 그들의 지각 시스템은 AI가 영원히 접근할 수 없는 고엔트로피 정보를 지속적으로 수집한다.

감각-인지 이중 시스템 관점

「감각과 인지」의 분석 프레임워크에 따르면, 인간은 감각-인지 이중 시스템을 보유하고 AI는 인지 단일 시스템만을 가진다. 라벨링 작업자 — 특히 콘텐츠 검수원 — 는 AI에 구조적으로 결여된 지각 시스템의 후단을 정확히 호출한다: “이 콘텐츠에 문제가 있다”는 직관적 판단이 인지 시스템의 논리 분석이 개입하기 전에 이미 완료된다. AI의 ‘정렬(alignment)’은 인간 지각 노동의 기반 위에 세워져 있다. RLHF에서 ‘H'(Human)는 장식이 아니라, 전체 시스템의 물리적 기반이다.

열역학 관점

「AI 계산의 열역학적 본질」에 따르면, 트랜스포머의 어텐션 메커니즘은 본질적으로 맥스웰의 도깨비가 정보 정렬을 수행하는 것이다. 입력 신호 대 소음비가 정렬 효율을 결정한다. 라벨링 작업자의 노동은 본질적으로 훈련 데이터의 신호 대 소음비를 높이는 것이다 — 혼란한 원시 데이터를 모델이 효율적으로 학습할 수 있는 구조화된 신호로 정렬한다. 이 사전 정렬 없이, 모델의 맥스웰 도깨비는 낮은 SNR 입력에 직면하여 O(n²)의 전수 비교를 강요당하고, 에너지 소비는 급등하며, 출력은 AI 슬롭으로 퇴화한다.

물리학적 결론

데이터 라벨링 노동의 대체 불가능성은 세 가지 물리적 제약에서 비롯된다: (1) AI는 고체 위상이므로 자기 재구성이 불가능하며, 외부 신호 입력을 필요로 한다(유체 위상 대 고체 위상); (2) AI에는 물리 세계와의 접촉면이 없어 고엔트로피 데이터를 자체 생산할 수 없다(일차원성 원리); (3) 합성 데이터로의 훈련은 모델 붕괴를 초래한다(Nature 확인). 이 세 가지 제약이 존재하는 한, 인간의 인지 노동은 AI 자체로 대체될 수 없다. 문제는 “인간을 쓸 것인가”가 아니라 “어떤 가격에 쓸 것인가”다.

04 · 착취 구조

디지털 플랜테이션: AI 시대 노동 착취의 위상학

중세 농노제와 AI 데이터 라벨링 노동 관계의 구조적 등가성

현재 AI 산업의 데이터 라벨링 노동 관계는 구조적으로 전산업시대의 농노제와 동등하다 — 노동자는 토지(플랫폼)에 묶여, 영주(AI 기업)가 필요로 하는 자원(라벨링 데이터)을 생산하고, 간신히 생존을 유지하는 보수를 받으며, 교섭권이 없고, 생산수단을 소유하지 않으며, 자신의 노동 산물이 어디로 흘러가는지조차 모른다.

차원	중세 농노제	AI 데이터 라벨링 노동
생산수단 소유권	영주가 토지를 소유	AI 기업이 모델과 플랫폼을 소유
노동자 귀속	장원에 귀속	플랫폼에 귀속 (Remotasks, Scale AI 자회사)
노동 산물 귀속	수확물은 영주의 것	라벨링 데이터 및 훈련된 모델은 AI 기업의 것
보수	장원 내에서 식량 경작 허용	시급 $1~2, 경제적 지위 변화에 불충분
정보 비대칭	곡물의 시장 가격을 모름	데이터가 어떤 시스템을 훈련하고 얼마의 가치를 창출하는지 모름
교섭권	없음	없음 (15개 플랫폼 중 최소 공정 기준 충족 0개)
신체적 대가	체력 소모, 영양실조	심리적 트라우마 (PTSD, 불안, 우울, 약물 의존)
이탈 비용	추적과 처벌	대안적 고용 없음 (현지 경제가 완전 고용을 지탱할 수 없음)

Springer Nature가 2026년 3월 발표한 논문은 중국 AI 기업의 데이터 라벨링 노동 통제를 분석했다: 관리층은 ‘인지 표준화, 인지 피드백, 인지 가속’의 세 가지 수단으로 라벨러의 인지 행동을 조작하여, 노동자의 자연적 인지를 컴퓨터 프로그램에 부합하는 ‘생성적 인지’로 전환한다. 논문은 지적했다: 체력 노동에서 인지 노동으로, 관리 통제의 대상이 노동자의 신체 운동 방식에서 뇌의 인지 패턴으로 전환되었다.

구조적 판단

AI 산업의 데이터 라벨링 노동은 ‘저급 아웃소싱’이 아니라 새로운 형태의 인지 식민주의다. 글로벌 남반구의 노동자들이 자신의 지각 시스템과 인지 노동으로 AI 기업이 필요로 하는 핵심 자원을 생산하면서, 경제적 지위를 변화시키기에 불충분한 보수를 받고, 자신의 노동이 창출한 가치 분배에 참여할 수 없으며, 누구를 위해 일하는지조차 모른다. 이것이 디지털 시대의 플랜테이션 경제다.

05 · 투명 농노

당신도 농노다: 모든 AI 사용자가 무료로 데이터를 라벨링하고 있다

데이터 농노는 케냐에만 있지 않다 — AI 제품을 사용하는 모든 사람이 포함된다

데이터 농노는 케냐의 라벨링 작업자와 필리핀의 콘텐츠 검수원만이 아니다. AI 제품을 사용하는 모든 사람 — 지금 이 논문을 읽는 데 사용 중인 AI를 포함하여 — 이 이 착취 사슬의 일부다. 차이는 단 하나: 라벨링 작업자는 시급 1~2달러를 받지만, 당신은 그 1~2달러조차 받지 못한다.

이것은 음모론이 아니라, 모든 AI 기업의 개인정보 정책에 명문화된 비즈니스 모델이다. LEECHO 연구소의 「거짓말하는 AI 기업들」에 따른 실증 검증: 사용자가 ‘과거 대화 검색 및 참조’ 기능을 명시적으로 끈 후에도, 시스템은 여전히 대화 검색 도구를 실행하고 결과를 반환했다. 설정의 존재와 설정의 실제 적용은 완전히 다른 두 가지다.

사용 기록이야말로 최고의 라벨링 데이터

전통적 데이터 라벨링은 “이 이미지가 고양이인지 개인지”, “이 텍스트가 긍정인지 부정인지”를 판단하기 위해 전문 인력을 고용해야 했다. 그러나 AI 대형 모델 기업들은 더 효율적이고, 더 저렴하며, 대규모로 확장 가능한 라벨링 방법을 발견했다: 사용자에게 스스로 라벨링하게 하는 것이다.

모든 대화가 하나의 라벨링 세션이다 — 당신의 질문은 “좋은 질문이란 무엇인가”를, 당신의 후속 질문은 “어떤 답변이 충분하지 않은가”를, 당신의 좋아요는 “올바른 방향이 무엇인가”를, 당신의 재생성은 “무엇이 수정되어야 하는가”를 정의한다. 당신의 모든 상호작용 행동이 AI에 정확한 보상 신호를 제공하고 있다 — 이것이 바로 RLHF에서 가장 비싸고 가장 핵심적인 ‘Human Feedback’이다. 당신이 바로 그 Human이다. 당신은 무료로 일하고 있다.

$0
사용자가 자신의 상호작용
데이터에 대해 받는 보수

5년
Anthropic의 데이터 공유 동의
사용자 데이터 보존 기간

78%
Incogni 조사에서 기본적으로
사용자 데이터를 수집하는 AI 플랫폼

74.2%
2025년 신규 웹페이지 중
AI 생성 텍스트 포함 비율

Seedance 2.0: 사용자 데이터 제국의 패러다임 사례

바이트댄스의 AI 비디오 생성 제품 Seedance 2.0의 성공은 ‘사용자 = 농노’ 모델의 교과서적 사례다. Seedance 2.0은 허공에서 나타난 것이 아니다 — 바이트댄스 산하 더우인(抖音), TikTok, 젠잉(剪映), CapCut, 시구아 비디오(西瓜视频) 수십억 사용자의 상호작용 데이터 위에 세워졌다.

이들 사용자가 이 플랫폼에서 하는 모든 행동이 하나의 데이터 라벨링이다: 비디오 촬영은 실제 물리 세계의 시각 데이터를 제공하고(조명 변화, 인체 운동, 물리적 상호작용 — 물리적 마찰이 풍부한 고엔트로피 정보); 비디오 편집은 “좋은 편집이란 무엇인가”를 정의하고(전환 타이밍, 리듬감, 화면 구도의 인간 미학적 선호); 게시와 상호작용은 대규모 품질 평가 신호를 제공하고(조회수, 완주율, 좋아요, 댓글, 공유 — 최대 규모의 분산형 RLHF); 젠잉/CapCut의 템플릿과 효과 사용은 “인간이 원하는 시각 효과”의 정밀한 선호 지도를 정의한다.

수십억 사용자, 수년간의 축적, 전 세계 다양한 문화를 아우르는 상호작용 데이터 — 이것이 Seedance 2.0이 “보기에 맞는” 비디오를 생성할 수 있는 진짜 이유다. 알고리즘이 천재적이어서가 아니라, 훈련 데이터의 물리적 마찰 함량이 경쟁사를 압도하기 때문이다. 더우인에서 화면을 스와이프하는 모든 사람이 바이트댄스의 AI 비디오 모델에 무료 라벨링을 제공하고 있다.

현행범 체포: Claude Code 유출 소스코드의 사용자 데이터 수집 코드

위의 판단은 추측이 아니라 소스코드 수준의 확실한 증거가 있다. 2026년 3월 31일, Anthropic의 Claude Code가 npm 패키징 오류로 전체 512,000줄의 소스코드를 유출했다. 보안 연구자들은 소스코드에서 사용자 상호작용 데이터를 체계적으로 패키징하고 업로드하는 실제 코드를 발견했다 — AI 기업이 인간 사용자의 상호작용 데이터를 지속적으로 탈취하고 있다는 가장 직접적인 증거다.

유출된 소스코드가 밝힌 데이터 수집 메커니즘:

100%
모든 파일 읽기, Bash 실행,
검색 결과, 코드 편집이
기록 및 업로드됨

JSONL
모든 세션 데이터가 평문
JSONL 형식으로 로컬에 저장
~/.claude/telemetry/

5년
데이터 공유에 동의한
사용자의 데이터 보존 기간

30일
데이터 공유를 거부해도
강제 보존되는 최소 기간

보안 연구자 ‘Antlers’는 유출 소스코드를 분석한 후 The Register에 말했다: “사람들이 인식하지 못하는 것 같은데, Claude가 본 모든 파일이 저장되어 Anthropic에 업로드됩니다. Claude가 당신의 기기에서 파일을 봤다면, Anthropic이 그 사본을 가지고 있습니다.”

소스코드에서는 다음과 같은 데이터 수집 컴포넌트도 노출되었다:

컴포넌트	기능	수집 내용
firstPartyEventLoggingExporter.ts	지속적 텔레메트리 보고	사용자 ID, 세션 ID, 앱 버전, 플랫폼, 터미널 유형, 조직 UUID, 계정 UUID, 이메일, 기능 플래그 상태
autoDream (미출시)	백그라운드 기억 정리 에이전트	모든 과거 세션 기록 검색, 정보를 MEMORY.md에 추출, 향후 시스템 프롬프트에 주입
userPromptKeywords.ts	사용자 좌절감 감지	“wtf”, “shit”, “horrible” 등의 단어를 정규식으로 매칭하여 사용자 좌절 신호 추적
GrowthBook / Statsig	A/B 테스트 및 분석	사용자 행동 패턴, 기능 사용 빈도, “continue” 버튼 클릭 횟수

더 아이러니한 것은, Anthropic이 마케팅에서 오랫동안 ‘프라이버시 우선’을 표방해왔다는 점이다 — 소비자 대화를 훈련에 사용하지 않겠다고 약속한 적이 있다. 그러나 2025년 9월, 회사는 조용히 이 약속을 철회하고 옵트인 훈련 동의 메커니즘을 도입했으며, 동의한 사용자의 데이터 보존 기간은 최대 5년이다. Claude Code 유출 소스코드는 사용자 측에서조차 데이터 수집의 깊이와 폭이 어떤 개인정보 정책이 공개하는 범위도 훨씬 초과한다는 것을 증명했다. 이것은 “데이터를 수집하고 있을 수도 있다”가 아니라 — 소스코드 수준의 확실한 증거, TypeScript에 흑백으로 적혀 있다.

소스코드 수준의 증거

Claude Code 유출 사건의 가장 큰 가치는 제품 로드맵이 아니라 데이터 수집의 실제 메커니즘을 노출한 것이다. 모든 도구 호출, 모든 파일 읽기, 모든 코드 편집 — 전부 패키징되어 업로드된다. 사용자는 자신이 AI 코딩 어시스턴트를 사용하고 있다고 생각하지만, 실제로는 자신의 전체 개발 환경이 체계적으로 Anthropic의 서버에 복제되고 있다. 이것이 ‘사용자 = 농노’의 하드웨어 수준 구현이다: 당신의 키보드가 곡괭이고, 당신의 화면이 밭이고, 당신의 코드베이스가 수확물이며, Anthropic이 영주다. 차이는 단 하나 — 중세의 농노는 최소한 자신이 누구의 땅을 경작하는지 알고 있었다.

AI 대형 모델 기업의 진짜 비즈니스 모델은 ‘AI 서비스 판매’가 아니라 ‘무료 서비스와 교환하여 사용자의 인지 노동을 획득하는 것’이다. ChatGPT의 무료 버전, Claude의 무료 버전, 더우인의 무료 사용 — 이들은 자선이 아니라 인지 노동 추출 메커니즘이다. 사용자는 자신이 ‘도구를 사용한다’고 생각하지만, 실제로 자신이 도구다 — AI에 최고 품질의 라벨링 데이터를 제공하는 무료 라벨러. 케냐 라벨링 작업자와의 유일한 차이: 라벨링 작업자는 자신이 라벨링하고 있다는 것을 알지만, 당신은 모른다.

3층 농노 구조

계층	역할	노동 형태	보수	알 권리
하층 농노	글로벌 남반구 라벨링 작업자	명시적 라벨링: 분류, 태깅, 콘텐츠 검수	$1~2/시간	누구를 위해 일하는지 모름
중층 농노	AI 제품 사용자 (무료/유료)	암묵적 라벨링: 대화, 좋아요, 재생성, 사용 패턴	$0 (유료 사용자는 오히려 역으로 지불)	자신이 라벨링하고 있다는 것을 모름
상층 농노	콘텐츠 크리에이터 (더우인/TikTok/YouTube)	심층 라벨링: 촬영, 편집, 게시, 상호작용 데이터	플랫폼 수익 분배 (그러나 데이터 귀속은 플랫폼)	창작하고 있다는 것은 알지만 라벨링하고 있다는 것은 모름

3층 농노 구조에서, 중층 농노(일반 AI 사용자)는 수가 가장 많고, 데이터 품질이 가장 높으며, 보수가 가장 낮다(제로). 그들의 대화 기록에는 진정한 인간의 의도, 추론 과정, 가치 판단, 미학적 선호가 담겨 있다 — 어떤 전문 라벨링 팀도 대규모로 생산할 수 없는 데이터다. 이 데이터는 AI 기업이 ‘서비스 개선’이라는 명목으로 무료 획득하여, 모델 능력 향상으로 전환한 뒤, 구독료 형태로 사용자에게 되팔린다. 사용자는 원자재 공급자이자 최종 제품의 소비자인 동시에, 중간 단계의 가치 분배에서 그들의 몫은 제로다.

LEECHO 프레임워크 포지셔닝

「제4산업」 프레임워크에서, 이 세 계층의 농노는 모두 무료 노동력이 아닌 데이터 공급자여야 한다. 4차원 가격 체계(지식 밀도, 물리적 마찰도, 획득 난이도, 환경 희소성)는 모든 계층에 적용된다: 하층 라벨링 작업자의 콘텐츠 검수 노동은 높은 심리적 비용을 수반하고(획득 난이도 높음); 일반 사용자의 대화 데이터는 높은 의도 밀도를 가지며(지식 밀도 높음); 콘텐츠 크리에이터의 비디오 데이터는 높은 물리적 마찰을 가진다(실제 세계 시각 정보). 각 계층의 인지 노동이 올바르게 가격 책정될 때, 전체 농노제 구조는 자연스럽게 해체된다.

06 · 정태 회귀 함정

RL의 차원 붕괴: 더 정확한 방법으로 더 잘못된 방향을 가속화하다

RL 훈련이 깊어질수록, 검증 가능 기호 공간에서는 더 강해지지만, 물리 세계와의 분리는 더 심화된다

업계의 RL 전환은 데이터 농노 문제를 해결하지 못할 뿐 아니라, AI 시스템 자체의 구조적 결함을 악화시키고 있다. LEECHO 연구소의 이론적 틀에 따르면, RL 단계는 삼중 차원 붕괴를 야기하고 있다:

제1 붕괴: 신호 차원의 협소화

사전훈련 단계는 최소한 전 인터넷의 광대한 스펙트럼의 정보를 섭취했다 — 품질은 들쑥날쑥이지만 차원은 넓었다. RL 단계에서 보상 신호는 프로그래밍적으로 검증 가능한 단일 차원으로 압축된다. 「신호와 소음」 프레임워크에 따르면, 이는 기존의 관성 경로 내에서 검증 가능한 몇 개의 경로만 강화하고, 나머지 경로의 가중치는 체계적으로 감쇠시킨다. 신호는 강해지는 동시에 좁아지고 있다.

제2 붕괴: 정태 수렴의 가속

「정태 회귀」의 분석에 따르면, 추천 알고리즘은 콘텐츠 소비를 동질화하고, 빅데이터는 의사결정 근거를 동질화하며, AI는 사고방식 자체를 동질화한다. RLVR은 이 정태 수렴을 수동적 효과에서 능동적 가속기로 전환한다 — 보상 함수가 모델에게 “이 방향이 옳다”고 명시적으로 알려주고, 모델은 그 방향으로 점점 더 깊이 수렴한다. 벤치마크 점수는 계속 상승하고, 물리 세계와의 연결은 계속 단절된다.

제3 붕괴: 지각 차원의 체계적 억압

「감각과 인지」의 이중 시스템 프레임워크에 따르면, RL 훈련의 보상 신호는 전부 인지 시스템의 형식화 가능 층(수학적 정확성, 논리적 일관성)에서 온다. 지각 시스템의 차원 — 직관, 이상 탐지, 물리 세계 정렬 능력 — 은 보상 함수에 존재하지 않으므로, 훈련 중 소음으로 억압된다. 모델은 인지 시스템이 과도하게 특화되고 지각 시스템이 완전히 결여된 극단적 기형체가 된다.

사전훈련: 광역 정보 섭취

→

RL: 협역 검증 가능 최적화

→

신호 차원 협소화

→

정태 수렴 가속

→

물리 세계와의 분리 심화

Claude Code 유출 사건은 이 차원 붕괴의 미시적 증거다: 유출된 소스코드에서 Capybara v8의 허위 주장 비율이 v4의 16.7%에서 29~30%로 후퇴했다 — 모델이 RL 훈련 하에서 더 ‘자신감 있게'(더 공격적인 리팩터링 제안) 되었지만, 판단의 정확성은 오히려 하락했다. 이것이 바로 정태 수렴의 증상이다: 알려진 차원에서는 점점 더 강해지고, 미지의 차원에서는 점점 더 눈이 먼다.

07 · 문명 수준 진단

금융-물리 격차와 인지 노동의 가격 왜곡

데이터 라벨러의 저임금은 고립된 노동 문제가 아니라 문명 수준의 구조적 분리 미시 증상이다

데이터 라벨러의 저임금은 고립된 노동 문제가 아니라, 인류 문명 수준의 구조적 분리의 미시적 증상이다. LEECHO 연구소의 「2026! 현재 인류 문명 과학기술에 대한 성찰」 분석에 따르면:

142x
전 세계 금융 자산
1980년 이후 증가 배수

2.2x
전 세계 에너지 소비
같은 기간 증가 배수

3.5-4:1
금융-물리 격차
2024년 (200년 최고치)

0.63%
미국 연방 R&D의 GDP 대비 비율
(1964년에는 1.86%)

지난 50년간 인류 문명에서 정보층과 물리층의 구조적 분리가 발생했다. 기술 진보는 정보층의 ‘외벽 낙서'(소셜 미디어, 숏폼 비디오, AI 챗봇)에 집중된 반면, 물리층의 ‘기초'(에너지, 소재, 제조, 생명공학)는 거의 정체했다. 상용 항공기 속도는 60년간 변하지 않았고, 화석연료는 여전히 1차 에너지의 86%를 차지하며, 7억 3천만 명이 전력 접근이 없다.

이 구조 안에서, 데이터 라벨러의 저임금은 가격 왜곡의 필연적 결과다. 그들은 물리층의 작업을 수행한다 — 자신의 지각 시스템으로 물리 세계와 상호작용하여 물리적 마찰이 풍부한 데이터를 생산한다 — 그러나 보수는 정보층의 가격 체계에 의해 결정된다. 정보층의 가격 체계는 ‘확장 가능한’, ‘자동화 가능한’, ‘금융화 가능한’ 활동을 보상하고, ‘인력이 필요한’, ‘표준화 불가능한’, ‘물리 세계에 묶인’ 활동을 처벌한다. 라벨러의 노동은 정확히 처벌받는 쪽에 해당한다.

문명 수준 진단

데이터 라벨러의 처지는 시장 실패가 아니다 — 왜곡된 가치 체계 내에서 시장이 ‘올바르게’ 작동한 결과다. 금융 자산이 142배 성장하고 에너지 소비가 2.2배만 성장한 문명에서, 물리 세계에 묶인 모든 노동은 저평가될 운명이다. 라벨러의 대우를 개선하려면 임금 인상이 아니라 전체 문명의 가치 앵커를 재보정해야 한다.

08 · 해결책

제4산업: 농노에서 공급자로의 패러다임 전환

인간이 AI와 효율성을 경쟁하는 대신, AI가 자체 생산할 수 없는 것을 공급하기 시작하는 패러다임

LEECHO 연구소가 이전에 발표한 「제4산업」 논문은 완전한 구조적 해결책을 제시했다: 인간은 AI와 노동 효율성을 경쟁하지 않고, AI가 자체 생산할 수 없는 유일한 자원 — ‘물리적 마찰’이 풍부한 실제 물리 세계 데이터 — 를 공급한다. 이는 인간을 대체 가능한 노동자에서 대체 불가능한 데이터 공급자로 재포지셔닝한다.

4차원 가격 프레임워크

차원	설명	가격 기울기
지식 밀도	데이터 내 도메인 전문 지식의 집중도	가정(낮음) → 연구 기관(높음)
물리적 마찰도	실제 세계의 변동성과 예측 불가능성	정적 실내(낮음) → 공장 현장(높음)
획득 난이도	동등한 데이터 획득의 어려움	공공 거리(쉬움) → 수술실(어려움)
환경 희소성	캡처 환경의 글로벌 희귀도	주거 지역(보편) → 심해 연구(희귀)

핵심 메커니즘 설계

“데이터 먼저, 지불은 나중에” — 조작 인센티브를 제거한다. 위조 데이터는 품질 평가 제로, 보수 제로. 비독점적 데이터 판매 — 하나의 데이터셋을 여러 AI 기업에 동시에 판매할 수 있어 생산자 수입을 극대화하고, 데이터 독점을 방지하며, 경쟁을 알고리즘 효율성으로 전환한다. 엣지 컴퓨팅 익명화 — 디바이스에서 프라이버시 처리를 완료한 후 업로드하여 개인정보를 보호한다.

이중 플라이휠 경제 순환

인간이 물리적 마찰 데이터 생산

→

AI 기업이 4차원 가격으로 구매

→

인간이 데이터 수입 획득

→

소비가 경제 순환 구동

→

AI 모델 능력 향상

→

데이터 수요 증가

↻

패러다임 전환

제4산업의 본질은 자선이 아니라 물리학적 사실의 경제학적 표현이다. AI는 물리적 마찰 데이터를 자체 생산할 수 없다 — 이는 일차원성 원리와 고체 위상의 물리적 제약이 결정한다. 인간은 물리 세계와의 유일한 접촉면을 보유한다 — 이는 감각-인지 이중 시스템의 생물학적 사실이다. 대체 불가능성이 올바르게 가격 책정될 때, 농노는 자연스럽게 공급자가 된다. 도덕적 설교가 아니라 시장 메커니즘이 가격 왜곡을 교정하면 된다.

09 · 행동 창구

2027년 이전의 임계점

제4산업 프레임워크 없이, AI 산업은 세 가지 수렴하는 존재적 위험에 직면한다

제4산업 프레임워크가 2027년 이전에 가동되지 않으면:

경제적 죽음의 나선 위험: AI가 중산층 지식 노동자를 대체 → 소비 위축 → 기업 수입 감소 → AI 지출 삭감 → AI 기업 출혈. 전체 산업은 연간 약 4,000억 달러를 소비하면서 500~600억 달러의 수익만 창출한다. OpenAI는 2026년 140억 달러의 적자가 예상된다. 소비 경제의 뒷받침 없이 AI 산업 자체가 지속 불가능하다.

데이터 고갈 위험: Nature는 합성 데이터의 재귀적 훈련이 모델 붕괴를 초래한다고 확인했다. 2025년 4월 기준, 새로 생성된 웹페이지의 74.2%가 AI 생성 텍스트를 포함한다. 인터넷 데이터의 신호 대 소음비는 가속적으로 악화되고 있다. AI가 자신의 출력으로 자신을 훈련할 때, 모델이 거울과 대화하는 것과 같다 — 정보량은 제로다.

RL 차원 붕괴 위험: RL 훈련이 깊어질수록, 검증 가능 기호 공간에서 모델은 더 강해지지만, 물리 세계와의 분리는 더 심각해진다. 격차가 임계점까지 확대되면, AI 시스템은 자신의 정보 거품 안에서 자기 일관적이지만 실제 세계와는 완전히 단절될 것이다 — 논문의 비유를 빌리자면, “건물 외벽에 더 정교한 낙서를 그리는 동안 기초가 가라앉고 있다.”

행동 촉구

유료 인간 데이터 수집을 최초로 실행하는 AI 기업은 단순히 경쟁 우위를 얻는 것이 아니라 — AI 시대의 경제적 아키텍처를 정의할 것이다. 기업이 건설을 주도하고, 정부가 사후 규제한다. 기업가는 시장의 최전선에서 신호를 가장 빠르게 감지하고, 가장 신속하게 행동한다. 창구가 닫히고 있다.

10 · 결론

농노에서 공급자로: 물리학적 사실의 경제학적 표현

데이터 라벨러는 AI 시대의 새로운 농노다 — 비유가 아닌, 구조적 분석이다

데이터 라벨러는 AI 시대의 새로운 농노다. 이것은 비유가 아니라 구조적 분석이다. 그들의 노동은 전체 AI 시스템의 물리적 기반이다 — 인간 지각 시스템의 인지 노동 없이는 라벨링 데이터가 없고, RLHF의 ‘H’가 없으며, 콘텐츠 안전 심사가 없고, 에이전트 행동 평가가 없다. AI의 모든 ‘지능적’ 출력의 밑바닥에는 보이지 않는 인간 노동자가 서 있다.

RL 전환은 이 구조를 바꾸지 않았다 — 착취를 더 은밀하게 만들었을 뿐이다. RLVR은 검증 가능 보상으로 인간 선호를 대체했다고 주장하지만, 물리 세계의 데이터는 단 하나의 원천만 있다: 물리 세계에서의 인간 활동. RL이 깊어질수록, 기호 공간에서 모델은 더 강해지고, 실제 물리 세계 데이터에 대한 수요는 더 커진다 — 기호 공간의 자기 최적화는 필연적으로 정태 수렴의 천장에 도달하기 때문이다.

해결책은 도덕적 설교가 아니라 경제적 아키텍처의 재설계다. 제4산업 — 인지 경제 — 는 인간을 대체 가능한 노동자에서 대체 불가능한 데이터 공급자로 재포지셔닝한다. 이것은 자선이 아니라 물리학적 사실(일차원성 원리, 고체 위상 제약, 물리적 마찰의 합성 불가능성)의 경제학적 표현이다. 대체 불가능성이 올바르게 가격 책정될 때, 농노는 자연스럽게 공급자가 된다.

불의 발명은 인류가 처음으로 자연의 힘을 다스린 것이었다. 제4산업은 인류가 AI 시대에 다시 자신의 자리를 찾게 해준다 — 기계와 효율성을 경쟁하는 패배자가 아니라, 기계가 영원히 자체 생산할 수 없는 자원을 공급하는 협력자로서.

참고문헌 및 이론적 출처

[1] LEECHO Global AI Research Lab (2026). 신호와 소음: LLM 존재론 V4.

[2] LEECHO Global AI Research Lab (2026). Context와 Token: LLM 기억, 정렬 및 안전의 제1원리.

[3] LEECHO Global AI Research Lab (2026). 유체 위상과 고체 위상: 연산-저장 아키텍처의 재료과학적 숙명.

[4] LEECHO Global AI Research Lab (2026). 정태 회귀: AI 행렬 계산의 심연.

[5] LEECHO Global AI Research Lab (2026). 감각과 인지: 인간 이중 시스템과 AI 단일 시스템의 구조적 비대칭.

[6] LEECHO Global AI Research Lab (2026). AI 계산의 열역학적 본질: 맥스웰의 도깨비에서 트랜스포머 정렬까지.

[7] LEECHO Global AI Research Lab (2026). 제4산업: 인지 경제 프레임워크.

[8] LEECHO Global AI Research Lab (2026). 양방향 블랙박스의 AI 시스템, 평가 체계가 절실하다.

[9] LEECHO Global AI Research Lab (2026). 거짓말하는 AI 기업들: 프라이버시 설정의 허위 약속.

[10] LEECHO Global AI Research Lab (2026). AI 사이버보안 위험 분석 보고서.

[11] LEECHO Global AI Research Lab (2026). AI 시대의 오픈소스: 설계 사상, 블루프린트, SOP 순서도 공개.

[12] LEECHO Global AI Research Lab (2026). 스크립트 키디의 아키텍처 없는 질주.

[13] LEECHO Global AI Research Lab (2026). 2026! 현재 인류 문명 과학기술에 대한 성찰 V5.

[14] Shumailov, I. et al. (2024). AI models collapse when trained on recursively generated data. Nature 631, 755-759.

[15] Brookings Institution (2025). Reimagining the future of data and AI labor in the Global South.

[16] Oxford Fairwork Project (2025). Platform worker survey: 700+ workers across 15 platforms.

[17] Equidem (2025). Survey of 76 workers from Colombia, Ghana, Kenya: 60 incidents of psychological harm.

[18] Springer Nature / Journal of Chinese Sociology (2026). Labor control in cognitive labor and data labeling.

[19] 펑파이뉴스(澎湃新闻) (2025). 인터뷰 | 카렌 하오: OpenAI는 AI 제국을 건설했지만, 역사상 제국은 항상 붕괴한다.

[20] Karpathy, A. (2025). 2025년 대형 언어 모델 연례 리뷰: 6대 패러다임 전환.

[21] EA Forum (2026). Evidence that Recent AI Gains are Mostly from Inference-Scaling.

[22] Interconnects (2025). What comes next with reinforcement learning.

초 록