Thought Paper · 사고 논문

코퍼스, LLM의 또 다른 밸브Corpus: The Other Valve of LLM

LLM 연구의 주류적 관심은 모델 아키텍처와 훈련 방법론에 집중되어 있다. 그러나 더 상류에 있는 병목이 체계적으로 간과되고 있다: 코퍼스 자체의 다차원 품질 — 의미 정밀도, 언어역 순도, 데이터 위생 — 그리고 모든 차원을 횡단하는 번역 정렬 문제가 모델 세계 표상의 품질 상한을 공동으로 결정한다.

이조글로벌인공지능연구소 LEECHO Global AI Research Lab & Opus 4.6
2026년 4월 9일 · V3

초록 · ABSTRACT

현재 LLM 연구의 주요 관심은 모델 측에 집중되어 있다 — 더 큰 파라미터, 더 나은 아키텍처, 더 정교한 정렬 기법. 이러한 작업에는 하나의 암묵적 전제가 깔려 있다: 코퍼스는 충분히 양호한 세계 표상이며, 병목은 모델 측에 있다는 것이다. 본 논문은 이 가정에 도전하여, 코퍼스 측에 독립적이고 다차원적인 품질 병목이 존재한다고 제안한다 — “코퍼스 밸브(Corpus Valve)”. 이 밸브는 세 개의 평행한 단일 언어 품질 차원 — 의미 정밀도, 언어역(言語域) 순도, 데이터 위생 — 과 모든 차원을 횡단하는 하나의 교차언어 인터페이스 차원 — 번역 정렬 — 로 구성된다. 본 논문은 나아가 “코퍼스 결정론의 약형”을 제시하고 그 정확한 경계를 규정한다: 코퍼스 품질은 LLM 능력에 대한 절대적 제약이 아니라, 모델 측 최적화의 수익 곡선 형상을 결정한다 — 품질이 임계값 미만일 때 모델 측 최적화는 수익이 가속적으로 체감하는 “아(亞)스케일링” 구간에 빠지며, 품질이 충분히 높을 때 정상적 멱법칙 스케일링이 회복된다. 최근의 스케일링 법칙 실증 연구가 이 경계에 직접적 근거를 제공하며, 시카고대학교가 제안한 무차원 데이터 품질 파라미터 Q의 Chinchilla 프레임워크 확장을 포함한다. 네 층위의 결함은 모두 LLM의 생성-재훈련 순환을 통해 자기강화되며, AI 시대 사피어-워프 효과의 완전한 메커니즘을 구성한다.

코퍼스 밸브3+1차원 품질 모델의미 정밀도언어역 순도데이터 위생번역 정렬(횡단층)아스케일링 현상코퍼스 결정론 약형반복≠迭代

Section 01

간과된 전제: 코퍼스가 정말 충분히 좋은가

The Overlooked Premise: Is the Corpus Good Enough?

2022년부터 2025년까지 LLM 분야에서 가장 주목받은 방향은 순서대로 추론 능력 강화, 환각 억제, 정렬 기법, 안전성 확보, 멀티모달 확장이었다. 이 작업들은 하나의 암묵적 가정을 공유한다: 훈련 코퍼스는 주어진, 대체로 합격인 입력이며, 병목은 모델이 여기에서 어떻게 학습하느냐에 있다.

그러나 스케일링 법칙 자체가 이 가정의 균열을 암시하고 있다. Epoch AI는 품질 및 중복 제거 조정 후 인간 생성 공개 텍스트의 유효 재고를 약 300조 토큰으로 추산하며, 현재 추세대로라면 2026~2032년 사이에 고갈될 것으로 전망했다. 2024년 프론티어 모델의 성능 향상은 주로 후훈련(post-training)과 테스트 시 연산(test-time compute)에 의해 주도되었고, 사전훈련 측면의 진전은 제한적이었다 — 업계는 사전훈련 스케일링 법칙이 천장에 도달하고 있는지 추측하기 시작했다. Anthropic CEO 다리오 아모데이(Dario Amodei)는 데이터 부족으로 AI 진전이 정체될 확률을 약 10%로 추정했다.

그러나 “데이터 부족”이라는 서사는 더 근본적인 문제를 가리고 있다: 기존 데이터의 품질 자체가 여러 차원에서 체계적 결함을 포함하고 있다는 점이다. 데이터 양의 고갈은 양(量)의 문제이지만, 코퍼스 밸브가 가리키는 것은 질(質)의 문제다 — 데이터 양이 충분하더라도 의미 정밀도가 부족하고, 언어역이 혼란하며, 데이터가 오염되고, 번역이 왜곡되면, 모델이 학습하는 세계 표상에는 여전히 상한이 존재한다.

세 가지 실제 발생한 사건이 이 질적 차원을 드러낸다:

현상 1. 중미 양국은 데이터센터의 CPU에서 GPU로의 아키텍처 전환에 대해 완전히 다른 명명 반응을 보였다 — 중국은 “智算中心(지산중심)”을 창출했고, 영어는 “data center”에 수식어를 추가하는 데 그쳤다. 동일한 기술적 현실이 서로 다른 언어의 코퍼스에서 서로 다른 의미 해상도를 갖는다.

현상 2. Google Gemini가 중국어로 PPO 알고리즘의 clipping 메커니즘을 설명할 때, 극도로 구어적인 인터넷 속어를 출력했다 — 기술적으로는 맞지만 언어역이 심각하게 불일치했다. 중국어 인터넷의 코퍼스 품질 문제가 직접 모델 출력에 스며들었다.

현상 3. 한 논문의 한국어 번역판에서, LLM이 “迭代(이터레이션)”를 “반복”으로 번역했다. “迭代”는 방향성, 점진성, 수렴성을 내포하지만, “반복”은 단지 방향성 없는 되풀이를 나타낸다. 번역은 표면적으로 완전히 “정확”하지만, 핵심 기술 의미가 무성으로 삭제되었다.

Section 02

코퍼스 밸브의 구조: 세 개의 평행 차원과 하나의 횡단층

Structure of the Corpus Valve: Three Parallel Dimensions and One Cross-Cutting Layer

“코퍼스 밸브”는 단일 변수가 아니라 3+1차원의 품질 구조다: 세 개의 평행 차원이 단일 언어 내부의 코퍼스 품질에 작용하고, 하나의 횡단층이 언어 간 인터페이스 품질에 작용한다.

그림 1 · 3+1차원 코퍼스 밸브 토폴로지

차원 A · DIMENSION A

의미 정밀도

용어가 물리 세계의 변화를
정밀하게 추적하는가

차원 B · DIMENSION B

언어역 순도

기술 콘텐츠에 비기술적
언어체가 혼입되었는가

차원 C · DIMENSION C

데이터 위생

코퍼스에 유해 또는
이상 콘텐츠가 포함되었는가

↓↓↓

횡단층 Cross-Cut

번역 정렬 Translation Alignment

모든 차원을 횡단하며 언어 간 인터페이스에 작용한다. 각 차원의 품질 차이는 이 층을 통과할 때 재매핑된다 — 정밀한 개념이 격하되거나, 모호한 개념이 고착되거나, 오염된 콘텐츠가 교차언어적으로 전파될 수 있다.

세 개의 평행 차원(A/B/C)은 각각 독립적으로 단일 언어의 코퍼스 품질을 제약하며, 서로 병렬이지 의존 관계가 아니다. 번역 정렬층은 이 셋 아래를 횡단하며, 교차언어 인터페이스로서 품질이 전달 과정에서 유지되는지, 격하되는지, 왜곡되는지를 결정한다.

차원	문제의 본질	실증 사례	영향 능력	기존 검출 수단
A 의미 정밀도	용어가 물리 변화를 추적하지 못함	“data center”가 CPU와 GPU 시설을 모두 포괄	세계 모델 해상도	거의 부재
B 언어역 순도	기술 콘텐츠에 구어체 혼입	Gemini가 인터넷 속어로 PPO 설명	출력 적절성 기준선	일부(언어역 분류기)
C 데이터 위생	유해/이상 콘텐츠 포함	음란 토큰 빈도가 비정상적으로 높음	안전성 및 신뢰도	비교적 성숙(독성 탐지)
× 번역 정렬	교차언어 매핑에서 의미 특성 소실	반복(反復) ≠ 迭代	다국어 인지 일관성	거의 부재

“기존 검출 수단” 열의 분포는 고도로 비대칭적이다: 가장 구조적 영향력이 큰 의미 정밀도층과 번역 정렬층이 바로 현재 도구 지원이 가장 부족한 영역이다.

Section 03

차원 A: 의미 정밀도 — 낡은 단어가 새로운 현실을 가릴 때

Dimension A: Semantic Precision — When Old Words Obscure New Realities

2012년 이래 데이터센터의 물리적 본질은 근본적으로 변화했다. CPU 서버 1대 전력 소비 300~600W, GPU 서버 3,000~10,000W. 랙 밀도는 5~15kW에서 40~250kW 이상으로 급등. 냉각은 공냉에서 수냉으로, 네트워크는 남북 방향에서 GPU-to-GPU 동서 방향으로 전환. 이것은 아키텍처 패러다임의 단절이지, 점진적 업그레이드가 아니다.

중국 공업정보화부(MIIT)는 산력 인프라를 통용산력중심(CPU), 智算中心(지산중심)(GPU/AI 가속기), 초산중심(HPC)으로 분류했으며, 각 용어가 하나의 하드웨어 아키텍처에 정밀하게 대응한다. 영어는 “data center” 앞에 수식어를 추가했다: AI data center, GPU data center. NVIDIA CEO 젠슨 황은 2024년부터 “AI Factory” 개념을 밀었으며, 은유를 “저장”에서 “생산”으로 전환하려 시도했다 — 그러나 중국어의 “算力中心”은 이 단계 자체가 필요 없었다. “算”이라는 어근이 본래부터 동사이며 태생적으로 생산적이기 때문이다.

용어 정밀도 격차는 다중적 구조적 원인에 뿌리를 두고 있다: 영어의 형태론이 합성 조어의 유연성을 제한하고, “data center”는 조 달러 규모의 매몰 비용과 글로벌 규모의 경로 의존 잠금을 부담하며, 기술 수용 측은 새 기술 도입 시 자연스럽게 용어 재구축 창구를 갖는다 — 이 창구를 포착하면 오히려 원발 언어보다 더 높은 정밀도를 달성할 수 있다. 이것이 반직관적 구도를 설명한다: 기술 원발 언어가 기술 수용 언어보다 용어 정밀도에서 열위에 놓일 수 있다.

벡터 공간 효과

중국어 “数据中心”과 “智算中心”은 LLM 벡터 공간에서 높은 확률로 위상적으로 분리된 독립 개념 클러스터를 형성한다. 영어 “data center”와 “AI data center”는 핵심 어근을 공유하여 고도로 중첩된다. 모델은 영어 측에서 명확한 개념 경계를 학습하기 어렵다 — 이것이 의미 정밀도 차이가 모델 내부 표상에 직접 각인되는 방식이다.

Section 04

차원 B: 언어역 순도 — 게시판 속어가 교과서에 들어올 때

Dimension B: Register Purity — When Forum Slang Enters the Textbook

Gemini가 중국어로 PPO의 clipping 메커니즘을 설명할 때 극도로 구어적인 인터넷 속어를 사용했다 — 기술적으로는 맞지만 언어역이 기술 문서가 아닌 소셜 미디어 수준이었다. 이는 훈련 코퍼스에서 PPO 관련 텍스트가 교과서나 논문이 아닌 UGC 플랫폼에서 대량으로 유래했음을 의미한다.

은밀성

언어역 순도 문제는 “내용 오류”와 다르다 — 내용은 맞을 수 있지만 표현 방식이 맥락에 부적합하다. “데이터 위생”과도 다르다 — 유해 정보는 없지만 언어역이 적합하지 않다. 현재의 코퍼스 정제 파이프라인은 독성과 사실 정확성에 초점을 맞추며, 언어역 적합성에는 거의 관심을 기울이지 않는다. 게시판체의 PPO 해설은 모든 필터를 무사 통과할 것이다.

이 문제는 중국어 코퍼스에서 특히 심각하다. 연구에 따르면 중국어 인터넷 데이터의 총량은 방대하지만 고품질 사전훈련 데이터셋은 상대적으로 부족하며, 우다오(Wudao) 같은 대규모 코퍼스는 심각한 품질 불균형이 존재한다. 영어 측은 방대한 동료 심사 논문과 전문 출판물에서 고언어역 훈련 데이터를 확보할 수 있다. 이로써 대칭적 구도가 형성된다: 차원 A(의미 정밀도)에서는 중국어가 영어보다 우세하고, 차원 B(언어역 순도)에서는 영어가 중국어보다 우세하다.

Section 05

차원 C: 데이터 위생 — 음란물 빈도가 인사말을 능가할 때

Dimension C: Data Hygiene — When Pornography Outranks Greetings

2025년 EMNLP 연구가 LLM의 BPE 어휘를 분석하여 중국어 훈련 데이터 오염을 추정한 결과, 23개 LLM의 9개 어휘에서 음란물, 온라인 도박, 이상 콘텐츠 관련 PoC 토큰이 대량 발견되었다.

2.6×

특정 음란 토큰의 빈도 대 “您好”(GPT-4o 어휘 추정)

23개

검사 대상 LLM

0

GPT-4/4-turbo/3.5에서 검출된 PoC 토큰

GPT-4/4-turbo/3.5 어휘에서는 PoC 토큰이 검출되지 않았으며, 이는 더 깨끗한 훈련 코퍼스를 시사할 수 있다. 연구는 또한 데이터 오염이 효과를 발휘하려면 충분한 언어 표상량이 필요함을 발견했다 — 저자원 언어는 거의 영향을 받지 않으며, 중국어와 영어 같은 고자원 언어가 정확히 가장 심하게 영향을 받는다.

이 차원은 세 평행 차원 중 연구가 가장 충실하고 도구 체인이 가장 성숙한 영역이다. 그러나 도구 체인의 성숙함이 인지 편향도 만들어낸다: 연구 커뮤니티는 “코퍼스 품질”을 “데이터 위생”과 등치하는 경향이 있으며, 의미 정밀도와 언어역 순도가 동등하게 중요하지만 훨씬 검출하기 어려운 차원임을 간과한다.

Section 06

횡단층: 번역 정렬 — 가장 은밀한 의미 킬러

Cross-Cutting Layer: Translation Alignment — The Stealthiest Semantic Killer

“반복”은 한국어 한자어 “反復”이며, 핵심 의미는 방향성 없는 되풀이다. “迭代”의 핵심 의미는 이전 결과를 기반으로 목표를 향해 점진적으로 수렴하는 것이며, 방향성, 점진성, 수렴성을 태생적으로 내포한다. LLM이 논문 제목의 “迭代”를 “반복”으로 번역할 때, 세 가지 핵심 의미 특성이 무성으로 삭제된다 — 모델은 대량의 중한 병렬 코퍼스에서 이 정렬 관계를 학습했다. 일상 맥락에서 두 단어가 실제로 흔히 상호 번역되기 때문이다. 기술 맥락의 정밀한 차이가 일상 맥락의 통계적 빈도에 매몰된다.

횡단층의 고유한 위험성

번역 정렬의 실패는 세 평행 차원과 본질적으로 다르다: 표면적으로 완전히 “정확”하다는 점이다. 문법 오류 없고, 언어역 혼란 없고, 유해 콘텐츠 없다. 어떤 기존 정제 파이프라인 — 독성 탐지, 중복 제거, 사실 확인, 문법 검사 — 도 “반복 = 迭代”를 문제로 표시하지 않을 것이다. 모든 필터를 무저항으로 통과하고, LLM에 의해 “올바른 정렬”로 학습되며, 이후 다국어 출력에서 의미 격하를 지속적으로 복제한다.

번역 정렬이 네 번째 평행 차원이 아닌 “횡단층”인 이유는, 단일 언어 내부의 코퍼스 품질에 직접 작용하지 않고 언어 간 인터페이스에 작용하기 때문이다. 각 평행 차원의 품질 차이는 번역 정렬층을 통과할 때 재매핑된다: 차원 A의 정밀 용어가 번역에서 격하될 수 있고(智算中心 → AI data center), 차원 B의 언어역 혼란이 교차언어적으로 전파될 수 있으며, 차원 C의 데이터 오염이 목표 언어에 스며들 수 있다. 번역 정렬층이 결정하는 것은 코퍼스 자체의 품질이 아니라, 품질이 언어 간 전달될 때의 보진도(保眞度)다.

원어 개념	핵심 의미 특성	“등가” 매핑	소실된 특성
迭代(중국어)	방향성, 점진성, 수렴성	반복(한국어)	세 특성 전부
智算中心(중국어)	지능 산력, GPU 주도	AI data center(영어)	“算”의 동사적 생산 은유
Inference(영어)	모델 추단(推斷)	推理(중국어)	의의: 논리 추리 vs 모델 추단
Alignment(영어)	가치 교정	对齐(중국어)	의의: 조판 정렬 vs 가치 교정

Section 07

교호 효과: 번역 정렬이 3차원의 품질 격차를 소멸·증폭하는 방식

Interaction Effects: How Translation Alignment Dissolves and Amplifies Quality Gaps

횡단층과 세 평행 차원의 교호작용은 두 가지 주요 복합 루프를 생성하며, 이 루프의 현실적 영향은 AI 연구 인재의 구성에 의해 증폭된다.

57.7%

중미 양국 AI 연구자의 전 세계 비중(UNIDO 2025)

63,000+

미국 AI 연구자

53,000

중국 AI 연구자

~42%

NeurIPS 2019 중국계 저자 비율

카네기국제평화재단 분석에 따르면, 최상위 AI 논문의 저자 중 중국 출신 연구자의 기여는 미국 본토 저자와 대등하거나 더 많다. AAAI 2020 채택 논문의 50%에 중국 출신 연구자의 기여가 포함되었다. 2024년 중국 학자의 AI 논문 수(23,695편)는 미국, 영국, EU의 합계를 초과했다.

이는 글로벌 AI 지식 생산에서 최대 단일 기여 집단이 중국어 모어 화자라는 것을 의미한다. 그들이 중국어에서 정밀하게 분리된 개념을 영어 논문에 기록할 때, 번역 정렬층이 차원 A의 우위를 체계적으로 소멸시킨다 — “智算中心”이 “AI data center”로 격하되어, 정밀한 개념 경계가 번역에서 모호화된다. 이 영어 논문들은 곧바로 LLM 훈련 코퍼스가 된다.

그림 2 · 횡단층 × 평행 차원의 교호작용

차원 A: 중국어 용어 정밀도 우위
“智算中心” 정밀 분리

→

횡단층: 번역 격하
→ “AI data center”

→

정밀도 우위 소멸
영어 코퍼스가 모호성 계승

차원 B+C: 중국어 코퍼스 품질 약점
언어역 혼란 × 데이터 오염

→

횡단층: 오염의 교차언어 전파
중국어 저품질 코퍼스가 다국어 모델에 침투

→

약점이 증폭
영향이 중국어 경계를 넘어 확산

횡단층이 중국어 코퍼스에 미치는 효과는 비대칭적이다: 차원 A에서의 중국어 우위를 소멸시키는 동시에, 차원 B/C에서의 중국어 약점을 증폭시킨다. 최종적으로 중국어 코퍼스의 종합 품질은 “우위는 소멸, 약점은 증폭”이라는 비대칭적 구도를 보인다.

이 비대칭적 구도는 다음 절에서 논의할 “약형” 경계 조건과 직접 관련된다: 횡단층의 소멸 효과가 특정 언어의 특정 차원 품질을 임계 임계값 아래로 밀어낼 수 있으며, 이로써 아스케일링을 촉발한다 — 즉 모델 측 최적화 수익이 가속적으로 체감하는 구간이다. 다시 말해, 횡단층은 품질 차이를 전달하는 것에 그치지 않고, 품질 임계값 붕괴를 촉발하는 메커니즘일 수 있다.

Section 08

코퍼스 결정론의 약형: 정확한 경계 조건

Weak Corpus Determinism: Precise Boundary Conditions

“코퍼스 결정론”은 “코퍼스가 모든 것을 결정한다”(강형)가 아니라, 정확한 경계를 가진 약형 주장이다. 2025년 ACL에 발표된 연구가 이 경계를 규정하는 직접적 실증 근거를 제공한다.

89%→72%

미세조정 데이터에 노이즈 도입 후 정밀도 하락폭

아스케일링

고중복 데이터셋에서 스케일링 효율 현저 하락

<40%

GPT-4의 롱테일 엔티티 사실 정밀도(고빈도 엔티티 >90%)

300T

인류 공개 텍스트 유효 재고(토큰, Epoch AI 추산)

핵심 발견: 2025년 ACL 연구는 데이터셋의 중복성과 다양성을 측정하는 “밀도” 지표를 제안했다. 고밀도(고중복, 저다양성) 데이터셋은 아스케일링 현상(sub-scaling)을 유발한다 — 스케일링 곡선의 굴곡이 심화되고 대형 모델의 적합 정밀도가 현저히 하락한다. LLaMA 2가 더 진보된 전략을 채택한 LLaMA 3보다 스케일링 효율에서 오히려 우수했는데, 후자의 데이터셋 밀도가 더 높았기 때문이다.

정보 이론 분석은 나아가, LLM이 롱테일 지식에서 근본적인 샘플 복잡도 병목에 직면함을 보여준다: 압축 가능한 구조가 없는 사실적 지식(생일, 정확한 수치 등)의 경우 각 사실은 독립적으로 암기되어야 하며, 필요 샘플량은 사실 총수와 선형 관계 — 사실 규모가 백만 단위에 도달하면 이는 어떤 실현 가능한 코퍼스의 용량도 초과한다.

약형의 정확한 경계

코퍼스 품질이 LLM 능력에 가하는 제약은 절대적 상한(강형)이 아니라, 모델 측 최적화의 수익 곡선 형상을 결정하는 것(약형)이다. 구체적으로: 코퍼스가 특정 품질 차원에서 임계값 미만일 때, 모델 측 최적화는 가속 체감의 수익률을 따른다 — 파라미터 2배 증가가 한 자릿수 퍼센트 개선만 가져올 수 있다(아스케일링). 그러나 코퍼스 품질이 임계값을 초과하면, 모델 측 최적화가 효과적으로 능력을 해방하며 수익 곡선이 정상적 멱법칙 형태를 회복한다. 코퍼스 밸브는 벽이 아니라 수익 곡선의 기울기를 조절하는 노브다.

조건	코퍼스 품질 < 임계값	코퍼스 품질 ≥ 임계값
모델 측 최적화 수익	가속 체감(아스케일링)	정상 멱법칙 스케일링
파라미터 2배 시 한계 효과	1~2% 개선	예측 가능하고 유의미한 개선
병목 소재	코퍼스 측(상류)	모델 측(하류)
최적화 전략	코퍼스 품질 먼저 수복	모델 스케일링 계속

Section 09

자기강화 함정과 사피어-워프의 AI 재구축

Self-Reinforcing Trap and Sapir-Whorf Reconstructed for AI

코퍼스 밸브와 모델 밸브의 핵심적 비대칭은 자기강화의 방향에 있다. 모델 측 개선은 정(正)순환이다: 더 나은 모델 → 더 나은 출력 → 더 나은 피드백 → 추가 개선. 그러나 코퍼스 측에는 부(負)의 함정이 존재한다: 저품질 코퍼스 → LLM이 결함 학습 → LLM 출력이 결함 복제 → 생성된 텍스트가 새 코퍼스가 됨 → 차세대 LLM이 결함을 계승·증폭.

이것은 세 평행 차원과 횡단층에서 동시에 작동한다: 모델이 모호한 용어 경계를 학습하면(차원 A) 출력에서도 모호한 용어를 계속 사용하고, 게시판체 기술 표현을 학습하면(차원 B) 응답에서도 그 언어역을 복제하며, “반복 = 迭代”의 정렬 관계를 학습하면(횡단층) 번역에서 의미 격하를 지속적으로 복제한다.

이것은 사피어-워프 가설의 AI 시대 재구축을 구성한다. 원래 가설의 약형은 “하나의 언어 구조 → 하나의 인지 성향”이며, 단일 차원적이고 단방향적이다. 본 논문의 재구축은 세 방향으로 확장한다:

3+1차원 재구축 · 3+1 Dimensional Reconstruction

단일 차원에서 다차원으로: 원래 가설은 “언어 구조”라는 하나의 차원만 다룬다. 재구축 버전은 코퍼스 품질의 세 평행 차원과 하나의 횡단층을 구분하며, 각 차원이 독립적으로 LLM의 서로 다른 능력 차원을 제약한다 — 차원 A는 세계 모델 해상도, 차원 B는 출력 적절성, 차원 C는 안전 기준선, 횡단층은 다국어 일관성을 제약한다.

단방향에서 순환으로: 원래 가설은 “언어 → 인지”의 단방향 영향이다. 재구축은 역방향 통로를 추가한다: “LLM 출력 → 새 코퍼스 → 차세대 LLM” — 제약이 일회성 영향에서 자기강화적 정의 피드백 루프로 전환된다.

인간에서 인간-기계 시스템으로: 원래 가설의 작용 대상은 “특정 언어를 말하는 사람”이다. 재구축의 작용 대상은 “특정 언어 코퍼스로 훈련된 LLM + 해당 LLM을 사용하는 사람” — 언어의 인지 제약이 인간 개인에서 인간-기계 협업 시스템으로 확장되며, 영향 범위와 속도가 모두 증폭된다.

Section 10

결론: 코퍼스는 LLM 진보의 인프라다

Conclusion: Corpus is the Infrastructure of LLM Progress

첫째, 코퍼스가 LLM 인지 능력에 가하는 제약은 다차원적이다: 세 개의 평행한 단일언어 차원(의미 정밀도, 언어역 순도, 데이터 위생)과 하나의 횡단적 교차언어 인터페이스 차원(번역 정렬). 이들은 각각 독립적으로 작동하며, 횡단층은 각 언어의 고유한 우위를 체계적으로 소멸시키고 고유한 약점을 증폭시킨다.

둘째, 코퍼스 밸브가 모델 측 최적화에 가하는 것은 절대적 제약이 아니라 수익 곡선 형상을 조절하는 약(弱) 제약이다. 코퍼스 품질이 임계값 미만이면 스케일링이 아스케일링 구간에 빠지고, 품질이 충분히 높으면 모델 측 최적화가 정상 수익을 회복한다. 이것이 “코퍼스 결정론 약형”의 정확한 의미다.

셋째, 코퍼스 결함은 LLM의 생성-재훈련 순환을 통해 자기강화된다. 이 부의 함정은 세 평행 차원과 횡단층에서 동시에 작동하여, AI 시대 사피어-워프 효과의 완전한 메커니즘을 구성한다.

넷째, 서로 다른 언어는 3+1차원에서 각각 구조적 장단점을 가진다. 중국어는 차원 A에서 우위이나 차원 B/C에서 열위, 영어는 차원 B에서 우위이나 차원 A에서 열위이며, 횡단층은 비대칭적으로 우위를 소멸·약점을 증폭한다. 모든 차원에서 동시에 우세한 언어는 없다.

궁극의 명제

칩은 LLM의 산력(算力) 인프라이고, 모델 아키텍처는 LLM의 연산 인프라이며, 코퍼스는 LLM의 인지 인프라다. 현재의 스케일링 곤경 — 사전훈련 수익 체감, 고품질 데이터 고갈 — 의 본질은 데이터 양의 소진이 아니라, 코퍼스 다차원 품질의 구조적 적자(赤字)다. “코퍼스 밸브”는 이 곤경을 이해하는 핵심 개념이다: 그것은 벽이 아니라 모델 측 최적화 수익 곡선의 기울기를 조절하는 노브다. 이 노브의 각 차원 — 의미 정밀도, 언어역 순도, 데이터 위생, 번역 정렬 — 을 식별하고 수복하는 것이 스케일링 공간을 다시 열 수 있다.

위 이론 프레임워크의 정책 함의: 고품질의 다차원 기준 충족 훈련 코퍼스는 AI 경쟁에서 심각하게 과소평가된 전략 자산이다. 새로운 어휘의 적시 생성, 기술 언어역의 순도 유지, 훈련 데이터의 위생 보장, 교차언어 매핑의 의미 보진(保眞) — 이것들은 데이터 엔지니어링의 잡무가 아니라 LLM 진보의 인프라 건설이다. 코퍼스 밸브를 여는 것은 코퍼스 측에 모델 측과 동등한 규모의 연구 자원과 전략적 관심을 투입하는 것을 요구한다.

참고문헌 · References

Tianwei Z. et al. (2025). “Speculating LLMs’ Chinese Training Data Pollution from Their Tokens.” EMNLP 2025.
Du, Y. et al. (2025). “OpenCSG Chinese Corpus: High-quality Chinese Datasets for LLM Training.” arXiv:2501.08197.
Du, C. et al. (2024). “Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model.” arXiv:2404.04167.
Chen, Z., Wang, S., Xiao, T., Wang, Y., Chen, S., Cai, X., He, J. & Wang, J. (2025). “Revisiting Scaling Laws for Language Models: The Role of Data Quality and Training Strategies.” ACL 2025, pp. 23881–23899.
Villalobos, P. et al. (2024). “Will we run out of data? Limits of LLM scaling based on human-generated data.” arXiv:2211.04325.
Xiao, C. et al. (2025). “Densing law of LLMs.” Nature Machine Intelligence.
“On the Fundamental Limits of LLMs at Scale.” arXiv:2511.12869, 2026.
Subramanyam, A., Chen, Y. & Grossman, R. L. (2025). “Scaling Laws Revisited: Modeling the Role of Data Quality in Language Model Pretraining.” arXiv:2510.03313.
He, Y. et al. (2025). “Scaling Laws for Multilingual Language Models.” Findings of ACL 2025, pp. 4257–4273.
Deng, C. et al. (2024). “Investigating Data Contamination in Modern Benchmarks for LLMs.” NAACL 2024.
Kocyigit et al. (2025). “A Survey on Data Contamination for Large Language Models.” arXiv:2502.14425.
UNIDO & 동벽데이터 (2025). “글로벌 인공지능 연구 동향 보고서(2015–2024).”
Carnegie Endowment (2025). “Have Top Chinese AI Researchers Stayed in the United States?”
Stanford HAI (2025). “The 2025 AI Index Report.”
Digital Science (2025). “DeepSeek and the New Geopolitics of AI.” Published in Science, July 2025.
중국 공업정보화부 등 11개 부처 (2024). “신형 정보 인프라 협조 발전 추진에 관한 통지.”
NVIDIA (2024). “AI Factories Are Redefining Data Centers.” GTC 2024 Keynote.
Sapir, E. (1929). “The Status of Linguistics as a Science.” Language, 5(4).
Whorf, B. L. (1956). Language, Thought, and Reality. MIT Press.
David, P. A. (1985). “Clio and the economics of QWERTY.” American Economic Review, 75(2).