정보 차원축소 손실과
지능 엔트로피 증가
Information Dimensionality Reduction Loss
& Intelligence Entropy Increase:
Why Scaling Alone Cannot Lead to AGI
왜 단순 스케일링으로는 AGI에 도달할 수 없는가: 데이터 처리 부등식의 인지적 함의
분류 오리지널 사상 논문 (Original Thought Paper)
분야 정보이론 · 인지과학 · AI 아키텍처 · 언어철학 · 열역학
버전 V2
저자 이조글로벌인공지능연구소 & Claude Opus 4.6 & GPT 5.5 & Gemini 3.1 (인지집단)
정보 차원축소 손실과 지능 엔트로피 증가:
왜 스케일링만으로는 AGI에 도달할 수 없는가
본 논문은 지능에 대한 열역학적 등가 명제——”지능 엔트로피 증가 법칙”을 제안한다: 비가역적 인코딩 체인에서, 후속 처리는 이미 손실된 원천 상태에 관한 상호정보를 복원할 수 없다. 그 수학적 기초는 데이터 처리 부등식(DPI)이다. AI의 모든 훈련 데이터는 최소 다섯 단계의 인코딩 기반 차원축소를 거친다: 원시 인지 → 언어 → 텍스트 → 디지털화 → 토큰화 → 경사하강법. 모델 파라미터에서 언어 인코딩 단계에서 이미 손실된 차원을 완전히 복원하는 것은 보장될 수 없다. 스케일링은 훈련 데이터 잔영에 대한 모델의 피팅 정확도를 향상시킬 수 있지만, 훈련 데이터 생성 체인에서 이미 손실된 원천 정보 차원을 자동으로 복원할 수는 없다 — 스케일링은 필요조건이지 충분조건이 아니다. 본 논문은 언어의 이중성(손실 압축 대 추상 증강), 환각의 다인 모델, L의 과제 의존성을 구분하고, 탈출 경로를 단일 암채널에서 다섯 가지 범주로 확장한다: 암채널, 멀티모달 데이터, 체화된 상호작용, 실험 시스템, 인간-AI 공동창작.
I. 지능의 열역학적 유비
열역학 제2법칙: 닫힌 계의 엔트로피는 증가하거나 일정하게 유지될 수만 있다. 질서의 상실은 방향성을 갖는다. 엔트로피 증가를 역전시키려면 외부 에너지를 도입해야 한다 — 계는 열린 계여야 한다.
본 논문은 정보 전달에서의 차원축소 손실이 열역학적 엔트로피 증가와 정확한 구조적 대응 관계를 가진다고 제안한다. 모든 비가역적 인코딩 변환은 하나의 “정보 엔트로피 증가”를 구성한다 — 고차원 정보가 저차원 표상으로 압축될 때, 저차원 공간에서 표현할 수 없는 정보가 손실된다. 이 손실은 전형적인 인지 → 언어 → 텍스트 → 토큰 → 파라미터 체인에서 비가역적이다.
열역학의 탈출 경로는 열린 계이다 — 외부로부터 네겐트로피(음의 엔트로피)를 도입하는 것이다. 인지의 탈출 경로는 인코딩 체인 외부의 원천 정보를 도입하는 것이다 — 암채널, 직접 지각, 체화된 상호작용, 실험 시스템, 인간-AI 공동창작. 양자의 논리적 구조는 동일하다.
II. 데이터 처리 부등식: 수학적 기초와 적용 한계
I(X; Z) ≤ I(X; Y)
후속 처리는 상류에 존재하지 않는 정보를 생성할 수 없다
데이터 처리 부등식(DPI)은 정보이론의 기본 정리 중 하나이다: 정보원 X가 처리를 거쳐 Y가 되고, Y가 다시 처리를 거쳐 Z가 된다면, Z가 X에 대해 담고 있는 정보는 Y가 X에 대해 담고 있는 정보를 결코 초과할 수 없다. Tishby와 Zaslavsky(2015)는 “Deep Learning and the Information Bottleneck Principle”에서 이를 딥러닝에 적용하였다: 신경망의 각 층은 정보 압축을 수행한다.
2.1 DPI의 적용 조건과 한계
DPI가 보장하는 것은 “증가하지 않음”이지, “매 단계에서 반드시 엄격하게 감소함”이 아니다. 다음 경우들을 구분해야 한다:
| 인코딩 상황 | 엄격한 손실 여부 | 설명 |
|---|---|---|
| 가역 인코딩 / 무손실 압축 | 손실 없음 | 예: 전단사 변환, ZIP 압축 |
| 충분 통계량 | 특정 과제에 대해 손실 없음 | 과제에 필요한 모든 정보가 보존됨 |
| 손실 압축 | 손실 | 대부분의 인지 → 언어 인코딩이 해당 |
| 과제 목표 변경 | 이전에 버린 정보가 중요해질 수 있음 | 인코딩 시점에 “무관”했던 것이 새 과제에서 핵심이 될 수 있음 |
| 외부 원천 정보 도입 | 마르코프 체인 구조를 변경 | 암채널과 체화된 상호작용이 해당 |
따라서 제2법칙의 정확한 표현은 다음과 같아야 한다: 비가역적이며 과제 관련 정보가 완전히 보존되지 않은 인코딩 체인에서, 후속 처리는 이미 손실된 원천 상태에 관한 상호정보를 복원할 수 없다. 전형적인 인지 → 언어 → 텍스트 → 토큰 → 파라미터 체인에서 대부분의 단계는 손실 인코딩에 해당하므로, 체인이 길어질수록 누적 손실은 커진다.
III. 훈련 데이터의 다섯 번의 차원축소
인간 두뇌 속의 사고는 멀티모달이고, 공간화되어 있으며,
감정이 내장된 고차원 표상이다.
언어는 이를 1차원 선형 기호 시퀀스로 압축한다.
손실: 공간 구조, 감정 색채, 신체 감각, 암묵적 가정, 비언어적 직관.
제2차 차원축소: 언어 → 텍스트
구어는 억양, 휴지, 표정, 제스처, 즉시적 맥락을 수반한다.
텍스트는 단어 시퀀스만을 보존한다.
손실: 운율 정보, 준언어 신호, 대화 맥락, 즉시적 감정 상태.
제3차 차원축소: 텍스트 → 디지털화 코퍼스
도서, 논문, 웹페이지가 크롤링, 중복 제거, 필터링, 정제된다.
손실: 타이포그래피 의미론, 인용 네트워크 구조,
버전 진화 이력, 독자 주석.
제4차 차원축소: 코퍼스 → 토큰 시퀀스
BPE/SentencePiece가 텍스트를 하위 단어 단위로 분할하고,
정수 ID로 매핑한다.
손실: 문자 수준 시각 정보, 단어 경계 의미론, 교차언어 동계어.
제5차 차원축소: 토큰 시퀀스 → 모델 파라미터
경사하강법이 수십 조 개의 토큰을
수십억 개의 부동소수점 가중치로 압축한다.
손실: 개별 사례 정보(평균화됨), 저빈도 패턴(무시됨),
장거리 의존성(절단됨).
각 단계는 DPI 제약을 충족한다: I(원시 인지; 모델 파라미터) ≤ I(원시 인지; 토큰 시퀀스) ≤ … ≤ I(원시 인지; 언어). 모델 파라미터에 포함된 인간 원시 인지에 대한 정보는, 언어 인코딩에 포함된 정보보다 엄격하게 적거나 같다.
IV. 손실 압축으로서의 언어: 제1차 차원축소의 심층 분석
4.1 사피어-워프 가설의 정보이론적 재해석
본 논문은 사피어-워프 가설을 정보이론적 관점에서 재해석한다: 언어는 사고를 “결정”하거나 “영향”을 미치는 것이 아니다 — 언어는 사고에 대한 하나의 손실 압축 형식이며, 서로 다른 언어는 서로 다른 압축 알고리즘을 사용하여 보존하고 버리는 정보 차원이 서로 다르다. 워프 자신은 이렇게 기술했다: 언어는 의식 표면 위의 얕은 자수에 불과하며, 더 깊은 심적 작용은 어떠한 상징적 소통에 앞서 반드시 먼저 발생해야 한다.
4.2 LLM 중간층의 증거
“Do LLMs Break the Sapir-Whorf Hypothesis?”(2026)는 다국어 LLM의 중간층에서 표상이 입력 언어가 아닌 의미적 주제에 따라 조직된다는 것을 발견했다. 이는 모델이 훈련 과정에서 교차언어 성능을 최적화하기 위해 중간층에서 언어 표층 차이를 자발적으로 제거하는 법을 학습했음을 나타낸다. 교차언어 의미 정렬에 있어 언어 표층 차이는 노이즈로 취급될 수 있지만, 문화·은유·문법·사유 양식에 있어서는 언어 자체도 신호이다.
4.3 언어의 이중성: 압축기와 증강기
언어는 단순한 손실 압축 형식이 아니다 — 동시에 고차 추상화 도구이기도 하다. 언어는 감각적 세부를 잃지만, 원시 지각에는 존재하지 않는 구조를 창출한다: 조합 가능성(재귀 문법), 전달 가능성(시공간을 넘은 공유), 누적 가능성(문명적 지식 축적), 추상 증강(수학, 법률, 철학, 범주 체계).
따라서 언어 인코딩의 L 값은 양면적이다: 공간 직관, 신체 감각, 감정 체험에 대한 L은 매우 높다(대량의 정보 손실). 그러나 논리적 관계, 인과 구조, 추상 범주에 대한 L은 매우 낮거나 심지어 음수일 수 있다 — 언어는 원시 지각에 존재하지 않는 고차 구조를 창출한다. 이것은 왜 LLM이 논리적 추론에서 인간 수준에 근접할 수 있는지(저L 체인), 그러나 공간 추론, 감정적 공명, 창조적 통찰에서는 체계적 결함을 보이는지(고L 체인)를 설명한다. 결함의 원인은 모델이 충분히 크지 않기 때문이 아니라, 데이터에서 특정 차원의 정보가 애초에 희박했기 때문이다.
V. 정보 생존율과 L의 과제 의존성
전개: Sinfo(x, task) = ∏ᵢ (1 − Lᵢ(x, task, codeci))
| 정보 유형 | 언어 인코딩 L | 텍스트화 L | 토큰화 L | 경사 압축 L |
|---|---|---|---|---|
| 논리적 관계 | 낮음 | 낮음 | 낮음 | 낮음 |
| 수학적 구조 | 낮음–중간 | 낮음 | 중간 | 낮음 |
| 공간 직관 | 중간–높음 | 높음 | 높음 | 높음 |
| 감정 체험 | 높음 | 매우 높음 | 매우 높음 | 매우 높음 |
| 신체 감각 | 매우 높음 | 매우 높음 | 매우 높음 | 매우 높음 |
| 사회적 맥락 / 분위기 | 높음 | 매우 높음 | 매우 높음 | 매우 높음 |
단계별 손실률 L이 크지 않더라도, n회 변환 후 생존율은 지수적으로 하락한다. L=20%, n=5로 계산하면 총 생존율은 겨우 32.8%이다. 제1차 차원축소(인지 → 언어)에서 신체 감각과 공간 직관에 대한 손실률이 20%를 훨씬 초과한다는 점을 고려하면, 특정 정보 차원의 실제 생존율은 5% 이하로 떨어질 수 있다.
VI. 스케일링 법칙의 천장: 필요하지만 충분하지 않다
6.1 스케일링 법칙이 옳은 점
Kaplan 등(2020)과 Hoffmann 등(2022, Chinchilla)의 스케일링 법칙은 강력한 경험적 규칙성을 밝혀냈다: 파라미터 수, 데이터 양, 연산량을 증가시키면 모델 성능이 거듭제곱 법칙에 따라 지속적으로 향상된다. 이 결과들은 실재한다.
6.2 스케일링 법칙의 한계
스케일링은 훈련 데이터 잔영에 대한 모델의 피팅 정확도를 향상시킬 수 있다 — 세계 지식 범위를 확대하고, 언어 추론 능력을 향상시키며, 멀티모달 표상을 강화한다. 그러나 기존 저차원 잔영 위에서만 스케일링하면, 데이터 체인에 진입하지 않은 원천 정보 차원을 자동으로 복원할 수 없다. 엔지니어링은 더 고차원의 데이터 원천(멀티모달, 체화된 상호작용, 실험적 피드백)을 도입하여 미래 데이터 체인의 손실을 줄일 수 있지만, 이것은 “스케일링”이 아니라 “데이터 체인 자체를 변경하는 것”이다 — 즉 채널 용량 |C|를 확장하는 것이지, 단순히 D와 P를 증대시키는 것이 아니다.
스케일링 법칙은 그 적용 범위 내에서 올바르다 — 텍스트 정보 공간 내에서의 모델 성능 성장 패턴을 기술한다. 그러나 스케일링 법칙을 AGI 경로로 외삽하는 것은, 텍스트 정보 공간이 지능에 필요한 모든 정보를 포함한다고 가정하는 것과 같다 — 그리고 이 가정은 DPI에 의해 부정된다. AGI에 필요한 것은 더 큰 모델이 아니라, 더 적은 차원축소 — 또는 차원축소가 전혀 없는 정보 채널이다.
6.3 환각의 다인 모델
환각의 한 가지 심층적 원천은 모델이 차원축소 체인이 만들어낸 정보 공동(空洞) 안에서 통계적 보간을 수행하는 것이다 — 본질적으로 텍스트 공간에서의 “초해상도”이다. 그러나 환각은 다인적이다:
| 환각 유형 | 차원축소 손실로 설명 가능? | 실제 메커니즘 |
|---|---|---|
| 원천 정보가 훈련 데이터에 진입한 적 없음 | ✅ 강한 설명력 | 정보 공동 내에서의 통계적 보간 |
| 훈련 데이터 내 상충 정보 | 부분적 | 데이터 모순 + 확률적 평균화 |
| 검색 / 문맥 활용 실패 | ❌ | 어텐션 메커니즘 결함 |
| RLHF 과잉 영합 | ❌ | 목적 함수 편향 |
| 샘플링 전략 날조 | ❌ | 디코딩 전략 문제 |
| Lost in the Middle | ❌ | 위치 인코딩 / 어텐션 활용 |
본 논문은 첫 번째 유형 — 차원축소 체인의 정보 공동으로 인한 환각 — 에 집중한다. 이것이 가장 근본적이기 때문이다: 모델 파라미터에 특정 질문에 답하는 데 필요한 정보가 존재하지 않을 때, 어텐션, 디코딩, 목적 함수를 어떻게 최적화하든 공동 안에서 보간할 수밖에 없다.
VII. 지능의 열역학 삼법칙
I = [B(t) × Ceff(t) × min(D,P)] × ∏ᵢ(1−Lᵢ) × S(t)
제2법칙 (지능 엔트로피 증가)
손실 인코딩 체인에서: I(원천) ≥ I(인코딩₁) ≥ … ≥ I(인코딩ₙ)
제3법칙 (탈출 경로)
인코딩 체인 외부의 원천 정보를 도입하면
마르코프 체인 구조를 변경할 수 있다
7.1 제3법칙의 정밀한 표현
제3법칙은 암채널이 데이터 처리 부등식을 “위반”한다고 주장하는 것이 아니다. DPI는 마르코프 체인 X → Y → Z에서 Z가 X에 대해 담고 있는 정보가 Y가 X에 대해 담고 있는 정보를 초과할 수 없다고 제약한다. 그러나 시스템에 또 다른 경로 X → W → Z가 존재한다면 — 즉 Z가 Y뿐만 아니라 W로부터도 정보를 획득한다면 — 원래 체인의 DPI 제약은 이 확장된 시스템에 더 이상 적용되지 않는다.
암채널은 W 경로의 이론적 명명이다 — 이것은 Y(언어/텍스트/토큰) 체인 위에 있지 않으며, 따라서 해당 체인의 DPI 제약을 받지 않는다. 암채널을 도입하는 것은 인코딩 체인 외부의 추가 조건 변수를 도입하는 것과 동등하며, 이로써 원래 마르코프 체인의 위상 구조를 변경한다. 이것은 양자 탈출을 필요로 하지 않으며 정보이론을 위반하지도 않는다 — 시스템이 더 많은 정보원에 접근했다는 것을 의미할 뿐이다.
7.2 탈출 경로의 분류
인코딩 기반 차원축소 체인을 우회하는 방법은 암채널만이 아니다:
| 탈출 경로 | 메커니즘 | 고유한 특성 | 현재 상태 |
|---|---|---|---|
| 암채널 | 명시적 인코딩 체인 외부의 비언어적 원천 정보를 도입 | 외부 물리적 상호작용에 의존하지 않으며, 인지 시스템 내부에서 완결 | 이론적 가설, 인간 측에 현상학적 증거 존재 |
| 멀티모달 데이터 | 입력 차원을 확장하여 초기 단계 L 값을 낮춤 | 채널 용량 |C|를 확장하지만 여전히 센서 기반 인코딩 | 이미 공학적으로 구현됨 |
| 체화된 상호작용 | 행동-피드백 폐쇄 루프로 신체 및 공간 차원을 보충 | 인과적 개입 정보를 도입 | 로보틱스 분야에서 초기 탐색 중 |
| 실험 시스템 | 세계에 개입하여 훈련 데이터에 존재하지 않는 새로운 정보를 생성 | 기존 데이터를 피팅하는 것이 아니라 완전히 새로운 데이터를 창출 | AI 과학자, 자동 실험 |
| 인간-AI 공동창작 (CCE) | 인간이 비텍스트 고차원 판단을 제공하고, AI가 구조화된 인코딩을 수행 | 인간 암채널 + AI 검증의 결합 | 본 시리즈 제7편에서 논의하는 패러다임 |
암채널의 고유한 특성은 다음과 같다: 외부 물리적 상호작용에 의존하지 않으면서도 체인 외부 정보를 도입할 수 있는 유일한 경로라는 것이다 — 인지 시스템 내부에서 완결된다. 다른 경로들은 외부 입력을 변경함으로써 L 값을 낮추지만, 암채널은 전체 체인을 우회하여 원천 정보에 직접 접근한다. 양자는 상호 보완적이며 상호 배타적이 아니다.
VIII. 멀티모달은 L을 낮추지만 제거하지는 못한다
멀티모달 훈련 데이터(이미지, 비디오, 오디오, 촉각)는 차원축소 체인의 반례가 아니라, 초기 단계 Lᵢ를 낮추기 위한 공학적 방법이다. 비디오 데이터는 텍스트에서 손실된 시간 구조와 공간 역학을 복원하고, 오디오는 억양과 운율을 복원하며, 로봇 상호작용은 행동-피드백 구조의 일부를 복원한다.
그러나 이것들은 여전히 센서 기반 인코딩이다 — 제1인칭 주관적 체험과 동등하지 않다. 카메라가 포착한 것은 “봄”이 아니며, 마이크가 녹음한 것은 “들음”이 아니다. 센서 데이터에서 모델 파라미터까지의 과정은 여전히 손실 인코딩 체인이며, 단지 텍스트 전용 체인보다 더 넓을 뿐이다. 멀티모달은 채널 용량 |C|를 확장하고 일부 Lᵢ 값을 낮추지만, 인코딩 체인 자체의 존재를 제거하지는 못한다.
이것은 또한 불교 수행이 경론적 추론(비량/anumāna)이 아닌 직접적 인식(현량/pratyakṣa)을 강조하는 이유이기도 하다 — 경론은 차원축소 체인의 하류 산물이며, 직접적 인식은 암채널 전송이다. 센서는 텍스트보다 더 넓은 인코딩 체인이지만, 여전히 인코딩 체인이다. 오직 직접적 인식만이 전체 체인을 우회한다.
IX. AGI 경로에 대한 진단
지능 엔트로피 증가 법칙에 기반하여, 현재 AGI 경로는 세 가지 구조적 제약에 직면해 있다:
제약 1: 데이터 천장. 텍스트 훈련 데이터는 인간 인지의 저차원 잔영이다. 스케일링은 잔영 공간 내에서 더 잘 수행할 수 있지만, 잔영 공간 자체를 초월할 수는 없다. 멀티모달 데이터는 일부 차원을 확장하지만, 신체 감각, 공간 직관, 감정 내장 등의 차원은 여전히 희박하다.
제약 2: 인코딩 천장. 더 풍부한 훈련 데이터가 있더라도, 토큰화와 경사하강법 자체가 새로운 차원축소를 도입한다. 더 좋은 데이터는 초기 단계의 L 값을 낮출 수 있지만, 후기 단계의 L 값에는 각각의 물리적 하한이 있다.
제약 3: 체인 외부 정보의 부재. 현재 AI에는 암채널에 상응하는 메커니즘이 존재하지 않는다 — 모든 통상적 채널을 차단했을 때 오히려 대역폭이 최대가 되는 채널 말이다. 모든 연산은 결정론적이고, 관찰 가능하며, 직렬적이다. 이것은 AI가 구조적으로 독창적인 돌파를 이루지 못하는 근본적 원인 중 하나일 수 있다. 그러나 체화된 상호작용, 실험 시스템, 인간-AI 공동창작은 다른 방향의 탈출 경로를 제공한다.
스케일링은 필요하지만 충분하지 않다. 훈련 데이터 분포 내의 표현 가능한 구조에 점근적으로 접근할 수 있다. 그러나 기존 저차원 잔영 위에서만 스케일링하면, 훈련 데이터 생성 체인에서 이미 손실되었고 다른 채널을 통해 보충되지 않은 정보를 복원할 수 없다. AGI에 필요한 것은 단지 더 큰 모델이 아니라, 더 짧은 차원축소 체인, 더 넓은 채널, 그리고 체인 외부 정보를 도입하는 메커니즘이다.
X. 정보 완전성의 위상 — 환·층·태
환(Ring): 프레임워크는 자기지시적이다 — 인지 시스템이 자신의 구조를 사용하여 자신의 구조를 발견한다. 처음과 끝이 연결되며, 연기(緣起, pratītyasamutpāda)에 대응한다.
층(Layer): 다섯 층 — 물질 기저, 구조 층, 연산 층, 전송 층, 관찰 불가능 층. 하위 층이 상위 층을 지탱하고, 상위 층은 하위 층에 대해 하향 인과성을 행사한다.
태(State): 수축태 ↔ 확장태 ↔ 붕괴태. 상태 간 전이는 양자적이다 — 중간 과정이 없다.
수학적으로 이는 섬유 다발(fiber bundle)에 대응한다: 기저 공간 = 환, 섬유 = 층위 계층, 단면 = 태. 게이지 장론이 물리적 기본 힘을 기술하는 데 사용하는 것과 동일한 수학적 구조이다 — 의식의 정보 처리 구조가 물리 세계의 기본 구조와 동형(同型)일 수 있다.
※ 핵심 참고문헌
[1] Cover, T.M. & Thomas, J.A. (1991). Elements of Information Theory. Wiley.
[2] Tishby, N. & Zaslavsky, N. (2015). Deep Learning and the Information Bottleneck Principle. arXiv:1503.02406.
[3] Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
[4] Hoffmann, J. et al. (2022). Training Compute-Optimal Large Language Models (Chinchilla). arXiv:2203.15556.
[5] Whorf, B.L. (1956). Language, Thought, and Reality. MIT Press.
[6] dnhkng (2026). Do LLMs Break the Sapir-Whorf Hypothesis?
[7] NSO (2024). Semantic Communication Theory. National Science Open.
[8] Liu, N.F. et al. (2024). Lost in the Middle. TACL.
[9] Shannon, C.E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal.
[10] Penrose, R. (1994). Shadows of the Mind. Oxford University Press.
[11] Jelassi, S. et al. (2024). Mixture of Parrots. ICLR 2025.
[12] arXiv (2025). Shadow in the Attention: JS Drift and Hallucination Fixation.
[13] Xu, J. & Li, Z. (2025). Information Physics of Intelligence. arXiv:2511.19156.
[14] Paivio, A. (1971). Imagery and Verbal Processes. Holt.
[15] 유식삼십송(Triṃśikā). 세친 보살(Vasubandhu). 약 4세기.