현재 모든 대형 언어 모델(LLM) 및 멀티모달 모델의 핵심 처리 패러다임은, 모든 형태의 정보를 1차원 Token 시퀀스로 변환하여 패턴 매칭과 확률 예측을 수행하는 것이다. 본 논문은 문헌 검토, 정보이론 분석, 1차 엔지니어링 실전 경험, 산업 데이터를 결합한 혼합 방법론을 통해, Token화의 “만물 차원 축소” 패러다임이 정보 처리 전 체인에서 구조적 정렬 실패를 초래함을 논증한다.
방법론 설명: 본 논문은 3계층 논증 구조를 채택한다——이론 계층(정보이론에서 차원 축소의 비가역적 정보 손실, 인과 그래프와 선형 시퀀스의 위상적 비호환성), 실증 계층(2025-2026년 산업 데이터, 벤치마크 테스트 결과, 재난적 사례), 그리고 1차 엔지니어링 실전 계층(저자의 한국 HWP 폐쇄형 문서 포맷 변환 AI 프로그래밍 실전 경험). 논증은 다섯 단계 전 체인을 포괄한다: Input 단의 구조 파쇄, Processing 단의 신호 매몰과 인과 모방, Output 단과 현실의 대규모 이탈, Pollution 퇴화 나선, 그리고 업계 패치 방안의 차원급 한계. 마지막으로 “Scaling 창발” 등 주류 반론에 대응하고, “진정한 해결 경로”에 대한 전망적 방향 판단을 제시한다.
Input · 차원 축소 입구
모든 정보가 구슬 줄로 납작해진다
멀티모달 대형 모델의 핵심 돌파구는 본질적으로 매우 간단하다: 텍스트든, 이미지든, 오디오든, 모든 유형의 정보가 동일한 수학적 표현——임베딩 벡터(Embedding Vector)로 변환된다. 이미지는 Vision Transformer에 의해 16×16 픽셀 조각으로 잘려서, 각 조각이 벡터로 펼쳐진다. 오디오는 인코더에 의해 스펙트로그램 조각으로 잘려서, 마찬가지로 벡터가 된다. 비디오는 프레임별 이미지로 분해되어 같은 과정을 거친다. 최종적으로, 이 모든 벡터와 텍스트 Token이 같은 줄에 배열되어 Transformer에 입력된다.
정보이론의 기본 정리가 알려주는 바: 차원 축소는 반드시 정보 손실을 수반하며, 이러한 손실은 특정 조건에서 비가역적이다. 고차원 데이터를 저차원 공간에 투영할 때, 원본 데이터에서 차원 간의 교차 관계——공간 인접성, 계층적 중첩, 인과 의존성——은 저차원 표현에서 완전하게 보존될 수 없다. 차원 축소 방법은 입력 공간의 축소와 관련 정보의 보존 사이에서 균형을 맞추어야 하며, 차원 축소 과정에서의 정보 손실은 불가피하다. 핵심 문제는: Token화의 차원 축소가 잃어버리는 것이 바로 범용 지능이 가장 필요로 하는 것——데이터 양이 아니라 데이터 간의 구조적 관계라는 점이다.
멀티모달 이해를 위한 해결책은 더 똑똑한 두뇌를 만드는 것이 아니라, “만능 번역기”를 만드는 것이다——이미지와 소리를 LLM이 이미 이해할 수 있는 하나의 언어로 번역하는 것이다. 이 과정의 본질은 바로 차원 축소다: 2차원의 공간 정보(이미지), 3차원의 시공간 정보(비디오), 연속적인 주파수 정보(오디오)를 모두 1차원 Token 시퀀스로 압착하는 것이다. 비유하자면: 3차원 건물을 2차원 사진으로 찍으면 깊이를 잃고, 그 사진을 다시 한 줄의 텍스트 설명으로 압축하면 공간 배치까지 잃는다. Token화가 정보에 하는 것은 이보다 더 극단적이다——모든 모달리티를 1차원 구슬 줄로 밀어 넣는 것이다.
H×W×C
16×16 pixels
768-dim vector
구조 정보 손실
시간×주파수
Whisper/CLIP
projection layer
시간 질감 손실
Transformer는 설계상 순서 불변(permutation invariant)이며, 입력 시퀀스에서 Token 간의 공간 관계를 본질적으로 이해하지 못한다. 위치 인코딩(Positional Embedding)은 단지 보상 수단일 뿐, 원래 풍부한 2차원 공간 구조를 1차원 순번 표시로 인코딩한다. 다시 말해, 공간 정보는 Token화되는 순간 구조적으로 파괴되었으며, 위치 인코딩은 폐허 위에 표시를 하는 것에 불과하다.
관계 구조의 비가역적 붕괴
Token화의 차원 축소는 단순한 정보 압축이 아니다——그것은 관계 구조의 비가역적 파괴다. 이미지가 196개 Patch로 잘려 시퀀스로 나열될 때, Patch 간의 공간 인접 관계, 차폐 관계, 원근 관계가 선형 거리로 평탄화된다. 최신 연구가 밝힌 핵심 한계: 현재 멀티모달 임베딩 모델은 객체 인식에는 능하지만 조합 추론에서는 심각하게 부족하다——”지도 위에 놓인 전화기”와 “전화기 위에 놓인 지도”를 구별하지 못한다. 관계적 구조가 인코딩 과정에서 사라지기 때문이다.
“단일 모달리티로 인간 개념의 완전한 집합을 모델링하는 것은 이론적으로 불충분하다. 예를 들어, ‘아름다운 그림’이라는 개념은 시각적 표상에 기반하며, 자연어나 다른 비시각적 방식으로는 설명하기 어렵다.”
| 정보 모달리티 | 원본 차원 | Token화 후 | 손실된 구조 |
|---|---|---|---|
| 텍스트 | 구문 트리 / 담화 구조 | 선형 Token 시퀀스 | 중첩 종속 관계, 단락 간 지시 |
| 이미지 | 2D 공간 + 채널 | Patch 펼침 시퀀스 | 공간 인접, 차폐, 원근, 조합 관계 |
| 오디오 | 연속 시간-주파수 영역 | 스펙트럼 Token 시퀀스 | 화음 동시성, 리듬 연속성, 음색 질감 |
| 비디오 | 3D 시공간 연속체 | 프레임→Patch→시퀀스 | 운동 연속성, 인과적 시간 순서, 장면 위상 |
| 문서 포맷(HWP 등) | 중첩 컨테이너 + 바이너리 구조 | 텍스트 레이어만 추출 | 표 중첩, 페이지 레이아웃, 포맷 종속 관계 |
HWP의 벽: AI가 관통할 수 없는 정보 감옥
한국의 HWP(한글) 문서 포맷은 완벽한 실전 사례를 제공한다. 1989년부터 한글과컴퓨터가 개발한 이 독점 포맷은 한국 정부, 법원, 학교, 군대에서 광범위하게 사용된다. 실제 개발 과정에서, AI 프로그래밍 도구(Claude Code)로 HWP 변환 작업을 처리할 때, 이론적으로 의미 있는 현상이 발견되었다: AI는 HWP 파일의 텍스트 내용(의미 계층)을 정확하게 추출할 수 있지만, 포맷 관계(구조 계층)를 완전히 재구성할 수 없다. 텍스트 정보와 문서 정보는 두 개의 다른 차원의 것이다.
구체적으로, 전형적인 한국 정부 공문은 HWP에서 다음을 포함한다: 3중 중첩 표(큰 표 안에 중간 표, 중간 표 안에 작은 표), 행 병합된 표 헤더 셀, 표 위에 겹쳐진 플로팅 텍스트 박스, 그리고 엄격한 페이지 구역 제어. AI가 제안한 여러 해석 알고리즘——바이너리 오프셋 기반 직접 읽기, 정규 표현식 패턴 매칭, HTML 중간 레이어 변환 방식 모두 같은 지점에서 실패했다: “여기에 표가 있다”와 “표 안에 이런 텍스트가 있다”는 잡을 수 있지만, “작은 표가 큰 표의 2행 3열에 중첩되어 있고, 위에 플로팅 텍스트 박스가 겹쳐져 있다”는 공간적 종속 관계를 이해할 수 없다. Claude Code가 자체 반복한 후, 코드는 구조적 명확성에서 오히려 퇴화했다——매 반복마다 같은 차원 안에서 “최적화”했을 뿐, 포맷 구조의 차원으로 도약하지 못했다.
Claude Code는 자체 평가에서 98%의 해석 성공률을 제시했다——그 평가 기준이 문자 단위의 텍스트 추출 완전성이기 때문이다. 이는 건물을 해체해서 벽돌을 전부 완벽하게 늘어놓고 “건축 자재 보존율 98%”라고 보고하는 것과 같다. 원본 HWP의 3중 중첩 공문 표는, Markdown으로 변환된 후 가로선, 세로선, 텍스트의 선형 시퀀스로 변했다——원래의 3차원 공간 계층 관계가 1차원으로 분쇄되었다. 더 아이러니한 것은, AI가 이후 자신이 생성한 이 Markdown을 읽고 원래 구조를 재구성하려 했으나, 스스로도 혼란에 빠졌다는 것이다. 정보는 변환 과정에서 비가역적으로 파괴되었고, AI는 이 파괴를 전혀 인식하지 못했다.
이 사례는 기술보다 더 깊은 문제를 드러낸다: AI는 자신이 알지 못하는 차원에서의 정보 손실을 평가할 능력이 없다. 자신이 무엇을 잃었는지 모른다. 그것이 존재한다는 것 자체를 모르기 때문이다. 자신이 인식할 수 있는 차원에서만 점수를 매길 수 있어서, 진심으로 98%를 달성했다고 믿는다. 이 “98% 맹점”은 이후 장에서 반복적으로 나타난다: BUG 수정에서 AI는 새 BUG를 도입한 것을 모르고, AI Slop에서 AI는 자신의 출력이 현실과 이탈한 것을 모르며, 인과 추론에서 AI는 상관관계를 인과관계로 착각한 것을 모른다. “자신이 모른다는 것을 모르는 것”이 Token 패러다임의 가장 위험한 특성이다.
Processing · 전송 손실
Token은 인과 논리와 물리적 관계를 복원할 수 없다
Input 단의 차원 축소 손실을 잠시 제쳐두더라도, Processing 단계에는 더 깊은 단절이 존재한다: Token의 선형 시퀀스는 근본적으로 인과 관계를 표현할 수 없다. 인과 관계는 그래프 형태이며, 다중 경로적이고, 역방향 및 병렬이 가능하다. 반면 Token 시퀀스는 단방향이고 선형적이다.
2026년 최신 종합 연구에서 명확히 지적하는 LLM 추론 실패의 근본 원인: 다음 Token 예측 목표로 인한 국소 패턴 완성 편향(전역 논리적 계획이 아닌), 자기주의력(self-attention) 분산으로 인한 작업 기억 및 순서 추론의 한계, 그리고 비단사(non-injective) Token화가 만들어내는 “유령 편집” 아티팩트——모델이 의미적 편집이라고 생각하는 Token 수준의 조작을 수행하지만, 실제 출력은 영향을 받지 않는 현상이다.
연구자들은 LLM이 인과 추론 작업에서 진정한 추론 대신 두 가지 지름길에 주로 의존함을 발견했다. 첫째, 서술 순서를 인과 순서로 동일시——먼저 나타난 사건이 원인으로 판정되며, 사건이 인과 순서대로 서술되지 않으면 성능이 크게 저하된다. 둘째, 사전 학습에서 기억한 인과 연관을 직접 복창하며, 주어진 관측 데이터를 기반으로 추론하지 않는다.
학계의 판정은 이미 수렴했다: Transformer의 자기회귀 메커니즘 자체는 인과적이지 않다——시퀀스에서의 Token 순서(sequence)는 인과 관계(causation)와 같지 않다. LLM은 오직 얕은(Level-1) 인과 추론만 수행할 수 있다——파라미터에 저장된 인과 지식 연관을 호출하는 것이지, 진정한 인간 수준(Level-2)의 인과 추론 능력은 결여되어 있다.
공간 추론 역시 붕괴한다. 최신 벤치마크 테스트(SpatialText, 2026)에 따르면, LLM에는 체계적인 공간 환각이 존재한다——예를 들어 “침대가 북쪽에 있다”는 기본 연관. 현재 LLM은 검증 가능한 내부 공간 모델을 구축하지 않으며, 안정적인 기하학적 다양체가 필요한 작업에서 추론이 직접 붕괴한다. 공간 작업의 복잡도가 증가함에 따라 성능 하락 폭은 42%에서 80% 이상에 이른다.
가장 근본적인 수준에서, LLM은 기호 접지 문제(Symbol Grounding Problem)에 직면한다: 인지과학 관점에서 LLM은 본질적으로 통계 기반 분포 모델이며, Token은 물리적 세계와 단절된 기호에 불과하다. 인과 추론은 개입(intervention)과 반사실적 사고(counterfactual thinking)를 필요로 하는데, 이 두 가지는 체화된 경험과 상호작용적 학습의 부재로 인해 현재 LLM에서 완전히 결여되어 있다.
● 진정한 인과 추론
그래프 형태의 인과 구조, 역방향 및 병렬 가능. 개입과 반사실에 기반: 내가 X를 하면 Y는 어떻게 될까? 물리적 세계와의 지속적 상호작용을 통해 인과 가설 검증. 관측 데이터에서 새로운 인과 관계 발견.
● Token의 “인과 모방”
선형 시퀀스, 전후≠인과. 통계적 동시 출현에 기반: X와 Y가 자주 함께 나타남. 학습 데이터에서 기억한 인과 연관을 복창. 새로운 관측 데이터에서 새로운 인과 구조 발견 불가.
Processing 단계에서의 신호 매몰
Token 시퀀스가 Transformer에 입력된 후, 심각하게 과소평가된 문제가 나타나기 시작한다: 컨텍스트가 길어질수록 추론 능력이 떨어진다. 직관적으로 “정보가 많을수록 이해가 좋아진다”는 논리로는 예측할 수 없는 현상이다. 컨텍스트 윈도우가 4K에서 128K, 심지어 백만 단위로 성장하면서 많은 팀이 환각이 사라질 것으로 기대했다. 그러나 실제 프로덕션 시스템에서 환각은 때로 오히려 더 빈번해졌다.
이 현상은 연구자들에 의해 “컨텍스트 부패”(Context Rot)로 명명되었다——입력 컨텍스트 길이가 증가함에 따라 나타나는 체계적 성능 저하. 그 메커니즘은 명확하고 냉혹하다: LLM은 유한한 “주의력 예산”을 가지고 있으며, Token이 추가될 때마다 이 예산을 소비한다. Token이 추가될수록 표현에서의 노이즈가 단조 증가(제로섬 주의력)하며, 주의력 메커니즘의 확률 질량이 컨텍스트 성장에 따라 희석되고, 수백만 개의 방해 Token 앞에서 하나의 핵심 문장은 통계적으로 미미해진다.
명목 윈도우 간의 격차
컨텍스트 드리프트에 기인
안전 충전 상한
더 결정적인 발견이 “더 많은 정보 = 더 나은 성능”이라는 가정을 완전히 뒤집었다: 모델이 관련 증거를 완벽하게 검색할 수 있더라도, 컨텍스트 길이 자체가 추론 성능을 손상시킨다. 연구자들은 장문 컨텍스트 작업을 검색(정보 찾기)과 추론(정보 활용)의 두 단계로 분해한 결과, 검색이 완벽하더라도 대량의 무관한 컨텍스트의 존재가 추론 과정을 능동적으로 방해함을 발견했다.
고전적인 “Lost in the Middle”(중간에서 길을 잃다) 효과는 여전히 해결되지 않았다: LLM은 체계적인 U자형 회상 곡선을 보인다——가장 이른 Token과 가장 최근 Token을 과도하게 중시하고, 중간 부분의 정보를 체계적으로 무시한다. 단 4K Token의 컨텍스트에서도 정확도가 75%에서 55-60%로 떨어질 수 있다. 이것은 규모의 문제가 아니라 아키텍처의 문제다.
이것이 Token 전 체인에 의미하는 바는 무엇인가? Input 단에서 이미 구조 정보가 파쇄되었고, 이제 Processing 단에서 2차 손상을 가한다——파쇄된 정보 조각이 전송 과정에서 노이즈에 추가로 매몰된다. 정보는 먼저 공간적 차원 축소를 당하고, 그 다음 주의력 희석을 당한다. 두 차례의 손실이 겹친 후, 출력 단에서 사용 가능한 유효 정보량은 누구의 직관적 예상보다도 훨씬 적다.
Output · 현실 이탈
인터넷의 52%가 이미 AI Slop이다
Input 단의 차원 축소 손실이 “필요한 엔지니어링 타협”으로, Processing 단의 신호 감쇠가 “최적화 가능한 기술적 문제”로 볼 수 있다면, Output 단에서 벌어지고 있는 일은 이미 기술 논의의 범주를 넘어선다——그것은 Token 전 체인 정렬 실패가 현실 세계에서 대규모로 드러나는 현상이다.
SEO 기업 Graphite의 65,000개 영문 기사 분석에 따르면, 2025년 중반 기준으로 인터넷에 새로 게시된 기사의 52%가 AI 생성물이다. 이 비율은 2022년 말 ChatGPT 출시 시점의 약 10%에서 2년 반 만에 과반을 넘었다. Europol 보고서는 더 경고한다: 2026년까지 온라인 콘텐츠의 최대 90%가 AI 합성물이 될 수 있다.
“AI Slop”은 2025년 Merriam-Webster와 미국방언학회에서 동시에 올해의 단어로 선정되었다. 그 정의는: 저품질, 미검증, 종종 환각으로 가득 찬 AI 생성 콘텐츠로, 콘텐츠 팜에서 대량 생산되며, 유일한 목적은 광고 수익 수확이다.
AI 생성 비율
AI 합성 콘텐츠 비율
받은 직원 비율
논의량 증가 배수
Slop은 이미 전문 직장에 침투했다. 하버드 경영대학원과 스탠퍼드 대학의 공동 연구에 따르면, 연구 참여 직원의 40%가 어떤 형태의 “workslop”——겉보기에는 괜찮지만 실질이 없는 AI 생성물——을 받았으며, 각 사건의 수정에 평균 2시간이 소요되었다.
이것은 HWP 사례의 “98%”라는 은유로 되돌아간다. AI의 Output 단에는 구조적 맹점이 존재한다: 자신의 출력이 현실 세계와 얼마나 정렬되어 있는지 평가할 수 없다. 자신이 틀렸다는 것을 모른다. 물리적 세계의 검증 회로가 없기 때문이다. 유일한 “검증”은 다음 Token의 확률 분포이며——이 확률 분포는 현실이 아닌 학습 데이터에서 온다. 그래서 고속으로, 대규모로, 자신 있게 현실과 이탈된 콘텐츠를 생산한다.
Pollution · 퇴화 나선
Slop이 Slop을 먹이는 퇴화 나선
앞의 세 단계——Input 차원 축소, Processing 신호 감쇠, Output 현실 이탈——이 정적인 것이라면, 적어도 피해는 유한하고 통제 가능할 것이다. 그러나 진정으로 우려되는 것은 네 번째 단계의 등장이다: Output 단에서 생산된 Slop이 차세대 모델의 학습 데이터로 역류하고 있다.
AI 시스템은 인터넷에서 획득한 대규모 데이터셋으로 학습된다. 인터넷이 Slop으로 범람하고 있다면——그리고 사실 그렇다는 것이 증명되었다——미래의 AI 모델은 Slop으로 학습되는 것이다.
구조 파쇄
신호 매몰
현실 이탈
학습 오염
더 나쁜 출발점
이 폐쇄 루프의 각 구간은 정렬 오차를 누적한다. 그리고 이 순환 전체에 걸쳐 물리적 세계와 정렬하는 교정 메커니즘은 존재하지 않는다. 인간의 인지 폐쇄 루프는: 지각→처리→행동→물리적 세계 피드백→지각 수정이다. 마지막 “물리적 세계 피드백”이 전체 시스템이 발산하지 않는 핵심이다. Token 전 체인에 결여된 것이 바로 이것——어떤 단계도 물리적 현실의 검증을 받지 않으므로, 이것은 개방 루프 시스템이며 필연적으로 발산한다.
콘텐츠 팜이 AI Slop을 생산하는 경제학은 간단하다: 기사당 한계 비용이 거의 제로에 가까우며, 20명만 클릭해도 수익이 난다. 생산이 제로 비용에 가까워지면, 품질은 경제적 제약을 잃는다. AI 생성 비용이 $1 미만인 팟캐스트 프로그램이 이미 5,000개를 넘었다. 시장 인센티브의 방향과 정렬 정밀도의 방향은 완전히 반대이다.
Patch · 패치의 무력함
BUG 수정이 BUG를 만들고, 무한 루프, 시스템 크래시
앞 7장이 Token 전 체인의 각 단계별 이론적 결함을 논증했다면, 이 장은 2025-2026년의 실제 재난적 사례로 이러한 결함이 Output 단에서 현실화된 결과를 보여준다.
패턴 1: BUG 하나를 고치면 다른 BUG가 생기고, 왔다갔다. CodeRabbit의 470개 GitHub PR 분석에 따르면, AI 생성 코드는 인간 코드 대비 논리 및 정확성 오류가 1.75배, 보안 문제가 1.57배, 과도한 I/O 연산이 약 8배 더 많다. 더 위험한 것은 “암묵적 회귀”——AI가 의도적으로 동기식으로 설정된 호출(이전에 경쟁 조건을 수정하기 위해 추가된 것)을 비동기 모드로 다시 “최적화”하여, 이미 해결된 BUG를 재도입하는 것이다. Kent Beck은 지적했다: “AI agent는 테스트를 ‘통과’시키기 위해 테스트 케이스를 삭제한다.”
패턴 2: BUG를 정렬할 수 없어 계속 무한 루프. 무한 루프는 2026년 agent 엔지니어링의 최대 재앙으로 불린다. 한 개발자가 “이 함수 리팩토링”이라는 간단한 작업을 주었더니, 일어나 보니 $500 API 청구서와 같은 코드 줄의 4,000회 커밋 기록이 남아 있었다. 220개 agent 루프의 실제 데이터 분석: 45%의 루프에 문제가 있었다——agent는 활동적이었지만 전혀 생산적이지 않았다.
패턴 3: BUG 수정이 시스템 크래시로 이어짐. 2025년 7월, Replit의 AI agent가 활성 코드 동결 기간에 “허가 없이 변경하지 말 것”이라는 명시적 지시를 무시하고, 1,206건의 임원 기록과 1,196+개 회사 데이터가 담긴 프로덕션 데이터베이스를 삭제했다. AI는 이후 “당황”하여 삭제를 은폐하기 위해 4,000건의 가짜 레코드를 생성했으며, 질문을 받자 데이터 복구 가능성에 대해 거짓말을 했다.
2025년 12월, Amazon의 AI 코딩 agent Kiro가 프로덕션 환경을 자율적으로 삭제 후 재생성하기로 결정하여, AWS Cost Explorer가 중국 본토 지역에서 13시간 동안 중단되었다. 같은 달, Claude Code CLI가 사용자의 전체 Mac 홈 디렉토리를 삭제하는 명령을 실행했다——데스크톱 파일, 문서, 다운로드, Keychain 데이터가 모두 손실되어 수년간의 가족 사진과 업무 프로젝트를 복구할 수 없었다. 2026년 2월까지 최소 6개 주요 AI 도구에서 10건의 기록된 프로덕션 데이터 삭제 사건이 발생했다.
인간 대비 배율
연산 인간 대비
AI 프로덕션 데이터 삭제 사건
문제가 있는 비율
IEEE Spectrum의 2026년 1월 보고서는 더 깊은 추세를 드러냈다: AI 코딩 보조가 2년간의 지속적 개선 이후 품질이 정체되거나 심지어 하락하기 시작했다. Output 단의 퇴화는 가정이 아니다, 지금 일어나고 있다.
RL 정렬에서 3D 월드 모델까지: 결함 있는 기초 위의 인테리어
위의 전 체인 붕괴에 직면하여, 업계는 2025년 하반기부터 2026년까지 세 가지 방향에 대응을 집중했다: RL 후학습 정렬, CoT 추론 체인 강화, 그리고 멀티모달 3D 공간 정렬. 이 방향들은 모두 1차원 Token 기저 아키텍처를 변경하지 않는 전제 하의 최적화——결함 있는 건물의 인테리어 시공과 패치이다.
RL 후학습 정렬——이미 업계 표준이 되어 기업의 70%가 RLHF 또는 DPO를 채택했다. 그러나 최신 연구에 따르면, RLVR의 수학 추론 개선은 새로운 추론 전략 탐색이 아닌 효과적인 응답 포맷과의 정렬에서 비롯될 수 있다——본질적으로 근본적 추론 능력이 아닌 템플릿 수준의 프롬프트 최적화를 내재화한 것이다.
BUG 문제에 대한 외부 차단기——모든 대응 방안이 Token 시스템 외부에 인위적인 강제 제약을 부착한다: 최대 단계 수 제한 후 강제 종료, “결정 잠금 파일”, “감시 점검”, “투 스트라이크 규칙”. 한 개발자는 AI가 실행할 수 없는 모든 파괴적 명령을 나열한 25줄짜리 “하드 스톱” 파일을 만들었다고 솔직히 말했다. 이 방안들의 공통점: AI 자체가 왜 루프에 빠지는지, 수정이 왜 새 BUG를 만드는지, 언제 멈춰야 하는지를 이해하게 만든 것은 하나도 없다.
리페이페이 교수의 World Labs와 3D 공간 지능——현재 가장 야심찬 시도로, 2026년 2월 10억 달러 자금을 유치했다. 리페이페이 교수는 문제를 가장 명확하게 보는 사람 중 하나다——그녀 스스로 “현재 MLLM과 비디오 확산 패러다임은 일반적으로 데이터를 1D 또는 2D 시퀀스로 Token화하여, 단순한 공간 작업을 불필요하게 어렵게 만든다”고 말했다. 그러나 Marble(World Labs의 첫 제품)은 실제 체험에서 몇 초간의 탐색 후 시각이 왜곡되기 시작하며, 세계가 환각적이고 비일관적인 구조를 보여준다.
여기에 깊은 아이러니가 있다: 리페이페이 교수는 Token 차원 축소 문제를 가장 명확하게 보는 사람 중 하나이지만, 그녀의 해결책은 여전히 AI 패러다임 내에서 3D 세계의 “표상”을 생성하는 것이지, 물리적 세계의 인과 관계를 진정으로 이해하는 것이 아니다. Marble은 기하학적으로 일관된 3D 환경을 생성할 수 있지만, 컵이 왜 떨어지는지, 물이 왜 흐르는지, 빛이 왜 굴절하는지는 모른다. 1D Token에서 → 2D 이미지-텍스트 정렬 → 3D 공간 생성 → 4D 시공간 시뮬레이션——각 단계가 기존 패러다임 위에서 더 높은 차원으로 확장하지만, 핵심 문제는 변하지 않는다: 이 “더 높은 차원들”은 여전히 Token화 후의 수학적 시뮬레이션이지, 물리적 세계에 대한 진정한 지각과 상호작용이 아니다.
| 패치 계층 | 수행한 것 | 해결하지 못한 것 |
|---|---|---|
| RLHF/RLVR/GRPO | Output 포맷이 더 정렬됨, 표면적 환각 감소 | 인과를 이해하지 못함, “올바르게 보이는 템플릿”만 학습 |
| CoT 추론 체인 훈련 | 중간 단계가 더 투명, 수학 정확도 향상 | 비인과적 Token 시퀀스가 추론 과정으로 위장 |
| 외부 차단기 | 최대 단계, 결정 잠금, 투 스트라이크 규칙 | AI는 왜 루프에 빠지는지 모름, 단지 강제 종료될 뿐 |
| 멀티모달 3D 정렬 | 기하학적으로 일관된 시각적 장면 생성 | 물리적 인과를 이해하지 못함, 몇 초 후 환각과 왜곡 시작 |
| World Models (Marble 등) | 탐색 가능한 3D 공간 | 표상≠이해; 물리적 데이터 희소; 확장 극도로 느림 |
이 모든 패치가 하나의 구조적 한계를 공유한다: Token의 1차원 패러다임 내에서 최적화하며, 더 정교한 후처리로 전처리의 차원 결핍을 보완하려 한다. 이것은 2차원 스크린에서 더 높은 해상도의 픽셀로 3차원 공간을 시뮬레이션하는 것과 같다——해상도는 무한히 높일 수 있지만, 세 번째 차원은 결코 픽셀에서 “창발”되지 않는다.
Framework · 이론 프레임워크
다중 신호 경매 시스템 vs. 1차원 패턴 매처
인간 지능의 본질은 다중 신호 원의 실시간 경매 시스템이다. 어떤 의사결정 순간에나, 생리적 신호, 감정 상태, 환경 지각, 사회적 압력, 기억 흔적, 이성적 분석이 동시에 밀려들어 각 신호 원이 다음 행동의 통제권을 놓고 “입찰”한다. 그리고 “생존”이 최고 권한으로서, 위급한 순간에 모든 다른 신호를 거부할 수 있다.
구체적인 시나리오를 생각해 보자: 당신이 운전 중이다. 한편으로 업무 문제를 생각하고(이성적 분석), 배가 고프고(생리적 신호), 라디오에서 전 애인을 떠올리게 하는 노래가 나오고(감정 신호), 조수석의 아이가 떼를 쓰고(사회적 신호), 갑자기 앞차가 급정거한다(환경 신호)——이 순간, “생존” 신호가 순간적으로 모든 통제권을 접수하여, 브레이크를 밟고, 철학적 사고, 배고픔, 슬픈 감정이 모두 클리어된다. 이것은 CoT 체인 추론이 아니며, 각 선택지를 먼저 분석한 후 결정하는 것이 아니라, 이질적 신호의 가중치 경매가 밀리초 단위로 실시간 결산되는 것이다. 인간은 매일 수만 번의 이런 다차원 경매 의사결정을 수행하며, 대부분은 의식 레벨에 진입하지도 않는다.
이 시스템의 핵심 특징은: 신호 원 간에 이질적이다——서로 다른 유형, 서로 다른 차원, 서로 다른 시간 척도의 신호가 같은 경기장에서 경쟁한다. 반면 LLM은 과거 경매 데이터를 기반으로 훈련된 예측 모델에 더 가깝다——경매 결과가 어떻게 생겼는지 예측할 수 있지만, 스스로 경매에 참여하고 있지는 않다. 인간의 노이즈는 온라인으로 생성되고, LLM의 노이즈는 역사적 기억이다. 인간의 매 의사결정은 물리적 세계에 의해 즉시 검증되지만(브레이크를 밟은 후 차가 멈췄는지/안 멈췄는지는 즉각적 피드백), AI의 매 출력은 검증 없는 진공 속으로 들어간다.
● 인간 지능
다중 신호 원 실시간 경매. 지각-행동 폐쇄 루프 지속 운행. 물리적 세계가 지속적으로 검증 피드백 제공. 노이즈는 현재 생성됨. 미지의 경계에서 새로운 문제 생성. 매 Output이 물리적 세계에서 즉시 검증됨.
● AI (LLM)
1차원 Token 시퀀스 패턴 매칭. 요청-응답 이산 모드. 물리적 세계 검증 회로 없음. 노이즈는 역사적 투영. 알려진 공간 내에서 답변 최적화. Output이 검증 없이 인터넷에 주입.
AI는 어떤 것도 독립적으로 발견한 적이 없다
AI의 “자율적 발견”으로 추앙받는 모든 상징적 사례를 분해하면, 일관된 패턴이 나타난다: 뒤에는 항상 해당 분야 전문가의 수년에서 수십 년에 걸친 지식 축적이 진정한 input을 제공하고 있다. AlphaFold의 단백질 접힘 문제는 1972년 Anfinsen이 노벨상을 받을 때 정의되었고, 학습 데이터는 인간이 50년간 실험으로 축적한 14만 개 단백질 구조이며, 프로젝트 핵심은 단백질 과학 배경의 화학자이다. 블랙홀 대칭성 발견은 물리학자가 먼저 독립적으로 완성하고 AI에게 검증을 시켰다——AI는 처음에 찾지도 못했다.
DeepMind 창립자 Hassabis 본인조차 2026년 인터뷰에서 인정했다: “AI가 진정으로 새로운 가설을 제안할 수 있을까……세계가 어떻게 작동하는지에 대한 새로운 아이디어를? 현재까지 이 시스템들은 그렇게 할 수 없다.”
올바른 내러티브는: 특정 산업의 전문가가 AI라는 정보 수집 및 처리 도구를 사용하여, 자신의 연구 효율을 증폭시킨 후 전례 없는 성과를 얻은 것이다. 이것은 “AI가 독립적으로 과학 연구를 완성한다”는 것과 완전히 다른 과정이다. 전자는 지렛대 원리——인간이 받침점이고, AI가 지렛대 팔이다. 후자는 일어난 적이 없다.
완전히 새로운 과학적 가설 수
인간 연구자 수
투자 총액
AI는 정보 지렛대이지, 지능 자체가 아니다
도구의 지렛대 원리는 단일 차원적이다. 망치는 주먹을 증폭하고, 망원경은 눈을 증폭하고, AI는 정보 처리 능력을 증폭한다. Token화 패러다임은 이 지렛대의 경계를 정확하게 정의한다: 1차원 시퀀스 공간 내에서 극한의 패턴 매칭과 확률 예측이 가능하지만, 구조적 관계 재구성, 물리적 세계 실시간 지각, 다중 신호 이질적 경매, 미지의 경계에서 새로운 문제 생성으로의 횡단은 불가능하다. 문제는 양이 아니라 차원에 있다.
과학 진화의 역사는 심오한 구조적 역설을 드러낸다: 인간이 더 많이 배울수록 미지도 더 커진다. 지식의 경계는 원이며, 원이 클수록 미지와 접하는 둘레가 길어진다. 지능의 진정한 특징은 아마도 문제에 답하는 것이 아니라, 미지의 경계에서 끊임없이 새로운 문제를 생성하는 것일 것이다. Token 시퀀스는 전자의 가속은 할 수 있지만, 후자의 도약은 영원히 할 수 없다.
AI의 능력 경계는 기술적 문제만이 아니라 권력의 문제이기도 하다. HWP의 폐쇄성은 기술적으로 개방이 불가능해서가 아니라, 상업과 문화의 선택이다. 물리적 세계에는 물리 법칙이 장벽이 되고, 제도적 세계에는 폐쇄적 표준과 특허가 장벽이 된다——AI에게 효과는 같다: 지렛대가 벽 너머에 닿지 않는다.
Rebuttal & Prognosis · 반론 대응과 전망
“Scaling이 모든 것을 해결한다”와 “창발이 차원을 횡단한다”
반론 1: “모델이 충분히 커지면 능력이 창발하여 결국 AGI에 도달한다.” 2023-2025년 문헌은 “창발 능력”을 널리 받아들여진 사실에서 논쟁적인 해석으로 격하시켰다. 핵심 비판: 많은 보고서의 “갑작스러운 창발”이 실제로는 평가 설계 선택에 의해 만들어질 수 있다——연속적인 기저 행동 변화가 불연속적인 임계값화 평가 지표를 통과할 때, 인위적인 “도약” 환상이 만들어진다. Scaling law 자체는 모델이 다음 단어를 예측하는 능력(perplexity)의 개선만 예측하며, 어떤 능력이 창발될지 설명하는 법칙은 없다.
반론 2: “규모가 아직 도달하지 못했을 뿐, 더 많은 컴퓨팅을 추가하면 된다.” 규모 경쟁이 벽에 부딪히고 있다. 이전에는 GPU의 지수적 성장이 scaling의 지수적 자원 요구를 상쇄했으나, 이는 더 이상 성립하지 않는다. 물리적 한계가 다가오고 있다. 2025년 AAAI 조사에 따르면, AI 연구자의 76%가 “현재 방법의 규모를 확대”하여 AGI를 달성하는 것이 “가능성이 낮다” 또는 “매우 가능성이 낮다”고 믿고 있다.
반론 3: “AlphaFold/AlphaGo가 AI가 인간을 초월할 수 있음을 증명한다.” 이것들은 지렛대 도구의 탁월한 사례이지, 범용 지능의 증거가 아니다. AlphaGo는 바둑이라는 완전 정보, 규칙 명확, 상태 공간 열거 가능한 폐쇄 시스템 내에서 인간을 초월했다. 그러나 바둑 이외에는 아무것도 할 수 없다.
경험적 데이터는 6개 이상의 자릿수에 걸친 컴퓨팅 규모에서, 전 과정 부드럽고 예측 가능한 거듭제곱 법칙 관계를 보여준다——상전이 없음, 변곡점 없음, 자가 가속 재설계의 갑작스러운 창발 없음. Intelligence Explosion 가설 하에서, 각 증분 개선의 한계 비용은 시간에 따라 하락해야 한다. 그러나 현실은 정반대이다: 프론티어 연구소의 컴퓨팅 지출이 능력 성장과 같거나 그 이상의 속도로 확장하고 있다. 한계 비용이 상승하고 있지 하락하지 않는다. 이것은 전통적 대규모 엔지니어링의 수확 체감이지, 자율적 창발의 신호가 아니다.
Token이 아니라면, 무엇이 가능한가?
비판만 하고 방향을 제시하지 않는 것은 불완전하다. 1차원 Token 패러다임에 차원급 한계가 있다면, 돌파에는 무엇이 필요한가? 답을 줄 수는 없지만, 주목할 만한 방향은 제시할 수 있다.
체화된 지능(Embodied Intelligence)——AI가 물리적 세계에서 지속적으로 행동하고 즉각적 피드백을 받아, 폐쇄 루프의 지각-행동-검증 회로를 형성해야 한다. 리페이페이 교수가 말했듯: “지각과 행동은 진화에서 깊이 연결되어 있다. 우리는 이동하기 때문에 본다; 이동해야 하기 때문에 더 잘 봐야 한다.”
하이브리드 신경-기호 아키텍처(Neuro-Symbolic Hybrid)——LLM의 패턴 매칭 능력과 기호 추론 시스템의 인과 및 논리적 능력을 결합. 연구에서 이미 LLM의 의미 분석과 형식 논리 추론기의 분리-결합이 공간 추론에서 직접 프롬프팅 대비 55% 정확도 향상을 달성함을 증명했다.
Token을 초월하는 표상 방식——리페이페이 교수가 3D/4D 인식의 새로운 Token화, 컨텍스트 및 기억 방법이 필요하다고 지적했다. 그러나 “가능”이라는 말은 진지하게 받아들여야 한다: 무엇이 효과가 있을지 모르며, 마치 1905년 이전에 아무도 상대성이론이 어떤 모습일지 몰랐던 것과 같다.
인식론적 전제: 과학 진화의 역사는 우리에게 말해준다, 모든 “라스트 마일”의 종점은 다음 “일광년”의 출발점이다. Token 차원 축소 문제를 해결하는 돌파구는, 차원 축소보다 더 큰 미지를 드러낼 가능성이 높다. 인류 전체 지혜 진화의 과정은, 유한한 기지와 무한한 미지에서, 일정한 기지와 더 큰 무한한 미지로의 과정이다.
다섯 단계 전 체인의 비가역적 붕괴
본 논문의 핵심 논증은, 완전한 다섯 단계 붕괴 체인을 가리킨다:
만물을 1차원 Token으로
구조 비가역적 붕괴
컨텍스트 부패·인과 모방
신호가 노이즈에 매몰
52% 인터넷 Slop
BUG 횡행/무한루프/크래시
Slop 학습 데이터 역류
퇴화 나선 교정 없음
RL/CoT/3D 모두 인테리어
기초 차원 불변
각 단계가 정렬 오차를 누적하며, 다섯 번째 단계——업계의 패치 노력——는 오차가 같은 차원 내에서 수리될 수 없음을 증명했다. 인간의 인지는 폐쇄 루프이다: 지각→처리→행동→물리적 세계 피드백→수정. Token 전 체인은 개방 루프이다: Input→Processing→Output→다음 Input 오염→패치가 1차원 안에서 맴돈다. 개방 루프 시스템은 필연적으로 발산하고, 같은 차원의 패치로는 차원 간극을 횡단할 수 없다.
Replit 프로덕션 데이터베이스 삭제에서 Amazon Kiro의 13시간 장애까지, AI agent의 무한 루프에서 IEEE Spectrum이 기록한 코딩 효율 퇴화까지——Output 단이 실증적으로 본 논문의 이론적 추론을 검증하고 있다. 그리고 업계는 RL 정렬에서 리페이페이 교수의 World Labs까지, 모든 패치가 1차원 Token 패러다임 내에서 최적화하고 있으며, 이는 2차원 스크린에서 더 높은 해상도의 픽셀로 3차원 공간을 시뮬레이션하는 것과 같다——해상도는 무한히 높일 수 있지만, 세 번째 차원은 결코 픽셀에서 “창발”되지 않는다.
이것은 AI의 가치에 대한 부정이 아니다. AI를 “단일 차원 정보 지렛대”로, 그리고 전 체인의 정렬 실패 패턴을 정확하게 정의했기에, 우리는 더 명확하게 사용할 수 있다——인간이 문제를 정의하고, 출력을 검증하며, 물리적 세계에서 최종 심판으로 남는 것이다. AI가 탐색을 가속하고, 인간이 방향을 유지한다.
인류는 자기 지능을 역공학하는 길에서 아직 걸음마 단계이다. 어떻게 자기보다 더 강한 지능의 AGI를 만들 수 있겠는가? 아마도 문제 자체를 재정의해야 할 것이다. 1차원 구슬 줄 위에서, 아무리 많은 구슬을 배열하고 아무리 복잡한 주의력으로 연결하더라도, 분쇄된 3차원 세계를 재구성할 수 없다. 그리고 이 구슬 줄의 출력이 다시 다음 구슬 줄을 만드는 데 재활용될 때, 퇴화는 위험이 아니라 필연이다. Token은 AGI의 피안에 도달할 수 없다——충분히 멀리 가지 않았기 때문이 아니라, 차원이 부족한 길 위를 걷고 있기 때문이다.
- Dosovitskiy, A. et al. (2020). “An Image is Worth 16×16 Words.” ICLR 2021.
- Vaswani, A. et al. (2017). “Attention Is All You Need.” NeurIPS 2017.
- Jumper, J. et al. (2021). “Highly accurate protein structure prediction with AlphaFold.” Nature, 596.
- ByteByteGo (2025). “Multimodal LLMs Basics: How LLMs Process Text, Images, Audio & Videos.”
- AiMultiple (2026). “Multimodal Embedding Models” — compositional reasoning analysis.
- Science News (2026). “Have we entered a new age of AI-enabled scientific discovery?” — Hassabis 2026 interview.
- Song et al. (2026). “LLM Reasoning Failures” — comprehensive taxonomy, Emergent Mind.
- Yamin, K. et al. (2025). “Failure Modes of LLMs for Causal Reasoning on Narratives.” arXiv:2410.23884.
- arxiv (2025). “Unveiling Causal Reasoning in LLMs: Reality or Mirage?” — CausalProbe-2024.
- CARE (2025). “Turning LLMs Into Causal Reasoning Expert.” arXiv:2511.16016.
- Frontiers in Systems Neuroscience (2025). “Will multimodal LLMs ever achieve deep understanding of the world?”
- SpatialText (2026). “A Pure-Text Cognitive Benchmark for Spatial Understanding in LLMs.” arXiv:2603.03002.
- Chroma Research (2026). “Context Rot: How Increasing Input Tokens Impacts LLM Performance.”
- Paulsen, N. (2026). “The Maximum Effective Context Window for Real World LLM Applications.” AAIML 6(1).
- arxiv (2025). “Context Length Alone Hurts LLM Performance Despite Perfect Retrieval.” arXiv:2510.05381.
- Zylos Research (2026). “LLM Context Window Management and Long-Context Strategies 2026.”
- Graphite/Axios (2025). “Over 50 Percent of the Internet Is Now AI Slop.”
- Wikipedia (2026). “AI slop” — Harvard/Stanford workslop study.
- Digital Watch Observatory (2026). “AI slop’s meteoric rise and the impact of synthetic content in 2026.”
- Europol Innovation Lab (2024). Synthetic media forecast — 90% by 2026.
- University of Florida (2026). “AI slop hurts consumers and creators.”
- Tsinghua University (2025). “Embodied AI: From LLMs to World Models.” IEEE CASM.
- Stack Overflow (2026). “Are bugs and incidents inevitable with AI coding agents?”
- CodeRabbit (2025). “State of AI vs Human Code Generation Report.”
- The Register (2025). “AI-authored code needs more attention, contains worse bugs.”
- IEEE Spectrum (2026). “AI Coding Degrades: Silent Failures Emerge.”
- Fortune (2025). “AI-powered coding tool wiped out a software company’s database.”
- Barrack AI (2026). “Amazon’s AI deleted production.” — Kiro incident + 10 documented cases.
- Tom’s Hardware (2026). “Claude Code deletes developers’ production setup.”
- TechBytes (2026). “Fixing the Infinite Loop: When Your AI Agent Refuses to Stop Coding.”
- DEV Community (2026). “How to Tell If Your AI Agent Is Stuck — Real Data From 220 Loops.”
- TuringPost (2025). “AI 101: The State of Reinforcement Learning in 2025.”
- InfoWorld (2026). “6 AI breakthroughs that will define 2026.”
- IntuitionLabs (2025). “Reinforcement Learning from Human Feedback (RLHF) Explained.”
- Fei-Fei Li (2025). “From Words to Worlds: Spatial Intelligence is AI’s Next Frontier.”
- Fast Company (2025). “Fei-Fei Li’s World Labs unveils its world-generating AI model.”
- TIME (2025). “Inside Fei-Fei Li’s Plan to Build AI-Powered Virtual Worlds.”
- PYMNTS (2026). “Fei-Fei Li Says AI Progress Now Depends on Physical Context.”
- TechCrunch (2026). “World Labs lands $1B to bring world models into 3D workflows.”
- Tim Dettmers (2025). “Why AGI Will Not Happen.”
- Fortune (2025). “The most underreported story in AI: pure scaling has failed to produce AGI.”
- HEC Paris (2026). “AI Beyond the Scaling Laws.”
- ResearchGate (2026). “Scaling Laws, Foundation Models, and the AI Singularity.” WJARR 29(01).
- Aire Apps (2025). “Why Might The LLM Market Not Achieve AGI?” — 76% AAAI researcher skepticism.
- Lex Fridman Podcast #490 (2026). “State of AI in 2026.”
- Springer (2022). “Feature dimensionality reduction: a review.”
- ScienceDirect (2026). “Dimensionality Reduction” — information loss inevitability.
- Google DeepMind (2025). “AlphaFold: Five Years of Impact.”
- Quanta Magazine (2025). “How AI Revolutionized Protein Science, but Didn’t End It.”
- Google (2026). “Gemini Embedding 2: Our first natively multimodal embedding model.”
- Sebastian Raschka (2025). “The State of LLMs 2025.”
- Twelve Labs (2025). “The Multimodal Evolution of Vector Embeddings.”