토큰 경제학의 진실
인지적 환상에서 물리적 부등식까지: AI 추론 산업의 효율 감사
The Truth of Token Economics
From Cognitive Illusion to Physical Inequality: An Efficiency Audit of the AI Reasoning Industry
주류 AI 산업 서사는 “더 많은 토큰 소비”를 “더 높은 지능 산출”과 등치시킨다. 본 논문은 이에 대해 체계적 해체를 수행하며, 6층의 구조적 문제를 밝힌다: (1) “장사고(長思考)” 서사가 행렬 연산의 반복 실행을 인지적 깊이의 돌파로 포장하고 있다; (2) 평가 시스템이 최종 정답 정확도에만 정렬되어 있을 뿐, 사고 효율에는 결코 정렬된 적이 없다; (3) 토큰당 과금 상업 모델이 계산 비효율에서 이윤을 얻고 있다; (4) 동일한 토큰의 물리적 에너지 소비가 하드웨어 플랫폼에 따라 수 배에서 수십 배까지 차이나지만, 과금 체계가 이를 유사 등가 단위로 평탄화하고 있다; (5) 중앙집중식과 분산식 배포 간에 근본적인 비용 귀속 오정렬이 존재한다; (6) 토큰 소비가 극단적 양극화 분포를 보인다 — 10% 미만의 중량 사용자가 대다수 토큰을 소비하지만, 가격 체계와 인프라 규모가 이에 의해 끌어올려져 60% 이상의 경량 사용자가 필요하지 않은 산력에 대해 비용을 지불하고 있다. 본 논문은 이른바 “산력 패권”의 실질이 교차 보조 시스템임을 논증한다: AI 기업은 토큰 소비 서사를 통해, 저빈도 사용자의 잉여와 벤처 캐피탈의 보조금으로 고소비자의 저비용 사용을 유지하면서 동시에 인프라의 지속적 확장을 추동한다. 본 논문은 “줄당 지능 산출(Intelligence per Joule)”을 대안적 평가 지표로 제안하며, 토큰 경제학의 투명화와 효율 감사를 촉구한다.
I. 서사 층: 장사고의 인지적 환상
1.1 이중 시스템 이론에서 LLM 추론까지 — 의미론적 치환
Kahneman의 이중 시스템 이론은 인지심리학의 고전적 프레임워크다: System 1은 빠른 직관적 인지, System 2는 느리고 신중한 심층 추론이다. 2024~2025년 AI 산업계는 이 이론을 LLM 영역에 이식하여, 추론 모델이 System 1에서 System 2로의 도약을 실현했다고 주장했다. Li et al. (2025) 서베이는 기초 LLM이 빠른 의사결정에는 뛰어나지만 복잡한 추론 깊이가 부족하며, OpenAI의 o1/o3과 DeepSeek의 R1이 인간 System 2에 근접한 신중한 추론을 보여준다고 기술했다.
그러나 이 비유는 근본적 차이를 은폐한다: 인간의 System 2는 개념 위계 도약, 프레임 재구성, 유추 추론 등 이질적 인지 조작을 수반하는 반면, LLM의 “장사고”는 본질적으로 동일한 연산 — 순전파, 행렬 곱셈, softmax 샘플링 — 의 반복 실행이다.
현재 LLM은 본질적으로 System 2 과정을 수행하는 데 필요한 인지적 인프라가 결여되어 있다. 따라서 그들의 직관적 응답은 유사 System-1 과정에서만 비롯될 수 있다.
1.2 “장사고”의 경계: 언제 유효하고 언제 낭비인가
확장된 추론 체인은 특정 과제에서 실질적인 정확도 향상을 가져왔다. Intern-S1-MO (2025)는 다중 라운드 계층적 추론을 통해 AIME2025에서 pass@1 96.6%를 달성했다. IMO 수준 수학, 다단계 코드 생성, 복잡한 STEM 추론에서 추론 체인 연장은 현재 대체 불가능하다.
그러나 문제는 장사고가 모든 과제에 무차별적으로 적용된다는 것이다. Hassid et al. (2025)는 더 짧은 추론 체인이 가장 긴 추론 체인보다 최대 34.5% 높은 정확도를 보인다는 것을 발견했다. Su et al. (2025)는 LLM이 쉬운 문제에는 과잉 사고하고 어려운 문제에는 과소 사고한다는 것을 발견했다. Liu & Wang (2025)은 추론 과정을 세 단계로 나누었는데 — 대부분의 “장사고” 토큰은 추론 수렴 단계에 소비되어 최종 결과에 아무런 기여도 하지 않는다.
본 논문의 비판은 장사고 자체를 겨냥하는 것이 아니라, 장사고의 무차별적 남용 — 그리고 이 남용을 “더 높은 지능”으로 포장하는 산업 서사를 겨냥한다. 경시대회 수준의 수학과 복잡한 추론에서 장사고는 필요한 도구이지만, “안녕하세요”에 대한 응답과 대량의 일상적 질의에서 장사고는 순수한 계산 낭비다. 문제는 “장사고를 해야 하느냐”가 아니라 “누가 언제 장사고할지를 결정하며, 그 결정이 어떤 인센티브 구조에 기반하는가”이다.
II. 평가 층: 정렬된 것은 무엇인가?
2.1 보상 시스템의 실제 설계
Reward_accuracy ∈ {0, 1} (정답/오답)
Reward_format ∈ {0, 1} (<think> 태그 사용 여부)
DeepSeek-R1은 신경망 보상 모델을 포기했는데, 대규모 RL에서 reward hacking에 취약하기 때문이다. RLVR은 보상 모델 학습의 필요를 우회하여, 모델이 확정적 도구로부터 이진 피드백을 직접 받는다. 보상 신호는 전적으로 최종 예측의 정확성에 기반하며, 추론 과정에는 어떠한 제약도 부과하지 않는다.
2.2 정렬 결과의 구조적 오정렬
모델이 학습한 전략: 더 긴 응답을 생성하여 탐색 공간을 확장하고, 정답을 맞힐 확률을 높이는 것이다. DeepSeek-R1-Zero의 pass@1은 15.6%에서 77.9%로 도약했지만, 응답 길이도 동시에 통제 불능으로 증가했다. TALE-EP 연구는 출력 토큰을 67% 줄여도 동등한 정확도를 유지할 수 있음을 보여주었다 — 계산의 3분의 2가 결과에 아무런 기여도 하지 않는 것이다.
모델이 학습한 전략 → “더 많이 쓰기 = 더 많이 탐색 = 정답 확률 상승”
평가된 적 없는 차원 → 사고 효율, 계산 낭비율, 난이도-깊이 매칭
III. 경제 층: 토큰당 과금의 이익 구조
3.1 상업 논리와 시장 실패
→ 사용자가 추론 모드를 선택 (행동 유도)
→ 토큰 소비량 2~10배 폭증 (자원 소비)
→ 토큰당 과금, 매출 선형 증가 (상업적 수익)
시장은 세 가지 과금 범주로 성숙했다: 입력 토큰, 출력 토큰, 추론 토큰. 추론 토큰은 내부 “사고” 토큰을 의미한다 — 사용자에게 보이지 않는 과정이지만 과금 대상이다. 극단적 경우, 일부 추론 모델은 두 단어를 출력하기 위해 600개 이상의 토큰을 소비한다. 추론은 이미 LLM 전체 수명주기 에너지 소비의 90% 이상을 차지하며, 학습의 일회성 지출을 훨씬 초과한다.
OckBench (2026)는 동일한 문제를 동등한 정확도로 해결하는 모델 간 토큰 길이 차이가 최대 5배에 달할 수 있음을 발견했다. 토큰당 과금 상업 모델에는 삼중 시장 실패가 존재한다: 정보 비대칭(사용자가 추론 토큰의 유효성을 감사할 수 없음), 평가 지표 부재(벤치마크가 정확도만 측정하고 효율은 측정하지 않음), 인센티브 왜곡(효율 향상이 매출을 훼손함).
IV. 물리 층: 이 토큰 ≠ 저 토큰
4.1 균분 후의 실제 에너지 소비 차이
TokenPowerBench (2025)와 ML.ENERGY Benchmark가 최초의 체계적 실측 데이터를 제공한다:
| 하드웨어/구성 | 토큰당 에너지 소비 | 출처 |
|---|---|---|
| H100×8, Llama-3.3-70B FP8, batch 128 | ~0.39 J/token | Lin (2025) |
| V100/A100, LLaMA-65B | ~3~4 J/token | Samsi et al. (2023) |
| Mixtral-8×7B MoE | 밀집 8B 모델의 ~⅓ | TokenPowerBench |
| Batch 32→256 | J/token ~25% 하락 | TokenPowerBench |
고동시성 만부하 시나리오에서 대형 GPU 클러스터의 균분 에너지 효율은 매우 높을 수 있다 — H100 클러스터의 0.39 J/token은 초기 추정치보다 120배 이상 효율적이다. 그러나 이는 지속적인 고동시성 이용률이라는 전제 위에 성립한다. 이용률이 부족하면 시스템의 유휴 전력 소비가 여전히 모든 토큰에 균분되어 효율이 급격히 하락한다. 토큰의 물리적 비용은 실행 환경의 함수다 — 하드웨어 사양, 동시 부하, 이용률, 냉각 아키텍처, 인프라 총비용 균분 방식에 의해 결정된다. 현행 과금 체계는 이 모든 변수를 단일 숫자로 압축하여, 물리적 현실의 모든 차원을 지워버린다.
4.2 하드웨어 감가상각의 회계적 조작
초대형 클라우드 사업자들은 GPU 서버 사용 수명을 3~4년에서 6년으로 연장하여, 연간 총 약 180억 달러의 감가상각비를 절감했다. 2025년 아마존은 일부 서버 수명을 6년에서 5년으로 단축하며 7억 달러의 충격을 감수했고, 같은 분기에 Meta는 5.5년으로 연장하여 29억 달러의 감가상각 감소를 계상했다. 동일한 기술 조건에서의 반대 결정은, 사용 수명이 주관적 경영 추정임을 확인시켜 준다.
“한 세대 제품에 4~5년의 감가상각을 지고 싶지 않습니다.”
V. 제도 층: 중앙집중식과 분산식의 비용 귀속 오정렬
5.1 하드웨어 지불자와 토큰 소비자의 분리
| 차원 | 중앙집중식 (클라우드) | 분산식 (로컬) |
|---|---|---|
| 하드웨어 지불자 | 클라우드 사업자 (비용을 사용자에게 전가) | 사용자 본인 |
| 전력 지불자 | 클라우드 사업자 (사용자+전력망+납세자에게 전가) | 사용자 본인 (전기 요금이 직접 가시적) |
| 에너지 소비 가시성 | 사용자에게 완전 불가시 | 사용자에게 완전 가시적 |
| 낭비의 인센티브 구조 | 낭비가 많을수록 → 매출 증가 | 낭비가 많을수록 → 본인 전기 요금 증가 |
중앙집중식 아키텍처에서 사용자는 토큰당 비용을 지불하지만 토큰의 물리적 생산 비용을 관측할 수 없다. 공급자의 이윤은 소비량과 양의 상관관계를 가지며, 모델을 더 효율적으로 만들 동기가 없다. 분산식 아키텍처에서는 이 모든 것이 역전된다 — 사용자가 모든 줄에 대해 비용을 지불하므로 효율적인 모델을 선택할 천연적 동기가 있다. Alamouti (2025) 연구는 하이브리드 엣지 클라우드 채택 시 최대 75%의 에너지 절감과 80% 이상의 비용 절감을 달성할 수 있음을 보여주었다. 전 세계 AI 데이터센터 전력 수요는 2030년까지 255% 증가할 것으로 전망되며, 추론이 지배적 워크로드가 될 것이지만, 현재 대부분의 인프라는 학습용으로 건설되어 추론에 필요한 분산·저지연 아키텍처가 심각하게 부족하다.
VI. 소비 층: 토큰의 양극화 분포와 교차 보조
6.1 양극화 분포의 실증 데이터
OpenRouter의 100조 토큰 실증 연구는 업계가 간과한 사실을 드러낸다: AI 사용자의 토큰 소비는 극단적 양극화 분포를 보인다.
| 사용자 유형 | 연간 일반적 소비량 | 사용자 비율 |
|---|---|---|
| 중량 프로그래머 (Claude Code/Cursor 종일 사용) | 100억+ 토큰 | <1% |
| 활발한 개발자 | 10억~100억 토큰 | ~5~10% |
| 일상 전문 사용자 | 1,000만~1억 토큰 | ~20~30% |
| 경량/간헐적 사용자 | <1,000만 토큰 | 60%+ |
상위 사례는 놀랍다: 한 개발자가 8개월간 100억 토큰을 소비하여 API 가격 기준 15,000달러를 초과했고, 또 다른 개발자는 20일간 12억 토큰과 20,000회 대화를 생성하여 Anthropic으로부터 상위 1% 사용자로 확인되었다. 한 Cursor 사용자는 단일 월에 8억 6,500만 토큰을 소비하여 원시 API 요율 기준 2,595달러에 해당하는 계산 비용을 발생시켰다. 그러나 이 사용자는 사용 방식 최적화를 통해 소비를 8억 6,500만에서 2억으로 줄였다 — 77% 감소, 기능적 산출물은 동일. 이는 그중 최소 4분의 3이 낭비였음을 의미한다.
한편, 미국 성인의 52%가 LLM을 사용한 경험이 있지만, 그중 3분의 2는 “검색 엔진처럼” 정보 검색에만 사용한다. AI를 매일 사용하는 사용자는 겨우 15~20%다. 절대 다수 사용자의 연간 소비는 수천만 토큰을 넘지 않으며 — 1억에도 미치지 못한다.
6.2 “추론 고래”와 교차 보조
TechCrunch는 이러한 초중량 사용자를 “추론 고래(inference whales)”로 명명했다 — 일부 사용자는 월 200달러 구독 플랜에서 35,000달러 이상의 계산 비용을 발생시켰으며, 공급자가 175배의 보조를 감수했다. Anthropic은 Claude Code 사용자의 90%가 하루 12달러 미만을 지출하지만, 5% 미만의 중량 사용자가 속도 제한 정책의 도입을 촉발했다고 밝혔다.
이것은 명확한 교차 보조 구조를 드러낸다:
AI 기업 → 원가 이하로 토큰 판매 (영토 확보)
경량 사용자의 월 $20 구독 → 잉여분이 중량 사용자의 만 달러급 소비를 보조
중량 프로그래머 → 월 수십억 토큰 소비, 실제 비용이 175배 보조됨
“장사고” 서사 → 모든 사용자가 “더 많은 토큰 = 더 높은 지능”을 수용하게 함
토큰 소비 총량 지속 팽창 → 더 많은 인프라 건설 수요를 추동
6.3 산력 패권의 정의
이상의 분석에 기반하여, 본 논문은 “산력 패권”을 다음과 같이 정의한다: AI 기업이 토큰 소비 서사를 통해 구축한 가격결정 권력 구조 — 저빈도 사용자의 잉여와 벤처 캐피탈의 보조금으로 고소비자의 저비용 사용을 유지하면서 동시에 인프라의 지속적 확장을 추동하는 것. 이것은 지정학적 개념이 아니라 경제구조적 개념이다. 그 운작 메커니즘: 서사가 수요를 창출하고, 수요가 하드웨어 구매를 추동하고, 하드웨어 소비가 에너지 의존을 생성하고, 중앙집중식 가격결정이 낭비를 불가시하게 만들고, 교차 보조가 중량 사용자의 비용을 사회화한다. 모든 층에 이익 수혜자가 있지만, 최종 비용은 경량 사용자, 투자자, 사회가 부담한다.
OpenAI는 2025년 1달러 벌 때마다 1.69달러를 지출하며, 연간 현금 소진 250억 달러가 전망된다. Anthropic의 2024년 매출총이익률은 마이너스 94%다. Cursor는 구독 수입의 100%를 Anthropic에 계산 접근 비용으로 직접 지급한다. Bain은 2030년까지 AI 기업이 연간 8,000억 달러의 매출 부족에 직면할 것으로 전망한다. Google은 이미 “뷔페” 모델에서 AI Credits 계량 소비로 전환했다. 보조가 끝날 때 — 그리고 반드시 끝난다 — 전체 토큰 경제학은 근본적 리셋에 직면할 것이다.
VII. 6층 구조와 완전한 사슬
↓ 은폐
제2층 (효율): 대부분의 토큰은 낭비된 행렬 계산
↓ 은폐
제3층 (경제): 토큰당 과금 상업 모델이 낭비에 인센티브
↓ 은폐
제4층 (물리): 동일 토큰의 물리적 비용이 하드웨어와 부하에 따라 상이
↓ 은폐
제5층 (제도): 중앙집중식 배포의 지불자-소비자 오정렬이 낭비를 숨김
↓ 은폐
제6층 (소비): 극단적 양극화 분포 하의 교차 보조가 낭비를 사회화
VIII. 예견 가능한 반론에 대한 대응
8.1 “장사고는 어려운 과제에서 실제로 효과적이다”
전적으로 인정한다. 본 논문의 비판은 무차별적 남용을 겨냥하는 것이지, 장사고 자체를 겨냥하는 것이 아니다. 현재 추론 모델과 과금 체계는 “필요한 장사고”와 “불필요한 장사고”를 구분하지 않으며, 사용자는 양쪽에 동일한 가격을 지불한다.
8.2 “클라우드 고동시성 환경에서 토큰당 에너지 소비는 높지 않다”
만부하 고동시성 시나리오에서는 확실히 그렇다 — H100 클러스터에서 0.39 J/token이 실측되었다. 그러나 비피크 시간대의 유휴 전력 소비, 액체냉각의 지속 운영, 인프라 고정 비용은 여전히 모든 토큰에 균분된다. 가격에 포함된 이러한 숨겨진 비용은 사용자가 볼 수도, 감사할 수도 없다.
8.3 “토큰 가격에는 R&D 및 학습 비용의 상각이 포함되어 있다”
합리적인 상업 관행이다. 그러나 현행 가격 체계는 R&D 상각, 학습 비용, 추론 에너지, 인프라 비용, 이윤율, 감가상각 회계 전략을 모두 불투명한 “백만 토큰당 X달러”로 압축한다. 사용자는 그중 얼마가 합리적 비용 회수이고 얼마가 비효율적 추론과 회계 조작이 만들어낸 프리미엄인지 판단할 수 없다.
8.4 “중량 사용자가 제품 가치와 생태계를 창출한다”
중량 개발자는 확실히 AI 생태계의 핵심 건설자다 — 애플리케이션을 구축하고, 버그를 찾고, 제품 개선을 추동한다. 그러나 이것이 하나의 경제적 사실을 바꾸지는 않는다: 그들의 계산 비용은 다른 사용자와 벤처 캐피탈에 의해 보조되고 있다. 문제는 중량 사용자가 가치 있느냐가 아니라, 보조의 불투명성이다 — 경량 사용자는 자신이 누구의 175배 산력에 대해 비용을 지불하고 있는지 모른다.
IX. 재구성: 물리적 현실에 기반한 효율 평가 프레임워크
“이 토큰 ≠ 저 토큰”을 인정한다면, 물리적 차원을 복원하는 평가 체계가 필요하다. TokenPowerBench (2025)가 이미 줄/토큰의 체계적 측정 도구를 제공하고 있다. 본 논문은 이를 기반으로 네 가지 핵심 평가 지표를 제안한다:
| 지표 | 정의 | 의미 |
|---|---|---|
| 토큰당 지능 산출률 | 정확한 결과 ÷ 총 토큰 소비 | “얼마나 많은 계산량으로 정답을 맞혔는가” |
| 한계 토큰 수익률 | ∂Accuracy / ∂Token | 토큰 하나 추가 시 정확도가 얼마나 올라가는가? 변곡점은 어디인가? |
| 계산 낭비율 | 잉여 토큰 ÷ 총 토큰 | 최종 정답에 아무런 기여도 하지 않은 토큰은 얼마인가? |
| 줄당 지능 산출 | 정확한 결과 ÷ (토큰 수 × J/token) | 물리적 차원 복원 — 진정한 지능 효율 측정 |
“줄당 지능 산출(Intelligence per Joule)”은 토큰 수와 정확도만이 아니라, 매 추론의 에너지 소비를 보고하도록 요구한다. 이 프레임워크 하에서 서로 다른 하드웨어 플랫폼, 서로 다른 동시 부하, 서로 다른 모델 사양의 “지능 산출”이 진정한 비교 가능성을 갖게 된다. 동시에, 토큰 소비의 양극화 분포는 가격 체계에 투명한 사용량 계층화를 도입하여, 경량 사용자가 더 이상 중량 사용자의 인프라 규모에 대해 은밀히 비용을 부담하지 않도록 요구한다.
X. 결론
현재 AI 추론 산업의 토큰 경제학은 6층 구조 위에 세워져 있다: 서사 층은 행렬 연산의 반복 실행을 인지적 깊이로 포장하고, 평가 층은 최종 정확성에만 정렬하며 효율은 무시하고, 경제 층의 토큰당 과금은 비효율에서 이윤을 얻고, 물리 층의 토큰 비용은 환경에 따라 다르지만 과금 체계에 의해 평탄화되고, 제도 층의 중앙집중식 배포는 지불자와 소비자를 분리시키고, 소비 층의 극단적 양극화 분포는 10% 미만 중량 사용자의 산력 비용을 60% 이상의 경량 사용자와 벤처 캐피탈이 은밀히 보조하게 한다.
이것은 장사고가 무가치하다는 의미가 아니다 — 복잡한 추론 과제에서 장사고는 필요한 도구다. 그러나 추론 토큰의 67%를 삭감해도 정확도에 영향이 없을 때, 한 프로그래머의 토큰 소비 77%가 낭비로 입증될 때, “추론 고래”의 35,000달러 계산 비용이 200달러 구독에 흡수될 때 — 산업이 필요로 하는 것은 “심층 추론”에 관한 더 많은 서사적 포장이 아니라, 토큰 소비의 경제성과 효율성에 대한 근본적 감사다.
진정한 지능 효율은 “백만 토큰당 몇 달러”가 아니라 “줄당 에너지로 얼마나 많은 유효한 지능을 산출하는가”이다. 이 평가 프레임워크의 확립이, TokenPowerBench 등 실측 도구, 사용량 계층화 가격, 분산식 배포가 가져오는 비용 귀속 정렬과 결합하여, 토큰 소비 서사를 깨고 물리적 진실을 복원하는 첫걸음이다.
주요 참고 연구
[1] Li, Z.-Z. et al. (2025). “From System 1 to System 2: A Survey of Reasoning LLMs.” arXiv:2502.17419.
[2] Hassid, M. et al. (2025). “Don’t Overthink It.” arXiv:2505.17813.
[3] Su, J. et al. (2025). “Between Underthinking and Overthinking.” arXiv:2505.00127.
[4] Liu & Wang (2025). “Stop Spinning Wheels.” arXiv:2508.17627.
[5] Wang, Y. et al. (2025). “Thinking Short and Right Over Thinking Long.” arXiv:2505.13326.
[6] DeepSeek-AI (2025). “DeepSeek-R1.” Nature (2025). arXiv:2501.12948.
[7] Hagendorff, T. (2022). “Thinking Fast and Slow in LLMs.” arXiv:2212.05206.
[8] OckBench (2026). “Measuring the Efficiency of LLM Reasoning.” arXiv:2511.05722.
[9] Niu, C. et al. (2025). “TokenPowerBench.” arXiv:2512.03024.
[10] Chung, J.-W. et al. (2026). “Where Do the Joules Go?” arXiv:2601.22076.
[11] Samsi, S. et al. (2023). “From Words to Watts.” arXiv:2310.03003.
[12] Lin, L. H. (2025). “Llama3-70B Inference Efficiency on H100.” Internal User Test.
[13] Alamouti, S. (2025). “Quantifying Energy and Cost Benefits of Hybrid Edge Cloud.” arXiv:2501.14823.
[14] Intern-S1-MO (2025). “Long-horizon Reasoning Agent.” arXiv:2512.10739.
[15] OpenRouter & a16z (2025). “State of AI 2025: 100T Token LLM Usage Study.”
[16] Genspark (2025). “The Hidden Economics of AI.”
[17] Artefact (2026). “Is AI Really Getting Cheaper? The Token Cost Illusion.”
[18] Morph (2026). “The Real Cost of AI Coding in 2026.”
[19] Yale Cowles Foundation (2025). “Token Allocation, Fine-Tuning and Optimal Pricing.” Discussion Paper No. 2425.
[20] Princeton CITP (2025). “Lifespan of AI Chips: The $300 Billion Question.”
[21] Uptime Institute (2025). “Reasoning Will Increase the Infrastructure Footprint of AI.”