ORIGINAL THOUGHT PAPER · MAY 2026

올바른 AI 경제학

소비자 측 가치 단절, 토큰 공급 구조 불일치에서 산업 플라이휠 재구축까지의 체계적 분석

The Correct Economics of AI:
A Systemic Analysis of Consumer-Side Value Fracture, Token Supply Mismatch, and Industrial Flywheel Reconstruction

발행일2026년 5월 11일

분류오리지널 사상 논문 (Original Thought Paper)

분야AI 산업경제학 · 토큰 경제 구조 · 기업관리학 · 엣지 컴퓨팅 아키텍처

키워드토큰 분류 · 디지털 쓰레기 · 토큰맥싱 · 플라이휠 단절 · 과정 지향 함정 · 엣지 AI

이조글로벌인공지능연구소

LEECHO Global AI Research Lab

Claude Opus 4.6 · Anthropic

V 2

본 논문은 소비자 측의 가치 실현 능력에서 역추적하여 AI 산업 전체 가치 사슬의 구조적 위기를 논증한다. 현재 AI 경제의 근본 모순은 공급 측 기술 역량에 있지 않고, 중간층 모델 경쟁에 있지 않으며, 수요 측 가치 순환 고리의 단절에 있다고 주장한다. 2023~2026년 반기별 산업 데이터 횡단 비교에 기반하여, “토큰 분류(Token Triage)” 아키텍처 방안과 “결과 지향” 관리 패러다임을 플라이휠 복구 경로로 제안한다.

초록　2026년 AI 산업은 3계층 구조적 모순을 드러낸다: 하드웨어 계층은 초과 이윤을 획득하고(NVIDIA 연간 이익 $1,200억+, 매출총이익률 71.1%; SK하이닉스 72% 영업이익률), AI 모델 기업은 심각한 적자를 기록하며(OpenAI 2026년 예상 적자 $140억), 소비자 측 산출물은 수익화가 불가능하다(29%의 기업만이 유의미한 ROI를 보고, 80%의 프로젝트가 기대 가치를 달성하지 못함). 동시에 토큰의 실질 비용은 토크나이저 팽창(+12~27%)과 프론티어-저가 모델 간 50배 가격 격차로 은폐적으로 상승하고 있으며, AI 산출물의 시장 가치는 동질화로 인해 영(零)에 수렴하고 있다 — “이중 압착”을 형성한다. 기업 측에서 출현한 “토큰맥싱(Tokenmaxxing)” 현상(Meta 30일간 60조 토큰 소각, Uber 4개월 만에 $34억 AI 예산 소진)은 과정 지향 관리의 제도적 결함을 폭로한다. 본 논문은 “토큰 분류” — 소비자 사교적 수요의 로컬화(SLM/엣지 AI) 및 B2B 전문 수요의 클라우드화 — 를 산업 플라이휠 복구 경로로 제안하며, 기술적 제약과 정치경제학적 저항을 분석한다.

방법론 설명　본 논문은 인간-AI 협업 대화로 생성되었다: 연구자가 분석 프레임워크와 핵심 인사이트를 제공하고, AI(Claude Opus 4.6)가 실시간 데이터 검색과 검증을 수행하였다. 모든 데이터 출처는 2025~2026년 공개 보고서, 기업 실적 발표 또는 산업 조사이다. Anthropic 관련 분석에는 정보 편향이 존재할 수 있으며, 독자는 독립적으로 검증해야 한다. 본 논문은 독립적 사상 논문으로, 동료 심사를 거치지 않았다.

I양강 구도와 하드웨어 계층의 진짜 돈

2026년 4월 기준, AI 산업 경쟁은 이중 과점 구도로 수렴하였다. Anthropic의 연간화 매출은 $300억을 돌파하였고, OpenAI는 약 $240~250억이다. Anthropic은 2월 $140억에서 4월 $300억으로 8주 만에 두 배가 되었다 — Meritech Capital 애널리스트는 200여 개 상장 소프트웨어 기업의 IPO 궤적을 검토했으나 이러한 성장 속도를 본 적이 없다고 밝혔다. 핵심적 구조 차이는 고객 구성에 있다: Anthropic 매출의 80%가 기업 고객에서 발생하고, OpenAI의 약 70%는 ChatGPT 소비자 구독에서 발생한다. 기업 매출은 유지율이 높고, 확장 경제성이 강하며, 이탈률이 낮다.

그러나 “진짜 돈”을 가져가는 것은 AI 모델 기업이 아니라 하드웨어 공급망이다.

NVIDIA FY2026 연간 매출

$2,159억

NVIDIA 연간 이익 / 매출총이익률

$1,200억+ / 71.1%

SK하이닉스 Q1 영업이익률

72%

SK하이닉스 Q1 전년 대비 이익 증가율

+405.5%

Micron Q2 매출총이익률

74.9%

4대 기업 2026 AI 인프라 투자

$7,000억

SK하이닉스 Q1 매출은 52조 5,800억 원($386억), 영업이익은 37조 6,100억 원($276억)이었다. 금융권은 Q2 영업이익이 60조 원을 초과하고, Q3는 70조 원을 초과할 것으로 전망한다. HBM 시장은 2025년 $350억에서 2026년 $580억으로 성장하고, 2028년에는 $1,000억을 돌파할 가능성이 있다.

역사적 유비: 2000년 닷컴 버블이 대규모 광섬유 인프라 구축을 촉진한 것처럼 — 이것이 후에 YouTube, Netflix, 클라우드 컴퓨팅의 기반이 되었다 — 이번 AI 투자 주기는 AI 기업이 어떻게 재편되든 에너지 인프라, 전력망 확충, HBM 생산 능력, 첨단 공정 라인, 데이터 센터를 인류 사회의 장기 자산으로 남길 것이다. 2000년 버블 기간 기술 CapEx는 GDP의 6.4%였고, 2026년에는 7.2%에 달할 전망이다 — 규모는 더 크지만 인프라 유산도 더 오래 지속될 것이다. 하드웨어 계층의 “진짜 돈”은 버블의 긍정적 유산이다.

II3계층 깔때기 단절: 위기는 소비자 측에 있다

산업 가치 사슬은 3계층 깔때기로 분해할 수 있으며, 단절점은 아래에서 위로 층별 전파된다:

그림 1 — AI 산업 가치 사슬 3계층 깔때기 모델

제1계층
하드웨어 투자→하드웨어 이익
✅ 원활

→

제2계층
AI 기업이 하드웨어 소각→구독 매출
⚠️ 심각한 역전

→

제3계층
사용자가 토큰 소비→수익화 가능 산출물
❌ 단절

제1계층은 검증되었다. 제2계층은 자금 조달로 연명 중이다 — OpenAI $1,220억 자금 조달 완료, Anthropic $300억. 진정한 생사의 관건은 제3계층에 있다: 사용자가 토큰을 소비한 후 산출물이 “디지털 제품”인가, 아니면 “디지털 쓰레기”인가?

2.1 단위 경제학의 구조적 역전

AI 산업 전체가 연간 약 $4,000억을 소각하는 반면 매출은 $500~600억에 불과하다. 미시적 수준에서: GitHub Copilot은 사용자당 월 $20 이상 적자이며, 고빈도 사용자의 컴퓨팅 비용은 $80에 달하지만 구독료는 $10이다. Anthropic 사용자의 경우 구독 매출 $1당 약 $8의 컴퓨팅 자원을 소비한다. OpenAI는 2026년 $140억 적자가 예상되며, 2029년 이전에 양(+)의 잉여현금흐름을 기대하지 않는다. Anthropic은 2027년 양의 현금흐름을 전망하지만, 2030년까지의 훈련 비용은 여전히 약 $300억이 필요하다(OpenAI 동기간 약 $1,250억).

미국 소비자의 AI 서비스 연간 지출은 약 $120억으로, $5,270억의 인프라 투자 대비 2.3%에 불과하다. 전 세계 AI 사용자는 13.5억 명을 초과하지만, 절대 다수가 무료 사용자이다. ChatGPT 9억 주간 활성 사용자 중 유료 전환율은 약 5%에 그친다.

2.2 6주기 횡단 데이터 비교

주기	인프라 투자	기업 AI 매출	도입률	ROI 성공	포기율	판정
H1 2023	~$800억	~$150억	55%	~30%	~17%	탐색기
H2 2023	~$1,100억	~$220억	60%	~28%	~20%	편승기
H1 2024	~$1,600억	~$350억	65%	~25%	~25%	분화기
H2 2024	~$2,400억	~$500억	72%	~22%	~30%	환멸기
H1 2025	~$3,500억	~$700억	78%	~20%	~35%	청산기
H2 2025	~$4,650억	~$850억	83%	~21%	~42%	위기기
H1 2026	~$5,270억	~$1,000억	88%	~29%	~40%	결판기

핵심 발견: 도입률은 55%에서 88%로 단조 증가하였으나, ROI 성공률은 30%에서 20% 저점까지 하락한 뒤 29%로 미미하게 반등하였다. 프로젝트 포기율은 17%에서 42%로 급등하였다(S&P Global 2025). 88%의 AI 파일럿이 프로덕션 환경에 진입하지 못하였다(CIO Research). 80%의 AI 프로젝트가 3년간 지속적으로 기대 가치를 달성하지 못하였다(RAND Corporation). 도입률과 ROI의 역상관은 AI 경제 전체에서 가장 위험한 신호이다.

2.3 소비자 측 유지율 붕괴 증거

ChatGPT Plus의 6개월 유료 유지율은 71%(업계 최고), Claude Pro 62%, Gemini Advanced 60%, Character.AI는 47%에 불과하다. 언뜻 양호해 보이지만 AI 네이티브 SaaS의 중위 순매출유지율(NRR)은 27~40%에 불과하다 — 전통 B2B SaaS의 중위 NRR은 82%이며, AI 제품은 그 절반에도 미치지 못한다. 소비자의 41%가 구독 피로를 경험하고 있으며, 44%의 해지가 최초 90일 이내에 발생한다.

가장 치명적인 신호: OpenAI 자체가 ChatGPT Plus($20/월) 가입자를 2025년 4,400만 명에서 2026년 900만 명으로 80% 급감할 것으로 전망하며, $8의 Go 요금제로 1.12억 명 확보를 노리고 있다. Plus 성장률은 2024년의 약 3배/년에서 2026년 약 1.15~1.2배로 이미 둔화되었다. ChartMogul은 이를 “AI 관광객 효과”라 명명하였다 — 호기심에 가입하고, 잠시 사용한 뒤, 이탈한다.

III가치 스펙트럼: “디지털 쓰레기”의 정의

“디지털 쓰레기”는 본 논문의 핵심 개념이지만, 이분법적 판정으로 이해해서는 안 된다. 토큰 산출물의 가치는 실제로 4계층 스펙트럼에 분포한다:

계층	시나리오	토큰 수익화 경로	현재 비중 추정
L0 · 영가치 소일거리	잡담, AI 동반자, 오락 생성, 호기심 체험	없음 — 사용자가 얻는 것은 소일거리이지 자산이 아님	~50~60%
L1 · 간접 효율	이메일 윤색, 회의록, 정보 요약, 번역	시간 절약이지만 재무적 수익으로 정량화 극히 어려움	~25~30%
L2 · 직접 대체	코드 생성, 문서 자동화, 고객 서비스 대체, 데이터 분석	정량화 가능한 인건비 절약 또는 산출	~10~15%
L3 · 새 가치 창출	AI Agent가 자율적으로 새 업무 프로세스 완성, 제품 혁신	신규 수익 — 플라이휠의 진정한 구동력	~1~3%

현재 산업의 구조적 문제는 대량의 토큰 소비가 L0과 L1 계층에서 발생한다는 것이다 — 이 계층들은 수익화가 불가능하거나 수익화 경로가 너무 길고 약하다. 10~15%만이 L2의 직접 대체 계층에 도달하고, 3% 미만만이 L3의 가치 창출 계층에 진입한다. Deloitte 2026 보고서는 다음을 확인한다: 66%의 기업이 효율성 및 생산성 향상을 보고하였으나(L1~L2), 20%만이 수익 성장을 달성하였고(L3), 74%는 미래에 AI를 통해 수익이 성장하기를 “희망”할 뿐이다.

HBR 2026년 4월 기사는 이 함정을 정확히 명명하였다: “미시 생산성 함정(micro-productivity trap)” — 작업 수준의 AI 효율 향상이 기업 수준의 가치로 전환되지 못하는 현상. 크리에이터 경제의 붕괴는 소비자 측의 거울 사례이다: ChatGPT 무료 버전으로 $297짜리 강좌의 전체 내용을 10분 만에 생성할 수 있게 되면서, 강좌 수료율은 5% 미만으로 하락하고 환불률은 22%로 상승하였다. AI 산출물 자체가 희소성을 잃으면, L0~L1 계층의 토큰 소비는 경제학적으로 “디지털 쓰레기”가 된다 — 산출물이 쓸모없어서가 아니라, 구독 결제의 지속성을 지탱할 수 없기 때문이다.

IV토큰 비용의 이중 압착

소비자 측의 가치가 이미 영에 수렴하고 있다면, 토큰 비용의 궤적이 플라이휠 생사의 변수가 된다. 본 논문의 발견은: 토큰의 실질 비용이 상승하고 있다 — 표시 가격은 변하지 않은 것처럼 보임에도.

4.1 3계층 은폐적 가격 상승 메커니즘

제1계층: 토크나이저 세대 교체 팽창. Claude Opus 4.7이 새 토크나이저를 채택한 후 동일한 텍스트가 최대 35% 이상의 토큰을 소비한다. 가격표는 변함없지만 실질 비용은 12~27% 상승하였다. 핵심 세부 사항: 중간 길이 프롬프트(1만~2.5만 토큰)에서 캐싱은 추가 토큰의 9%만 흡수하여 가격 인상이 거의 전량 사용자에게 전가되며, 12.8만 토큰을 초과하는 장문 프롬프트에서만 93% 캐시 흡수가 가능하다. 일반 소비자 사용 시나리오의 압도적 다수는 정확히 중단문 프롬프트이다.

제2계층: 프론티어-저가 모델 가격 격차의 급속 확대. 2026년 5월 기준: Gemini Flash-Lite는 백만 입력 토큰당 $0.10, 프론티어 모델은 $5.00 — 50배 격차이다. 지난 3년간 소형 모델 가격은 99.7% 하락하였으나 프론티어 모델 가격은 견고하다. 소비자는 잔혹한 선택에 직면한다: 저가 모델을 사용하면 산출물 품질이 낮고 수익화가 더 어려우며(직접 L0 계층 “디지털 쓰레기” 생성), 프론티어 모델을 사용하면 비용이 너무 높아 영원히 회수할 수 없다.

제3계층: 구독제에서 소비제로의 전환. Cursor는 2025년 6월 고정 요청 할당량을 크레딧 풀로 대체하였으며, Pro 플랜 $20/월은 약 225건의 Claude Sonnet 요청만 커버한다. 한 개발자가 1주일에 $350의 초과 사용료를 발생시켰다. 다른 개발자는 8개월간 일상 사용으로 100억 토큰을 소비하여 API 가격($3/$15 백만 토큰)으로 $15,000를 초과하였다. 정액 구독의 “완충 장치”가 제거되고 있다.

이중 압착 모델: 토큰 실질 비용 상승(토크나이저 팽창 + 프론티어 가격 + 소비제 전환) → AI 산출물당 사용자 비용 증가 → 그러나 AI 산출물의 시장 가치는 영에 수렴(L0~L1 계층, 누구나 유사한 콘텐츠 생성 가능) → 비용 상승 + 산출물 가치 하락 = 소비자 측 가위 격차 재출현 → 사용자의 합리적 선택: 다운그레이드 또는 이탈. OpenAI의 Plus 80% 급감(900만 명) 전망은 소비자가 발로 투표한 결과이다.

V토큰맥싱: 과정 지향 관리의 제도적 재난

소비자 측 플라이휠이 단절되는 와중에, 기업 측에서는 더욱 기이한 현상이 출현하였다 — 토큰맥싱(Tokenmaxxing): 토큰 소비량을 생산성 대리 지표로 사용하여, 소비가 많을수록 더 생산적이라고 간주하는 것이다.

5.1 산업 전반 사례 매트릭스

Meta(“Claudeonomics” 사건): Meta 직원 한 명이 사내 인트라넷에 “Claudeonomics” 리더보드를 만들어 85,000명 이상 직원의 토큰 소비를 추적하고 상위 250명 파워 유저를 표시하였다. 30일간 전사적으로 60조 토큰을 소각하였으며, Claude Opus 공개 가격 기준 약 $9억으로 추산된다. 1위 사용자는 30일간 2,810억 토큰을 소비하였다 — 일평균 93.6억 — 이 한 명의 비용만 약 $140만이다. 리더보드에는 게이미피케이션 칭호가 있었다: “Token Legend” “Session Immortal” “Cache Wizard” “Model Connoisseur”. 일부 직원은 순위를 올리기 위해 AI Agent를 몇 시간씩 공회전시켰다. Zuckerberg와 CTO Bosworth 모두 상위 250위에 들지 못하였다. 리더보드는 뉴스 유출 48시간 후 “데이터 외부 유출”을 사유로 폐쇄되었다. Meta는 “AI 기반 영향력”을 2026년 성과 평가의 핵심 지표로 편입하였다.

Uber(예산 소진 사건): 2025년 12월 Claude Code를 개방하자 도입률이 32%에서 2026년 3월 84%(엔지니어 5,000명)로 급등하였다. 엔지니어의 95%가 월간 AI 도구를 사용하고, 커밋된 코드의 70%가 AI 생성이며, 매주 1,800건의 AI 작성 코드 변경이 배포된다. AI 관련 비용은 2024년 이후 약 6배 증가하였다. 내부 리더보드가 AI 사용량 순으로 엔지니어를 랭킹한다. CTO Praveen Neppalli Naga는 다음과 같이 인정하였다: $34억 R&D 예산이 4개월 만에 소진되었으며, “원점으로 돌아가 다시 계획해야 한다.” 개별 엔지니어의 월간 API 비용은 $500~$2,000 수준이다.

기타 기업: Disney 스트리밍 기술 부서가 토큰 추적 대시보드를 배포하였으며, 한 직원이 9근무일간 Claude를 46만 회 호출하였다 — 일일 51,000회 — 자율 Agent가 백그라운드에서 공회전해야만 가능한 수치이다. Visa는 3월에 약 1.9조 토큰을 소비하여 2월의 두 배가 되었다. Microsoft는 2026년 1월부터 유사한 내부 토큰 대시보드를 운영하고 있으며, 엔지니어들이 의도적으로 사용량을 부풀리고 있음을 인정하였다.

5.2 젠슨 황의 부추김 효과

GTC 2026의 All-In Podcast에서 NVIDIA CEO 젠슨 황은 다음과 같이 주장하였다: 연봉 $50만인 엔지니어의 토큰 연간 소비는 최소 $25만이어야 하며, 그렇지 않으면 “deeply alarmed”(깊이 경악)할 것이라고. $5,000만 쓴다면 “go ape”(미쳐버릴 것)이라고. NVIDIA의 42,000명 직원이 $20억 토큰 예산을 쓰고 있느냐는 질문에 “그렇게 하려고 노력 중”이라고 답하였다. AI를 사용하지 않는 것을 “칩 설계자가 종이와 연필을 쓰겠다고 하는 것”에 비유하였다. 토큰은 실리콘밸리의 “제4의 보상 구성 요소” — 기본급, 보너스, 주식과 나란히 — 가 되고 있다.

이해 충돌 검토: 젠슨 황은 세계 최대 GPU 공급업체의 CEO이다. 그가 모든 엔지니어에게 $25만의 토큰을 소각하도록 장려하는 것은 GPU 컴퓨팅 수요로 직결되며, 궁극적으로 NVIDIA의 매출로 흘러든다. 토큰맥싱 내러티브의 최대 수혜자는 삽을 파는 사람이다 — 이는 19세기 골드러시에서 곡괭이와 삽을 판 리바이 스트라우스와 다를 바 없다. 삽 파는 사람이 “많이 파면 팔수록 좋다”고 말할 때, 당신이 물어야 할 질문은: 광산에 진짜 금이 있는가?

5.3 시니어와 주니어 개발자 간 10배 토큰 격차

정밀한 프롬프트를 작성하는 시니어 개발자는 8,000 토큰으로 프로덕션급 솔루션을 얻고, 800줄의 혼란스러운 코드를 붙여넣고 “이거 고쳐줘”라고 하는 주니어 개발자는 80,000 토큰을 소각한다 — 산출물 품질은 오히려 더 나쁘다. 근본 원인: 주니어 개발자는 체계적 경험과 논리적 구조가 부족하여 입력한 프롬프트의 관계가 극도로 혼란스럽고, AI가 분석·검증·시행착오에 대량의 토큰을 소비해야 한다. 정밀 프롬프트로 전환한 개발자는 작업당 30~50%의 토큰 절감을 보고한다.

5.4 22,000명 개발자의 반증 데이터

Faros.ai는 22,000명의 개발자, 4,000개 팀의 2년간 텔레메트리 데이터를 분석하였다:

작업 완료율 향상

+34%

에픽 완료율 향상

+66%

코드 작업 완료 향상

+210%

개발자당 버그 증가

+54%

코드 리뷰 중위 시간

+5배

85% 기업 AI 비용 오추산

>10%

속도는 올랐으나 품질은 붕괴하였다. 토큰맥싱은 전형적인 굿하트 법칙(Goodhart’s Law)이다: “측정 지표가 목표가 되면, 더 이상 좋은 측정 지표가 아니다.” Salesforce는 AWU(Agentic Work Units)를 출시하여 토큰 소비가 아닌 산출과 영향을 측정한다. Appian CEO는 토큰맥싱을 “무게로 샹들리에를 평가하는 소련”이라 칭하였다. Uber의 교훈은 궁극적으로 근본 원인을 검증한다: 도입 촉진을 위해 리더보드를 설계한 팀과 AI 예산을 관리하는 팀이 동일하지 않았다 — 이 조직적 단절이 어떤 가격 모델보다도 더 치명적이다.

직원의 29%가 자사 AI 전략을 의도적으로 방해하고 있다고 인정한다(Z세대는 44%에 달함). 임원의 76%가 직원 저항을 심각한 위협으로 간주한다. 그러나 동시에 임원의 75%가 자사 AI 전략이 “보여주기에 가까운 것”임을 인정한다. 진정한 전략 없이 AI 사용 명령을 밀어붙이면, 저항은 논리적 반응이다.

VI해결 방안: 토큰 분류 아키텍처

이상의 분석에 기반하여, 본 논문은 토큰 분류(Token Triage)를 산업 구조 복구의 핵심 방안으로 제안한다 — 수요의 가치 속성에 따라 토큰 공급 구조를 재편하여 “유수 분리(油水分離)”를 실현하는 것이다.

그림 2 — 3계층 토큰 공급 아키텍처

제1계층 · 소비자 사교/일상 계층
로컬 SLM(1~3B 파라미터) → 토큰 비용 ≈ 제로
채팅, 동반자, 경량 질의응답, 콘텐츠 소비(L0~L1 계층)
CoT 심층 추론 불필요, 프론티어 모델 역량 불필요

→

제2계층 · 하이브리드 라우팅 계층
요청별 로컬/클라우드 지능형 판단
단순 질의는 로컬에서 전력·비용 절약 → 고강도 추론은 클라우드로

→

제3계층 · B2B 전문 계층
클라우드 프론티어 모델 → 고가치 토큰($5~25/M)
Agent 코딩, 장문서 분석, 기업 워크플로 자동화(L2~L3 계층)
산출물: 재사용 가능 소프트웨어, 배포 가능 시스템, 정량화 가능 비용 절감

6.1 기술적 실현 가능성과 물리적 제약

역량 측: 10억 미만 파라미터 모델이 현재 많은 실용 작업을 처리할 수 있다. Llama 3.2(1B/3B), Gemma 3(최소 270M), Phi-4 mini(3.8B), Qwen2.5(0.5B~1.5B)가 모두 효율적 온디바이스 배포를 목표로 한다. Meta의 ExecuTorch 런타임은 50KB에 불과하며 12개 이상 하드웨어 백엔드(Apple, Qualcomm, Arm, MediaTek)를 지원한다. HuggingFace의 주류 엣지 LLM 80% 이상이 즉시 사용 가능하며, 이미 Instagram/WhatsApp/Messenger를 통해 수십억 사용자에게 서비스하고 있다. Google이 방금 LiteRT-LM — 엣지 디바이스에 LLM을 배포하기 위한 프로덕션급 프레임워크 — 을 출시하였다. 개발자의 42% 이상이 이미 LLM을 로컬에서 실행하고 있다. 4bit 양자화는 4배 메모리 압축을 달성한다. 테스트 타임 컴퓨트(test-time compute)는 Llama 3.2 1B가 검색 전략의 보조로 8B 모델을 초과하는 성능을 발휘할 수 있게 한다. Gartner는 2027년까지 조직이 범용 LLM보다 소형 특화 모델을 3배 더 빈번하게 사용할 것으로 전망한다.

제약 측(V1에서 누락): 모바일 디바이스 메모리 대역폭은 50~90 GB/s이고, 데이터 센터 GPU는 2~3 TB/s이다 — 30~50배 격차. LLM 추론은 메모리 대역폭 병목이다: 토큰을 하나 생성할 때마다 전체 모델 가중치를 스트리밍 로드해야 한다. 디바이스 가용 RAM은 통상 4GB 미만이며(OS 및 기타 서비스와 공유), 최대 모델 규모를 제한한다. MoE(혼합 전문가) 아키텍처는 엣지에서 여전히 어렵다: 연산은 희소하지만 모든 전문가를 메모리에 로드해야 한다. 이는 로컬 SLM이 L0~L1 시나리오와 일부 단순 L2 시나리오만 커버할 수 있으며, 프론티어 모델의 심층 추론을 대체할 수 없음을 의미한다 — 이것이 정확히 분류의 필요성을 검증한다: 로컬 디바이스가 감당할 수 있는 부분은 로컬에서 처리하고, 역량을 초과하는 요청은 클라우드로 라우팅한다.

6.2 플라이휠 복구의 세 가지 단절점

단절점 1(소비자 결제 붕괴): 사교적 수요가 로컬로 분류된 후, 소비자는 더 이상 일상적 채팅을 위해 $20/월 구독을 필요로 하지 않는다. NRR 27~40%에 불과한 AI 네이티브 SaaS의 유지율 지옥이 사라진다 — 이 사용자들은 애초에 클라우드에 있어서는 안 되었기 때문이다.

단절점 2(단위 경제 역전): 구독 매출 $1당 $8의 컴퓨팅을 소비하는 저가치 사용자가 로컬로 분류된다. 클라우드에는 고가치 B2B 고객만 남는다 — 높은 ARPU, 명확한 수요, 수익화 가능한 산출물. AI 기업의 단위 경제 모델이 즉시 개선된다.

단절점 3(훈련 데이터 플라이휠): B2B 사용자의 상호작용 데이터 품질은 소비자 측 잡담보다 훨씬 높다. 유수 분리 후 클라우드 모델은 더 깨끗하고 전문화된 훈련 신호를 받으며, 모델 진화 방향이 더 집중된다 — 양(+)의 플라이휠이 비로소 돌아갈 수 있다.

6.3 정치경제학적 저항(V1에서 누락)

토큰 분류는 산업 효율 면에서 최적 해법이지만, 세 겹의 저항에 직면한다:

밸류에이션 내러티브 충돌: ChatGPT의 9억 주간 활성 사용자는 OpenAI $8,520억 기업 가치의 핵심 스토리이다. 대부분이 “AI 관광객”임을 인정하고 능동적으로 로컬로 분류한다면, 사용자 수가 급락하고 밸류에이션 논리가 붕괴한다. 모든 AI 기업은 모든 사용자를 클라우드에 유지할 인센티브가 있다 — 서비스하는 것이 적자라 하더라도.

하드웨어 공급업체의 역방향 인센티브: 젠슨 황의 1인당 $25만 토큰 예산론이 바로 반례이다 — GPU 공급업체의 이해는 토큰 배분 최적화가 아니라 클라우드 토큰 소비 극대화에 있다. 삽 파는 사람이 내러티브를 주도하면 분류 방안은 자연히 억압된다.

오픈소스 생태계의 양날의 검: Llama, Qwen, DeepSeek 등 오픈소스 모델은 소비자 측 로컬화의 기술적 기반이다. 그러나 Meta가 Llama를 공개한 전략적 동기는 경쟁사의 API 수익을 잠식하는 것이다 — 온디바이스 배포가 진정으로 대규모로 클라우드를 대체한다면, Meta의 전략을 검증하면서 Anthropic과 OpenAI의 사업 모델을 약화시키는 결과가 된다. 분류 방안의 수혜자와 추진자 사이에 이해 불일치가 존재한다.

누가 먼저 실행할 인센티브가 있는가? Apple이 자연스러운 후보이다 — 사업 모델이 클라우드 토큰이 아닌 디바이스 판매에 기반하며, 온디바이스 AI가 하드웨어 가치 제안을 직접 강화한다. Apple Intelligence가 이미 이 노선에 있다. 반대로 순수 API 기업(Anthropic, OpenAI)이 능동적으로 분류를 실행하려면 대단한 전략적 용기가 필요하다 — 이는 자사 매출의 일부가 “건강하지 않다”고 인정하는 것과 같기 때문이다.

VII반론과 응답

정직한 사상 논문은 먼저 가장 강력한 반대 논거를 제시한 뒤, 자신의 프레임워크가 왜 더 큰 설명력을 가지는지 설명해야 한다.

7.1 낙관론자의 세 가지 핵심 논거

논거 1: “선도 기업들이 이미 ROI를 증명하였다.” BCG 데이터에 따르면 “Visionary players”는 1.7배 매출 성장, 3.6배 3년 TSR을 달성하였다. 파일럿에서 생산 규모로 확장한 기업의 평균 ROI는 1.7배이며, 공급망과 재무 분야에서 26~31%의 비용 절감이 이루어졌다. IBM은 $35억의 AI 기반 비용 절약을 달성하였다. 코딩 어시스턴트의 3년 ROI는 376%이며, 투자 회수 기간은 6개월 미만이다.

논거 2: “AI 기업에는 실질 매출이 있다.” JPMorgan은 AI가 고전적 버블 기준에 부합하지 않는다고 주장한다. Jerome Powell은 AI를 닷컴 시대와 구별한다 — 현재 AI 기업에는 실질 매출과 실질 고객이 있다. Anthropic $300억 ARR, OpenAI $240억 — 닷컴 시대와 비교할 수 없다.

논거 3: “초기에는 다 이렇다 — 인내가 필요하다.” 엔터프라이즈 기술의 표준 투자 회수 기간은 7~12개월이며, AI는 2~4년이 필요하다. 이는 신흥 기술 도입의 정상적 리듬이며, 조기 비관은 부적절하다.

7.2 본 논문의 응답

논거 1에 대하여: 본 논문은 전적으로 동의한다 — 그리고 이것이야말로 본 논문의 핵심 논지를 정확히 증명한다. 이 성공 사례들은 예외 없이 고도로 구조화된 B2B 시나리오에 집중되어 있다: 금융 리스크 관리, 공급망 최적화, 코딩 보조, 문서 자동화. 모두 가치 스펙트럼의 L2~L3 계층에 속한다. L0~L1 계층의 토큰 소비가 ROI를 창출할 수 있음을 증명한 사례는 단 하나도 없다. 이것이 정확히 토큰 분류 방안의 논리적 기반이다 — 클라우드 자원을 검증된 고가치 시나리오에 집중하는 것이지, 모든 사용자에게 후추 뿌리듯 분산시키는 것이 아니다.

논거 2에 대하여: AI 기업에 실질 매출이 있는 것은 사실이다. 그러나 OpenAI 매출의 70%가 소비자 구독에서 발생하며, 해당 코호트는 80%의 속도로 이탈하고 있다. Anthropic의 80%는 기업 고객에서 발생한다 — 이것이 바로 Anthropic이 OpenAI를 추월하는 이유이다: 매출 구조가 자연적으로 토큰 분류 이후의 이상적 상태에 더 가깝다. 실질 매출이 지속 가능 매출을 의미하지는 않는다.

논거 3에 대하여: “인내가 필요하다”의 전제는 플라이휠이 천천히 돌고 있다는 것이다. 그러나 투자자의 53%가 6개월 내 수익을 기대하고, 이사회의 98%가 ROI 증명을 요구하며, 기업의 42%가 이미 AI 프로젝트를 포기하고 있을 때 — 시장이 부여하는 인내의 창은 닫히고 있다. AI는 사라지지 않을 것이지만, AI에 비용을 지불하는 사람들의 인내에는 한계가 있다. 문제는 “AI가 궁극적으로 가치를 창출할 수 있는가”(할 수 있다)가 아니라, “인내가 소진되기 전에 플라이휠이 돌아갈 수 있는가”이다.

VIII결론: 과정에서 결과로의 패러다임 전환

그림 3 — 완전 인과 사슬 폐합 루프

하드웨어 기업이 초과 이윤 획득 → 공급 측 검증 통과(제I장)

↓

AI 기업 매출-비용 심각한 역전 → 중간층 위기(제II장)

↓

소비자 산출물이 L0~L1 “디지털 쓰레기”에 집중 → 수요 측 단절(제III장)

↓

토큰 실질 비용 상승 + AI 산출물 가치 영 수렴 → 이중 압착(제IV장)

↓

토큰맥싱이 과정 지향 관리 버그를 증폭 → 제도적 가속기(제V장)

↓

토큰 분류 + 결과 지향 패러다임 → 플라이휠 복구 경로(제VI~VII장)

현재 AI 산업의 근본 모순은 다음과 같이 정확하게 진술할 수 있다: 소비자 사용자가 토큰 산출물로 차별화되고 수익화 가능한 제품을 만들 수 없고, B2B 기업이 AI를 정량화 가능한 재무 수익으로 전환할 수 없을 때, 전체 산업 가치 사슬의 투입은 양(+)의 피드백 앵커 포인트를 상실한다. 앵커 포인트 없이 플라이휠은 공회전하며 연료를 소각하고 있을 뿐이다.

공회전이 얼마나 지속될 수 있는지는 두 변수에 달려 있다: 첫째, 하드웨어 투자 주기의 관성 — 이미 계약된 GPU 주문과 데이터 센터 건설은 즉각 중단되지 않는다; 둘째, 자본 시장의 인내 — 투자자의 53%가 6개월 내 수익을 기대하고, 이사회의 98%가 ROI 증명을 요구한다. 이 두 곡선의 교차점이 도래할 때 — 하드웨어 주문 관성이 약화되고 투자자 인내가 소진될 때 — 산업은 진정한 조정에 직면할 것이다.

본 논문이 제안하는 토큰 분류 방안과 결과 지향 패러다임 전환은 산업 효율 면에서 최적 해법이지만, 현재 자본 시장 인센티브 구조 하에서 가장 실행하기 어려운 방안이다 — 기업이 장기적 건강을 위해 단기 밸류에이션 내러티브를 포기할 것을 요구하기 때문이다. 검증된 29%의 성공 기업은 네 가지 특성을 공유한다: AI를 수익 성과에 직접 연결, 확장에 앞서 거버넌스 우선, 비즈니스 팀이 AI 워크플로 소유, 전체 이니셔티브를 조직 재설계로 취급. 이 네 특성의 공통 본질이 바로 “결과 지향”이다.

최종 평가: 이 결정을 내릴 수 있는 기업 — 능동적으로 유수 분리를 실행하고, 가치 측정 기준을 “과정”에서 “결과”로 전환하며, 클라우드 모델이 측정 가능한 결과를 가진 전문 수요만 서비스하도록 하는 기업 — 만이 이번 AI 주기에서 끝까지 살아남는 기업이 될 것이다. AI 기술 자체는 결코 문제가 아니었다. 플라이휠의 기어비가 문제이다. 올바른 AI 경제학이란, 올바른 기어비를 찾는 것이다.

데이터 출처 및 참고문헌

[1] Nvidia FY2026 Financial Results, SEC Form 8-K, Feb 25, 2026

[2] SK Hynix Q1 FY2026 Earnings, Seoul Economic Daily / CNBC, Apr 23, 2026

[3] Micron Q2 FY2026 Financial Results, QuantFlowLab, Mar 2026

[4] Anthropic $30B ARR, SaaStr / TrendingTopics.eu / TokenMix, Apr 7, 2026

[5] OpenAI Revenue & Plus Projection, The Information, Apr 28, 2026

[6] Faros.ai “Tokenmaxxing” Report, 22,000 developers / 4,000 teams, Apr 2026

[7] Meta “Claudeonomics” Leaderboard, Fortune / The Information / Gizmodo, Apr 8–9, 2026

[8] Uber AI Budget Overrun, The Information / AI Magazine / Yahoo Finance, Apr 15, 2026

[9] Jensen Huang Token Budget Statement, All-In Podcast @ GTC 2026, Mar 20, 2026

[10] Salesforce AWU Metric, Axios, Apr 15, 2026

[11] Harvard Business Review, “AI Experimentation to AI Transformation,” Apr 30, 2026

[12] Writer 2026 Enterprise AI Adoption Survey, 1,200 C-suite + 1,200 employees, May 2026

[13] Deloitte State of AI in the Enterprise, 3,235 leaders, 2024–2026

[14] MIT NANDA Initiative, “The GenAI Divide,” Jul 2025

[15] S&P Global Market Intelligence, AI Project Abandonment Data, 2025

[16] RAND Corporation, Enterprise AI Initiative Analysis, 2024

[17] ChartMogul SaaS Retention Report, ~200 AI-native companies, 2025

[18] Earnest Analytics / WSJ, AI Subscription Retention Rates, Jan 2025

[19] Man Group, “The AI Bubble: Hidden Risks and Opportunities,” Apr 7, 2026

[20] Edge AI: Vikas Chandra (Meta AI Research), “On-Device LLMs 2026,” Jan 2026

[21] Google LiteRT-LM Framework Launch, AIToolly, Apr 8, 2026

[22] Dell Edge AI Predictions 2026, Jan 7, 2026

[23] Gartner SLM Prediction (3× by 2027), via Dell report

[24] Token Efficiency Analysis, Medium/@Sakar_Dhana, Feb 20, 2026

[25] AI Cost Increases 2026, FairMind / Pillitteri Analysis, May 2026

[26] DevTk.AI API Pricing Comparison, updated May 6, 2026

[27] BCG “How Four Companies Use AI for Cost Transformation,” 2025–2026

[28] Counterpoint Research, Global AI Consumer Spends Forecast, Nov 2025

[29] Disney / Visa Tokenmaxxing, AI2Work / 36Kr / Press.Farm, Apr 2026

[30] Main Management, “AI/Tech Bubble Buildup,” Apr 2026 (CapEx/GDP comparison)

[31] Morph LLM, “The Real Cost of AI Coding in 2026,” Apr 2, 2026

[32] Xenoss, “10 AI Use Cases That Drive ROI,” Feb 9, 2026 (376% coding assistant ROI)