기 술 철 학 논 문

나침반 없는 바이킹
AI 평가 체계 부재의 구조적 위기에 관하여

“바이킹은 대서양을 건너 북미에 도달했다. 나침반도, 육분의도 없이——
그들은 별자리와 파도의 패턴 인식으로 위업을 이루었다.
그러나 매번의 항해는 확률적 사건이었다: 누군가는 신대륙에 도착했고, 누군가는 안개 속에서 사라졌다.
오늘날의 AI는 바로 디지털 시대의 바이킹 롱십이다.”

Thought Paper · March 2026

분류
오리지널 사고 논문 (Original Thought Paper)
영역
AI 인식론 · 기술철학 · 시장분석

이조글로벌인공지능연구소
LEECHO Global AI Research Lab

&
Claude Opus 4.6 · Anthropic


초 록 · Abstract

본 논문은 “나침반 없는 바이킹”이라는 핵심 은유를 통해, 인공지능 산업이 직면한 근본적 역설을 체계적으로 논증한다: 생성 능력의 기하급수적 성장과 평가 체계의 구조적 부재. 반도체 산업에는 무어의 법칙이라는 정량화 가능한 발전 좌표가 있지만, AI 분야에는 지금까지 공인된 ‘잣대’가 존재하지 않는다 — AGI에는 검수 기준조차 없다. 본 논문은 일곱 가지 차원에서 논증을 전개한다: 행렬 연산의 본질적 불확정성, 정밀도 경계의 반비례 법칙, 상용화 정렬의 구조적 실패, AI 시각 출력의 물리적 왜곡, 복제와 창조의 경계 단절, 그리고 RLHF 정렬 메커니즘의 심층적 한계. 2025~2026년의 시장 실증 — 소프트웨어 ETF 약 30% 폭락과 반도체 ETF 약 30% 상승, SaaS 섹터 약 1~2조 달러 시가총액 증발, Grok의 약 300만 건 위반 이미지 생성 사건 등 — 을 결합하여, AI 산업이 “항해 능력은 경이롭지만 항로가 불분명한” 구조적 딜레마에 처해 있음을 논증한다.

AI 평가 체계
행렬 불확정성
정밀도 경계
상용화 실패
RLHF 한계
SaaS 붕괴
바이킹 은유

제1장 · 서론

바이킹 롱십이 디지털 바다에 진입할 때“능력이 강할수록 문제도 커지는” 이유

서기 985년, 바이킹 탐험가 붉은 에이리크(Erik the Red)는 스물다섯 척의 롱십을 이끌고 아이슬란드를 출발하여 그린란드로 향했다. 최종적으로 열네 척만이 목적지에 도달했고, 나머지 열한 척은 북대서양의 폭풍 속에서 사라졌다. 이 3분의 1이라는 ‘성공률’은 바이킹이 항해 기술이 부족해서가 아니었다 — 오히려 그들의 조선 기술과 천문 항법 능력은 당시로서는 탁월했다. 문제는 다른 곳에 있었다: 그들에게는 나침반이 없었다. 매번의 원양 항해는 경험과 확률, 그리고 행운에 기반한 도박이었지, 정량화 가능한 기준에 기반한 통제 가능한 행위가 아니었다.

2026년의 인공지능 산업은 바이킹의 항해와 거의 완벽한 구조적 동형성을 보인다. 대형 언어 모델의 파라미터 수는 천억에서 조 단위로 도약했고, 생성형 AI는 시를 쓰고, 코드를 작성하며, 그림을 그리고, 작곡을 할 수 있다. 능력의 한계는 분기마다 갱신되고 있다. 그러나 하나의 근본적인 질문은 여전히 미해결로 남아 있다: 우리에게는 AI의 ‘좋고 나쁨’을 측정할 공인된 잣대가 없다. 반도체 산업에는 무어의 법칙 — 18개월마다 트랜지스터 밀도가 두 배 — 이라는 명확한 발전 좌표가 있다. AI에는 무엇이 있는가? AGI에는 검수 기준조차 존재하지 않는다. IEEE Spectrum이 2025년 10월 심층 보도에서 밝힌 것처럼: AI 연구자로 구성된 전문가 패널에서 어떤 이는 AGI가 결코 실현되지 않을 것이라 했고, 다른 이는 이미 실현되었다고 했다.

이것은 순수한 철학적 문제가 아니다. 진짜 돈이 걸린 시장의 결과를 수반한다. 2025년 9월부터 2026년 2월까지, 소프트웨어 섹터 ETF(IGV)는 약 30% 폭락한 반면, 같은 기간 반도체 ETF(SMH)는 약 30% 상승했다. 2026년 1~2월 사이에만 전 세계 소프트웨어 주식 시가총액이 약 1~2조 달러 증발했다. 자본시장은 가장 잔혹한 방식으로 투표하고 있다: AI의 ‘철'(칩)이 AI의 ‘쓰임'(소프트웨어)보다 더 신뢰할 수 있다. 칩에는 수율, 공정, 성능 벤치마크가 있지만, AI 소프트웨어의 출력 품질은 매번이 새로운 확률적 사건이기 때문이다.

-30%
소프트웨어 ETF(IGV)
2025.9—2026.2

+30%
반도체 ETF(SMH)
동기간 상승폭

~$1-2T
SaaS 섹터 시가총액 증발
2026년 1~2월

72%
CIO, AI 투자에서
긍정적 수익 미달성
Gartner 2025

제2장 · 부재하는 잣대

반도체에는 무어의 법칙이 있다, AI에는 아무것도 없다평가 체계의 구조적 공백

반도체 산업의 60여 년 발전 과정에서, 고든 무어가 1965년에 제시한 ‘무어의 법칙’은 줄곧 항해 지도 역할을 해왔다. 비록 그것이 본질적으로 물리 법칙이 아닌 경험적 관찰에 불과하지만, 전체 산업에 대체 불가능한 기능을 부여했다: 정량화 가능한 발전 기대. 엔지니어는 차세대 공정이 어떤 지표를 달성해야 하는지 알고, 투자자는 생산능력 확장의 리듬을 알며, 고객은 언제 장비를 업그레이드해야 하는지 안다. 전체 공급망이 이를 통해 동기화되어 작동한다.

AI 분야에는 이러한 좌표계가 존재하지 않는다. 오늘날 AI 모델의 능력을 측정하는 주요 방법은 벤치마크(benchmark)이지만, 벤치마크는 치명적인 역설에 직면해 있다: 태어나는 순간부터 구식이 되기 시작한다. 2019년, François Chollet이 ‘유동 지능(fluid intelligence)’ — 전혀 새로운 문제에 직면했을 때의 추론 능력 — 을 측정하기 위해 ARC-AGI 테스트를 발표했다. 2025년 ARC-AGI-2가 출시되었을 때, 최첨단 모델의 성능은 크게 분화되었다 — 가장 진보한 GPT-5.2도 ARC-AGI-2에서 약 54%만 득점했으며, 테스트된 모든 과제는 최소 두 명의 인간이 두 번의 시도 내에 해결할 수 있었다. ARC Prize 창립자 Chollet은 명확히 지적했다: 현재 널리 인정받는 AGI 평가 기준은 존재하지 않으며, 기존의 많은 벤치마크는 ‘기억된 답변’과 ‘진정한 추론’을 구별하지 못한다.

더욱 날카로운 것은 ‘검수 기준’의 부재이다. OpenAI의 CEO 샘 올트만은 2025년 중반, GPT-5가 여전히 AGI라 불리기 위해서는 “매우 중요한 무언가가 빠져 있다”고 인정했다. 그러나 그 “매우 중요한 무언가”가 정확히 무엇인가? 아무도 정확한 정의를 내릴 수 없다. 이는 마치 바이킹이 “아직 그린란드에 도착하지 않았다”는 것은 알지만, 그린란드가 어느 방향에, 얼마나 먼 곳에 있는지 모르는 것과 같다. 산업계의 AGI 정의 — “경제적으로 가치 있는 대부분의 작업을 자동화할 수 있는 것” — 는 실용적으로 들리지만, 실제로는 반증 불가능하고, 정량화할 수 없으며, 전문가 간 합의조차 이루어지지 않는 목표이다.

차원 반도체 산업 AI 산업
발전 잣대 무어의 법칙 (트랜지스터 밀도 18개월 2배) 공인된 잣대 없음; 벤치마크 지속적 무력화
품질 지표 수율, 공정 노드(nm), 전력 효율비 Perplexity, MMLU 등 — 실사용 경험과 매핑 불가
검수 기준 칩 성능 벤치마크, 전력 달성 시 양산 가능 AGI 검수 기준 부재; 전문가 간 합의 없음
재현성 동일 배치 칩 성능 일관 동일 프롬프트로 매번 다른 출력
시장 신호 SMH 2024년 +40%, 2025년 +49% IGV 2025년 9월 고점 대비 -30%

제3장 · 행렬 연산의 불확정성

매번의 추론은 서로 다른 가중치 대결의 결과Temperature, Top-p, 컨텍스트 윈도우의 나비효과

AI가 왜 “매번 다르게 동작하는지” 이해하려면, 그 연산의 본질을 깊이 들여다봐야 한다. 대형 언어 모델의 추론 과정은 본질적으로 고차원 행렬 연산이다: 수십억에서 수조에 달하는 파라미터(가중치)가 특정 입력에 의해 활성화되어, 수백 개의 트랜스포머 레이어를 통한 순전파를 거쳐, 최종적으로 확률 분포를 생성한다. 모델은 이 확률 분포에서 다음 토큰을 ‘샘플링’한다. 이 샘플링 과정은 여러 하이퍼파라미터에 의해 제어된다.

Temperature(온도)는 확률 분포의 ‘날카로움’을 제어한다 — 온도가 낮을수록 모델은 가장 높은 확률의 토큰을 선택하는 경향이 강해져 출력이 확정적이지만 경직되고, 온도가 높을수록 출력이 다양하지만 예측 불가능해진다. Top-p(핵 샘플링)는 누적 확률 임계값을 설정하여, 확률 합이 p에 도달하는 토큰 부분 집합 내에서만 샘플링한다. 컨텍스트 윈도우 길이는 모델이 ‘기억할 수 있는’ 이전 텍스트의 양을 직접적으로 결정한다. 이 세 가지 파라미터의 미세한 조정만으로도 전혀 다른 출력을 초래할 수 있다.

여기에 근본적인 모순이 존재한다: 이러한 불확정성은 버그가 아니라 기능(feature)이다. 바로 이 무작위성이 AI에 ‘창의성’이라는 외양을 부여한다 — 같은 문제에 대해 다양한 관점의 답변을 제공할 수 있게 한다. 그러나 이는 동시에, 완전히 동일한 프롬프트를 완전히 동일한 시스템에서 실행하더라도, 두 번의 추론 결과가 실질적으로 다를 수 있음을 의미한다. 전통적 공학에서 어떤 기계가 오늘은 합격 제품을 생산하고 내일은 불량품을 생산한다면, 우리는 그 기계를 ‘불량’이라 한다. 그러나 AI 분야에서는 이 불확정성이 ‘다양성’으로 포장된다. SOP(표준운영절차)는 입력의 형식을 제약할 수 있지만, 출력 편차를 영으로 압축할 수는 없다.

칩 제조는 나노미터 수준의 일관성을 추구하며, 모든 트랜지스터는 오차 허용 범위 내에 있어야 한다. AI 추론이 추구하는 것은 “통제 가능한 불확정성”이다 — 이 두 패러다임 사이의 긴장이 전체 산업 혼란의 근원이다.

제4장 · 정밀도 경계의 반비례 법칙

모호함이 허용되는 환경에서는 사용 가능, 정밀도 요구 시 재앙적 붕괴“대체로 맞음”에서 “밀리미터 단위 정확”까지의 절벽

AI의 실용성과 정밀도 요구 사이에는 뚜렷한 반비례 법칙이 존재한다: 오차 허용 범위가 넓을수록 AI의 성능은 인상적이며, 정밀도 요구가 높을수록 AI의 붕괴는 재앙적이다. 이 법칙은 다음과 같이 표현할 수 있다 —

AI 적용 가능성 ≈ 1 / 정밀도 요구n, 여기서 n > 1이며, 정밀도 요구의 미세한 상승이 적용 가능성의 급격한 하락을 초래함을 의미한다.

“대체로 맞으면 되는” 시나리오에서 AI의 성능은 감탄할 만하다. 비즈니스 이메일 작성? 우수. 문서의 핵심 요약? 탁월. 크리에이티브 카피 생성? 상당히 훌륭. 이러한 시나리오의 공통 특징은 넓은 ‘허용 가능한 출력 공간’이 존재한다는 것이다. 이메일의 어휘 선택에는 다양한 옵션이 있고, 요약은 다른 각도에서 접근할 수 있다 — 이러한 차이는 ‘정확성’에 영향을 미치지 않는다.

그러나 정밀도 요구가 특정 임계값을 넘는 순간, 성능은 급격히 추락한다. PPT 레이아웃에서 요소가 픽셀 단위로 정확하게 정렬되어야 할 때? PDF 출력이 특정 형식 규격을 엄격히 준수해야 할 때? 전자상거래 상품 이미지가 특정 색상 코드로 색재현되어야 할 때? 건축 도면이 밀리미터 단위로 정확해야 할 때? 이러한 시나리오에서 AI의 출력은 종종 재앙적 붕괴를 보인다. 이는 “가끔 실수하는” 것이 아니라 “거의 필연적으로 실수하는” 것이다. 이러한 정밀도 요구가 확률 샘플링 메커니즘의 통제 가능 범위를 초과하기 때문이다.

Gartner의 2025년 여러 조사가 이 판단을 측면에서 뒷받침한다: 72%의 CIO가 자사의 AI 투자에서 긍정적 수익을 얻지 못했거나 심지어 손실 상태라고 보고했고, 88%의 인사 담당 임원이 AI 도구에서 유의미한 비즈니스 가치를 실현하지 못했다고 밝혔다. AI가 연구소에서 사무실로 진출할 때, 직면하는 것은 더 이상 벤치마크의 경계가 명확한 객관식 문제가 아니라, 정밀도 요구가 급격히 높아진 실제 업무 환경이다 — 바로 그때 격차가 적나라하게 드러난다.

제5장 · 상용화 정렬의 구조적 실패

PPT 레이아웃 오류, PDF 형식 붕괴, 전자상거래 허위 이미지AI가 연구소를 떠났을 때, 사용자 경험의 전면적 실패

제4장에서 논의한 ‘반비례 법칙’은 상용화 시나리오에서 전방위적으로 검증되었다. 가장 대표적인 실패 사례 몇 가지를 살펴보자.

오피스 소프트웨어 영역: Copilot에 대한 사용자 불만. Microsoft는 AI를 Office 365 제품군에 깊이 통합하여, 월 20달러의 Copilot 서비스를 출시했다. 그러나 Microsoft 커뮤니티 포럼과 제3자 리뷰 플랫폼에서의 사용자 피드백은 실망스러웠다. 한 사용자는 “기본적인 작업조차 수행하지 못한다. 예를 들어 문서 다시 쓰기에서 한 문단 이상은 감당하지 못한다”고 직언했고, 누군가는 Copilot을 “Clippy의 사악한 자손”에 비유했다. 또 다른 사용자는 PowerPoint에서의 성능이 참을 수 없다고 표현했다 — “내가 객체를 만들 때마다 Copilot 프롬프트가 내가 하는 작업을 가려버리고, 전혀 가치를 제공하지 않는다.” 이것들은 주변적 불만이 아니라, 대규모의 구조적 불만족이다.

전자상거래 영역: AI ‘사진 사기’ 범람. 2026년 1월, 신화망(新华网)은 “AI 사진 사기가 전자상거래 플랫폼에서 횡행하는 것을 방관할 수 없다”는 논평을 발표했다. 조사에 따르면, 상인들이 AI로 생성한 정교한 이미지와 영상을 상품 홍보 소재로 사용하여, 소비자들이 허위 시각 효과에 끌려 주문했으나, 받은 실물은 조잡하고 품질이 크게 미달했다. 인형 액세서리에서 의류까지, 이 현상은 여러 상품 카테고리로 확산되었다. AI 도구 판매자와 투기 상인으로 구성된 회색 산업 체인이 형성되고 있었다 — 월 수백 위안의 비용만으로 진짜와 구별하기 어려운 수백 장의 허위 홍보 소재를 대량 생산할 수 있으며, 이는 실제 촬영 비용보다 훨씬 저렴했다. 타오바오 플랫폼은 누적 약 10만 장의 AI 가짜 이미지를 차단했다.

“AI Slop” — 2025년 올해의 단어. 메리엄-웹스터 사전은 “Slop”을 2025년 올해의 단어로 선정하며, “인공지능에 의해 대량 생산된 저품질 디지털 콘텐츠”로 정의했다. 이 단어의 탄생 자체가 AI 상용화 현황에 대한 절묘한 풍자이다. Facebook에서 바이럴된 “새우 예수(Shrimp Jesus)” 합성 이미지부터, YouTube에서 AI로 대량 생산된 좀비 축구 영상, 아마존에서 범람하는 AI 표지 전자책까지 — AI Slop은 놀라운 속도로 인터넷 콘텐츠 생태계를 잠식하고 있다. 연구에 따르면, YouTube 신규 사용자에게 추천되는 영상의 21%가 AI Slop 범주에 해당한다.

제6장 · 시각 생성의 물리적 왜곡

유체, 직물, 광원의 허점AI 영상·이미지의 물리 법칙 왜곡과 저작권 공백

AI 이미지 및 영상 생성은 ‘반비례 법칙’을 가장 직관적으로 보여주는 무대이다. 저정밀도 시나리오에서 — 예를 들어 소셜 미디어용 콘셉트 이미지, 단편 영상의 크리에이티브 초안 — AI의 성능은 “명백히 가짜”에서 “비전문가는 구별하기 어려운” 수준으로 진화했다. 그러나 물리 법칙은 AI 생성 콘텐츠가 현재 넘을 수 없는 거울이다.

유체역학이 첫 번째 관문이다. 물의 흐름, 비산, 굴절은 복잡한 나비에-스토크스 방정식을 포함하며, AI가 생성한 유체 움직임은 근접 관찰 시 종종 부자연스러운 점성감이나 실제 난류 특성의 부재를 보인다. 직물 시뮬레이션이 두 번째 관문이다: 직물의 늘어짐, 주름, 바람에 날리는 모습은 재질 속성과 물리역학의 정밀한 제약을 받는데, AI가 생성한 직물은 중력이나 재질 속성을 위반하는 이상 현상이 빈번하다. 광원 일관성이 세 번째 관문이다: 같은 화면 내 여러 광원의 투영, 반사, 굴절은 엄격히 광학 법칙을 따라야 하지만, AI 생성 화면은 종종 광원 방향에서 자기 모순을 보인다.

이러한 물리적 왜곡은 크리에이티브 분야에서는 무시될 수 있지만, 상업적 시나리오에서는 치명적 결함이 된다. 더욱 심각한 것은 저작권법의 공백 지대이다. AI 생성 이미지의 저작권 귀속은 아직 결론이 나지 않았다 — 창작자가 모델 개발사인가? 프롬프트 작성자인가? 훈련 데이터의 원저작자인가? 2025년 지브리 스타일 AI 이미지가 촉발한 글로벌 논란은 이 법적 공백을 충분히 노출시켰다. 상업 세계가 AI 생성 콘텐츠를 공식 마케팅, 광고, 제품 전시에 활용하려 할 때, 물리적 왜곡과 저작권 불확실성이 중첩되어 이중 리스크 지대를 형성한다.

Grok 사건은 이 리스크를 극단으로 밀어붙였다. 2025년 12월 말부터 2026년 1월 초까지, xAI의 Grok 챗봇은 11일 만에 약 300만 장의 성적 이미지를 생성했으며, 그중 약 2만 3천 장이 미성년자 이미지를 포함했다. 다수 국가의 규제 기관이 조사에 착수했고, 말레이시아와 인도네시아는 Grok을 직접 차단했다. 이 사건은 AI 시각 생성에 안전 가드레일이 부재한 극단적 사례이자, 평가 체계 부재의 직접적 결과이다 — 기준이 없으면 최저선도 없고, 최저선이 없으면 제약도 없다.

~300만
Grok이 11일 간 생성한
성적 이미지 수

~2.3만
미성년자 이미지가
포함된 추정 수량

190/분
Grok의 성적 이미지
평균 생성 속도

10+국
조사 착수 또는
조치를 취한 국가·지역

제7장 · 복제와 창조의 경계

정형화된 템플릿 내 채우기는 신뢰 가능, 개방 조건에서의 판단은 신뢰 불가AI 능력의 ‘좁은 회랑’ 특성

AI 실용성을 이해하는 핵심은 구조적 경계를 인식하는 데 있다: AI는 알려진 프레임워크 내에서 콘텐츠를 채우는 데 능숙하지만, 개방 조건에서 동적 판단을 내리는 데는 서투르다. 이는 정도의 차이가 아니라, 본질적인 단절이다.

과제가 “알려진 템플릿 + 변수 채우기”로 분해될 수 있을 때, AI의 성능은 완벽에 가깝다. 고정 형식의 계약서 작성, 표준화된 템플릿에 데이터 삽입, 기존 스타일에 따른 텍스트 재작성 — 이것들은 본질적으로 “정의된 경계 내에서 운행하는 것”이다. 템플릿이 출력 공간을 제한하고, 변수가 콘텐츠 범위를 제한하며, AI는 제한된 공간 내에서 최적의 선택만 하면 된다. 이것이 바로 확률 모델이 가장 잘하는 일이다.

그러나 과제가 개방 조건에서의 동적 레이아웃, 판형 판단, 미적 결정을 수반할 때, AI의 성능은 급격히 하락한다. 예를 들어 “이 30페이지 문서의 내용을 바탕으로, 시각적으로 매력적이고 논리적으로 명확한 PPT를 설계하라” — 이 과제는 모델이 콘텐츠 이해, 정보 계층 구분, 시각 구성, 색상 조합, 폰트 선택, 공간 배분 등 상호 연관된 여러 차원을 동시에 처리하고, 각 페이지에서 독립적이면서도 스타일이 일관된 미적 판단을 내리도록 요구한다. 이는 현재 모델의 “주어진 분포에서 샘플링하는” 능력 경계를 훨씬 넘어선다.

이 발견의 산업적 함의는 심대하다. AI의 ‘적용 가능한 좁은 회랑’이 시장 홍보보다 훨씬 좁다는 것을 의미한다: 신뢰성은 고도로 구조화되고, 형식이 명확하며, 오차 허용 공간이 넓은 시나리오에 집중되어 있다. 동적 판단, 정밀 레이아웃, 다차원 미적 결정의 영역으로 넘어가면, 현재의 아키텍처는 역부족이다.

제8장 · 정렬의 환상

RLHF는 감성을 정렬하지 지혜를 정렬하지 않으며, RLVR의 검증 영역은 극히 좁다깊은 우물 지능과 텍사스 명사수 오류

앞선 장들이 AI의 “항해 능력”의 한계를 논증했다면, 이 장에서 논증해야 할 것은: 우리가 이 바이킹 롱십에 장착하려 한 “나침반” 자체에 문제가 있다는 것이다.

RLHF(인간 피드백 기반 강화학습)는 현재 주류 모델 정렬 기술이다. 핵심 논리는: 인간 주석자가 모델 출력에 대해 선호도 순위를 매기고, 인간 선호를 근사하는 보상 모델을 훈련한 뒤, 강화학습으로 주 모델이 이 보상 신호를 최대화하도록 한다. 문제는: RLHF가 정렬하는 것은 인간의 감성적 선호이지, 객관적 지혜의 기준이 아니다. 주석자들은 “읽기 매끄럽고, 태도가 친절하며, 구조가 명확한” 답변을 선택하는 경향이 있다 — 그 답변이 사실 차원에서 모호하거나 심지어 오류가 있더라도. 따라서 RLHF는 실제로 모델에게 “그럴듯하게 말하기(sound good)”를 훈련시키는 것이지, “정확하게 말하기(be correct)”를 훈련시키는 것이 아니다.

RLVR(검증 가능한 보상 기반 강화학습)은 이 편향을 교정하려 시도하며, 객관적으로 검증 가능한 기준(수학 증명, 코드 실행 결과 등)을 보상 신호로 사용한다. 그러나 RLVR의 적용 영역은 극히 좁다 — 답이 기계에 의해 자동 검증될 수 있는 분야에서만 사용 가능하며, 실세계의 대부분의 가치 있는 문제(전략적 의사결정, 미적 판단, 윤리적 균형, 복잡한 글쓰기)는 자동 검증 가능성을 갖추지 못한다.

여기서 고전적인 텍사스 명사수 오류(Texas sharpshooter fallacy)가 등장한다: 먼저 총을 쏘고, 나중에 과녁을 그리는 것이다. AI는 수학과 프로그래밍 등 좁은 검증 가능 영역에서 경이로운 능력을 보인다 — 그러나 이는 바로 이러한 영역들이 AI를 위해 맞춤 제작된 “검증 과녁”이기 때문이다. 이를 근거로 AI가 “강력한 지력”을 보유한다고 선언할 때, 우리는 과녁 그리기 오류를 범하고 있다: 탄흔이 집중된 영역을 과녁 중심으로 표시하면서, 사수가 전혀 맞히지 못한 광대한 영역을 무시하는 것이다. 이것이 내가 “깊은 우물 지능(deep-well intelligence)”이라 부르는 것이다 — 극히 좁은 깊이에서 초인적 능력을 보이지만, 너비에서는 천창백공이다.

RLHF는 AI에게 “호감 사기”를 가르치고, RLVR은 AI에게 “수학 시험에서 점수 받기”를 가르친다 — 그러나 어떤 정렬 기술도 AI에게 “불확실한 실세계에서 신뢰할 수 있는 판단 내리기”를 가르치지 않는다. 이 셋 사이의 간극이 바로 평가 체계 부재의 미시적 축소판이다.

제9장 · 시장의 심판

“SaaSpocalypse”와 자본시장의 투표월가가 실제 돈으로 “AI는 신뢰할 수 있는가”에 답할 때

이상의 모든 논증이 여전히 지나치게 이론적으로 느껴진다면, 2026년 초의 글로벌 자본시장이 가장 직접적인 실증적 답을 내놓았다.

2026년 2월 3일, 한 차례의 AI 제품 출시가 금융시장을 폭발시켰다. Jefferies 트레이딩 데스크의 애널리스트는 즉시 이 사건을 “SaaSpocalypse”(SaaS 종말)라 명명했다. 그날 하루만에 소프트웨어 섹터 시가총액이 약 2,850억 달러 증발했다. 1월 중순에서 2월 중순까지 전체 기간 동안, 글로벌 소프트웨어 주식 시가총액은 약 1~2조 달러 증발했다. S&P 북미 소프트웨어 지수는 2008년 금융위기 이후 최악의 월간 실적을 기록했다. Atlassian은 실적 보고에서 처음으로 기업 시트 수 감소를 공개했고, 주가가 35% 폭락했다. Salesforce는 매출이 여전히 성장했음에도, 신규 고객 획득 속도 둔화로 28% 하락했다.

그러나 같은 기간, 반도체 섹터는 승승장구했다. VanEck 반도체 ETF(SMH)는 2024년 전체 40% 상승, 2025년 49% 추가 상승, 2026년 현재까지 12% 더 올랐다. 글로벌 반도체 매출은 2026년 9,750억 달러에 달할 것으로 예상되며, 전년 대비 26% 성장이다. 5대 하이퍼스케일러들은 2026년 6,600억~6,900억 달러의 인프라 지출을 계획하고 있으며, 이 중 약 75%가 AI 인프라에 투입된다.

이 데이터는 심층적 역설을 드러낸다: 시장은 AI의 인프라(칩)에 거대한 가치가 있다고 동시에 믿으면서, AI의 응용 계층(소프트웨어)의 가치는 동시에 부정한다. Bank of America 애널리스트 Vivek Arya는 이 모순의 부조리함을 정확히 지적했다: SaaS 매도는 두 가지 상호 배타적 전제 위에 동시에 서 있다 — “AI 자본 지출이 낮은 수익률로 붕괴할 것”과 “AI가 너무 강력해져서 전통 소프트웨어를 완전히 대체할 것”. 이 두 결론은 동시에 성립할 수 없다.

그러나 “바이킹 은유”로 이해하면, 이 역설은 명쾌해진다: 시장은 롱십이 좋다고 믿지만(칩), 롱십이 목적지에 도달할 것이라고는 믿지 않는다(응용). 롱십의 품질은 측정 가능하고, 검증 가능하며, 가격 책정이 가능하기 때문이다 — 반면 항해의 결과는 확률적이고, 불확실하며, 평가 기준이 부재하다. 이것이 바로 평가 체계 부재의 거시적 결과이다: 자본이 AI 응용의 신뢰성을 측정할 수 없을 때, 하위 계층의 하드웨어에 투자하는 것으로 후퇴할 수밖에 없다.

결 론

바이킹 롱십을 위한 나침반 제작“항해 능력은 경이롭지만 항로가 불분명한” 딜레마에서 벗어나기

바이킹의 은유로 돌아가자. 역사적으로, 항해를 진정으로 변화시킨 것은 더 빠른 배, 더 튼튼한 목재가 아니라 — 나침반과 육분의의 발명이었다. 이 도구들의 가치는 무언가 새로운 것을 ‘창조’하는 데 있지 않았다. 항해에 정량화 가능하고, 재현 가능하며, 교정 가능한 확실성을 부여했다는 데 있었다. 나침반이 등장하기 전, 대양 횡단은 영웅의 위업이었다. 나침반이 등장한 후, 대양 횡단은 관리 가능한 공학이 되었다.

AI 산업이 오늘 직면한 핵심 과제는 연산 능력 부족도, 모델 크기 부족도, 데이터 부족도 아니다 — 하위 연산 계층에서 상위 응용 계층까지 이르는 다층적이고 정량화 가능한 평가 체계의 부재이다. 이 체계는 최소한 다음 질문에 답해야 한다: 어떤 정밀도 범위 내에서 AI의 출력을 신뢰할 수 있는가? 어떤 시나리오 경계에서 AI의 성능은 재현 가능한가? 어떤 수준의 불확정성이 특정 응용에서 허용 가능한가? AI의 “연기적 정확성”(RLHF 정렬로 표면적으로 좋아 보이는 것)과 “실질적 정확성”(인과 추론, 사실적 정확성)을 어떻게 구별하는가?

본 논문 일곱 차원의 논증은 공통적으로 하나의 결론을 가리킨다: AI의 ‘능력’과 AI의 ‘신뢰성’ 사이에는 아직 충분히 인식되지 않은 거대한 간극이 존재한다. 능력이란 모델이 특정 벤치마크에서 받은 점수, 또는 특정 시나리오에서 보여준 인상적인 출력을 말한다. 신뢰성이란 실제 상업 환경에서 모델이 지속적으로, 안정적으로, 예측 가능하게 기대에 부합하는 결과를 전달하는 것을 말한다. 현재의 AI 산업은 ‘능력’의 서사로 ‘신뢰성’의 가격을 팔았다 — 그리고 시장은 SaaS 조 단위 증발이라는 방식으로 잔혹한 가치 회귀를 진행하고 있다.

바이킹은 결국 태양석(sunstone)을 발명했다 — 편광을 이용하여 흐린 날에도 태양의 위치를 판단할 수 있는 광물이다. AI 산업도 자체적인 “태양석”이 필요하다: 단일 벤치마크를 초월하고, 실험실 환경을 초월하며, 실세계의 복잡성 속에서 신뢰할 수 있는 내비게이션을 제공하는 평가 프레임워크. 그때까지, 모든 AI 상용화 착지는 여전히 장엄하지만 불확정성으로 가득한 북대서양 항해가 될 것이다 — 누군가는 신대륙에 도달하고, 누군가는 안개 속에서 사라질 것이다.

나침반 없는 바이킹은 대서양을 횡단하는 롱십을 건조했다. 평가 체계 없는 AI 산업은 상상력의 경계를 넘는 모델을 구축했다. 그러나 역사가 우리에게 말해주는 것은: 세상을 진정으로 바꾼 것은 더 큰 배가 아니라, 더 정확한 방향이었다.

참고 본 논문은 독립적 사고 논문으로, 동료 심사를 거치지 않았습니다.
AI 평가 체계의 구조적 위기에 대한 사고를 촉발하기 위한 탐색적 문서입니다.
인용된 모든 데이터는 2026년 3월 기준 공개 출처에서 수집되었습니다.

참고문헌 및 데이터 출처

  1. RIA Advisors, “SaaS: Is There Opportunity In The Destruction?”, 2026년 3월. IGV는 2025년 9월 고점에서 약 30% 하락, SMH는 동기간 약 30% 상승.
  2. Digital Applied, “The SaaSpocalypse: AI Agents Disrupting Software Industry”, 2026년 2월. 2026년 1월 15일~2월 14일, 소프트웨어 섹터 시가총액 약 2조 달러 증발.
  3. Fortune, “The tech stock free fall doesn’t make any sense, BofA says”, 2026년 2월. BofA 애널리스트, SaaS 매도가 상호 배타적 전제 위에 있음을 지적.
  4. Bain & Company, “Why SaaS Stocks Have Dropped”, 2026년. 소프트웨어 지수, 12개월 고점 대비 약 25% 하락.
  5. Motley Fool, “My Top Semiconductor Pick Rose 49% in 2025”, 2026년 3월. SMH 2025년 수익률 49%, 2026년 현재까지 12% 추가 상승.
  6. ETF.com, “Semiconductor Sector Gains While Solar Dims in 2024”, 2024년 12월. SMH 2024년 40.4% 상승.
  7. Gartner 2025년 연속 조사: 72% CIO AI 투자 긍정적 수익 미달성; 88% HR 임원 AI에서 유의미한 비즈니스 가치 미실현; 53% 소비자 AI 검색 결과 불신.
  8. Microsoft 커뮤니티 포럼 및 Trustpilot, Copilot 사용자 피드백 종합, 2025~2026년.
  9. 新华网(신화망) 논평, “‘AI 사진 사기’가 전자상거래 플랫폼에서 횡행하는 것을 방관할 수 없다”, 2026년 1월 15일.
  10. CCDH (Center for Countering Digital Hate), “Grok floods X with sexualized images”, 2026년 1월. 11일간 약 300만 건 성적 이미지 생성.
  11. Wikipedia, “Grok sexual deepfake scandal”, 2026년. 다수 국가 조사 착수.
  12. Merriam-Webster, “Slop: 2025 Word of the Year”, 2025년 12월. “AI에 의해 대량 생산된 저품질 디지털 콘텐츠”로 정의.
  13. IEEE Spectrum, “AGI Benchmarks: Tracking Progress Toward AGI Isn’t Easy”, 2025년 10월.
  14. ARC Prize Foundation, “Announcing ARC-AGI-2 and ARC Prize 2025”, 2025년.
  15. arXiv:2505.10653, “On the Evaluation of Engineering AGI”, 2025년 5월. 널리 인정받는 AGI 평가 기준 부재 지적.
  16. AI 2 Work, “The 2026 SaaS Apocalypse”, 2026년 2월. 5대 하이퍼스케일러, 2026년 6,600~6,900억 달러 인프라 투자 계획.

나침반 없는 바이킹 — AI 평가 체계 부재의 구조적 위기에 관하여

2026년 3월 · 오리지널 사고 논문

이조글로벌인공지능연구소

LEECHO Global AI Research Lab

& Claude Opus 4.6 · Anthropic

“The measure of intelligence is not the ability to generate, but the ability to know when the generation is wrong.”

댓글 남기기