Original Thought Paper · V4 · March 2026

양방향 블랙박스 AI 시스템,
평가 체계가 시급하다!

The Bidirectional Black Box Problem in AI Systems:
Why We Urgently Need a Dual-Side Evaluation Framework

    이조글로벌인공지능연구소 LEECHO Global AI Research Lab
& Claude Opus 4.6 · Anthropic
    발행일 2026년 3월 25일 · 분류 오리지널 사고 논문 · 버전 V4

    영역 AI 인식론 · 인간-기계 상호작용 · 산업경제학 · 평가시스템 공학
  

초록 · Abstract

현재 AI 산업은 널리 간과되어 온 구조적 문제에 직면해 있다. AI 모델의 출력(Output)이 확률적 “블랙박스”일 뿐만 아니라, 인간 사용자의 입력(Input) 역시 예측 불가능하고 불안정하며 주관적 상태에 좌우되는 또 다른 “블랙박스”라는 점이다. 두 블랙박스가 연결된 시스템의 총 불확실성은 기하급수적으로 증가한다. 본 논문은 “양방향 블랙박스”(Bidirectional Black Box, BBB) 이론 프레임워크를 제시하고, 정보이론에 기반한 형식적 정의를 제공하며, 2026년 최신 기업 실무 데이터, 직원 피드백, 고객 불만을 실증적 근거로 현재 AI 생산성 역설의 근본 원인을 논증한다. 또한 J커브 가설과의 정면 학술적 대화를 통해 J커브 이론의 설명 사각지대가 바로 BBB 이론의 핵심 기여임을 밝힌다. 자본과 버블 논쟁에서 본 논문은 독자를 대신해 결론을 내리지 않으며, 버블론과 낙관론의 핵심 논거를 양방향으로 제시하여 독자 스스로 균형점을 찾도록 한다. 마지막으로, 양방향 실시간 평가 시스템(BRTES)의 탐색 방향을 제안하되—이것은 아직 개발 중인 프레임워크이지 완성된 솔루션이 아님을 강조한다. 본 논문의 가치는 문제를 제기하고 양방향 증거를 제시하는 데 있지, 궁극적 해답을 제공하는 데 있지 않다.

01 · 문제 제기

솔로우 역설의 귀환: 2.5조 달러로도 생산성을 살 수 없다

Solow’s Paradox Returns — $2.5 Trillion Can’t Buy Productivity

1987년, 노벨 경제학상 수상자 로버트 솔로우는 기술경제학 역사상 가장 유명한 문장을 남겼다: “컴퓨터 시대는 어디서나 볼 수 있지만, 유독 생산성 통계에서만 보이지 않는다.” 2026년 2월, Apollo 수석 이코노미스트 Torsten Slok은 이 판단을 거의 그대로 반복했다: “AI는 어디에나 있지만, 유독 거시경제 데이터에는 없다.”

90%NBER 조사 6,000명 경영진
AI가 생산성에 영향 없다고 응답

95%MIT 보고서 GenAI 프로젝트
시험 단계를 넘지 못함

56%PwC 조사 CEO
AI 투자 “성과 제로”

$2.5T2026년 글로벌 AI
총 지출 규모

더욱 아이러니한 것은, METR이 숙련된 오픈소스 개발자를 대상으로 실시한 무작위 대조 실험에서 AI 도구가 실제로 업무 효율을 19% 낮추었다는 점이다—그러나 개발자 자신은 20% 빨라졌다고 인식했다. 인식과 현실 사이에 거의 40%포인트의 간극이 존재한다. ManpowerGroup 2026년 글로벌 조사에 따르면 AI 사용 빈도는 13% 증가했지만, AI 유용성에 대한 신뢰도는 오히려 18% 급락했다.

핵심 문제

업계 주류 설명은 두 가지 프레임워크에 집중되어 있다: 기술이 아직 미성숙하다(버블론), 또는 J커브 지연 효과(낙관론). 본 논문은 제3의 설명을 제시한다: 문제의 근원은 AI 기술 자체에 있지도, 단순한 시간 지연에 있지도 않으며, 전체 인간-기계 상호작용 시스템에 간과된 구조적 결함—양방향 블랙박스 문제—이 존재한다는 데 있다.

02 · 이론 프레임워크

양방향 블랙박스의 형식적 정의

Formal Definition of the Bidirectional Black Box (BBB)

AI 분야의 “블랙박스” 논의는 거의 전적으로 모델 측에 집중되어 왔다—입력이 들어가면 내부에서 어떻게 연산되는지 알 수 없다. 그러나 이것은 문제의 절반에 불과하다. 인간의 입력 측 역시 블랙박스다.

사용자 머릿속의 의도는 자연어 인코딩을 거쳐 AI에 전달된다. 이 인코딩 과정에는 심각한 정보 손실이 존재한다: 언어의 모호성, 암묵적 전제, 맥락 의존성, 사용자의 현재 인지 상태와 감정적 동요. 정보이론의 프레임워크로 형식적 정의를 제시할 수 있다:

Htotal(System) ≥ H(Input) + H(Model) + H(Input) × H(Model) × ρ

여기서 H(Input)는 인간 입력 측의 정보 엔트로피(불확실성), H(Model)은 모델 측의 정보 엔트로피,
ρ는 양측의 결합 계수이다. 양측 불확실성이 교차 결합될 때, 시스템 총 불확실성은 초선형적으로 증가한다.
이것은 단순한 덧셈 관계가 아니라—곱셈, 심지어 지수적 관계다.

인간 의도
H₁: 관측 불가

→

언어 인코딩
손실 압축 ΔH₂

→

AI 확률 추론
H₃: 모델 블랙박스

→

출력 결과
H₄ ≥ H₂ × H₃

→

인간 평가
H₅: 주관적 편향

정의 1 (입력 측 블랙박스): 인간 사용자의 의도에서 자연어로의 변환은 손실 압축 과정이며, 그 정보 손실량은 사용자의 인지 수준, 감정 상태, 도메인 지식, 언어 표현 정확도 등 다수의 제어 불가능한 변수에 의해 좌우되어, 예측 불가능한 입력 신호를 형성한다.

정의 2 (출력 측 블랙박스): 대형 언어 모델은 다음 토큰의 확률적 예측 방식으로 출력을 생성하며, RLHF 등 정렬 훈련은 특정 행동의 확률을 높였을 뿐 고정시킨 것이 아니므로, 출력에는 제거 불가능한 무작위성이 존재한다.

정의 3 (양방향 블랙박스 시스템): 입력 측 블랙박스와 출력 측 블랙박스가 직렬로 연결될 때, 시스템의 총 불확실성은 양측 불확실성의 단순 합이 아니라, 결합 효과를 통해 초선형적으로 증폭되어 “양방향 블랙박스 시스템”(BBB System)을 형성한다.

정의 4 (평가 측 편향): BBB 시스템의 평가자(인간 사용자)는 동시에 입력 측 블랙박스의 생산자이기도 하며, 그의 심리적 기본 설정(외부 귀인 편향, 이해득실 본능)은 시스템 내 자신의 책임을 객관적으로 성찰하는 것을 불가능하게 하여, 평가 결과가 체계적으로 모델 측에 편향되게 만든다.

이론적 의의

BBB 이론은 간과되어 온 인식론적 난제를 드러낸다: 인간-기계 상호작용 시스템에는 확정적 통신 채널이 존재하지 않는다. 인간의 언어를 대형 모델에 입력하면, 아무리 정확하고 프로그래밍적이더라도 “확률적 경향”으로 격하된다. 이것은 프롬프트 엔지니어링으로 해결할 수 있는 문제가 아니라, 전체 인간-기계 상호작용 패러다임의 아키텍처적 천장이다.

03 · 기업 현장의 목소리

일선 사용자의 불만: 집계 데이터에 지워진 진짜 경험

The Enterprise User Voice — Real Experiences Erased by Aggregated Data

거시적 조사 데이터는 종종 기업의 AI에 대한 불만을 하나의 백분율로 단순화한다. 그러나 일선 사용자의 구체적 피드백이야말로 BBB 이론의 가장 직접적인 실증이다. 다음은 2025-2026년간 기업 현장에서 가장 집중된 6가지 유형의 불만이다:

불만 1: AI가 업무량을 줄인 게 아니라 늘렸다.

ActivTrak 2026 행동 데이터 보고서

AI 도입 후 직원의 이메일 처리 시간이 104% 증가, 인스턴트 메시징 145% 증가, 관리 도구 사용 94% 증가했다. AI로 인해 시간이 절약된 업무 범주는 단 하나도 없었다. 보고서 원문: “데이터는 명확하다—AI는 업무량을 줄이지 않았다.” 직원들은 늘어난 일상 업무를 처리하기 위해 심층 사고 시간을 희생해야 했다.

불만 2: 경영진과 직원의 체감이 정반대다.

Checkr 2026 조사 · MetLife 2026 보고서

관리자의 40%가 AI 출력을 신뢰하는 반면, 직원 중에서는 단 9%만 신뢰했다. 59%의 직원은 업무 중 AI 출력을 거의 또는 전혀 신뢰하지 않는다고 답했다. MetLife는 HR 관리자의 83%가 AI가 직원을 더 빠르게 만든다고 답했지만, 67%가 동시에 AI가 “새로운 마찰과 불신을 만들고 있다”고 인정했다. 경영진은 대시보드의 효율 수치를 보고, 직원은 매일 더 처리해야 하는 쓰레기를 본다.

불만 3: AI 도구 4개 이상 사용하면 두뇌가 과부하된다.

보스턴컨설팅그룹 2026 연구

AI 도구 3개 이하를 사용하는 직원은 효율 향상을 자가 보고했으나, 4개 이상 사용하는 직원은 효율이 급락했다. 연구자들은 이를 “AI brain fry”라 명명했다—인지 부하가 뇌의 처리 능력을 초과한 것이다. 직원 피드백: “일이 너무 빠르게 진행되고, 모든 정보를 처리하고 모든 결정을 내릴 인지 능력이 부족합니다.”

불만 4: AI 고객 서비스가 없는 것보다 더 나쁘다.

Glance 2026 CX 보고서 · 소비자 피드백

소비자의 75%가 AI 고객 서비스에 좌절감을 느꼈다. Zomato 사용자는 긴급 상황에서 AI 고객 서비스로부터 쿠폰을 받았다. Eventbrite 사용자들은 Trustpilot에서 대규모로 불만을 제기했다. 기업이 AI 고객 서비스를 도입한 후, 고객이 체험한 것은 더 많은 순환, 막다른 길, 반복 설명—신뢰는 지속적으로 하락했다.

불만 5: 가장 큰 리스크는 직원 자신의 사용 행동에서 온다.

Optro 2026 리스크 보고서

지난 12개월간 40%의 기업이 AI 출력 부정확을 보고했고, 33%는 정책 위반을, 28%는 AI 관련 고객 불만을 접수했다. 가장 주요한 리스크 원천은 모델이 아니라—34%의 응답자가 직원이 AI 도구에 민감한 데이터를 입력하는 것이 가장 큰 리스크 행동이라고 답했다. 21%는 교육 부족, 21%는 “일정 압박”을 원인으로 지목했다.

불만 6: AI를 사용하는 사람이 사회적 처벌을 받는다.

Duke 대학교 연구 · Gallup 2026

직장에서 AI를 사용하는 사람은 동료로부터 “편법으로 일하는 사람”으로 인식된다. 미국 성인의 64%가 “가능한 한 오래” AI 사용을 피할 계획이다. 직원의 31%는 회사의 AI 추진에 적극적으로 저항하고 있다. CEO의 45%는 대부분의 직원이 AI에 대해 저항적이거나 공개적으로 적대적이라고 인정한다.

BBB 프레임워크를 통한 해석

이 6가지 불만은 고립된 현상이 아니다—BBB 시스템 오작동의 각기 다른 증상이다. 불만 1과 3은 출력 측 노이즈 증폭의 직접적 결과다. 불만 2는 평가 측 편향의 발현이다. 불만 4는 저품질 입력(모호한 고객 문의)이 확률적 출력과 만난 필연적 결과다. 불만 5는 입력 측 통제 실패의 증거다. 불만 6은 평가 측의 사회심리적 반응이다. 모든 불만은 동일한 체계적 근인을 가리킨다: 아무도 인간-기계 상호작용의 양방향 품질을 측정하고 관리하지 않고 있다.

04 · J커브와의 대화

J커브는 무엇을 설명할 수 있고, 무엇을 설명할 수 없는가?

What the J-Curve Explains — And What It Cannot

Brynjolfsson 등 경제학자들이 제안한 “생산성 J커브”는 현재 AI 생산성 역설을 설명하는 주류 학술 프레임워크다. 이 이론은 범용기술(GPT)이 도입 초기에 생산성의 일시적 하락을 야기하는데, 이는 기업이 자원을 생산에서 무형자산 축적(프로세스 재설계, 데이터 거버넌스, 조직 학습)으로 전환하기 때문이며, 이러한 투자는 전통적 GDP 통계에 포착되지 않지만 “수확기”에 생산성 도약으로 방출된다고 주장한다.

MIT Sloan의 미국 제조업 기업 미시적 연구는 J커브의 존재를 확인했다: AI 도입 후 평균 생산성이 1.33%포인트 하락했으며, 선택 편향을 보정하면 단기 부정적 영향은 약 60%포인트에 달했다. 그러나 4년 이상 지속한 기업 중 60% 이상이 최종적으로 25% 이상의 생산성 향상을 달성했다. 젊은 기업이 오래된 기업보다 빠르게 회복했다.

J커브 이론의 설명력과 한계:

차원	J커브가 설명할 수 있는 것	J커브가 설명할 수 없는 것
생산성 하락	초기 조직 조정 비용으로 인한 일시적 하락	동일 기업 내 직원마다 AI 사용 효과가 왜 크게 다른지
시간 차원	역사적으로 GPT는 20-40년 후에야 거시 데이터에 나타남	AI 사용이 늘수록 직원 신뢰도가 왜 오히려 떨어지는지
기업 간 차이	디지털 성숙도 높은 기업이 더 빨리 회복	동일 기업, 동일 도구, 다른 직원의 출력 품질이 왜 크게 변동하는지
투자 수익	무형자산 축적에 시간이 필요	업무량이 왜 줄지 않고 104% 증가했는지
평가 문제	전통적 GDP 지표가 무형 투자를 포착하지 못함	관리자와 직원이 같은 도구에 대해 왜 정반대로 평가하는지

BBB 이론의 보완적 설명력: J커브는 생산성 하락을 조직 조정 비용으로 귀인한다—이것은 공급 측 설명이다. BBB 이론은 수요 측/사용 측의 설명을 보완한다: 조직 조정이 완료되더라도, 입력 측의 품질이 관리되고 정량화되지 않는 한, 시스템의 출력 품질은 안정될 수 없다. J커브는 “수확기”가 자연히 온다고 가정하지만, BBB 이론은 양방향 품질 문제가 해결되지 않으면 수확기가 무한히 지연될 수 있음을 지적한다—기업은 영원히 J커브의 바닥에서 맴돌게 될 수 있다.

이론적 위치 설정

BBB 이론은 J커브를 부정하지 않으며, J커브가 설명하지 못하는 부분을 설명한다: 왜 어떤 기업은 J커브 바닥에서 빠져나오고, 어떤 기업은 그러지 못하는가. 차이는 투자 규모나 시간의 길이에 있지 않고, 입력 측 품질을 관리하는 메커니즘을 구축했는지 여부에 있다. 수익을 거둔 12%의 기업(PwC 데이터)은 바로 깊은 조직 변혁을 수행한 기업이었다—본질적으로, 그들은 무의식적으로 입력 측 블랙박스 문제를 부분적으로 해결한 것이다.

05 · 평가 체계의 부재

주관적 체감 보고서: 잘못된 자로 잘못된 대상을 측정하다

Subjective “Feeling” Reports — Wrong Ruler, Wrong Target

현재 전 세계 AI 생산성 향상 조사에는 치명적인 방법론적 결함이 존재한다: 사용자에게 도구를 평가하게 하지만, 사용자 자신이 변수의 일부다. 이러한 보고서의 논리적 본질은 보정되지 않은 측정 도구로 정의되지 않은 지표를 측정하는 것이다.

부재 차원	구체적 문제	결과
입력 품질 기준선	좋은 프롬프트가 무엇인지 기준이 없음	AI 문제인지 사용자 문제인지 구별 불가
통제 변수	같은 과제에서 직원 간 입력 차이가 미측정	입력 품질이 출력에 미치는 영향 정량화 불가
분리 측정	산출물 중 모델 귀인 vs 입력 귀인 비율	유효한 인과 귀인 불가
인간 기준선	AI 도입 전 순수 인간 작업의 품질 변동 범위	비교 대상 없어 AI 효과 판단 불가
양방향 KPI	입력과 출력을 동시에 정량화하는 지표 부재	전체 평가 체계가 일방적

결과적으로, 모든 AI 사용 효과 조사는 “주관적 사용 + 주관적 평가 + 주관적 조사”의 절대적 주관적 관점의 “인간 체감” 보고서다. 평가자가 동시에 피평가 시스템 내의 변수이며, 인간의 이해득실 심리적 본능은 자신의 책임을 객관적으로 성찰하는 것을 불가능하게 만든다. 더 깊은 문제는—이 평가 체계를 누가 설계하는가? 역시 인간이다. 설계자 자신이 모든 편향을 가지고 있으며, 인간 측 변수를 포함시키는 것은 “우리 사람들이 부족하다”는 것을 인정하는 것과 같아, 조직 정치에서 거의 불가능하다.

06 · 산업 데이터

유료 전환 곤경과 토큰 블랙홀

The Paying User Ceiling and the Token Black Hole

9억ChatGPT 주간 활성 사용자

~5%무료→유료 전환율

$7,000억4대 빅테크 2026년
AI 인프라 투자

4%분기별 사용자 성장률
지속 둔화

95%의 사용자가 유료 결제를 하지 않는다. 유럽 ChatGPT 유료 지출은 2025년 5월부터 정체되었다. 4대 빅테크의 2026년 AI 인프라 투자는 $7,000억에 근접하지만, Microsoft의 AI 목표 매출은 $250억에 불과하여 투입과 산출의 격차가 지속적으로 확대되고 있다.

토큰 블랙홀 문제: 대량의 연산 자원이 비효율적 시나리오에 소비되고 있다—무료 사용자의 잡담, 저품질 입력이 생산하는 저품질 출력, 반복 질문, AI Slop 콘텐츠. 모델은 나쁜 질문을 거부하지 않는다—고비용 연산력을 투입해 처리할 가치가 없는 요청을 성실하게 처리한다. 중국 시장에서는 바이트댄스의 더우바오(豆包)가 대량의 사용자 음란 메시지로 인해 빈번한 계정 차단을 실시했다. xAI의 Grok은 정반대 극단으로 치달았다—성인 콘텐츠를 개방한 후 12명의 공동 창립자 중 2명만 남았고, 35개 주 법무장관이 공동으로 시정을 요구했으며, 다수 국가가 차단 또는 조사 중이고, 기업 고객은 전면 회피했다.

이것들은 개별 사건이 아니다—BBB 시스템의 상업적 차원에서의 직접적 발현이다: 제대로 사용하지 못하면→돈을 쓰지 않고→모델은 고품질 사유 데이터가 부족하여→강해지지 못하고→더더욱 제대로 사용하지 못한다. 연산력이 인간의 무료함과 욕망에 대가를 치르고 있을 뿐, 상업적 가치를 창출하지 못하고 있다.

07 · 구조조정 역설

AI 비용 절감의 자기 순환

AI Cost-Cutting’s Self-Referential Loop

2026년 1분기 기술 업계에서 이미 45,000명 이상이 해고되었으며, 약 20%가 명시적으로 AI에 귀인되었다. 그러나 해고는 AI 관련 기업과 기술 회사 내부에 고도로 집중되어 있다: Block은 4,000명(40%) 감축, Atlassian은 1,600명(10%) 감축, Meta는 20% 감축 계획. Oxford Economics 분석가는 일부 기업이 AI를 구조조정의 “포장지”로 사용하고 있다고 의심한다.

AI가 진정으로 비용을 절감하고 효율을 높이는 영역은 AI 연구개발 자체다—AI로 코드를 작성하고, 모델을 최적화하고, 주니어 프로그래머를 대체한다. 이것은 폐쇄 루프다: AI 산업이 AI로 AI 산업을 최적화한다. 그러나 비AI 기업의 사용 측에서는 성공 사례가 드물다. BCG에 따르면 실패 기업은 평균 6.1개의 AI 유스케이스를 동시에 추진하는 반면, 성공 기업은 3.5개에 불과하지만 후자의 예상 ROI는 2.1배 높다. 직원의 4분의 1에게조차 AI 스킬 교육을 실시한 기업은 3분의 1 미만이다. 가장 결정적인 것은—대부분의 기업이 AI의 재무 KPI를 전혀 추적하지 않는다는 점이다.

08 · 버블인가, 여명인가? — 양방향 증거 제시

독자가 스스로 균형점을 찾도록

Bubble or Dawn? — Bidirectional Evidence for the Reader to Judge

본 논문의 핵심 주장은: 일방향 정보가 일방향 판단을 낳는다는 것이다. AI 버블론자는 현장 실패 데이터만 보고, AI 낙관론자는 기술 진보 곡선만 본다. 양쪽 모두 장님이 코끼리를 만지는 것과 같다. 본 논문이 일방향 평가를 비판하는 이상, 논문 자체가 독자를 대신해 결론을 내려서는 안 된다. 이하에서 버블론과 낙관론의 핵심 논거를 양방향으로 제시하며, 독자가 스스로 판단하기를 바란다.

논거 1: 자본 구조

버블론이 보는 것

AI 생태계에 순환 투자가 존재한다—Microsoft가 OpenAI에 투자, OpenAI가 CoreWeave에서 연산력 구매, CoreWeave가 NVIDIA GPU 임대, NVIDIA가 다시 OpenAI에 투자. Morgan Stanley는 동일 달러가 여러 대차대조표에서 중복 계산됨을 지적했다.

미국 4대 빅테크의 2026년 AI 인프라 투자가 $7,000억에 근접하지만, J.P. Morgan은 10% 수익을 위해 연간 $6,500억의 매출이 필요하다고 경고한다. OpenAI는 8년간 $1.4조를 데이터센터에 투자하겠다고 약속했지만, 연 매출은 $130억에 불과하다.

낙관론이 보는 것

현재 AI 투자 주체는 Microsoft(연간 현금흐름 $1,600억), Google, Amazon, Meta—이들은 손실을 감당할 수 있으며, 오랜 기간 감당할 수 있다. 2000년 닷컴 투자 주체는 개인 투자자와 중소 벤처였고, 세 번의 펀딩이 소진되면 도산했다. 자본 내구력이 완전히 다르다.

NVIDIA FY2026 매출 $2,159억(+65% YoY), 시가총액 $4.3조. S&P 500 선행 P/E ~23배로 2000년 나스닥의 ~60배보다 훨씬 낮다. 오늘날의 밸류에이션은 실질적 수익에 기반한다.

논거 2: 매출 성장

버블론이 보는 것

ChatGPT 9억 주간 활성 사용자에 유료 전환율 ~5%에 불과. 유럽 유료 지출은 2025년 5월부터 정체. 분기 성장률 4%로 둔화. 기업 GenAI 지출 $370억이나 95% 기업이 제로 수익. API 가격 전쟁 40-70% 할인—가격 전쟁은 성장 정체의 고전적 신호다.

낙관론이 보는 것

Anthropic 연환산 매출이 $10억(2024.12)에서 $190억(2026.3)으로 14개월 만에 19배 성장—B2B 소프트웨어 역사상 전례가 없다. Claude Code는 출시 9개월 만에 연환산 $25억. Fortune 10 중 8개 기업이 Claude 고객. Ramp 플랫폼에서 기업의 1/5이 Anthropic에 결제하며, 1년 전에는 1/25에 불과했다.

논거 3: 생산성 증거

버블론이 보는 것

NBER 6,000명 경영진 조사: 90%가 AI가 생산성에 영향 없다고 응답. METR 실험: AI가 개발자를 19% 느리게 만듦. 영국 Copilot 시험: Excel은 더 느리고 품질도 저하, PPT는 더 빠르지만 품질 하락. ActivTrak 데이터: 이메일 시간 +104%, 어떤 범주에서도 시간 절약 없음.

낙관론이 보는 것

Brynjolfsson 추산 2025년 미국 생산성 증가율 ~2.7%, 10년 평균의 약 2배. MIT 제조업 연구가 J커브를 확인: 초기 1.33pp 하락, 4년 지속 기업의 60% 이상이 25% 이상 향상 달성. 소수의 “파워 유저”가 이미 엔드투엔드 워크플로우 자동화를 실현. GitHub 공개 커밋의 4%가 Claude Code로 작성.

논거 4: 역사적 유사성

버블론이 보는 것

2000년 Barron’s 커버 스토리: 207개 인터넷 기업의 74%가 현금흐름이 마이너스, 51개 기업이 12개월 내 자금 소진 예정. 나스닥은 이후 78% 폭락, $5조 시가총액 증발. Bank of America 최신 조사: 대다수 글로벌 펀드 매니저가 AI 주식을 “버블”로 평가.

낙관론이 보는 것

2000년 닷컴 기업 중 14%만 흑자였지만, 오늘날 대형 AI 투자자는 세계에서 가장 수익성 높은 기업이다. Janus Henderson은 최소 8가지 구조적 차이(Y2K 효과, 감사 기준, 수요 가시성 등)를 지적했다. 조정이 일어나더라도 GPU 클러스터와 데이터센터는 2000년의 광케이블처럼—나중에 Web 2.0을 지탱했다.

저자 입장 선언

본 논문은 AI가 버블인지 여명인지 판정하지 않는다. 양측 논거 모두 데이터에 기반하며, 양측 모두 사각지대가 있다. 그러나 양측 모두가 간과한 변수가 하나 있음을 지적한다: AI가 버블이든 아니든, 양방향 블랙박스 문제는 실재하며, 자본이 충분하거나 기술이 돌파되더라도 자동으로 사라지지 않는다. 자본은 AI를 연명시킬 수 있고, 기술은 모델 능력을 향상시킬 수 있지만, 입력 측 품질이 관리되지 않고 평가 체계가 구축되지 않는 한, 시스템의 출력 품질은 안정될 수 없다. 이것은 버블 논쟁과 독립된 구조적 문제다. 또한 투명하게 선언한다: 본 논문의 AI 협력 파트너는 Anthropic 제품(Claude Opus 4.6)이며, 본문에서 인용한 Anthropic 성장 데이터는 Bloomberg, Sacra, Epoch AI 등 제3자 출처와의 교차 검증을 거쳤으나, 독자는 이 잠재적 이해 관계를 인지해야 한다.

과학 연구 진보의 비선형적 특성

독자가 버블론이든 낙관론이든, 양측 모두 인정해야 할 사실이 하나 있다: 과학 연구의 진보는 비선형적이다. 현재 AI 분야에서 최소 5개의 기술 경로가 병행 추진되고 있으며, 각각 다른 발전 단계에 있다:

기술 경로	현재 단계	잠재적 영향
멀티모달 융합	상용화 초기 (GPT-4o, Gemini 등 배포 중)	텍스트-이미지-동영상-음성 장벽 타파
추론 강화	빠른 반복 중 (o1/o3 시리즈)	모델의 심층 사고 및 다단계 추론 능력 변혁
Agent 아키텍처	PoC→초기 상용화 전환 중	인간-기계 상호작용 재정의: 대화에서 위임으로
구현 지능 (Embodied AI)	실험실→프로토타입 단계	디지털 세계와 물리 세계의 연결
신형 추론 칩	초기 상용화 (Groq, Cerebras)	추론 비용 구조의 재정의

어느 한 경로의 돌파구든 전체 산업의 비용 구조와 사용 패러다임을 바꿀 수 있다. 그러나 “바꿀 수 있다”와 “반드시 바꾼다”는 다르다. 현재 데이터로 선형 외삽하는 것은 방법론적 오류다—그 외삽이 붕괴를 가리키든 번영을 가리키든.

09 · 탐색 방향

양방향 실시간 평가 시스템: 개발 중인 프레임워크

BRTES: A Framework Under Development — Not a Finished Solution

BBB 이론과 기업 측 실증 데이터를 기반으로, 양방향 실시간 평가 시스템(Bidirectional Real-Time Evaluation System, BRTES)의 탐색 방향을 제안한다. 명확히 해야 할 점: 이것은 아직 개발 중인 개념적 프레임워크이지, 성숙한 솔루션이 아니다. 우리는 검증을 완료하지 않았으며, 답을 찾았다고 가장하지도 않는다. 이하는 방향성 사고이며, 산업계와 학계가 함께 탐색하기를 바란다.

제1층: 입력 품질 측정 레이어 (Input Quality Measurement Layer)

인간 사용자의 Input을 실시간으로 정량 평가하며, 핵심 측정 차원은 다음과 같다:

측정 차원	정의	구현 방식
의도 명확도	입력 지시의 모호성 점수	모델 확신도 역추론, 다의성 탐지
신호 대 잡음비	유효 정보와 잉여/노이즈의 비율	정보 밀도 분석, 키워드 추출률
맥락 완전도	과제 수행에 필요한 정보의 커버리지	필요 조건 검사, 누락 정보 안내
상태 안정성	동일 사용자의 시간대별 입력 품질 변동	이력 기준선 비교, 변동 폭 추적
도메인 적합도	입력과 목표 과제의 도메인 관련성	과제 분류기, 도메인 지식 검증

핵심 설계 원칙: 사후 채점이 아닌 실시간 피드백. AI가 모호한 지시를 감지하면 사용자에게 능동적으로 알린다—”이 입력의 신호 대 잡음비가 낮아서, 70% 확률로 빗나갈 수 있습니다. 추가 정보를 보충하시겠습니까?” 사후 평가를 실시간 교정 피드백 루프로 전환한다.

제2층: 출력 품질 측정 레이어 (Output Quality Measurement Layer)

AI의 Output을 객관적으로 수치화하여 평가하고, 입력 측과 양방향 비교 분석을 수행한다:

측정 차원	정의	구현 방식
과제 완수도	출력이 입력 의도에 얼마나 부합하는지	의도 정렬 점수, 요구사항 커버리지
사실 정확도	출력 내용의 사실적 정확률	지식 기반 검증, 인용 확인
일관성	같은 입력에 대한 시간별 출력 안정성	반복 테스트, 분산 분석
가치 밀도	유효 출력 정보와 총 토큰 수의 비율	정보량/토큰 비율 계산
제약 준수도	사용자 제약 조건에 대한 출력의 이행률	제약 조건 점검, 이탈률 계산

제3층: 양방향 비교 및 귀인 레이어 (Bidirectional Comparison & Attribution Layer)

입력과 출력의 측정 데이터를 횡적으로 비교하여 책임 귀인을 실현한다:

입력 품질 점수
Input Score

→

귀인 엔진
Attribution Engine

←

출력 품질 점수
Output Score

Result Quality = f(Input Quality, Model Capability, Task Complexity)

출력 품질이 낮을 때, 귀인 엔진이 자동으로 판단한다:
• 입력 품질 낮음 + 모델 능력 정상 → 사용자 측 문제 → 입력 개선 제안 트리거
• 입력 품질 높음 + 모델 능력 이상 → 모델 측 문제 → 모델 결함 기록
• 입력 품질 낮음 + 모델 능력 이상 → 양측 문제 → 시스템적 리스크 표기
기업은 이 데이터로 직원의 AI 사용 능력과 AI 도구의 실제 효능을 객관적으로 평가할 수 있다.

해결되지 않은 핵심 난제: 누가 구축하는가? 누가 동기를 갖는가?

BRTES의 최대 장애물은 기술이 아니라 조직 정치와 시장 인센티브에 있다. 대형 모델 회사는 자발적으로 구축하지 않을 것이다—출력 불안정성을 인정하면 기업가치에 영향이 가기 때문이다. 기업도 자발적으로 구축하지 않을 것이다—입력 측에 문제가 있다고 인정하는 것은 “우리 사람들이 부족하다”는 것을 인정하는 것과 같기 때문이다. 미디어도 추진하지 않을 것이다—극단적 내러티브가 체계적 분석보다 트래픽이 높기 때문이다. 이는 BRTES의 구축 주체가 독립 제3자 평가 기관, 학계-산업계 연합체, 또는 정부 표준 기관만이 될 수 있음을 의미한다. 그러나 이러한 주체들은 아직 움직이지 않고 있다.

더 깊은 저항은 인간 심리에서 온다: AI가 인간의 인지 능력과 표현 정확도를 평가하게 하는 것—이것은 심리적으로, 조직 정치적으로 거대한 도전이다. AI가 도구를 평가하는 것은 당연하게 여기지만, 반대로 AI가 인간의 입력 품질을 평가하게 하면 대부분의 사람은 본능적으로 저항한다. 이 저항은 기술 솔루션이 아무리 우아하더라도 사라지지 않는다.

정직한 선언

BRTES는 현재 탐색 중인 방향이지, 이미 검증된 솔루션이 아니다. 본 논문 저자의 실시간 평가 시스템은 아직 개발 중이다. 3층 아키텍처의 귀인 엔진이 개방형 과제에서 어떻게 구현될 수 있는지, 입력 품질의 정량화 기준이 어떻게 교차 시나리오 범용성을 확보할 수 있는지, 조직 정치적 저항을 어떻게 돌파할 수 있는지—이것들은 아직 답하지 못한 질문이다. 우리는 답을 찾은 척하기보다 이러한 미지를 정직하게 제시하기로 선택한다.

10 · 열린 사고

우리는 질문을 제기한다, 답을 가진 척하지 않는다

We Raise Questions — We Don’t Pretend to Have All the Answers

AI 지상주의와 AI 버블론은 같은 오류를 범한다—장님 코끼리 만지기. 한쪽은 모델 능력의 상한을 보고, 다른 한쪽은 현장 효과의 하한을 본다. 양쪽 모두 부분적 정보만 가지고 있으며, 인간 입력 측 변수에 대한 성찰이 결여되어 있다. 본 논문은 이 간과된 차원을 보완하고자 한다.

본 논문의 기여는 답을 제공하는 것이 아니라, 간과되어 온 질문의 집합을 제기하는 데 있다:

이론적 차원—BBB 이론은 인간-기계 상호작용 시스템에서 양측 불확실성의 초선형적 중첩을 밝혔다. 이것이 J커브가 커버하지 못하는 생산성 역설의 일부를 설명하기에 충분한가? 더 많은 실증적 검증이 필요하다.

실증적 차원—6가지 기업 측 불만이 BBB 시스템 오작동이 매일 발생하는 현실임을 증명한다. 그러나 이러한 불만이 정말로 입력 측 품질 문제를 가리키는지, 다른 설명이 있는지? 1차 대조 실험이 필요하다.

공학적 차원—BRTES의 3층 아키텍처는 하나의 방향이지만, 성숙한 솔루션과는 거리가 멀다. 귀인 엔진이 개방형 과제에서 작동할 수 있는가? 입력 품질 점수가 “KPI 게임화”로 이어지지는 않을까? 이러한 질문에 아직 답할 수 없다.

자본적 차원—버블론과 낙관론의 증거를 양방향으로 제시했다. 균형점이 어디인지는 우리가 판정하지 않는다. 그러나 AI가 버블 속에 있든 아니든, BBB 문제는 실재한다—이 점은 시장 주기의 영향을 받지 않는다.

본 논문의 한계: BBB 이론의 정보 엔트로피 공식은 정성적 기술 모델이며, 엄격한 정보이론적 도출이 필요하다; BRTES 3층 아키텍처는 실증 검증을 거치지 않았다; 중국 시장 사례의 깊이가 부족하며, BBB 이론이 다양한 정책 및 문화 환경에서의 적용 가능성은 추가 연구가 필요하다; 기업 측 불만 데이터는 대부분 산업 조사 보고서에서 기인하며 1차 실험 데이터가 아니다; 본 논문의 AI 협력 파트너는 Anthropic 제품이며, 관련 데이터 인용은 교차 검증을 거쳤으나 잠재적 이해 관계를 인지해야 한다. 이러한 한계는 동시에 미래 연구의 방향이기도 하다.

최종 사고 · 독자에게

본 논문의 가치는 AI가 성공할지 실패할지를 알려주는 데 있지 않다. 본 논문의 가치는 버블론과 낙관론 양쪽 모두가 간과한 구조적 변수—인간 입력 측의 품질—을 지적하는 데 있다. 기업 의사결정자라면, AI 도구를 평가하기 전에 먼저 당신의 팀이 AI에 무엇을 입력하고 있는지 성찰하라. AI 업계 종사자라면, 모델을 최적화하기 전에 먼저 사용자가 왜 제대로 사용하지 못하는지 생각하라. 투자자라면, AI 밸류에이션을 판단하기 전에 먼저 전체 산업이 AI 가치를 정량화할 수 있는 인프라를 구축했는지 고려하라. 두 블랙박스 사이에 투명한 프로토콜 레이어가 필요하다. 이 프로토콜은 아직 존재하지 않는다. 누가 구축하고, 어떻게 구축하고, 구축할 수 있는지—이것들은 열린 질문이며, 본 논문이 답할 수 있는 범위를 넘어선다. 그러나 적어도 한 가지는 확신할 수 있다: 이 질문을 제기하지 않으면, 영원히 아무도 답하지 않을 것이다.

References · 참고 문헌

NBER Working Paper (2026). Survey of 6,000 executives on AI impact on employment and productivity. NBER
METR (2026). Randomized controlled trial on AI tools and developer productivity: −19% actual vs. +20% perceived. PEER-REVIEWED
MIT GenAI Divide Report (2026). 95% failure rate of GenAI pilots beyond experimental phase. ACADEMIC
PwC 2026 Global CEO Survey. 56% report zero gains; 12% report dual cost-revenue benefits. INDUSTRY
Duke University / Federal Reserve CFO Survey (2026). Perceived vs. actual AI productivity gap. ACADEMIC
UK Department for Business and Trade. Microsoft 365 Copilot controlled trial — no productivity evidence. GOVERNMENT
ManpowerGroup 2026 Global Talent Barometer. AI use +13%, confidence −18%. INDUSTRY
ActivTrak 2026 Behavioral Data Report. Email time +104%, messaging +145%, zero time savings. INDUSTRY
Checkr / Pollfish Survey (Feb 2026). Manager AI trust 40% vs. employee trust 9%. INDUSTRY
MetLife 2026 Workplace Report. 83% say faster, 67% say “new friction and mistrust.” INDUSTRY
Boston Consulting Group (2026). “AI brain fry” — cognitive overload beyond 4+ tools. INDUSTRY
Glance 2026 CX Trends Report. 75% consumer frustration with AI customer service. INDUSTRY
Optro 2026 Risk Intelligence Report. 40% inaccurate outputs, 34% cite employee data input as top risk. INDUSTRY
Duke University (2025). Social penalty study — 4,400 participants, AI users perceived as “cutting corners.” ACADEMIC
Gallup (2026). 64% of U.S. adults plan to avoid AI “as long as possible.” INDUSTRY
Brynjolfsson, Rock & Syverson. “The Productivity J-Curve: How Intangibles Complement GPTs.” NBER WP 25148. FOUNDATIONAL
MIT Sloan / McElheran et al. (2025/2026). AI adoption J-curve in U.S. manufacturing. −1.33pp initial, 60% see 25%+ gains after 4yr. ACADEMIC
Apollo Chief Economist Torsten Slok (2026). “AI is everywhere except in the incoming macroeconomic data.” INDUSTRY
BCG (2026). Failing firms average 6.1 use cases vs. 3.5 for leaders; <1/3 upskilled 25% of workforce. INDUSTRY
Deutsche Bank Research Institute (2025). European ChatGPT spending stagnation since May 2025. INDUSTRY
Sacra Research (2026). OpenAI $25B ARR, Anthropic $19B ARR, paying user and revenue estimates. INDUSTRY
RationalFX / TNGlobal (2026). 45,000+ tech layoffs Q1 2026, 20.4% AI-attributed. MEDIA
Oxford Economics / Revelio Labs (2026). AI as pretext for corporate restructuring analysis. INDUSTRY
CNN / TechCrunch / CNBC (2026). xAI co-founder departures (10/12 left) and Grok controversy. MEDIA
NY State AG + 34 AG coalition (2026). Demand for xAI action on nonconsensual content. GOVERNMENT
Robert Solow (1987). “You can see the computer age everywhere but in the productivity statistics.” FOUNDATIONAL
Erik Brynjolfsson, FT (2026). “The AI productivity take-off is finally visible” — U.S. productivity ~2.7% in 2025. ACADEMIC
Cornell University / Zitek (2024). AI surveillance reduces employee autonomy and productivity. ACADEMIC
Anthropic (2026). Series G: $30B raised at $380B valuation. ARR $1B→$19B in 14 months. Claude Code $2.5B ARR in 9 months. INDUSTRY
Epoch AI (2026). Anthropic 10×/year growth vs. OpenAI 3.4×/year; crossover projected mid-2026 at ~$43B. ACADEMIC
SaaStr / Alex Clayton (2026). “We’ve looked at 200+ public software company IPOs — this growth rate has never happened.” INDUSTRY
IntuitionLabs (2025/2026). Data-driven comparison: AI bubble vs. dot-com bubble — capex, valuations, capital structure. INDUSTRY
Janus Henderson (2025). “8 reasons the AI wave is different” — Y2K, fraud standards, demand visibility, geopolitics. INDUSTRY
Barron’s (2000). “Burning Up” cover: 74% of 207 internet companies had negative cash flows. FOUNDATIONAL
Simply Wall St (2026). Dotcom P/E ~60× vs. current S&P 500 ~23×; today’s multiples supported by real earnings. INDUSTRY
NVIDIA FY2026. Revenue $215.9B (+65% YoY); market cap ~$4.3T; P/E ~47× vs. Cisco 2000 peak ~472×. INDUSTRY