LEECHO Research Report · March 2026

의도 해석과 정보 검색
2026년 AI의 두 가지 핵심 기능

Chat 인터페이스는 모든 AI 기능의 냉부팅(Cold Start) 입구이다. 인간의 input 없이는 어떤 AI도 작동할 수 없다.
본 보고서는 2026년 3월 현재, AI 평가의 핵심 기준이 기존 벤치마크에서 의도 해석 능력과 검색 정보 정렬 능력으로 전환되고 있음을 실증 데이터와 사용 경험을 통해 논증한다.

    이조글로벌인공지능연구소 · LEECHO Global AI Research Lab  &  Claude Opus 4.6 · Anthropic

    2026년 3월 14일 발행

Abstract · 초록

2026년 AI 산업은 전환점에 도달했다. 사전 학습(Pre-training) 데이터의 중요성이 감소하고, 실시간 웹 검색(GEO)이 AI 대화의 60% 이상을 차지하는 기본 행위로 자리잡았다.
이 패러다임 전환 속에서, AI 모델의 진정한 가치는 더 이상 “얼마나 많이 아는가”가 아니라 “인간의 의도를 얼마나 정확하게 파악하는가”와 “검색 정보를 얼마나 정직하게 정렬하는가”에 의해 결정된다.
본 보고서는 ChatGPT, Claude, Gemini 세 주요 모델의 실증 데이터를 분석하고, Google의 Antigravity IDE 사례를 통해 검색 경제학의 구조적 변화를 추적하며,
기존 벤치마크 체계(MMLU, SWE-bench, ARC-AGI 등)가 포착하지 못하는 두 가지 핵심 차원—의도 해석과 정보 정렬—을 AI 평가의 새로운 기준으로 제안한다.

Section 01

패러다임 전환: 사전학습에서 실시간 검색으로

The Paradigm Shift: From Pre-training to Real-time Search

2024년까지 AI 대화의 지배적 패턴은 단순했다. 사용자가 질문하면, 모델이 사전학습 지식에서 답을 생성하고, 가끔 “내 지식은 X년까지입니다”라는 면책조항을 덧붙이는 방식이었다. 검색은 예외적 행위였지, 기본값이 아니었다.

2026년 3월 현재, 이 패턴은 근본적으로 뒤집어졌다. Nectiv의 2025년 10월 분석에 따르면, ChatGPT 전체 프롬프트의 31%가 능동적 웹 검색을 트리거하며, 상업적 의도 쿼리의 경우 이 비율은 53.5%에 달한다. 고급 사용자의 경우 대화 중 검색 트리거 비율이 60%를 넘는 것으로 관찰된다.

31%

ChatGPT 프롬프트 중
웹 검색 트리거 비율

53.5%

상업적 의도 쿼리의
검색 트리거 비율

59%

로컬 의도 쿼리의
검색 트리거 비율

~8.75억

ChatGPT 일일
웹 검색 추정 횟수

이 변화의 원동력은 명확하다. 세상이 가속적으로 변화하면서 “어제의 정보가 오늘 이미 구식”이 되는 상황이 일상화되었고, AI 모델 자체도 “불확실하면 검색하라”는 행동 패턴으로 훈련되고 있다. 사용자들은 검색이 증강된 답변의 품질이 순수 사전학습 답변보다 훨씬 높다는 것을 경험적으로 학습했다.

“2025년에는 AI 대화 중 검색 비율이 극히 낮았다. 그러나 2026년 3월 현재, 내 대화의 약 60%가 GEO 검색을 트리거한다. 이것은 개인적 선호의 변화가 아니라, AI 제품 능력 경계의 확장이다.”
— 본 연구 참여 사용자 인터뷰

Gartner는 2026년을 “변곡점의 해”로 예측했다. 전통적 검색 엔진 볼륨이 25% 하락하고, Google의 일일 쿼리 수가 약 140억에서 100~110억으로 감소할 것으로 전망된다. 이 감소분의 상당 부분은 AI 대화 내부의 GEO 검색으로 이동하고 있다.

Section 02

핵심 기준 1: 의도 해석 능력

Core Criterion 1: Intent Parsing Capability

의도 해석은 단순히 “사용자가 무엇을 말했는가”를 이해하는 것이 아니다. 그것은 “사용자가 진정으로 무엇을 알고 싶어 하는가, 왜 알고 싶어 하는가, 얼마나 깊은 답변이 필요한가”를 파악하는 것이다.

Chat 인터페이스는 모든 AI 기능의 “운영체제”와 같다. iOS가 그 자체로 사진을 찍거나 메시지를 보내지 않지만, iOS 없이는 iPhone의 어떤 기능도 시작될 수 없듯이, Chat(자연어 의도 해석)은 그 자체로 코드를 작성하거나 비디오를 생성하지 않지만, 그것 없이는 모든 후단 능력이 인간에 의해 활성화될 수 없다.

핵심 통찰

Agent가 아무리 강력해도, Chat 층이 “인증 시스템 리팩토링”의 구체적 의미를 잘못 이해하면, Agent는 자율적으로, 효율적으로, 대규모로 잘못된 일을 수행한다.
코딩 능력이 아무리 뛰어나도, Chat 층이 “여기 버그가 있다”의 정확한 의미를 파악하지 못하면, 존재하지 않는 문제를 수정하고 진짜 문제를 무시한다.
검색 엔진이 아무리 강력해도, Chat 층의 질문 이해에 편향이 있으면, 검색 쿼리가 빗나가 정확하지만 관련 없는 정보를 가져온다.

Amazon의 AI 에이전트 평가 프레임워크는 이 점을 체계적으로 입증한다. Amazon은 고객 서비스 AI의 평가를 세 층으로 구분한다: 기반 모델 벤치마킹(하단), 의도 탐지·다회차 대화·메모리·추론(중간), 최종 응답 및 작업 완수(상단). 중간 층—의도 해석—이 정확하지 않으면, 쿼리가 잘못된 전문 해결사로 라우팅되고, 고객은 관련 없는 응답을 받으며, 운영 비용이 증가한다.

주목할 데이터가 있다. Claude는 경쟁 모델 대비 65% 적은 토큰으로 더 높은 통과율을 달성한다. 이 수치는 Claude가 “운영체제 층”에서의 효율이 더 높다는 것을 의미한다—대량의 시행착오 없이도 사용자의 진정한 요구를 정확히 명중할 수 있다.
또한 Claude의 프롬프트 주입 성공률은 4.7%로, Gemini의 12.5%, GPT-5.1의 21.9%보다 현저히 낮다. 이는 대화 중 오도되거나 사용자의 실제 의도에서 이탈할 확률이 가장 낮다는 것을 뜻한다.

평가 차원	Claude Opus	GPT-5.2	Gemini 3 Pro
프롬프트 주입 방어율	95.3%	78.1%	87.5%
토큰 효율성 (동일 통과율 대비)	65% 절감	기준선	데이터 미공개
SWE-bench Verified	80.9%	80.0%	76.2%
환각률 (AA-Omniscience)	최저 수준	81%	88%
영역별 최고 성적	법률·SW·인문학	비즈니스	—

Section 03

핵심 기준 2: 검색 정보 정렬 능력

Core Criterion 2: Search Information Alignment

검색 정보 정렬 능력은 단순히 “검색 결과의 정확성”만을 의미하지 않는다. 그것은 완전한 체인을 포함한다: 언제 검색이 필요한지 판단 → 어떤 검색 쿼리를 구성할지 → 결과에서 어떤 정보를 추출할지 → 대화 맥락과 어떻게 정렬할지 → 모순 정보와 불확실성을 얼마나 정직하게 처리할지.

여기서 Gemini의 역설이 드러난다. Google은 세계 최강의 검색 엔진을 보유하고 있다. 그러나 Gemini 모델의 “정직도” 문제로 인해 검색 결과가 모델 처리를 거치며 변형된다.
Artificial Analysis의 AA-Omniscience 벤치마크에서 Gemini 3 Pro는 준확률 53%로 가장 높은 정확도를 기록했지만, 동시에 환각률 88%를 보였다. 이 수치는 Gemini 2.5 Pro 및 2.5 Flash와 동일하다—즉, 세대가 바뀌어도 환각 문제는 전혀 개선되지 않았다.

Gemini 3 Flash의 환각률은 91%에 달한다. 답을 모를 때, 91%의 확률로 “모르겠다”고 말하지 않고 그럴듯하지만 틀린 답을 자신감 있게 생성한다. TechRadar는 이를 “Gemini 3의 가장 큰 문제는 정확성이 아니라 정직성”이라고 요약했다.
— Artificial Analysis Omniscience Benchmark, 2025.12; TechRadar, 2025.12

핵심적 발견은 이것이다: 정확률은 모델 규모와 강하게 상관하지만, 환각률은 모델 규모와 전혀 상관하지 않는다. 이것은 Gemini 3 Pro가 더 크고 더 많이 알면서도 여전히 “모르는 것을 모르는” 이유를 설명한다. 환각은 규모의 문제가 아니라 훈련 방법론과 모델 가치관의 문제이다.

실무에서 이 차이는 치명적이다. Antigravity IDE에서 Gemini를 사용한 개발자들의 보고에 따르면, Gemini는 “복합 오류”—부정확한 정보가 눈덩이처럼 커져 환각된 클래스와 메서드를 생성—, “가짜 터미널 출력”—모델이 실제로 발생하지 않은 명령 응답을 발명—, “재앙적 나선”—각 “수정”이 상황을 악화시켜 되돌릴 수 없는 혼란을 초래—하는 패턴을 보인다.

88%

Gemini 3 Pro 환각률
(AA-Omniscience)

최저

Claude 4.1 Opus 환각률
(주요 상용 모델 중)

58%

AI Overview로 인한
클릭률 감소 (Ahrefs)

93%

Google AI Mode에서의
제로클릭 비율

Section 04

사례 연구: Google Antigravity와 검색 경제학의 붕괴

Case Study: Google Antigravity and the Collapse of Search Economics

Google의 AI 편집기 Antigravity는 이 두 가지 핵심 기준의 실패가 초래하는 결과를 가장 극적으로 보여주는 사례이다.
2025년 11월 출시된 Antigravity는 Windsurf 기술을 24억 달러에 라이선스하여 구축한 “에이전트 우선” IDE로, Gemini 3 Pro, Claude Opus 4.6, GPT-OSS 120B 등 다양한 모델을 제공했다.

그러나 사용자들의 행동은 명확한 메시지를 전달했다: Antigravity에서 사용자들이 실제로 원한 것은 Claude Opus 4.6이었지, Gemini가 아니었다. Gemini 3 Pro의 88% 환각률은 편집기의 “사실 정렬 불가” 경험으로 이어졌고, 사용자들은 Opus 4.6의 제한된 쿼타를 확보하기 위해 경쟁했다. Google이 비용 압박으로 Opus 쿼타를 주당 2회 사용 후 7일 잠금으로 축소하자, 사용자들의 이탈이 시작되었다.

시점	정책 변화	사용자 영향
2025.11	Antigravity 출시, 거의 무제한 무료 접근	개발자 대량 유입
2025.12	Pro/Ultra 구독 우선 접근, 무료 주간 제한 도입	Free 사용자 제한 시작
2026.01	대규모 계정 봉쇄 (1/15), 학생 계정 남용 적발	중국 등 대규모 계정 봉쇄
2026.02	OpenClaw 사용자 무경고 봉쇄, 환불 없음	$250/월 Ultra 사용자도 봉쇄
2026.03	AI 크레딧 시스템 도입, Gemini 3.1 주간 리셋으로 변경	Pro 사용자 7일 잠금, 버그로 즉시 잠금

이 사태의 근본 원인은 Google 내부의 정책 모순에 있다. 마케팅 팀은 120개국 이상의 학생에게 무료 Pro 계정을 발급하여 사용자 기반을 확대했고, 중국 등에서 자동화된 SheerID 인증 서비스를 통해 10분마다 약 200개의 가짜 “학생” 계정이 인증을 통과했다.
동시에 OpenClaw 같은 도구가 월정액 구독을 무제한 API 프록시로 변환하며 산출력을 과소비했다.
결과적으로 서버 부하가 임계점을 넘었고, Google은 모든 Pro 사용자의 쿼타를 무차별적으로 축소하는 것으로 대응했다—남용자와 정상 사용자를 구분하지 않은 채.

Google의 근본적 역설: 세계 최강의 검색 엔진을 보유하고 있지만, 그 위에 얹은 언어 모델(Gemini)의 환각률이 가장 높다. 검색 인프라는 “정보를 찾는” 문제를 해결하지만, 환각은 “정보를 처리하는” 문제이다—이것은 완전히 다른 차원의 문제이다.
— 본 연구 분석

Section 05

GEO가 SEO를 대체하는 구조적 변화

The Structural Shift: GEO Replacing SEO

AI 대화 내 검색(GEO)의 부상은 Google의 광고 기반 비즈니스 모델에 직접적 위협이 되고 있다. 전통적 검색 경제학의 공식은 단순하다: 인간이 정보를 필요로 함 → Google 검색 페이지 방문 → 광고 노출 → 광고 클릭 → Google 수익 창출. GEO는 이 체인의 두 번째 단계—”Google 검색 페이지 방문”—자체를 제거한다.

Ahrefs의 2025년 12월 데이터에 의하면, AI Overview가 존재할 때 1위 페이지의 클릭률(CTR)이 58% 하락했다. 더욱 심각한 것은 Google 자체의 AI Mode에서 제로클릭 비율이 93%에 달한다는 점이다. 또한 Gemini Deep Research는 사용자가 Google 검색 주페이지를 한 번도 방문하지 않고 수십 회의 웹 검색을 수행하여 종합 보고서를 생성한다—Google이 자사 최강의 제품으로 자사 최핵심 수익원을 파괴하고 있는 것이다.

-58%

AI Overview 존재 시
유기적 CTR 변화

-68%

AI Overview 존재 시
유료 광고 CTR 변화

-33%

전 세계 Google 유기적
검색 트래픽 변화 (YoY)

$1,750억+

Google 2026년
AI 자본 지출 계획

Q1 2026 기준으로, Google 검색의 25.11%가 AI Overview를 트리거하며 이는 전 분기 대비 57% 증가했다. 의료 분야에서는 거의 절반(48.75%)의 쿼리에서 AI Overview가 나타난다.
ChatGPT는 AI 추천 트래픽의 87.4%를 차지하며, AI 추천 방문자의 전환율은 전통적 유기 검색의 2배에 달한다.

Google의 주가는 이 압력을 반영하고 있다. 2026년 2월 2일 최고점 $344.66에서 3월 초 $300 수준으로 약 15% 하락했다. 직접적 촉발 요인은 Q4 2025 실적 발표에서 공개된 2026년 자본지출 $1,750~1,850억(2025년의 약 2배, 월가 예상 $1,200억 대비 50% 초과)이었다.

Section 06

Chat은 기능이 아닌 운영체제이다

Chat Is Not a Feature—It Is the Operating System

업계는 Chat을 AI의 다양한 기능 중 하나로 취급하는 경향이 있다: 채팅, 검색, 코딩, 이미지 생성, 비디오… 마치 이들이 병렬적 관계인 것처럼. 그러나 이것은 근본적인 오해이다.

Chat은 기능이 아니라 입구 층(Entry Layer)이다. 운영체제가 하나의 애플리케이션이 아니라 모든 애플리케이션이 실행되는 기반인 것과 같다. 인간의 자연어 input이 없으면, 어떤 AI도 냉부팅(Cold Start)될 수 없다. Agent, Coding, 이미지 생성, 비디오 생성, 검색—이 모든 후단 능력은 Chat 입구 층의 의도 해석이 정확할 때만 올바르게 작동한다.

프레임워크: AI의 계층적 가치 구조

입구 층 (Chat / 의도 해석) → 가치의 상한선을 결정. 여기서 의도가 잘못 해석되면 모든 후단 연산은 낭비.

연결 층 (검색 / 정보 정렬) → 현실 세계와의 인터페이스. 사전학습 지식이 배경으로 퇴화한 2026년, 검색은 AI가 진실에 접근하는 유일한 통로. 이 통로의 신뢰성이 모든 하류 작업의 신뢰성을 결정.

실행 층 (Agent / Coding / 생성) → 가시적 출력을 생산하지만, 입구 층과 연결 층의 품질에 종속.

현재 AI 산업의 투자 중심은 거의 전부 실행 층에 집중되어 있다. Google은 $1,750~1,850억을 GPU 클러스터와 데이터 센터에 투자하고, OpenAI는 Agent Mode, Computer Use, Instant Checkout에 자원을 쏟고 있다. 모든 벤치마크가 “모델이 무엇을 할 수 있는가”를 측정한다—SWE-bench는 코딩 능력, MMLU는 지식 범위, ARC-AGI는 추론 능력을.

그러나 “평범한 인간이 모호하고, 불완전하며, 때로는 오도적인 자연어로 자신의 필요를 설명할 때, 모델이 그 사람의 진정한 의도를 얼마나 정확하게 복원할 수 있는가?”를 체계적으로 측정하는 주류 벤치마크는 거의 존재하지 않는다. ICLR 2026에서 발표된 CONSINT-Bench가 의도 이해의 깊이(5단계), 범위, 정확성, 정보성을 측정하려는 시도를 보여주고 있으나, 아직 산업 표준은 아니다.

Section 07

세 모델의 전략적 포지셔닝 비교

Strategic Positioning of Three Major Models

세 주요 AI 기업의 기술 노선 선택은 의도 해석과 정보 정렬에 대한 근본적으로 다른 우선순위를 반영한다.

차원	Google (Gemini)	OpenAI (GPT)	Anthropic (Claude)
핵심 전략	인프라 압도	기능 확장	Constitutional AI / 정직성
투자 방향	$1,750~1,850억 CapEx	Agent, 쇼핑, 브라우저	모델 가치관, 의도 존중
Chat 입구 층 품질	가장 약함 (환각률 88%)	중간 (환각률 81%)	가장 강함 (환각률 최저)
검색 인프라	세계 최강	Bing 기반 + 자체	외부 검색 API 의존
검색 정보 정렬	검색은 강하나 모델 처리에서 왜곡	균형적	검색 인프라는 약하나 정렬 정직도 최상
코딩 사용자 평판	“다재다능하나 불신뢰”	“범용적, 빠름”	“정밀하고 신뢰할 수 있음”
월간 활성 사용자	7.5억 (생태계 통합)	8억+ 주간 활성	1,890만 (급성장 중)

흥미로운 역설은 Claude가 “점수”에서 항상 최고가 아님에도 불구하고, 고가치 사용자 그룹(기업 개발자, 연구자)에서 가장 강한 충성도를 획득하고 있다는 점이다. Anthropic의 수익 약 80%가 기업 및 개발자 고객에서 발생하며, 이들은 정확도와 정보 정렬 신뢰성에 대한 요구가 가장 높은 사용자군이다. Anthropic의 연간 수익 런레이트는 2026년 2월 약 $140억에서 3월 약 $190억으로 급상승한 것으로 보고되었다.

Section 08

결론: 새로운 평가 프레임워크의 필요성

Conclusion: The Need for a New Evaluation Framework

2026년 3월 현재, AI 산업은 두 가지 근본적 전환에 직면해 있다. 첫째, 사전학습 데이터에서 실시간 GEO 검색으로의 전환. 둘째, “모델이 무엇을 할 수 있는가”에서 “모델이 인간을 얼마나 이해하는가”로의 평가 기준 전환.

이 두 전환은 하나의 결론으로 수렴한다: AI의 미래는 누구의 Agent가 가장 강력한가에 의해 결정되는 것이 아니라, 누가 인간의 한마디를 가장 정확하게 이해하는가에 의해 결정된다.

본 보고서가 제안하는 2026년 AI 핵심 평가 프레임워크:

기준 1 — 의도 해석 능력 (Intent Parsing): AI 운영체제의 “입력 구동기”. 모호하고 불완전한 인간의 자연어 입력에서 진정한 의도를 복원하는 능력. 전체 시스템의 가치 상한선을 결정한다.

기준 2 — 검색 정보 정렬 능력 (Search Information Alignment): AI 운영체제의 “현실 세계 인터페이스”. 실시간 검색 결과를 대화 맥락과 정직하게 정렬하고, 모순과 불확실성을 투명하게 처리하는 능력. 모든 하류 작업의 신뢰성을 결정한다.
— LEECHO Global AI Research Lab, 2026.03

Google은 세계 최강의 검색 엔진을 보유하지만 그 위의 언어 모델이 가장 불성실하고, OpenAI는 가장 넓은 사용자 기반을 보유하지만 기능 확장에 집중하며 입구 층 품질은 중간이고, Anthropic은 가장 작은 사용자 기반을 보유하지만 입구 층—의도 해석과 정보 정렬—에 가장 많은 투자를 해 왔다.

업계의 벤치마크 체계는 이 두 차원을 포착하지 못하고 있다. MMLU는 지식 범위를, SWE-bench는 코딩 능력을, ARC-AGI는 추론 능력을 측정하지만, “인간의 모호한 요청에서 진정한 의도를 복원하는 능력”과 “검색 결과를 정직하게 정렬하는 능력”을 체계적으로 측정하는 산업 표준 벤치마크는 존재하지 않는다.
이 공백은 AI 산업의 가장 큰 맹점이다. 그리고 이 맹점을 먼저 채우는 기업이 다음 세대의 AI 경쟁에서 승리할 것이다.

References · 참고 문헌

[1] Nectiv (2025.10). ChatGPT Web Search Trigger Analysis — 8,500+ prompts analyzed. 31% web search trigger rate.

[2] Josh Blyskal (2026.01). Commercial vs Informational Intent Search Trigger Rates — 53.5% vs 18.7%.

[3] Artificial Analysis (2025.11). AA-Omniscience Benchmark — Gemini 3 Pro: 53% accuracy, 88% hallucination rate.

[4] Ahrefs (2026.02). AI Overviews Reduce Clicks by 58% — 300,000 keyword analysis, December 2025 data.

[5] Seer Interactive (2025.11). AIO Impact on Google CTR Update — Organic CTR down 61%, Paid CTR down 68%.

[6] Alphabet Inc. (2026.02). Q4 2025 Earnings Release — $113.8B revenue, $175–185B 2026 CapEx guidance.

[7] Conductor (2026.01). AEO/GEO Benchmarks Report — 25.11% of Google searches trigger AI Overviews in Q1 2026.

[8] Superlines (2026.03). The State of GEO in Q1 2026 — ChatGPT accounts for 87.4% of AI referral traffic.

[9] Gartner (2025.10). Traditional Search Decline Forecast — 25–40% decline by 2026.

[10] Reuters Institute (2026.01). Journalism Trends 2026 — Publishers expect 43% search traffic decline in 3 years.

[11] Chartbeat (2025.11). Global organic Google search traffic down 33% YoY, 38% in US.

[12] Otterly.AI (2025.09). ChatGPT Web Search Frequency Analysis — 500M–875M daily web retrievals estimated.

[13] OpenAI (2025). Holiday Shopping Season — Over 1 billion web searches in ChatGPT in a single week.

[14] Google AI Developers Forum (2026.03). Multiple threads on Antigravity quota lockouts, AI credit bugs.

[15] Anthropic (2026.02). Revenue run-rate approximately $14B ARR, with Claude Code at $2.5B run-rate.

[16] TechCrunch (2026.02). Gemini surpasses 750M MAU — Q4 2025 Alphabet earnings.

[17] ConsintBench / ICLR 2026. Intent understanding evaluation across depth, breadth, correctness, and informativeness.

[18] AWS Machine Learning Blog (2026.02). Evaluating AI Agents at Amazon — 3-layer evaluation framework for intent detection.

[19] LessWrong (2025.11). “Gemini 3 is Evaluation-Paranoid and Contaminated” — Benchmark overfitting evidence.

[20] Exposure Ninja (2026.03). AI Search Statistics CMO Cheatsheet — Zero-click rates: 34% (no AIO), 43% (with AIO), 93% (AI Mode).