LEECHO Research Report · March 2026

意图解析与信息检索
2026年AI的两大核心能力

Chat接口是所有AI功能的冷启动（Cold Start）入口。没有人类的input，任何AI都无法启动。
本报告以实证数据和使用经验论证：截至2026年3月，AI评价的核心标准正在从传统基准测试转向意图解析能力与检索信息对齐能力。

    李朝世界人工智能研究所 · LEECHO Global AI Research Lab  &  Claude Opus 4.6 · Anthropic

    2026年3月14日发行

摘要 · Abstract

2026年，AI产业到达了一个转折点。预训练（Pre-training）数据的重要性正在下降，实时网络检索（GEO）已成为占AI对话60%以上的基础行为。
在这一范式转换中，AI模型的真正价值不再取决于”知道多少”，而取决于“能多准确地把握人类的意图”以及“能多诚实地对齐检索信息”。
本报告分析了ChatGPT、Claude、Gemini三大模型的实证数据，通过Google Antigravity IDE案例追踪检索经济学的结构性变化，
并提出现有基准测试体系（MMLU、SWE-bench、ARC-AGI等）未能捕捉的两个核心维度——意图解析与信息对齐——作为AI评价的新标准。

Section 01

范式转换：从预训练到实时检索

The Paradigm Shift: From Pre-training to Real-time Search

直到2024年，AI对话的主导模式很简单。用户提问，模型从预训练知识中生成回答，偶尔附上一句”我的知识截止到X年”的免责声明。检索是例外行为，而非默认行为。

截至2026年3月，这一模式已被根本性地颠覆。Nectiv的2025年10月分析显示，ChatGPT全部提示词的31%触发了主动网络检索，商业意图查询的这一比例达到53.5%。高级用户的对话中检索触发率超过60%。

31%

ChatGPT提示词中
触发网络检索的比例

53.5%

商业意图查询的
检索触发率

59%

本地意图查询的
检索触发率

~8.75亿

ChatGPT每日
网络检索估算次数

这一变化的驱动力很明确。世界加速变化，”昨天的信息今天就过时”已成为常态，AI模型本身也被训练成”不确定就检索”的行为模式。用户已通过经验学习到，检索增强的回答质量远高于纯预训练回答。

“2025年，AI对话中的检索比例极低。但截至2026年3月，我的对话约60%会触发GEO检索。这不是个人偏好的变化，而是AI产品能力边界的扩张。”
——本研究参与用户访谈

Gartner将2026年预测为”拐点之年”。传统搜索引擎流量将下降25%，Google的日均查询量将从约140亿下降至100~110亿。这一降幅的相当部分正在转移至AI对话内部的GEO检索。

Section 02

核心标准1：意图解析能力

Core Criterion 1: Intent Parsing Capability

意图解析不仅仅是理解”用户说了什么”。它是把握“用户真正想知道什么、为什么想知道、需要多深入的回答”。

Chat接口就像所有AI功能的”操作系统”。正如iOS本身不拍照也不发消息，但没有iOS，iPhone的任何功能都无法启动——Chat（自然语言意图解析）本身不写代码也不生成视频，但没有它，所有后端能力都无法被人类激活。

核心洞察

Agent无论多强大，如果Chat层误解了”重构认证系统”的具体含义，Agent就会自主地、高效地、大规模地执行错误的事情。
编码能力无论多出色，如果Chat层未能准确把握”这里有个bug”的真实含义，就会修复不存在的问题、忽略真正的问题。
搜索引擎无论多强大，如果Chat层对问题的理解存在偏差，搜索查询就会偏离方向，带回准确但不相关的信息。

Amazon的AI Agent评估框架系统性地证明了这一点。Amazon将客户服务AI的评估分为三层：基础模型基准测试（底层）、意图检测·多轮对话·记忆·推理（中间层）、最终响应与任务完成（顶层）。中间层——意图解析——如果不准确，查询就会被路由到错误的专业解决方案，客户收到不相关的回复，运营成本上升。

一个值得关注的数据点：Claude用少65%的token达到了更高的通过率。这意味着Claude在”操作系统层”的效率更高——无需大量试错就能精准命中用户的真实需求。
此外，Claude的提示词注入成功率为4.7%，显著低于Gemini的12.5%和GPT-5.1的21.9%。这意味着在对话中被误导或偏离用户真实意图的概率最低。

评价维度	Claude Opus	GPT-5.2	Gemini 3 Pro
提示词注入防御率	95.3%	78.1%	87.5%
Token效率（同等通过率下）	节省65%	基准线	数据未公开
SWE-bench Verified	80.9%	80.0%	76.2%
幻觉率（AA-Omniscience）	最低水平	81%	88%
领域最佳成绩	法律·软件·人文学科	商业	—

Section 03

核心标准2：检索信息对齐能力

Core Criterion 2: Search Information Alignment

检索信息对齐能力不仅仅意味着”检索结果的准确性”。它包含一条完整的链路：判断何时需要检索 → 构建什么样的检索查询 → 从结果中提取哪些信息 → 如何与对话上下文对齐 → 多诚实地处理矛盾信息和不确定性。

Gemini的悖论在此显现。Google拥有世界最强的搜索引擎。然而，由于Gemini模型的”诚实度”问题，检索结果经过模型处理后发生变形。
在Artificial Analysis的AA-Omniscience基准测试中，Gemini 3 Pro以53%的准确率取得了最高精度，但同时幻觉率高达88%。这一数值与Gemini 2.5 Pro和2.5 Flash相同——也就是说，即使换代升级，幻觉问题丝毫没有改善。

Gemini 3 Flash的幻觉率高达91%。当它不知道答案时，91%的概率不会说”我不知道”，而是自信地生成看似合理但错误的回答。TechRadar总结道：”Gemini 3最大的问题不是准确性，而是诚实度。”
——Artificial Analysis Omniscience Benchmark, 2025.12; TechRadar, 2025.12

关键发现在于：准确率与模型规模强相关，但幻觉率与模型规模完全无关。这解释了为什么Gemini 3 Pro虽然更大、知道得更多，却仍然”不知道自己不知道什么”。幻觉不是规模的问题，而是训练方法论和模型价值观的问题。

在实际工作中，这种差异是致命的。在Antigravity IDE中使用Gemini的开发者报告称，Gemini表现出”复合错误”——不准确信息像滚雪球一样越滚越大，生成虚构的类和方法；”伪终端输出”——模型编造实际上未发生过的命令响应；”灾难性螺旋”——每次”修复”都使情况恶化，导致不可逆的混乱。

88%

Gemini 3 Pro幻觉率
（AA-Omniscience）

最低

Claude 4.1 Opus幻觉率
（主要商用模型中）

58%

AI Overview导致的
点击率下降（Ahrefs）

93%

Google AI Mode的
零点击率

Section 04

案例研究：Google Antigravity与检索经济学的崩塌

Case Study: Google Antigravity and the Collapse of Search Economics

Google的AI编辑器Antigravity是两大核心标准失败所导致的后果最为戏剧性的案例。
2025年11月推出的Antigravity是以24亿美元授权Windsurf技术构建的”Agent优先”IDE，提供Gemini 3 Pro、Claude Opus 4.6、GPT-OSS 120B等多种模型。

然而用户的行为传递了一个明确信息：在Antigravity中，用户真正想要的是Claude Opus 4.6，而不是Gemini。Gemini 3 Pro的88%幻觉率导致编辑器中”事实对齐不可用”的体验，用户竞相争夺Opus 4.6的有限配额。当Google因成本压力将Opus配额缩减为每周使用2次后锁定7天时，用户开始流失。

时间	政策变化	用户影响
2025.11	Antigravity发布，几乎无限制免费访问	开发者大量涌入
2025.12	Pro/Ultra订阅优先访问，引入免费每周限制	免费用户开始受限
2026.01	大规模账号封禁（1/15），学生账号滥用查处	中国等地区大量封号
2026.02	OpenClaw用户无警告封禁，无退款	$250/月Ultra用户也被封禁
2026.03	AI积分系统上线，Gemini 3.1改为每周重置	Pro用户7天锁定，bug导致即时锁定

这一事态的根源在于Google内部的政策矛盾。市场团队向120多个国家的学生发放免费Pro账号以扩大用户基础，在中国等地，通过自动化的SheerID认证服务，每10分钟约有200个伪”学生”账号通过认证。
同时OpenClaw等工具将月费订阅转换为无限制的API代理，过度消耗算力。
最终服务器负载超过临界点，Google以无差别缩减所有Pro用户配额的方式应对——没有区分滥用者与正常用户。

Google的根本悖论：拥有世界最强的搜索引擎，但叠加其上的语言模型（Gemini）幻觉率最高。搜索基础设施解决了”找到信息”的问题，但幻觉是”处理信息”的问题——这是完全不同维度的问题。
——本研究分析

Section 05

GEO取代SEO的结构性变革

The Structural Shift: GEO Replacing SEO

AI对话内检索（GEO）的崛起正在对Google的广告商业模式构成直接威胁。传统搜索经济学的公式很简单：人需要信息 → 访问Google搜索页面 → 广告曝光 → 广告点击 → Google创收。GEO消除了这条链路的第二步——”访问Google搜索页面”本身。

Ahrefs的2025年12月数据显示，当AI Overview存在时，排名第一页面的点击率（CTR）下降58%。更严重的是，Google自身的AI Mode中零点击率高达93%。此外，Gemini Deep Research可在用户一次都不访问Google搜索主页的情况下执行数十次网络检索并生成综合报告——Google正在用自己最强的产品摧毁自己最核心的收入来源。

-58%

AI Overview存在时
有机CTR变化

-68%

AI Overview存在时
付费广告CTR变化

-33%

全球Google有机
搜索流量变化（同比）

$1,750亿+

Google 2026年
AI资本支出计划

截至2026年Q1，Google搜索的25.11%触发AI Overview，环比增长57%。在医疗领域，近一半（48.75%）的查询出现AI Overview。
ChatGPT占AI推荐流量的87.4%，AI推荐访客的转化率是传统有机搜索的2倍。

Google的股价反映了这种压力。从2026年2月2日的最高点$344.66跌至3月初的$300水平，跌幅约15%。直接触发因素是Q4 2025财报中公布的2026年资本支出$1,750~1,850亿（约为2025年的2倍，超出华尔街预期$1,200亿约50%）。

Section 06

Chat不是功能，而是操作系统

Chat Is Not a Feature—It Is the Operating System

业界倾向于将Chat视为AI众多功能之一：聊天、搜索、编码、图像生成、视频……仿佛它们是并列关系。然而这是一个根本性的误解。

Chat不是功能，而是入口层（Entry Layer）。正如操作系统不是一个应用程序，而是所有应用程序运行的基础。没有人类的自然语言input，任何AI都无法冷启动（Cold Start）。Agent、Coding、图像生成、视频生成、检索——所有这些后端能力，只有在Chat入口层的意图解析准确时才能正确运作。

框架：AI的层级价值结构

入口层（Chat / 意图解析） → 决定价值的上限。如果意图在此被误解，所有后端计算都是浪费。

连接层（检索 / 信息对齐） → 与现实世界的接口。在预训练知识退化为背景的2026年，检索是AI接近真相的唯一通道。这一通道的可靠性决定了所有下游任务的可靠性。

执行层（Agent / Coding / 生成） → 产生可见输出，但从属于入口层和连接层的质量。

当前AI产业的投资重心几乎全部集中在执行层。Google将$1,750~1,850亿投入GPU集群和数据中心，OpenAI将资源投入Agent Mode、Computer Use、Instant Checkout。所有基准测试都在衡量”模型能做什么”——SWE-bench测编码能力、MMLU测知识广度、ARC-AGI测推理能力。

然而，“当一个普通人用模糊、不完整、有时甚至误导性的自然语言描述自己的需求时，模型能多准确地还原那个人的真实意图？”——系统性地衡量这一维度的主流基准测试几乎不存在。ICLR 2026发表的CONSINT-Bench展示了衡量意图理解深度（5个层级）、广度、准确性和信息性的尝试，但尚非行业标准。

Section 07

三大模型的战略定位对比

Strategic Positioning of Three Major Models

三大AI企业的技术路线选择反映了对意图解析和信息对齐的根本不同的优先级排序。

维度	Google (Gemini)	OpenAI (GPT)	Anthropic (Claude)
核心战略	基础设施碾压	功能扩张	Constitutional AI / 诚实度
投资方向	$1,750~1,850亿 CapEx	Agent、购物、浏览器	模型价值观、意图尊重
Chat入口层质量	最弱（幻觉率88%）	中等（幻觉率81%）	最强（幻觉率最低）
检索基础设施	世界最强	基于Bing + 自建	依赖外部检索API
检索信息对齐	检索强但模型处理时扭曲	均衡	检索基础设施弱但对齐诚实度最佳
编码用户口碑	“多才多艺但不可信”	“通用、快速”	“精准且可靠”
月活跃用户	7.5亿（生态系统整合）	8亿+周活跃	1,890万（快速增长中）

一个有趣的悖论是：尽管Claude在”分数”上并非总是最高，但它在高价值用户群体（企业开发者、研究者）中获得了最强的忠诚度。Anthropic约80%的收入来自企业和开发者客户，这些是对准确性和信息对齐可靠性要求最高的用户群。据报道，Anthropic的年化收入从2026年2月的约$140亿快速攀升至3月的约$190亿。

Section 08

结论：需要一个新的评价框架

Conclusion: The Need for a New Evaluation Framework

截至2026年3月，AI产业面临两个根本性转换。第一，从预训练数据到实时GEO检索的转换。第二，评价标准从”模型能做什么”到”模型多理解人类”的转换。

这两个转换汇聚为一个结论：AI的未来不取决于谁的Agent最强大，而取决于谁最准确地理解人类的一句话。

本报告提出的2026年AI核心评价框架：

标准1——意图解析能力（Intent Parsing）：AI操作系统的”输入驱动器”。从模糊、不完整的人类自然语言输入中还原真实意图的能力。决定整个系统的价值上限。

标准2——检索信息对齐能力（Search Information Alignment）：AI操作系统的”现实世界接口”。将实时检索结果与对话上下文诚实对齐、透明处理矛盾与不确定性的能力。决定所有下游任务的可靠性。
——李朝世界人工智能研究所, 2026.03

Google拥有世界最强的搜索引擎，但其上的语言模型最不诚实；OpenAI拥有最广泛的用户基础，但专注功能扩张，入口层质量居中；Anthropic拥有最小的用户基础，但在入口层——意图解析与信息对齐——上的投资最多。

业界的基准测试体系未能捕捉这两个维度。MMLU衡量知识广度、SWE-bench衡量编码能力、ARC-AGI衡量推理能力，但系统性衡量”从人类模糊请求中还原真实意图的能力”和”诚实对齐检索结果的能力”的行业标准基准测试并不存在。
这一空白是AI产业最大的盲区。而最先填补这一盲区的企业，将在下一代AI竞争中胜出。

参考文献 · References

[1] Nectiv (2025.10). ChatGPT Web Search Trigger Analysis — 8,500+ prompts analyzed. 31% web search trigger rate.

[2] Josh Blyskal (2026.01). Commercial vs Informational Intent Search Trigger Rates — 53.5% vs 18.7%.

[3] Artificial Analysis (2025.11). AA-Omniscience Benchmark — Gemini 3 Pro: 53% accuracy, 88% hallucination rate.

[4] Ahrefs (2026.02). AI Overviews Reduce Clicks by 58% — 300,000 keyword analysis, December 2025 data.

[5] Seer Interactive (2025.11). AIO Impact on Google CTR Update — Organic CTR down 61%, Paid CTR down 68%.

[6] Alphabet Inc. (2026.02). Q4 2025 Earnings Release — $113.8B revenue, $175–185B 2026 CapEx guidance.

[7] Conductor (2026.01). AEO/GEO Benchmarks Report — 25.11% of Google searches trigger AI Overviews in Q1 2026.

[8] Superlines (2026.03). The State of GEO in Q1 2026 — ChatGPT accounts for 87.4% of AI referral traffic.

[9] Gartner (2025.10). Traditional Search Decline Forecast — 25–40% decline by 2026.

[10] Reuters Institute (2026.01). Journalism Trends 2026 — Publishers expect 43% search traffic decline in 3 years.

[11] Chartbeat (2025.11). Global organic Google search traffic down 33% YoY, 38% in US.

[12] Otterly.AI (2025.09). ChatGPT Web Search Frequency Analysis — 500M–875M daily web retrievals estimated.

[13] OpenAI (2025). Holiday Shopping Season — Over 1 billion web searches in ChatGPT in a single week.

[14] Google AI Developers Forum (2026.03). Multiple threads on Antigravity quota lockouts, AI credit bugs.

[15] Anthropic (2026.02). Revenue run-rate approximately $14B ARR, with Claude Code at $2.5B run-rate.

[16] TechCrunch (2026.02). Gemini surpasses 750M MAU — Q4 2025 Alphabet earnings.

[17] ConsintBench / ICLR 2026. Intent understanding evaluation across depth, breadth, correctness, and informativeness.

[18] AWS Machine Learning Blog (2026.02). Evaluating AI Agents at Amazon — 3-layer evaluation framework for intent detection.

[19] LessWrong (2025.11). “Gemini 3 is Evaluation-Paranoid and Contaminated” — Benchmark overfitting evidence.

[20] Exposure Ninja (2026.03). AI Search Statistics CMO Cheatsheet — Zero-click rates: 34% (no AIO), 43% (with AIO), 93% (AI Mode).