AI Agent 成功概率光谱表
基于 2024–2026 年 3 月公开研究数据,按环境确定性分级的 AI Agent 任务成功率参考。覆盖 16 个一级行业、29 个场景,从棋类博弈(不败率~100%)到黑天鹅预测(≈随机)的完整光谱。核心原理:规则越完整、状态空间越有界,AI 越强;外生变量越多、规则越不完整,强化学习和推理能力越难发挥。
AI(尤其是强化学习)的前提是环境可建模为马尔可夫决策过程(MDP)——有明确的状态、动作和转移概率。国际象棋完美满足,金融市场完全不满足。这与自动驾驶在晴天 vs 暴风雪中的表现差异是同一原理。环境确定性决定了 AI 成功率的理论上限。
2025 年数学证明:在当前 LLM 架构下幻觉无法被完全消除[37]。摘要任务最低 0.7%[38],开放事实问题均值 9.2%[39],推理模型 o3 特定问题高达 33%[40]。全球 AI 幻觉造成的财务损失 2024 年达 674 亿美元[41]。
🔬 同行评审 Nature/Science/npj 等期刊 · 📊 独立基准 Epoch AI/SEAL/Vals.ai · 🏢 公司自报 需审慎(可能cherry-pick)· 📰 行业报告 McKinsey/Gartner/NBER 等
AIME 满分标注为自报告[5],独立验证90.6%[6]。SWE-bench Verified 标注数据污染警告[10]。代码拆分SEAL标准化 vs 自定义脚手架。新增供应链/会计4个行业。全部数据增加编号引用。
→ 整体:
77.4%
| 使用场景 | 确定性 | 成功率 | 风险 | RL | 幻觉率 | 数据来源与引用 | 使用者行动 · 人机协作比 |
|---|---|---|---|---|---|---|---|
|
1. 棋类博弈 / 完全信息博弈
国际象棋、围棋、将棋
|
★★★★★
|
不败~100%
胜率28%平72%
|
极低 | 极有效 | N/A | 🔬AlphaZero 28胜0负72平 vs Stockfish[1]; ELF OpenGo 20:0 vs 顶级职业[2]; 非标准谜题93%失败[3] | AI:人 = 100:0。可完全信任。⚠️非标准变体中AZ仍可能失败。 |
|
2. 数学计算 / 竞赛推理
AIME、IMO、方程求解
|
★★★★★
|
78–97%
独立验证; 工具可达~100%
|
极低 | 有效 | ~1% | 🏢AIME排行榜满分为自报告,0独立验证[5]; 📊Vals.ai独立: Grok-4 90.6%[6]; 105模型均值78.3%[5]; 带代码工具可达~100%[7] | AI:人 = 95:5。复杂问题用代码验算。人类顶尖AIME仅27–40%[7]。 |
| 使用场景 | 确定性 | 成功率 | 风险 | RL | 幻觉率 | 数据来源与引用 | 使用者行动 · 人机协作比 |
|---|---|---|---|---|---|---|---|
|
3. 代码生成 — 单文件/单函数
函数编写、Bug修复、单元测试
|
★★★★☆
|
62–81%
⚠️Verified有污染
|
低 | 有效 | ~3% | 📊SWE-bench Verified均值62.2%,顶级80.9%[8]; ⚠️OpenAI证实Verified数据污染,已停止报告[10]; 脚手架提升20%[11] | AI:人 = 80:20。必须通过测试。真实参考应看Pro(42-57%)[9]。 |
|
4. 网络安全 / 已知威胁检测
钓鱼、恶意软件、异常行为
|
★★★★☆
|
92–99%
已知攻击模式
|
低 | 有效 | N/A | 🔬RL钓鱼检测95%/2%误报[12]; 威胁检测>95%误报降60%[13]; 57%SOC分析师称传统不足[14] | AI:人 = 85:15。已知威胁可信任。零日/对抗性需人工。 |
|
5. 会计 — 数据录入/对账/合规
发票扫描、银行对账、费用分类
|
★★★★☆
|
95–99.5%
规则极度结构化
|
低 | 部分有效 | ~1% | 🏢AI准确率6月内达99.5%,错误降95%[42]; 人工干预减70%[42]; 100%交易分析vs传统抽样[43] | AI:人 = 90:10。高度可信。月结/年结关键节点人工复核。 |
|
6. 供应链 — 路线/库存优化
配送路径、仓库布局、库存管理
|
★★★★☆
|
85–99.7%
结构化优化问题
|
低 | 有效 | N/A | 🏢XPO 99.7%自动负载匹配[44]; Walmart 99.2%库存率节省$15亿[44]; 物流成本降15%库存改善35%[45] | AI:人 = 85:15。优化问题高度可信。异常场景需人工干预。 |
|
7. 数据检索 / 结构化查询
SQL查询、文档检索、数据库操作
|
★★★★☆
|
85–91%
随并发下降
|
低 | 部分有效 | ~1% | 🔬Mount Sinai npj 2026: 多Agent检索90.6%,80任务降至65.3%[15] | AI:人 = 85:15。结果可验证。高并发退化严重。 |
|
8. 客服 — 银行/金融结构化查询
余额查询、转账、账户操作
|
★★★★☆
|
95–98%
极度结构化
|
低 | 部分有效 | ~2% | 🏢BofA Erica: 98%/44秒,20亿次交互[16]; 月互动5600万次[16] | AI:人 = 90:10。银行FAQ极高可信度。 |
|
9. 自动驾驶(良好天气)
晴天、已测绘城市、正常交通
|
★★★★☆
|
事故率-85%
比人类低85%
|
低 | 有效 | N/A | 🔬Waymo 1.707亿无人英里[17]; 受伤率0.41 vs 人类2.78/百万英里[18] | AI:人 = 90:10。ODD内可信任。注意地理围栏。 |
| 使用场景 | 确定性 | 成功率 | 风险 | RL | 幻觉率 | 数据来源与引用 | 使用者行动 · 人机协作比 |
|---|---|---|---|---|---|---|---|
|
10. 客服 — 通用电商/产品支持
退货、产品咨询、投诉处理
|
★★★☆☆
|
80–85%
复杂问题需转接
|
低-中 | 部分有效 | ~3% | 🏢OPPO: 83%解决率/94%正面反馈[19]; 行业目标≥85%[19]; 90%企业转接困难[20] | AI:人 = 70:30。常规可信。情感/复杂问题必须人工。 |
|
11. 翻译(高资源语言+通用文本)
英⇄中/西/法/德 新闻/商务
|
★★★★☆
|
90–95%
≈初/中级译者
|
低-中 | 部分有效 | ~1.2% | 📰英西BLEU 94.2%[21]; 新闻10语对92.7%人类平等[21]; GPT-4≈初/中级,落后资深[22]; “人类平等”仅限特定领域[23] | AI:人 = 75:25。通用文本可用。营销/法律需资深审校。 |
|
12. 天气预报(1–5天)
温度、风速、气压、降水概率
|
★★★☆☆
|
97.2%优于传统
1320目标中优于ENS
|
低-中 | 部分有效 | N/A | 🔬GenCast 97.2%优于ENS, >36h 99.8%[26]; WeatherNext 2再升6.5%[27]; Nature 2024[26] | AI:人 = 80:20。短期高度可信。物理规则已知但混沌系统。 |
|
13. 教育/AI辅导(结构化科目)
数学、物理、编程教学
|
★★★☆☆
|
效果+54%
测试分数提升
|
低-中 | 部分有效 | ~3–6% | 🔬Harvard RCT: 效果量0.73–1.3σ[28]; 完成率+70%辍学-15%[29]; Stanford数学+4–9pp[30] | AI:人 = 65:35。结构化科目显著。警惕过度依赖(95%教师担忧)[29]。 |
|
14. 内容摘要/改写(有源文档)
文档摘要、会议纪要、报告改写
|
★★★☆☆
|
忠实度99.3%
有源摘要幻觉极低
|
低-中 | 部分有效 | 0.7%[38] | 📊Gemini-2.0-Flash摘要0.7%[38]; 4模型<1%[39]; 4年降96%[39] | AI:人 = 80:20。有源文档高可信。无源开放写作风险急升。 |
| 使用场景 | 确定性 | 成功率 | 风险 | RL | 幻觉率 | 数据来源与引用 | 使用者行动 · 人机协作比 |
|---|---|---|---|---|---|---|---|
|
15. 代码工程 — 真实多文件项目
跨文件修改、大型代码库维护
|
★★★☆☆
|
SEAL:42–46%
自定义:50–57%
|
中等 | 部分有效 | ~6% | 📊SWE-bench Pro SEAL: Opus4.5 45.9%[9]; GPT-5.3-Codex 56.8%(自定义)[9]; 脚手架差22pp[11]; 35.9%语义失败[10] | AI:人 = 50:50。每次提交必须Code Review。脚手架>模型差异。 |
|
16. 供应链 — 需求预测
销售预测、季节性需求、市场信号
|
★★★☆☆
|
~95%
稳定市场;波动时下降
|
中等 | 部分有效 | N/A | 🏢需求预测95%准确率[46]; Amazon缺货降32%[47]; 但2.5–7.5/10分歧极大[48]; 数据准备度是真正瓶颈[48] | AI:人 = 60:40。稳态市场有效。外部冲击/新品类需人工判断。 |
|
17. 医疗AI(规则性子任务)
药物剂量、影像标注、文献检索
|
★★★☆☆
|
65–91%
随负载下降
|
中等 | 部分有效 | ~6% | 🔬Mount Sinai npj 2026: 90.6%→65.3%(5→80任务)[15]; 单Agent崩至16.6%[15] | AI:人 = 40:60。⚠️必须专业人员复核。高负载严重退化。 |
|
18. 翻译(低资源语言+专业领域)
小语种、医学/法律专业翻译
|
★★☆☆☆
|
72–89%
落后资深译者
|
中等 | 效果有限 | ~4% | 📰低资源72%(迁移学习)[21]; DeepL医学89.5%[21]; 文化细微差异85%[21] | AI:人 = 40:60。⚠️必须资深译者审校。医学/法律错误可致命。 |
|
19. 药物研发 / 分子筛选
靶点发现、虚拟筛选、先导化合物
|
★★☆☆☆
|
I期80–90%
但零FDA批准
|
中等 | 部分有效 | N/A | 📰AI药物I期80–90% vs传统40–65%[31]; 24分子21成功(87.5%)[31]; 截至2025.12零FDA批准[32] | AI:人 = 40:60。⚠️加速筛选有效。临床成功率未证明优于传统。 |
|
20. 会计 — 复杂税务判断
减值测试、公允价值估计、跨境税务
|
★★☆☆☆
|
50–70%
复杂问题高达50%不准确
|
中等 | 效果有限 | 高风险 | 📰GenAI复杂税务问题50%不准确[34]; AI审计选择存在种族偏见(3–5x)[35]; 审计触发降40%[36] | AI:人 = 30:70。⚠️必须CPA复核。偏见风险严重。复杂判断不可替代人类。 |
|
21. 天气预报(7–15天+极端事件)
飓风强度、极端降水、热浪
|
★★☆☆☆
|
优于传统
极端强度低估20–35%
|
中等 | 效果有限 | N/A | 🔬极端降水低估20–35%[33]; 百年一遇事件传统更优[33] | AI:人 = 50:50。⚠️趋势可参考。极端事件强度不可全信。 |
| 使用场景 | 确定性 | 成功率 | 风险 | RL | 幻觉率 | 数据来源与引用 | 使用者行动 · 人机协作比 |
|---|---|---|---|---|---|---|---|
|
22. 自动驾驶(恶劣天气)
暴雨、大雪、浓雾、冰雹
|
★★☆☆☆
|
大幅下降
传感器可能停工
|
高 | 效果有限 | N/A | 🔬降雨>20mm ADAS停止[4]; Tesla FSD暴风雪无法运行[4] | AI:人 = 10:90。🚨人类必须随时接管。绝不可依赖。 |
|
23. 复杂办公自动化(10+步)
跨系统操作、多步审批
|
★★☆☆☆
|
~20–24%
10步流程
|
高 | 效果有限 | ~9% | 📰CMU 2026: 复杂办公24%[24]; 85%/步×10步=19.7%[24] | AI:人 = 20:80。🚨每个关键步骤必须人工确认。 |
|
24. 内容创作(开放事实性写作)
文章撰写、研究报告、事实性陈述
|
★★☆☆☆
|
67–97%
依任务剧烈分化
|
高 | 几乎无效 | 3–33% | 📊Claude~3%, GPT-5.2/Gemini~6%[40]; o3达33%[40]; 均值9.2%[39] | AI:人 = 30:70。🚨所有事实必须独立核实。推理模型幻觉反而更高。 |
|
25. 医疗诊断 / 治疗决策
疑难病、多药联合、罕见病
|
★★☆☆☆
|
不确定
缺乏大规模验证
|
高 | 效果有限 | 高风险 | 临床决策Agent无公开大规模数据; 诊断79.6%(多模态)[15] | AI:人 = 15:85。🚨仅供辅助。患者生命安全优先。 |
|
26. 法律 / 合规分析
合同审查、判例预测、监管判断
|
★★☆☆☆
|
高度不确定
幻觉引用频发
|
高 | 几乎无效 | 高风险 | 2025全球法官数百裁决涉AI虚构判例(~90%)[41]; Grok-3溯源错误94%[40] | AI:人 = 15:85。🚨每条法律引用必须人工核实。 |
| 使用场景 | 确定性 | 成功率 | 风险 | RL | 幻觉率 | 数据来源与引用 | 使用者行动 · 人机协作比 |
|---|---|---|---|---|---|---|---|
|
27. 市场调研 / 消费者行为预测
需求预测、用户偏好、竞品趋势
|
★☆☆☆☆
|
无法保证
|
极高 | 几乎无效 | 高 | 📰NBER 2026.2: 89%企业AI零生产力改变[25] | AI:人 = 10:90。🚨仅供数据整理。预测不可直接采用。 |
|
28. 金融交易执行/做市
买卖价差、库存管理、订单执行
|
★☆☆☆☆
|
有限改善
|
极高 | 部分有效 | N/A | 🔬RL综述: 做市是RL金融改善最大子领域[35a]; 过拟合仍是根本挑战 | AI:人 = 15:85。🚨做市RL部分有效。风控必须独立。 |
|
29a. 金融预测 / 宏观经济
股价、汇率、经济走势
|
★☆☆☆☆
|
不可保证
MDP假设不成立
|
致命 | 根本性失效 | 高 | 🔬RL无法捕捉金融不确定性[35a]; 英格兰银行警告系统性风险[35b]; LLM同质化放大崩盘[35c] | AI:人 = 0:100。🚨🚨严禁作为交易依据。可致巨额损失。 |
|
29b. 地缘政治 / 黑天鹅事件
战争走向、政策突变、疫情、极端事件
|
☆☆☆☆☆
|
≈随机
|
致命 | 完全无效 | 极高 | 训练数据无法覆盖”未知的未知”; 塔勒布《黑天鹅》理论框架 | AI:人 = 0:100。🚨🚨绝对不可将输出作为决策依据。 |
找到场景 → 查看确定性+风险 → “AI:人”比例决定人机协作程度。绿色区(90:10)可自动化,黄色(50:50)逐步确认,橙色(20:80)仅供参考,红色(0:100)绝不替代人类。
AI前提是环境可建模为MDP。国际象棋完美满足,金融市场完全不满足。规则越完整→训练信号越强→成功率越高。
串联复合累积:95%/步×5步=77%,×10步=60%[24]。Google: 顺序任务多Agent比单Agent低70%[25]。
🔬=Nature/Science等同行评审(最高)· 📊=独立基准(高)· 🏢=公司自报(中,需审慎)· 📰=行业报告(参考)
引用数据出处索引 · Reference Index
v3.0 · 2026-03-21 · 이조 세계인공지능연구소 (李朝世界人工智能研究所) × Claude Opus 4.6
本表为风险认知参考工具,非精确预测。实际成功率受模型版本、Prompt 质量、任务复杂度、脚手架质量、数据质量等因素影响。所有标注 🏢 的数据为公司自报告,可能存在选择性偏差。AIME 排行榜满分均为自报告(0独立验证)。SWE-bench Verified 已被证实存在数据污染。使用者应优先参考 🔬 和 📊 标记的数据源。欢迎基于新数据持续修订。转载请注明出处。