v3.0 · 29 Scenarios · 16 Industries · 48 References

AI Agent 成功概率光谱表

基于 2024–2026 年 3 月公开研究数据,按环境确定性分级的 AI Agent 任务成功率参考。覆盖 16 个一级行业、29 个场景,从棋类博弈(不败率~100%)到黑天鹅预测(≈随机)的完整光谱。核心原理:规则越完整、状态空间越有界,AI 越强;外生变量越多、规则越不完整,强化学习和推理能力越难发挥。

Author 저자
이조(李朝 · LEECHO)
세계인공지능연구소 · World AI Research Lab
×
Co-Author 协作
Claude Opus 4.6
Anthropic · Research & Data Compilation
2026-03-21 · Incheon, Korea / San Francisco

⚡ 核心原理 · Environment Certainty Principle

AI(尤其是强化学习)的前提是环境可建模为马尔可夫决策过程(MDP)——有明确的状态、动作和转移概率。国际象棋完美满足,金融市场完全不满足。这与自动驾驶在晴天 vs 暴风雪中的表现差异是同一原理。环境确定性决定了 AI 成功率的理论上限。

⚠️ 幻觉率警告 · Hallucination Alert

2025 年数学证明:在当前 LLM 架构下幻觉无法被完全消除[37]。摘要任务最低 0.7%[38],开放事实问题均值 9.2%[39],推理模型 o3 特定问题高达 33%[40]。全球 AI 幻觉造成的财务损失 2024 年达 674 亿美元[41]

📊 数据来源可信度标记

🔬 同行评审 Nature/Science/npj 等期刊 · 📊 独立基准 Epoch AI/SEAL/Vals.ai · 🏢 公司自报 需审慎(可能cherry-pick)· 📰 行业报告 McKinsey/Gartner/NBER 等

🔄 v2→v3 关键修正

AIME 满分标注为自报告[5],独立验证90.6%[6]。SWE-bench Verified 标注数据污染警告[10]。代码拆分SEAL标准化 vs 自定义脚手架。新增供应链/会计4个行业。全部数据增加编号引用。

🧮 多步 Agent 复合衰减计算器


→ 整体:
77.4%
公式:(单步率)^步数。95%×10步=59.9%,85%×10步=19.7%[24]。Google Research: 独立并行Agent错误放大17.2倍[25]



ZONE 1 · 确定性极高 · 规则完备 · AI 可完全信任
使用场景 确定性 成功率 风险 RL 幻觉率 数据来源与引用 使用者行动 · 人机协作比
1. 棋类博弈 / 完全信息博弈
国际象棋、围棋、将棋
★★★★★
不败~100%
胜率28%平72%
极低 极有效 N/A 🔬AlphaZero 28胜0负72平 vs Stockfish[1]; ELF OpenGo 20:0 vs 顶级职业[2]; 非标准谜题93%失败[3] AI:人 = 100:0。可完全信任。⚠️非标准变体中AZ仍可能失败。
2. 数学计算 / 竞赛推理
AIME、IMO、方程求解
★★★★★
78–97%
独立验证; 工具可达~100%
极低 有效 ~1% 🏢AIME排行榜满分为自报告,0独立验证[5]; 📊Vals.ai独立: Grok-4 90.6%[6]; 105模型均值78.3%[5]; 带代码工具可达~100%[7] AI:人 = 95:5。复杂问题用代码验算。人类顶尖AIME仅27–40%[7]



ZONE 2 · 确定性高 · 规则明确 · 需验证但可高度依赖
使用场景 确定性 成功率 风险 RL 幻觉率 数据来源与引用 使用者行动 · 人机协作比
3. 代码生成 — 单文件/单函数
函数编写、Bug修复、单元测试
★★★★☆
62–81%
⚠️Verified有污染
有效 ~3% 📊SWE-bench Verified均值62.2%,顶级80.9%[8]; ⚠️OpenAI证实Verified数据污染,已停止报告[10]; 脚手架提升20%[11] AI:人 = 80:20。必须通过测试。真实参考应看Pro(42-57%)[9]
4. 网络安全 / 已知威胁检测
钓鱼、恶意软件、异常行为
★★★★☆
92–99%
已知攻击模式
有效 N/A 🔬RL钓鱼检测95%/2%误报[12]; 威胁检测>95%误报降60%[13]; 57%SOC分析师称传统不足[14] AI:人 = 85:15。已知威胁可信任。零日/对抗性需人工。
5. 会计 — 数据录入/对账/合规
发票扫描、银行对账、费用分类
★★★★☆
95–99.5%
规则极度结构化
部分有效 ~1% 🏢AI准确率6月内达99.5%,错误降95%[42]; 人工干预减70%[42]; 100%交易分析vs传统抽样[43] AI:人 = 90:10。高度可信。月结/年结关键节点人工复核。
6. 供应链 — 路线/库存优化
配送路径、仓库布局、库存管理
★★★★☆
85–99.7%
结构化优化问题
有效 N/A 🏢XPO 99.7%自动负载匹配[44]; Walmart 99.2%库存率节省$15亿[44]; 物流成本降15%库存改善35%[45] AI:人 = 85:15。优化问题高度可信。异常场景需人工干预。
7. 数据检索 / 结构化查询
SQL查询、文档检索、数据库操作
★★★★☆
85–91%
随并发下降
部分有效 ~1% 🔬Mount Sinai npj 2026: 多Agent检索90.6%,80任务降至65.3%[15] AI:人 = 85:15。结果可验证。高并发退化严重。
8. 客服 — 银行/金融结构化查询
余额查询、转账、账户操作
★★★★☆
95–98%
极度结构化
部分有效 ~2% 🏢BofA Erica: 98%/44秒,20亿次交互[16]; 月互动5600万次[16] AI:人 = 90:10。银行FAQ极高可信度。
9. 自动驾驶(良好天气)
晴天、已测绘城市、正常交通
★★★★☆
事故率-85%
比人类低85%
有效 N/A 🔬Waymo 1.707亿无人英里[17]; 受伤率0.41 vs 人类2.78/百万英里[18] AI:人 = 90:10。ODD内可信任。注意地理围栏。



ZONE 3 · 确定性中等偏高 · 规则部分已知 · 需人工复核
使用场景 确定性 成功率 风险 RL 幻觉率 数据来源与引用 使用者行动 · 人机协作比
10. 客服 — 通用电商/产品支持
退货、产品咨询、投诉处理
★★★☆☆
80–85%
复杂问题需转接
低-中 部分有效 ~3% 🏢OPPO: 83%解决率/94%正面反馈[19]; 行业目标≥85%[19]; 90%企业转接困难[20] AI:人 = 70:30。常规可信。情感/复杂问题必须人工。
11. 翻译(高资源语言+通用文本)
英⇄中/西/法/德 新闻/商务
★★★★☆
90–95%
≈初/中级译者
低-中 部分有效 ~1.2% 📰英西BLEU 94.2%[21]; 新闻10语对92.7%人类平等[21]; GPT-4≈初/中级,落后资深[22]; “人类平等”仅限特定领域[23] AI:人 = 75:25。通用文本可用。营销/法律需资深审校。
12. 天气预报(1–5天)
温度、风速、气压、降水概率
★★★☆☆
97.2%优于传统
1320目标中优于ENS
低-中 部分有效 N/A 🔬GenCast 97.2%优于ENS, >36h 99.8%[26]; WeatherNext 2再升6.5%[27]; Nature 2024[26] AI:人 = 80:20。短期高度可信。物理规则已知但混沌系统。
13. 教育/AI辅导(结构化科目)
数学、物理、编程教学
★★★☆☆
效果+54%
测试分数提升
低-中 部分有效 ~3–6% 🔬Harvard RCT: 效果量0.73–1.3σ[28]; 完成率+70%辍学-15%[29]; Stanford数学+4–9pp[30] AI:人 = 65:35。结构化科目显著。警惕过度依赖(95%教师担忧)[29]
14. 内容摘要/改写(有源文档)
文档摘要、会议纪要、报告改写
★★★☆☆
忠实度99.3%
有源摘要幻觉极低
低-中 部分有效 0.7%[38] 📊Gemini-2.0-Flash摘要0.7%[38]; 4模型<1%[39]; 4年降96%[39] AI:人 = 80:20。有源文档高可信。无源开放写作风险急升。



ZONE 4 · 确定性中等 · 规则不完整 · 每步需确认
使用场景 确定性 成功率 风险 RL 幻觉率 数据来源与引用 使用者行动 · 人机协作比
15. 代码工程 — 真实多文件项目
跨文件修改、大型代码库维护
★★★☆☆
SEAL:42–46%
自定义:50–57%
中等 部分有效 ~6% 📊SWE-bench Pro SEAL: Opus4.5 45.9%[9]; GPT-5.3-Codex 56.8%(自定义)[9]; 脚手架差22pp[11]; 35.9%语义失败[10] AI:人 = 50:50。每次提交必须Code Review。脚手架>模型差异。
16. 供应链 — 需求预测
销售预测、季节性需求、市场信号
★★★☆☆
~95%
稳定市场;波动时下降
中等 部分有效 N/A 🏢需求预测95%准确率[46]; Amazon缺货降32%[47]; 但2.5–7.5/10分歧极大[48]; 数据准备度是真正瓶颈[48] AI:人 = 60:40。稳态市场有效。外部冲击/新品类需人工判断。
17. 医疗AI(规则性子任务)
药物剂量、影像标注、文献检索
★★★☆☆
65–91%
随负载下降
中等 部分有效 ~6% 🔬Mount Sinai npj 2026: 90.6%→65.3%(5→80任务)[15]; 单Agent崩至16.6%[15] AI:人 = 40:60。⚠️必须专业人员复核。高负载严重退化。
18. 翻译(低资源语言+专业领域)
小语种、医学/法律专业翻译
★★☆☆☆
72–89%
落后资深译者
中等 效果有限 ~4% 📰低资源72%(迁移学习)[21]; DeepL医学89.5%[21]; 文化细微差异85%[21] AI:人 = 40:60。⚠️必须资深译者审校。医学/法律错误可致命。
19. 药物研发 / 分子筛选
靶点发现、虚拟筛选、先导化合物
★★☆☆☆
I期80–90%
但零FDA批准
中等 部分有效 N/A 📰AI药物I期80–90% vs传统40–65%[31]; 24分子21成功(87.5%)[31]; 截至2025.12零FDA批准[32] AI:人 = 40:60。⚠️加速筛选有效。临床成功率未证明优于传统。
20. 会计 — 复杂税务判断
减值测试、公允价值估计、跨境税务
★★☆☆☆
50–70%
复杂问题高达50%不准确
中等 效果有限 高风险 📰GenAI复杂税务问题50%不准确[34]; AI审计选择存在种族偏见(3–5x)[35]; 审计触发降40%[36] AI:人 = 30:70。⚠️必须CPA复核。偏见风险严重。复杂判断不可替代人类。
21. 天气预报(7–15天+极端事件)
飓风强度、极端降水、热浪
★★☆☆☆
优于传统
极端强度低估20–35%
中等 效果有限 N/A 🔬极端降水低估20–35%[33]; 百年一遇事件传统更优[33] AI:人 = 50:50。⚠️趋势可参考。极端事件强度不可全信。



ZONE 5 · 确定性低 · 外生变量多 · 仅供参考
使用场景 确定性 成功率 风险 RL 幻觉率 数据来源与引用 使用者行动 · 人机协作比
22. 自动驾驶(恶劣天气)
暴雨、大雪、浓雾、冰雹
★★☆☆☆
大幅下降
传感器可能停工
效果有限 N/A 🔬降雨>20mm ADAS停止[4]; Tesla FSD暴风雪无法运行[4] AI:人 = 10:90。🚨人类必须随时接管。绝不可依赖。
23. 复杂办公自动化(10+步)
跨系统操作、多步审批
★★☆☆☆
~20–24%
10步流程
效果有限 ~9% 📰CMU 2026: 复杂办公24%[24]; 85%/步×10步=19.7%[24] AI:人 = 20:80。🚨每个关键步骤必须人工确认。
24. 内容创作(开放事实性写作)
文章撰写、研究报告、事实性陈述
★★☆☆☆
67–97%
依任务剧烈分化
几乎无效 3–33% 📊Claude~3%, GPT-5.2/Gemini~6%[40]; o3达33%[40]; 均值9.2%[39] AI:人 = 30:70。🚨所有事实必须独立核实。推理模型幻觉反而更高。
25. 医疗诊断 / 治疗决策
疑难病、多药联合、罕见病
★★☆☆☆
不确定
缺乏大规模验证
效果有限 高风险 临床决策Agent无公开大规模数据; 诊断79.6%(多模态)[15] AI:人 = 15:85。🚨仅供辅助。患者生命安全优先。
26. 法律 / 合规分析
合同审查、判例预测、监管判断
★★☆☆☆
高度不确定
幻觉引用频发
几乎无效 高风险 2025全球法官数百裁决涉AI虚构判例(~90%)[41]; Grok-3溯源错误94%[40] AI:人 = 15:85。🚨每条法律引用必须人工核实。



ZONE 6 · 确定性极低 · 非平稳/外生冲击 · 不可作为决策依据
使用场景 确定性 成功率 风险 RL 幻觉率 数据来源与引用 使用者行动 · 人机协作比
27. 市场调研 / 消费者行为预测
需求预测、用户偏好、竞品趋势
★☆☆☆☆
无法保证
极高 几乎无效 📰NBER 2026.2: 89%企业AI零生产力改变[25] AI:人 = 10:90。🚨仅供数据整理。预测不可直接采用。
28. 金融交易执行/做市
买卖价差、库存管理、订单执行
★☆☆☆☆
有限改善
极高 部分有效 N/A 🔬RL综述: 做市是RL金融改善最大子领域[35a]; 过拟合仍是根本挑战 AI:人 = 15:85。🚨做市RL部分有效。风控必须独立。
29a. 金融预测 / 宏观经济
股价、汇率、经济走势
★☆☆☆☆
不可保证
MDP假设不成立
致命 根本性失效 🔬RL无法捕捉金融不确定性[35a]; 英格兰银行警告系统性风险[35b]; LLM同质化放大崩盘[35c] AI:人 = 0:100。🚨🚨严禁作为交易依据。可致巨额损失。
29b. 地缘政治 / 黑天鹅事件
战争走向、政策突变、疫情、极端事件
☆☆☆☆☆
≈随机
致命 完全无效 极高 训练数据无法覆盖”未知的未知”; 塔勒布《黑天鹅》理论框架 AI:人 = 0:100。🚨🚨绝对不可将输出作为决策依据。

如何使用这张表?

找到场景 → 查看确定性+风险 → “AI:人”比例决定人机协作程度。绿色区(90:10)可自动化,黄色(50:50)逐步确认,橙色(20:80)仅供参考,红色(0:100)绝不替代人类。

为什么成功率差异这么大?

AI前提是环境可建模为MDP。国际象棋完美满足,金融市场完全不满足。规则越完整→训练信号越强→成功率越高。

多Agent ≠ 更准确

串联复合累积:95%/步×5步=77%,×10步=60%[24]。Google: 顺序任务多Agent比单Agent低70%[25]

可信度标记说明

🔬=Nature/Science等同行评审(最高)· 📊=独立基准(高)· 🏢=公司自报(中,需审慎)· 📰=行业报告(参考)

引用数据出处索引 · Reference Index

[1] Silver, D. et al. “A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play.” Science, 362(6419), 1140–1144, 2018. AlphaZero vs Stockfish: 28胜0负72平。🔬
[2] Tian, Y. et al. “ELF OpenGo: An Analysis and Open Reimplementation of AlphaZero.” arXiv:1902.04522, 2019. 20:0 vs 全球顶级职业选手。🔬
[3] “Limitations in Planning Ability in AlphaZero.” NeurIPS 2024 Workshop on Behavioral ML. 非标准谜题93%失败率。🔬
[4] PMC/Sensors. “Analysis of Impact of Rain Conditions on ADAS.” 降雨>20mm传感器停止工作。Tesla FSD暴风雪限制来自ThinkAutonomous 2025分析。🔬
[5] llm-stats.com. “AIME 2025 Benchmark Leaderboard.” 105模型,均值0.783,全部self-reported,0独立验证。截至2026年3月。🏢
[6] Vals.ai. “AIME Benchmark.” 独立8次运行pass@1平均: Grok-4 90.6%, o3-Mini 86.5%。声明”无模型达到完美准确率”。📊
[7] IntuitionLabs. “AIME 2025 Benchmark Analysis.” GPT-4 o4-mini带Python沙箱~99.5%; 人类顶尖学生4–6/15(27–40%)。📰
[8] llm-stats.com. “SWE-Bench Verified Leaderboard.” 77模型,均值0.622,顶级Claude Opus 4.5 80.9%。截至2026年3月。🏢
[9] morphllm.com. “SWE-Bench Pro Leaderboard (2026).” SEAL标准化: Opus 4.5 45.9%; GPT-5.3-Codex自报56.8%。📊
[10] OpenAI审计. SWE-Bench Verified数据污染证实——前沿模型可逐字复现金标补丁。OpenAI已停止报告Verified分数。via morphllm.com/swe-bench-pro。📊
[11] Epoch AI. “What skills does SWE-bench Verified evaluate?” 2025. 脚手架差异可达20%+; 同模型不同脚手架22pp差距。📊
[12] MDPI Information. “AI-Driven Phishing Detection: Enhancing Cybersecurity with RL.” 2025. DQN: 95%准确率, 2%误报率。🔬
[13] Durotolu, G.A. “Leveraging AI and ML for threat detection in U.S. cybersecurity.” WJARR, 2025. 检测>95%,误报降60%。🔬
[14] Proofpoint. “2025 Voice of the CISO Report.” 57% SOC分析师称传统情报不足。📰
[15] Klang, E. et al. “Orchestrated multi agents sustain accuracy under clinical-scale workloads.” npj Health Systems, 3, 23, 2026. doi:10.1038/s44401-026-00077-0. 多Agent 90.6%→65.3%; 单Agent 73.1%→16.6%。🔬
[16] Desk365/Bank of America. Erica: 20亿次交互,98%在44秒内解决,月互动5600万次。2025。🏢
[17] Waymo Safety Impact Dashboard. 截至2025年12月1.707亿纯无人驾驶英里。waymo.com/safety/impact。🏢
[18] Waymo Blog, Dec 2023 + Traffic Injury Prevention 2025. 受伤事故率: Waymo 0.41 vs 人类 2.78/百万英里(降85%); 警报率低57%。🔬
[19] Sobot.io. “AI Chatbot Accuracy 2026.” OPPO: 83%解决率/94%正面反馈; 行业目标≥85%。🏢
[20] Ringly.io. “45+ AI Customer Service Statistics 2026.” 98%领导者认为AI到人工转接至关重要,90%承认困难。📰
[21] Gitnux. “AI in Translation Industry Statistics 2026.” 英西BLEU 94.2%; DeepL医学89.5%; 低资源72%; 幻觉率1.2%。📰
[22] “Benchmarking GPT-4 against Human Translators.” arXiv:2411.13775, 2024. GPT-4≈初/中级译者,落后资深译者。🔬
[23] TRANSLIFE. “AI vs Human Translation Accuracy Research Analysis.” 2025. “人类平等”仅限新闻翻译、单语对,争议极大。📰
[24] Towards Data Science. “The Multi-Agent Trap.” 2026.3. CMU: 最佳Agent复杂办公24%; 99%×10步=90.4%; 85%×10步=19.7%。📰
[25] Google Research. “Towards a science of scaling agent systems.” 2025. 可并行任务+81%, 顺序任务-70%; 独立Agent错误放大17.2x; 阈值~45%。NBER 2026.2: 89%企业零改变。🔬
[26] Price, I. et al. “Probabilistic weather forecasting with machine learning.” Nature, 2024. GenCast: 97.2%优于ENS, >36h 99.8%。🔬
[27] Google DeepMind. “WeatherNext 2.” 2025. 较GenCast平均提升6.5%。🏢
[28] Kestin, G. et al. “AI tutoring outperforms in-class active learning.” Scientific Reports, 15, 17458, 2025. Harvard RCT, 效果量0.73–1.3σ。🔬
[29] Engageli. “25 AI in Education Statistics 2026.” 测试分数+54%, 完成率+70%, 辍学-15%; Coursera调查: 95%教师担忧过度依赖。📰
[30] Stanford SCALE Initiative. “How AI can improve tutor effectiveness.” 数学+4pp(整体), 低水平导师学生+9pp。🔬
[31] AllAboutAI. “AI in Drug Development Statistics 2026.” AI I期80–90% vs 传统40–65%; 24分子21成功(87.5%)。📰
[32] Drug Target Review. “AI in drug discovery: 2025 in review.” 2026.2. 截至2025.12零FDA批准; CEO评价”让我们失望”。📰
[33] ArticleSledge. “AI Weather Forecasting 2026.” GraphCast/Pangu低估99th百分位降水20–35%; 百年一遇传统更优。📰
[34] CPA Practice Advisor. Pearl.com 2025调查: GenAI税务建议复杂问题高达50%不准确(纳税人权益倡导者)。📰
[35] Capitol Tech/GAO. IRS AI审计: 黑人纳税人被审计概率3–5x; GAO认定算法偏见; IRS 129个AI用例(2024:54)。📰
[35a] Bai, Y. et al. “A Review of RL in Financial Applications.” Annual Review of Statistics, 12:209–232, 2025. 做市是RL改善最大子领域。🔬
[35b] Sidley Austin. “AI in Financial Markets: Systemic Risk.” 2024.12. 英格兰银行: AI可致市场危机。📰
[35c] MDPI JRFM. “AI and Financial Fragility.” 2025. LLM同质化→协调性卖出→系统性崩盘风险。🔬
[36] OneUp Networks. “70% of Accountants Trust AI Tax Tools.” 2025. 审计触发降40%; 准备错误降58%。📰
[37] OpenAI, Sep 2025. 幻觉因训练激励而持续——奖励猜测而非不确定性承认。2025年数学证明: 当前架构下幻觉不可消除。🏢
[38] Vectara HHEM Leaderboard. Gemini-2.0-Flash-001: 摘要幻觉率0.7%; 4模型<1%。截至2025.4。📊
[39] aboutchromebooks.com. “AI Hallucination Rates 2026.” 开放事实问题均值9.2%; 2021→2025: 21.8%→0.7%(降96%); 每年约降3pp。📰
[40] FreeAcademy.ai. “ChatGPT vs Claude vs Gemini 2026.” Claude~3%, GPT-5.2~6%, Gemini 3~6%; o3 PersonQA 33%; Grok-3新闻溯源94%错误。📰
[41] renovateqr.com/Lakera. 全球AI幻觉财务损失2024: $674亿; 企业人均年损$14,200。2025法官数百裁决涉AI虚构判例(~90%)。📰
[42] Phacet Labs. “AI agents accounting automation 2026.” 准确率6月内99.5%; 人工干预减70%; 错误降95%。🏢
[43] WifiTalents. “AI in Accounting Industry 2026.” 100%交易分析vs传统抽样; 欺诈检测+50%; 税务错误预计降60%。📰
[44] DocShipper. “How AI is Changing Logistics 2025.” XPO 99.7%自动匹配; Walmart 4700店$15亿节省/99.2%库存率; UPS ORION 30k路线/分钟。🏢
[45] OneReach AI. “How AI Agents Transform Supply Chain.” 物流成本降15%, 库存改善35%; 流程效率+25–30%。📰
[46] Kodexo Labs. “Top AI Agents Supply Chain Logistics 2025.” 需求预测95%准确率; 响应时间+40%。🏢
[47] SupplyChains Magazine. “Impact of Agentic AI on Supply Chain.” Amazon缺货降32%。📰
[48] Inbound Logistics. “AI in Supply Chain 2026 Outlook.” 行业评分2.5–7.5/10分歧极大; 数据准备度是真正瓶颈; LLM缺乏一致生成新洞察能力。📰

v3.0 · 2026-03-21 · 이조 세계인공지능연구소 (李朝世界人工智能研究所) × Claude Opus 4.6
本表为风险认知参考工具,非精确预测。实际成功率受模型版本、Prompt 质量、任务复杂度、脚手架质量、数据质量等因素影响。所有标注 🏢 的数据为公司自报告,可能存在选择性偏差。AIME 排行榜满分均为自报告(0独立验证)。SWE-bench Verified 已被证实存在数据污染。使用者应优先参考 🔬📊 标记的数据源。欢迎基于新数据持续修订。转载请注明出处。

댓글 남기기