v3.0 · 29 Scenarios · 16 Industries · 48 References

AI Agent 成功概率光谱表

基于 2024–2026 年 3 月公开研究数据，按环境确定性分级的 AI Agent 任务成功率参考。覆盖 16 个一级行业、29 个场景，从棋类博弈（不败率~100%）到黑天鹅预测（≈随机）的完整光谱。核心原理：规则越完整、状态空间越有界，AI 越强；外生变量越多、规则越不完整，强化学习和推理能力越难发挥。

Author 저자

이조（李朝 · LEECHO）

세계인공지능연구소 · World AI Research Lab

Co-Author 协作

Claude Opus 4.6

Anthropic · Research & Data Compilation

2026-03-21 · Incheon, Korea / San Francisco

⚡ 核心原理 · Environment Certainty Principle

AI（尤其是强化学习）的前提是环境可建模为马尔可夫决策过程（MDP）——有明确的状态、动作和转移概率。国际象棋完美满足，金融市场完全不满足。这与自动驾驶在晴天 vs 暴风雪中的表现差异是同一原理。环境确定性决定了 AI 成功率的理论上限。

⚠️ 幻觉率警告 · Hallucination Alert

2025 年数学证明：在当前 LLM 架构下幻觉无法被完全消除^[37]。摘要任务最低 0.7%^[38]，开放事实问题均值 9.2%^[39]，推理模型 o3 特定问题高达 33%^[40]。全球 AI 幻觉造成的财务损失 2024 年达 674 亿美元^[41]。

📊 数据来源可信度标记

🔬 同行评审 Nature/Science/npj 等期刊 · 📊 独立基准 Epoch AI/SEAL/Vals.ai · 🏢 公司自报需审慎（可能cherry-pick）· 📰 行业报告 McKinsey/Gartner/NBER 等

🔄 v2→v3 关键修正

AIME 满分标注为自报告^[5]，独立验证90.6%^[6]。SWE-bench Verified 标注数据污染警告^[10]。代码拆分SEAL标准化 vs 自定义脚手架。新增供应链/会计4个行业。全部数据增加编号引用。

🧮 多步 Agent 复合衰减计算器

单步成功率(%):
步数:
→ 整体：
77.4%

公式：(单步率)^步数。95%×10步=59.9%，85%×10步=19.7%^[24]。Google Research: 独立并行Agent错误放大17.2倍^[25]。

 ZONE 1 · 确定性极高 · 规则完备 · AI 可完全信任

使用场景	确定性	成功率	风险	RL	幻觉率	数据来源与引用	使用者行动 · 人机协作比
1. 棋类博弈 / 完全信息博弈国际象棋、围棋、将棋	★★★★★	不败~100% 胜率28%平72%	极低	极有效	N/A	🔬AlphaZero 28胜0负72平 vs Stockfish^[1]; ELF OpenGo 20:0 vs 顶级职业^[2]; 非标准谜题93%失败^[3]	AI:人 = 100:0。可完全信任。⚠️非标准变体中AZ仍可能失败。
2. 数学计算 / 竞赛推理 AIME、IMO、方程求解	★★★★★	78–97% 独立验证; 工具可达~100%	极低	有效	~1%	🏢AIME排行榜满分为自报告，0独立验证^[5]; 📊Vals.ai独立: Grok-4 90.6%^[6]; 105模型均值78.3%^[5]; 带代码工具可达~100%^[7]	AI:人 = 95:5。复杂问题用代码验算。人类顶尖AIME仅27–40%^[7]。

 ZONE 2 · 确定性高 · 规则明确 · 需验证但可高度依赖

使用场景	确定性	成功率	风险	RL	幻觉率	数据来源与引用	使用者行动 · 人机协作比
3. 代码生成 — 单文件/单函数函数编写、Bug修复、单元测试	★★★★☆	62–81% ⚠️Verified有污染	低	有效	~3%	📊SWE-bench Verified均值62.2%,顶级80.9%^[8]; ⚠️OpenAI证实Verified数据污染，已停止报告^[10]; 脚手架提升20%^[11]	AI:人 = 80:20。必须通过测试。真实参考应看Pro(42-57%)^[9]。
4. 网络安全 / 已知威胁检测钓鱼、恶意软件、异常行为	★★★★☆	92–99% 已知攻击模式	低	有效	N/A	🔬RL钓鱼检测95%/2%误报^[12]; 威胁检测>95%误报降60%^[13]; 57%SOC分析师称传统不足^[14]	AI:人 = 85:15。已知威胁可信任。零日/对抗性需人工。
5. 会计 — 数据录入/对账/合规发票扫描、银行对账、费用分类	★★★★☆	95–99.5% 规则极度结构化	低	部分有效	~1%	🏢AI准确率6月内达99.5%,错误降95%^[42]; 人工干预减70%^[42]; 100%交易分析vs传统抽样^[43]	AI:人 = 90:10。高度可信。月结/年结关键节点人工复核。
6. 供应链 — 路线/库存优化配送路径、仓库布局、库存管理	★★★★☆	85–99.7% 结构化优化问题	低	有效	N/A	🏢XPO 99.7%自动负载匹配^[44]; Walmart 99.2%库存率节省$15亿^[44]; 物流成本降15%库存改善35%^[45]	AI:人 = 85:15。优化问题高度可信。异常场景需人工干预。
7. 数据检索 / 结构化查询 SQL查询、文档检索、数据库操作	★★★★☆	85–91% 随并发下降	低	部分有效	~1%	🔬Mount Sinai npj 2026: 多Agent检索90.6%,80任务降至65.3%^[15]	AI:人 = 85:15。结果可验证。高并发退化严重。
8. 客服 — 银行/金融结构化查询余额查询、转账、账户操作	★★★★☆	95–98% 极度结构化	低	部分有效	~2%	🏢BofA Erica: 98%/44秒,20亿次交互^[16]; 月互动5600万次^[16]	AI:人 = 90:10。银行FAQ极高可信度。
9. 自动驾驶（良好天气）晴天、已测绘城市、正常交通	★★★★☆	事故率-85% 比人类低85%	低	有效	N/A	🔬Waymo 1.707亿无人英里^[17]; 受伤率0.41 vs 人类2.78/百万英里^[18]	AI:人 = 90:10。ODD内可信任。注意地理围栏。

 ZONE 3 · 确定性中等偏高 · 规则部分已知 · 需人工复核

使用场景	确定性	成功率	风险	RL	幻觉率	数据来源与引用	使用者行动 · 人机协作比
10. 客服 — 通用电商/产品支持退货、产品咨询、投诉处理	★★★☆☆	80–85% 复杂问题需转接	低-中	部分有效	~3%	🏢OPPO: 83%解决率/94%正面反馈^[19]; 行业目标≥85%^[19]; 90%企业转接困难^[20]	AI:人 = 70:30。常规可信。情感/复杂问题必须人工。
11. 翻译（高资源语言+通用文本）英⇄中/西/法/德新闻/商务	★★★★☆	90–95% ≈初/中级译者	低-中	部分有效	~1.2%	📰英西BLEU 94.2%^[21]; 新闻10语对92.7%人类平等^[21]; GPT-4≈初/中级,落后资深^[22]; “人类平等”仅限特定领域^[23]	AI:人 = 75:25。通用文本可用。营销/法律需资深审校。
12. 天气预报（1–5天）温度、风速、气压、降水概率	★★★☆☆	97.2%优于传统 1320目标中优于ENS	低-中	部分有效	N/A	🔬GenCast 97.2%优于ENS, >36h 99.8%^[26]; WeatherNext 2再升6.5%^[27]; Nature 2024^[26]	AI:人 = 80:20。短期高度可信。物理规则已知但混沌系统。
13. 教育/AI辅导（结构化科目）数学、物理、编程教学	★★★☆☆	效果+54% 测试分数提升	低-中	部分有效	~3–6%	🔬Harvard RCT: 效果量0.73–1.3σ^[28]; 完成率+70%辍学-15%^[29]; Stanford数学+4–9pp^[30]	AI:人 = 65:35。结构化科目显著。警惕过度依赖(95%教师担忧)^[29]。
14. 内容摘要/改写（有源文档）文档摘要、会议纪要、报告改写	★★★☆☆	忠实度99.3% 有源摘要幻觉极低	低-中	部分有效	0.7%^[38]	📊Gemini-2.0-Flash摘要0.7%^[38]; 4模型<1%^[39]; 4年降96%^[39]	AI:人 = 80:20。有源文档高可信。无源开放写作风险急升。

 ZONE 4 · 确定性中等 · 规则不完整 · 每步需确认

使用场景	确定性	成功率	风险	RL	幻觉率	数据来源与引用	使用者行动 · 人机协作比
15. 代码工程 — 真实多文件项目跨文件修改、大型代码库维护	★★★☆☆	SEAL:42–46% 自定义:50–57%	中等	部分有效	~6%	📊SWE-bench Pro SEAL: Opus4.5 45.9%^[9]; GPT-5.3-Codex 56.8%(自定义)^[9]; 脚手架差22pp^[11]; 35.9%语义失败^[10]	AI:人 = 50:50。每次提交必须Code Review。脚手架>模型差异。
16. 供应链 — 需求预测销售预测、季节性需求、市场信号	★★★☆☆	~95% 稳定市场；波动时下降	中等	部分有效	N/A	🏢需求预测95%准确率^[46]; Amazon缺货降32%^[47]; 但2.5–7.5/10分歧极大^[48]; 数据准备度是真正瓶颈^[48]	AI:人 = 60:40。稳态市场有效。外部冲击/新品类需人工判断。
17. 医疗AI（规则性子任务）药物剂量、影像标注、文献检索	★★★☆☆	65–91% 随负载下降	中等	部分有效	~6%	🔬Mount Sinai npj 2026: 90.6%→65.3%(5→80任务)^[15]; 单Agent崩至16.6%^[15]	AI:人 = 40:60。⚠️必须专业人员复核。高负载严重退化。
18. 翻译（低资源语言+专业领域）小语种、医学/法律专业翻译	★★☆☆☆	72–89% 落后资深译者	中等	效果有限	~4%	📰低资源72%(迁移学习)^[21]; DeepL医学89.5%^[21]; 文化细微差异85%^[21]	AI:人 = 40:60。⚠️必须资深译者审校。医学/法律错误可致命。
19. 药物研发 / 分子筛选靶点发现、虚拟筛选、先导化合物	★★☆☆☆	I期80–90% 但零FDA批准	中等	部分有效	N/A	📰AI药物I期80–90% vs传统40–65%^[31]; 24分子21成功(87.5%)^[31]; 截至2025.12零FDA批准^[32]	AI:人 = 40:60。⚠️加速筛选有效。临床成功率未证明优于传统。
20. 会计 — 复杂税务判断减值测试、公允价值估计、跨境税务	★★☆☆☆	50–70% 复杂问题高达50%不准确	中等	效果有限	高风险	📰GenAI复杂税务问题50%不准确^[34]; AI审计选择存在种族偏见(3–5x)^[35]; 审计触发降40%^[36]	AI:人 = 30:70。⚠️必须CPA复核。偏见风险严重。复杂判断不可替代人类。
21. 天气预报（7–15天+极端事件）飓风强度、极端降水、热浪	★★☆☆☆	优于传统极端强度低估20–35%	中等	效果有限	N/A	🔬极端降水低估20–35%^[33]; 百年一遇事件传统更优^[33]	AI:人 = 50:50。⚠️趋势可参考。极端事件强度不可全信。

 ZONE 5 · 确定性低 · 外生变量多 · 仅供参考

使用场景	确定性	成功率	风险	RL	幻觉率	数据来源与引用	使用者行动 · 人机协作比
22. 自动驾驶（恶劣天气）暴雨、大雪、浓雾、冰雹	★★☆☆☆	大幅下降传感器可能停工	高	效果有限	N/A	🔬降雨>20mm ADAS停止^[4]; Tesla FSD暴风雪无法运行^[4]	AI:人 = 10:90。🚨人类必须随时接管。绝不可依赖。
23. 复杂办公自动化（10+步）跨系统操作、多步审批	★★☆☆☆	~20–24% 10步流程	高	效果有限	~9%	📰CMU 2026: 复杂办公24%^[24]; 85%/步×10步=19.7%^[24]	AI:人 = 20:80。🚨每个关键步骤必须人工确认。
24. 内容创作（开放事实性写作）文章撰写、研究报告、事实性陈述	★★☆☆☆	67–97% 依任务剧烈分化	高	几乎无效	3–33%	📊Claude~3%, GPT-5.2/Gemini~6%^[40]; o3达33%^[40]; 均值9.2%^[39]	AI:人 = 30:70。🚨所有事实必须独立核实。推理模型幻觉反而更高。
25. 医疗诊断 / 治疗决策疑难病、多药联合、罕见病	★★☆☆☆	不确定缺乏大规模验证	高	效果有限	高风险	临床决策Agent无公开大规模数据; 诊断79.6%(多模态)^[15]	AI:人 = 15:85。🚨仅供辅助。患者生命安全优先。
26. 法律 / 合规分析合同审查、判例预测、监管判断	★★☆☆☆	高度不确定幻觉引用频发	高	几乎无效	高风险	2025全球法官数百裁决涉AI虚构判例(~90%)^[41]; Grok-3溯源错误94%^[40]	AI:人 = 15:85。🚨每条法律引用必须人工核实。

 ZONE 6 · 确定性极低 · 非平稳/外生冲击 · 不可作为决策依据

使用场景	确定性	成功率	风险	RL	幻觉率	数据来源与引用	使用者行动 · 人机协作比
27. 市场调研 / 消费者行为预测需求预测、用户偏好、竞品趋势	★☆☆☆☆	无法保证	极高	几乎无效	高	📰NBER 2026.2: 89%企业AI零生产力改变^[25]	AI:人 = 10:90。🚨仅供数据整理。预测不可直接采用。
28. 金融交易执行/做市买卖价差、库存管理、订单执行	★☆☆☆☆	有限改善	极高	部分有效	N/A	🔬RL综述: 做市是RL金融改善最大子领域^[35a]; 过拟合仍是根本挑战	AI:人 = 15:85。🚨做市RL部分有效。风控必须独立。
29a. 金融预测 / 宏观经济股价、汇率、经济走势	★☆☆☆☆	不可保证 MDP假设不成立	致命	根本性失效	高	🔬RL无法捕捉金融不确定性^[35a]; 英格兰银行警告系统性风险^[35b]; LLM同质化放大崩盘^[35c]	AI:人 = 0:100。🚨🚨严禁作为交易依据。可致巨额损失。
29b. 地缘政治 / 黑天鹅事件战争走向、政策突变、疫情、极端事件	☆☆☆☆☆	≈随机	致命	完全无效	极高	训练数据无法覆盖”未知的未知”; 塔勒布《黑天鹅》理论框架	AI:人 = 0:100。🚨🚨绝对不可将输出作为决策依据。

如何使用这张表？

找到场景 → 查看确定性+风险 → “AI:人”比例决定人机协作程度。绿色区(90:10)可自动化，黄色(50:50)逐步确认，橙色(20:80)仅供参考，红色(0:100)绝不替代人类。

为什么成功率差异这么大？

AI前提是环境可建模为MDP。国际象棋完美满足，金融市场完全不满足。规则越完整→训练信号越强→成功率越高。

多Agent ≠ 更准确

串联复合累积：95%/步×5步=77%，×10步=60%^[24]。Google: 顺序任务多Agent比单Agent低70%^[25]。

可信度标记说明

🔬=Nature/Science等同行评审（最高）· 📊=独立基准（高）· 🏢=公司自报（中，需审慎）· 📰=行业报告（参考）

引用数据出处索引 · Reference Index

[1] Silver, D. et al. “A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play.” Science, 362(6419), 1140–1144, 2018. AlphaZero vs Stockfish: 28胜0负72平。🔬

[2] Tian, Y. et al. “ELF OpenGo: An Analysis and Open Reimplementation of AlphaZero.” arXiv:1902.04522, 2019. 20:0 vs 全球顶级职业选手。🔬

[3] “Limitations in Planning Ability in AlphaZero.” NeurIPS 2024 Workshop on Behavioral ML. 非标准谜题93%失败率。🔬

[4] PMC/Sensors. “Analysis of Impact of Rain Conditions on ADAS.” 降雨>20mm传感器停止工作。Tesla FSD暴风雪限制来自ThinkAutonomous 2025分析。🔬

[5] llm-stats.com. “AIME 2025 Benchmark Leaderboard.” 105模型，均值0.783，全部self-reported，0独立验证。截至2026年3月。🏢

[6] Vals.ai. “AIME Benchmark.” 独立8次运行pass@1平均: Grok-4 90.6%, o3-Mini 86.5%。声明”无模型达到完美准确率”。📊

[7] IntuitionLabs. “AIME 2025 Benchmark Analysis.” GPT-4 o4-mini带Python沙箱~99.5%; 人类顶尖学生4–6/15(27–40%)。📰

[8] llm-stats.com. “SWE-Bench Verified Leaderboard.” 77模型，均值0.622，顶级Claude Opus 4.5 80.9%。截至2026年3月。🏢

[9] morphllm.com. “SWE-Bench Pro Leaderboard (2026).” SEAL标准化: Opus 4.5 45.9%; GPT-5.3-Codex自报56.8%。📊

[10] OpenAI审计. SWE-Bench Verified数据污染证实——前沿模型可逐字复现金标补丁。OpenAI已停止报告Verified分数。via morphllm.com/swe-bench-pro。📊

[11] Epoch AI. “What skills does SWE-bench Verified evaluate?” 2025. 脚手架差异可达20%+; 同模型不同脚手架22pp差距。📊

[12] MDPI Information. “AI-Driven Phishing Detection: Enhancing Cybersecurity with RL.” 2025. DQN: 95%准确率, 2%误报率。🔬

[13] Durotolu, G.A. “Leveraging AI and ML for threat detection in U.S. cybersecurity.” WJARR, 2025. 检测>95%，误报降60%。🔬

[14] Proofpoint. “2025 Voice of the CISO Report.” 57% SOC分析师称传统情报不足。📰

[15] Klang, E. et al. “Orchestrated multi agents sustain accuracy under clinical-scale workloads.” npj Health Systems, 3, 23, 2026. doi:10.1038/s44401-026-00077-0. 多Agent 90.6%→65.3%; 单Agent 73.1%→16.6%。🔬

[16] Desk365/Bank of America. Erica: 20亿次交互，98%在44秒内解决，月互动5600万次。2025。🏢

[17] Waymo Safety Impact Dashboard. 截至2025年12月1.707亿纯无人驾驶英里。waymo.com/safety/impact。🏢

[18] Waymo Blog, Dec 2023 + Traffic Injury Prevention 2025. 受伤事故率: Waymo 0.41 vs 人类 2.78/百万英里(降85%); 警报率低57%。🔬

[19] Sobot.io. “AI Chatbot Accuracy 2026.” OPPO: 83%解决率/94%正面反馈; 行业目标≥85%。🏢

[20] Ringly.io. “45+ AI Customer Service Statistics 2026.” 98%领导者认为AI到人工转接至关重要，90%承认困难。📰

[21] Gitnux. “AI in Translation Industry Statistics 2026.” 英西BLEU 94.2%; DeepL医学89.5%; 低资源72%; 幻觉率1.2%。📰

[22] “Benchmarking GPT-4 against Human Translators.” arXiv:2411.13775, 2024. GPT-4≈初/中级译者，落后资深译者。🔬

[23] TRANSLIFE. “AI vs Human Translation Accuracy Research Analysis.” 2025. “人类平等”仅限新闻翻译、单语对，争议极大。📰

[24] Towards Data Science. “The Multi-Agent Trap.” 2026.3. CMU: 最佳Agent复杂办公24%; 99%×10步=90.4%; 85%×10步=19.7%。📰

[25] Google Research. “Towards a science of scaling agent systems.” 2025. 可并行任务+81%, 顺序任务-70%; 独立Agent错误放大17.2x; 阈值~45%。NBER 2026.2: 89%企业零改变。🔬

[26] Price, I. et al. “Probabilistic weather forecasting with machine learning.” Nature, 2024. GenCast: 97.2%优于ENS, >36h 99.8%。🔬

[27] Google DeepMind. “WeatherNext 2.” 2025. 较GenCast平均提升6.5%。🏢

[28] Kestin, G. et al. “AI tutoring outperforms in-class active learning.” Scientific Reports, 15, 17458, 2025. Harvard RCT, 效果量0.73–1.3σ。🔬

[29] Engageli. “25 AI in Education Statistics 2026.” 测试分数+54%, 完成率+70%, 辍学-15%; Coursera调查: 95%教师担忧过度依赖。📰

[30] Stanford SCALE Initiative. “How AI can improve tutor effectiveness.” 数学+4pp(整体), 低水平导师学生+9pp。🔬

[31] AllAboutAI. “AI in Drug Development Statistics 2026.” AI I期80–90% vs 传统40–65%; 24分子21成功(87.5%)。📰

[32] Drug Target Review. “AI in drug discovery: 2025 in review.” 2026.2. 截至2025.12零FDA批准; CEO评价”让我们失望”。📰

[33] ArticleSledge. “AI Weather Forecasting 2026.” GraphCast/Pangu低估99th百分位降水20–35%; 百年一遇传统更优。📰

[34] CPA Practice Advisor. Pearl.com 2025调查: GenAI税务建议复杂问题高达50%不准确(纳税人权益倡导者)。📰

[35] Capitol Tech/GAO. IRS AI审计: 黑人纳税人被审计概率3–5x; GAO认定算法偏见; IRS 129个AI用例(2024:54)。📰

[35a] Bai, Y. et al. “A Review of RL in Financial Applications.” Annual Review of Statistics, 12:209–232, 2025. 做市是RL改善最大子领域。🔬

[35b] Sidley Austin. “AI in Financial Markets: Systemic Risk.” 2024.12. 英格兰银行: AI可致市场危机。📰

[35c] MDPI JRFM. “AI and Financial Fragility.” 2025. LLM同质化→协调性卖出→系统性崩盘风险。🔬

[36] OneUp Networks. “70% of Accountants Trust AI Tax Tools.” 2025. 审计触发降40%; 准备错误降58%。📰

[37] OpenAI, Sep 2025. 幻觉因训练激励而持续——奖励猜测而非不确定性承认。2025年数学证明: 当前架构下幻觉不可消除。🏢

[38] Vectara HHEM Leaderboard. Gemini-2.0-Flash-001: 摘要幻觉率0.7%; 4模型<1%。截至2025.4。📊

[39] aboutchromebooks.com. “AI Hallucination Rates 2026.” 开放事实问题均值9.2%; 2021→2025: 21.8%→0.7%(降96%); 每年约降3pp。📰

[40] FreeAcademy.ai. “ChatGPT vs Claude vs Gemini 2026.” Claude~3%, GPT-5.2~6%, Gemini 3~6%; o3 PersonQA 33%; Grok-3新闻溯源94%错误。📰

[41] renovateqr.com/Lakera. 全球AI幻觉财务损失2024: $674亿; 企业人均年损$14,200。2025法官数百裁决涉AI虚构判例(~90%)。📰

[42] Phacet Labs. “AI agents accounting automation 2026.” 准确率6月内99.5%; 人工干预减70%; 错误降95%。🏢

[43] WifiTalents. “AI in Accounting Industry 2026.” 100%交易分析vs传统抽样; 欺诈检测+50%; 税务错误预计降60%。📰

[44] DocShipper. “How AI is Changing Logistics 2025.” XPO 99.7%自动匹配; Walmart 4700店$15亿节省/99.2%库存率; UPS ORION 30k路线/分钟。🏢

[45] OneReach AI. “How AI Agents Transform Supply Chain.” 物流成本降15%, 库存改善35%; 流程效率+25–30%。📰

[46] Kodexo Labs. “Top AI Agents Supply Chain Logistics 2025.” 需求预测95%准确率; 响应时间+40%。🏢

[47] SupplyChains Magazine. “Impact of Agentic AI on Supply Chain.” Amazon缺货降32%。📰

[48] Inbound Logistics. “AI in Supply Chain 2026 Outlook.” 行业评分2.5–7.5/10分歧极大; 数据准备度是真正瓶颈; LLM缺乏一致生成新洞察能力。📰

v3.0 · 2026-03-21 · 이조 세계인공지능연구소 (李朝世界人工智能研究所) × Claude Opus 4.6
本表为风险认知参考工具，非精确预测。实际成功率受模型版本、Prompt 质量、任务复杂度、脚手架质量、数据质量等因素影响。所有标注 🏢 的数据为公司自报告，可能存在选择性偏差。AIME 排行榜满分均为自报告(0独立验证)。SWE-bench Verified 已被证实存在数据污染。使用者应优先参考 🔬 和 📊 标记的数据源。欢迎基于新数据持续修订。转载请注明出处。

AI Agent 成功概率光谱表

引用数据出处索引 · Reference Index

댓글 남기기 응답 취소