v3.0 · 29개 시나리오 · 16개 산업 · 48개 참고문헌

AI Agent 성공확률 스펙트럼표

2024–2026년 3월 공개 연구 데이터를 기반으로, 환경 확실성에 따라 분류한 AI Agent 작업 성공률 참고 자료. 16개 1차 산업, 29개 시나리오를 포괄하며, 체스/바둑(무패율~100%)부터 블랙스완 예측(≈랜덤)까지 전체 스펙트럼을 다룹니다. 핵심 원리: 규칙이 완전하고 상태 공간이 유한할수록 AI가 강하고, 외생 변수가 많고 규칙이 불완전할수록 강화학습과 추론 능력이 발휘되기 어렵습니다.

Author 저자

이조 (LEECHO)

이조글로벌인공지능연구소 · LEECHO Global AI Research Lab

Co-Author 공동저자

Claude Opus 4.6

Anthropic · 리서치 및 데이터 수집

2026-03-21 · Incheon, Korea / San Francisco

⚡ 핵심 원리 · Environment Certainty Principle

AI(특히 강화학습)의 전제는 환경이 마르코프 결정 과정(MDP)으로 모델링 가능해야 한다는 것입니다 — 명확한 상태, 행동, 전이 확률이 필요합니다. 체스는 완벽히 충족하지만 금융시장은 전혀 충족하지 않습니다. 이는 자율주행이 맑은 날 vs 폭풍설에서 보이는 성능 차이와 같은 원리입니다. 환경 확실성이 AI 성공률의 이론적 상한을 결정합니다.

⚠️ 환각률 경고 · Hallucination Alert

2025년 수학적 증명: 현재 LLM 아키텍처에서 환각은 완전히 제거할 수 없습니다^[37]. 요약 작업 최저 0.7%^[38], 개방형 사실 질문 평균 9.2%^[39], 추론 모델 o3 특정 질문에서 33%까지^[40]. 글로벌 AI 환각으로 인한 재무 손실 2024년 674억 달러^[41].

📊 데이터 출처 신뢰도 표시

🔬 동료심사 Nature/Science/npj 등 저널 · 📊 독립 벤치마크 Epoch AI/SEAL/Vals.ai · 🏢 기업 자체보고 주의 필요(cherry-pick 가능) · 📰 산업 보고서 McKinsey/Gartner/NBER 등

🔄 v2→v3 주요 수정사항

AIME 만점은 자체보고로 표시^[5], 독립 검증 90.6%^[6]. SWE-bench Verified 데이터 오염 경고 표시^[10]. 코드를 SEAL 표준화 vs 커스텀 스캐폴딩으로 분리. 공급망/회계 4개 산업 추가. 전체 데이터에 번호 참조 추가.

🧮 다단계 Agent 복합 감쇄 계산기

단계별 성공률(%):
단계 수:
→ 전체:
77.4%

공식: (단계별 성공률)^단계수. 95%×10단계=59.9%, 85%×10단계=19.7%^[24]. Google Research: 독립 병렬 Agent 오류 17.2배 증폭^[25].

 ZONE 1 · 확실성 매우 높음 · 규칙 완비 · AI 완전 신뢰 가능

사용 시나리오	확실성	성공률	위험	RL	환각률	데이터 출처 및 인용	사용자 행동 · AI:사람 비율
1. 보드게임 / 완전정보 게임 체스, 바둑, 장기	★★★★★	무패~100% 승률28% 무승부72%	매우 낮음	매우 효과적	N/A	🔬AlphaZero 28승 0패 72무 vs Stockfish^[1]; ELF OpenGo 20:0 vs 최상위프로^[2]; 비표준 퍼즐 93% 실패^[3]	AI:사람 = 100:0. 완전 신뢰 가능.⚠️비표준 변형에서 AZ가 여전히 실패할 수 있음.
2. 수학 계산 / 경시대회 추론 AIME, IMO, 방정식 풀이	★★★★★	78–97% 독립 검증; 도구 사용 시 ~100%	매우 낮음	효과적	~1%	🏢AIME리더보드 만점은자체보고, 독립 검증 0건^[5]; 📊Vals.ai독립: Grok-4 90.6%^[6]; 105모델평균78.3%^[5]; 코드 도구 사용 시~100%^[7]	AI:사람 = 95:5. 복잡한한 문제는 코드로 검산. 인간 최상위 AIME 27–40%에 불과^[7].

 ZONE 2 · 확실성 높음 · 규칙 명확 · 검증 필요하나 높은 의존도 가능

사용 시나리오	확실성	성공률	위험	RL	환각률	데이터 출처 및 인용	사용자 행동 · AI:사람 비율
3. 코드 생성 — 단일파일/단일함수 함수 작성, 버그 수정, 단위 테스트	★★★★☆	62–81% ⚠️Verified 오염됨	낮음	효과적	~3%	📊SWE-bench Verified평균62.2%,최상위80.9%^[8]; ⚠️OpenAI가 Verified 데이터 오염 확인, 보고 중단^[10]; 스캐폴딩 향상20%^[11]	AI:사람 = 80:20. 반드시 테스트 통과. 실제 참고 기준은 Pro(42-57%)^[9].
4. 사이버보안 / 알려진 위협 탐지 피싱, 악성코드, 이상행동	★★★★☆	92–99% 알려진 공격 패턴	낮음	효과적	N/A	🔬RL 피싱 탐지95%/2%오탐^[12]; 위협 탐지>95%오탐 감소60%^[13]; 57%SOC 분석가: 전통 방식 불충분^[14]	AI:사람 = 85:15. 알려진 위협은 신뢰 가능. 제로데이/적대적은 수동 판단.
5. 회계 — 데이터 입력/대사/규정준수 송장 스캔, 은행 대사, 비용 분류	★★★★☆	95–99.5% 규칙 고도 구조화	낮음	부분적 효과	~1%	🏢AI정확률6개월 내99.5%,오류감소95%^[42]; 수동 개입 감소70%^[42]; 100%전 거래 분석 vs 전통 샘플링^[43]	AI:사람 = 90:10. 높은 신뢰. 월결/연결 주요 시점 수동 검토.
6. 공급망 — 경로/재고 최적화 배송 경로, 창고 레이아웃, 재고 관리	★★★★☆	85–99.7% 구조화된 최적화 문제	낮음	효과적	N/A	🏢XPO 99.7%자동 부하 매칭^[44]; Walmart 99.2%재고율 절감$15억^[44]; 물류 비용 절감15%재고 개선35%^[45]	AI:사람 = 85:15. 최적화 문제 높은 신뢰. 이상 상황은 수동 개입 필요.
7. 데이터 검색 / 구조화 쿼리 SQL 쿼리, 문서 검색, 데이터베이스 조작	★★★★☆	85–91% 동시성 증가 시 하락	낮음	부분적 효과	~1%	🔬Mount Sinai npj 2026: 멀티 Agent검색90.6%,80작업로 65.3%까지 하락^[15]	AI:사람 = 85:15. 결과 검증 가능. 고동시성 시 심각한 성능 저하.
8. 고객서비스 — 은행/금융 정형화 문의 잔액 조회, 송금, 계좌 조작	★★★★☆	95–98% 고도 구조화	낮음	부분적 효과	~2%	🏢BofA Erica: 98%/44초,20억회상호작용^[16]; 월 상호작용5600만 회^[16]	AI:사람 = 90:10. 은행 FAQ 매우 높은 신뢰도.
9. 자율주행(양호한 날씨) 맑은 날, 매핑된 도시, 정상 교통	★★★★☆	사고율 -85% 인간 대비 85% 낮음	낮음	효과적	N/A	🔬Waymo 1.707억무인 마일^[17]; 부상률0.41 vs 인간2.78/백만 마일^[18]	AI:사람 = 90:10. ODD 내 신뢰 가능. 지오펜스 주의.

 ZONE 3 · 확실성 중상 · 규칙 일부 알려짐 · 사람 검토 필요

사용 시나리오	확실성	성공률	위험	RL	환각률	데이터 출처 및 인용	사용자 행동 · AI:사람 비율
10. 고객서비스 — 일반 이커머스/제품 지원 반품, 제품 문의, 불만 처리	★★★☆☆	80–85% 복잡한한 문제는 전환 필요	낮음-중간	부분적 효과	~3%	🏢OPPO: 83%해결률/94%긍정 피드백^[19]; 산업 목표≥85%^[19]; 90%기업 전환 어려움^[20]	AI:사람 = 70:30. 일반 문의 신뢰 가능. 감정적/복잡한한 문제는 반드시 수동.
11. 번역(고자원 언어+일반 텍스트) 영⇄중/서/불/독 뉴스/비즈니스	★★★★☆	90–95% ≈초급/중급 번역사	낮음-중간	부분적 효과	~1.2%	📰영-서BLEU 94.2%^[21]; 뉴스10언어쌍92.7%인간무 등^[21]; GPT-4≈초급/중급,숙련자에 뒤처짐^[22]; “인간무 등”특정 분야에만 해당^[23]	AI:사람 = 75:25. 일반 텍스트 사용 가능. 마케팅/법률은 숙련자 검토 필요.
12. 일기예보(1–5일) 온도, 풍속, 기압, 강수확률	★★★☆☆	97.2%전통 방식보다 우수 1320개 목표에서 ENS 능가	낮음-중간	부분적 효과	N/A	🔬GenCast 97.2%보다 우수ENS, >36h 99.8%^[26]; WeatherNext 2추가 상승6.5%^[27]; Nature 2024^[26]	AI:사람 = 80:20. 단기 높은 신뢰. 물리 법칙은 알려져 있으나 혼돈 시스템.
13. 교육/AI 튜터링(구조화 과목) 수학, 물리, 프로그래밍 교육	★★★☆☆	효과 +54% 시험 점수 향상	낮음-중간	부분적 효과	~3–6%	🔬Harvard RCT: 효과 크기0.73–1.3σ^[28]; 이수율+70%중퇴-15%^[29]; Stanford 수학+4–9pp^[30]	AI:사람 = 65:35. 구조화 과목에서 뚜렷한 효과. 과도한 의존 주의(95% 교사 우려)^[29].
14. 콘텐츠 요약/재작성(원본 문서 기반) 문서 요약, 회의록, 보고서 재작성	★★★☆☆	충실도 99.3% 원본 기반 요약 환각 매우 낮음	낮음-중간	부분적 효과	0.7%^[38]	📊Gemini-2.0-Flash요약0.7%^[38]; 4모델<1%^[39]; 4연간 감소96%^[39]	AI:사람 = 80:20. 원본 문서 기반 높은 신뢰. 원본 없는 개방형 글쓰기위험 급상승.

 ZONE 4 · 확실성 중간 · 규칙 불완전 · 매 단계 확인 필요

사용 시나리오	확실성	성공률	위험	RL	환각률	데이터 출처 및 인용	사용자 행동 · AI:사람 비율
15. 코드 엔지니어링 — 실제 다중파일 프로젝트 파일 간 수정, 대규모 코드베이스 유지보수	★★★☆☆	SEAL:42–46% 커스텀:50–57%	중간	부분적 효과	~6%	📊SWE-bench Pro SEAL: Opus4.5 45.9%^[9]; GPT-5.3-Codex 56.8%(커스텀)^[9]; 스캐폴딩 차이22pp^[11]; 35.9%의미론적 실패^[10]	AI:사람 = 50:50. 매 커밋마다 코드 리뷰 필수. 스캐폴딩 > 모델 차이.
16. 공급망 — 수요 예측 판매 예측, 계절적 수요, 시장 신호	★★★☆☆	~95% 안정적 시장; 변동 시 하락	중간	부분적 효과	N/A	🏢수요 예측95%정확률^[46]; Amazon품절 감소32%^[47]; 그러나 2.5–7.5/10의견 분기 매우 큼^[48]; 데이터 준비도가 진정한 병목^[48]	AI:사람 = 60:40. 안정적 시장에서 유효. 외부 충격/신규 카테고리는 수동 판단.
17. 의료 AI(규칙 기반 하위작업) 약물 용량, 영상 라벨링, 문헌 검색	★★★☆☆	65–91% 부하 증가 시 하락	중간	부분적 효과	~6%	🔬Mount Sinai npj 2026: 90.6%→65.3%(5→80작업)^[15]; 단일 Agent 붕괴16.6%^[15]	AI:사람 = 40:60. ⚠️반드시 전문가 검토. 고부하 시 심각한 성능 저하.
18. 번역(저자원 언어+전문 분야) 소수 언어, 의학/법률 전문 번역	★★☆☆☆	72–89% 숙련 번역사에 뒤처짐	중간	효과 제한적	~4%	📰저자원72%(전이 학습)^[21]; DeepL의학89.5%^[21]; 문화적 미세 차이85%^[21]	AI:사람 = 40:60. ⚠️반드시 숙련 번역사 검수. 의학/법률 오류는 치명적.
19. 신약 개발 / 분자 스크리닝 표적 발견, 가상 스크리닝, 선도 화합물	★★☆☆☆	1상80–90% FDA 승인 0건	중간	부분적 효과	N/A	📰AI 신약1상80–90% vs 전통40–65%^[31]; 24분자21성공(87.5%)^[31]; 기준2025.12FDA 승인 0건^[32]	AI:사람 = 40:60. ⚠️스크리닝 가속에 효과적. 임상성공률미검증전통 방식보다 우수.
20. 회계 — 복잡한한 세무 판단 손상차손 테스트, 공정가치 평가, 국제 세무	★★☆☆☆	50–70% 복잡한한 질문 최대 50% 부정확	중간	효과 제한적	높은 위험	📰GenAI복잡한한 세무 문제50%부정확^[34]; AI감사 선정 시 인종 편향 존재(3–5x)^[35]; 감사 트리거 감소40%^[36]	AI:사람 = 30:70. ⚠️반드시 CPA 검토. 편향위험심각. 복잡한 판단은 인간을 대체할 수 없음.
21. 일기예보(7–15일+극단적 기상) 허리케인 강도, 극한 강수, 폭염	★★☆☆☆	전통 방식보다 우수 극단적 강도 20–35% 과소평가	중간	효과 제한적	N/A	🔬극한 강수 과소평가20–35%^[33]; 100년에 한 번 이벤트는 전통 방식이 우수^[33]	AI:사람 = 50:50. ⚠️트렌드 참고 가능. 극단적 이벤트 강도는 완전 신뢰 불가.

 ZONE 5 · 확실성 낮음 · 외생변수 다수 · 참고용으로만

사용 시나리오	확실성	성공률	위험	RL	환각률	데이터 출처 및 인용	사용자 행동 · AI:사람 비율
22. 자율주행(악천후) 폭우, 폭설, 짙은 안개, 우박	★★☆☆☆	대폭 하락 센서 작동 중단 가능	높음	효과 제한적	N/A	🔬강우량>20mm ADAS정지^[4]; Tesla FSD폭풍설 시 작동 불가^[4]	AI:사람 = 10:90. 🚨인간이 항시 개입 준비. 절대 의존 불가.
23. 복잡한한 사무 자동화(10단계 이상) 시스템 간 조작, 다단계 승인	★★☆☆☆	~20–24% 10단계 프로세스	높음	효과 제한적	~9%	📰CMU 2026: 복잡한한 사무24%^[24]; 85%/단계×10단계=19.7%^[24]	AI:사람 = 20:80. 🚨매 핵심 단계마다 수동 확인 필수.
24. 콘텐츠 제작(개방형 사실 기반 글쓰기) 기사 작성, 연구 보고서, 사실적 서술	★★☆☆☆	67–97% 작업에 따라 급격히 차이	높음	거의 무효	3–33%	📊Claude~3%, GPT-5.2/Gemini~6%^[40]; o3달성33%^[40]; 평균9.2%^[39]	AI:사람 = 30:70. 🚨모든 사실은 독립적으로 검증 필수. 추론 모델 환각이 오히려 높음.
25. 의료 진단 / 치료 결정 난치병, 다제 병용, 희귀질환	★★☆☆☆	불확실 대규모 검증 부재	높음	효과 제한적	높은 위험	임상 의사결정 Agent 공개 대규모 데이터 없음; 진단79.6%(멀티모달)^[15]	AI:사람 = 15:85. 🚨보조 참고만. 환자 생명 안전 우선.
26. 법률 / 컴플라이언스 분석 계약 검토, 판례 예측, 규제 판단	★★☆☆☆	매우 불확실 환각 인용 빈발	높음	거의 무효	높은 위험	2025전 세계 법관 수백 건의 AI 허위 판례 관련 판결(~90%)^[41]; Grok-3출처 추적 오류94%^[40]	AI:사람 = 15:85. 🚨모든 법률 인용은 수동 확인 필수.

 ZONE 6 · 확실성 매우 낮음 · 비정상/외생충격 · 의사결정 근거 불가

사용 시나리오	확실성	성공률	위험	RL	환각률	데이터 출처 및 인용	사용자 행동 · AI:사람 비율
27. 시장조사 / 소비자 행동 예측 수요 예측, 사용자 선호, 경쟁사 트렌드	★☆☆☆☆	보장 불가	매우 높음	거의 무효	높음	📰NBER 2026.2: 89%기업 AI 생산성 변화 없음^[25]	AI:사람 = 10:90. 🚨데이터 정리 용도만. 예측 직접 채택 불가.
28. 금융 거래 실행/마켓메이킹 매수-매도 스프레드, 재고 관리, 주문 실행	★☆☆☆☆	제한적 개선	매우 높음	부분적 효과	N/A	🔬RL 리뷰: 마켓메이킹은 RL 금융 최대 개선 하위분야^[35a]; 과적합이 여전히 근본적 과제	AI:사람 = 15:85. 🚨마켓메이킹 RL 부분 유효. 리스크 관리는 반드시 독립적.
29a. 금융 예측 / 거시경제 주가, 환율, 경제 동향	★☆☆☆☆	보장 불가 MDP 가정 불성립	치명적	근본적 실패	높음	🔬RL은 금융 불확실성 포착 불가^[35a]; 영란은행 시스템 위험 경고^[35b]; LLM동질화가 폭락 증폭^[35c]	AI:사람 = 0:100. 🚨🚨거래 근거로 사용 절대 금지. 거액 손실 초래 가능.
29b. 지정학 / 블랙스완 이벤트 전쟁 추이, 정책 급변, 팬데믹, 극단적 사건	☆☆☆☆☆	≈랜덤	치명적	완전 무효	매우 높음	학습 데이터로 “알 수 없는 미지”를 커버 불가; 탈레브 ⟪블랙스완⟫ 이론 프레임워크	AI:사람 = 0:100. 🚨🚨출력을 의사결정 근거로 절대 사용 불가.

이 표 사용 방법

시나리오 찾기 → 확인확실성+위험 → “AI:사람”비율인간-AI 협업 수준 결정. 녹색 영역(90:10)자동화 가능, 노란색(50:50)단계별 확인, 주황색(20:80)참고만, 빨간색(0:100)절대 인간 대체 불가.

왜 성공률 차이가 이렇게 큰가？

AI 전제는 환경을 모델링 가능해야 함: MDP. 체스는 완벽 충족, 금융시장은 전혀 불충족. 규칙이 완전할수록 → 학습 신호가 강할수록 → 성공률이 높아짐.

멀티 Agent ≠ 더 정확

직렬 복합 누적: 95%/단계×5단계=77%, ×10단계=60%^[24]. Google: 순차 작업에서 멀티 Agent가 단일 Agent보다 70% 낮음^[25].

신뢰도 표시 설명

🔬=Nature/Science 등 동료심사(최고)· 📊=독립 벤치마크(높음)· 🏢=기업 자체보고(중간, 주의 필요)· 📰=산업 보고서(참고)

인용 데이터 출처 색인 · Reference Index

[1] Silver, D. et al. “A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play.” Science, 362(6419), 1140–1144, 2018. AlphaZero vs Stockfish: 28승 0패 72무. 🔬

[2] Tian, Y. et al. “ELF OpenGo: An Analysis and Open Reimplementation of AlphaZero.” arXiv:1902.04522, 2019. 20:0 vs 글로벌최상위프로 선수. 🔬

[3] “Limitations in Planning Ability in AlphaZero.” NeurIPS 2024 Workshop on Behavioral ML. 비표준 퍼즐 93% 실패율. 🔬

[4] PMC/Sensors. “Analysis of Impact of Rain Conditions on ADAS.” 강우량>20mm센서 작동 정지. Tesla FSD폭풍설 제한, 출처:ThinkAutonomous 2025분석. 🔬

[5] llm-stats.com. “AIME 2025 Benchmark Leaderboard.” 105모델, 평 0.783, 전부 자체보고(self-reported), 독립 검증 0건. 기준2026년3월. 🏢

[6] Vals.ai. “AIME Benchmark.” 독립8회 실행 pass@1 평균: Grok-4 90.6%, o3-Mini 86.5%. 선언”어떤 모델도 완벽한 정확률에 도달하지 못함”. 📊

[7] IntuitionLabs. “AIME 2025 Benchmark Analysis.” GPT-4 o4-miniPython 샌드박스 사용 시~99.5%; 인간최상위 학생4–6/15(27–40%). 📰

[8] llm-stats.com. “SWE-Bench Verified Leaderboard.” 77모델, 평균0.622, 최상위Claude Opus 4.5 80.9%. 기준2026년3월. 🏢

[9] morphllm.com. “SWE-Bench Pro Leaderboard (2026).” SEAL표준화: Opus 4.5 45.9%; GPT-5.3-Codex자체보고56.8%. 📊

[10] OpenAI감사. SWE-Bench Verified데이터 오염확인——전따라모델가능금표준 패치를 그대로 재현. OpenAI이미정지보고Verified점수. via morphllm.com/swe-bench-pro. 📊

[11] Epoch AI. “What skills does SWE-bench Verified evaluate?” 2025. 스캐폴딩 차이차이가능달성20%+; 동일모델안동일 스캐폴딩22pp격차. 📊

[12] MDPI Information. “AI-Driven Phishing Detection: Enhancing Cybersecurity with RL.” 2025. DQN: 95%정확률, 2%오탐율. 🔬

[13] Durotolu, G.A. “Leveraging AI and ML for threat detection in U.S. cybersecurity.” WJARR, 2025. 탐지>95%, 오탐 감소60%. 🔬

[14] Proofpoint. “2025 Voice of the CISO Report.” 57% SOC분석사전통 정보 불충분 보고. 📰

[15] Klang, E. et al. “Orchestrated multi agents sustain accuracy under clinical-scale workloads.” npj Health Systems, 3, 23, 2026. doi:10.1038/s44401-026-00077-0. 멀티 Agent 90.6%→65.3%; 단일Agent 73.1%→16.6%. 🔬

[16] Desk365/Bank of America. Erica: 20억회상호작용, 98%에서44초내 해결, 월 상호작용5600만 회. 2025. 🏢

[17] Waymo Safety Impact Dashboard. 기준2025년12월1.707억순수 무인 주행 마일. waymo.com/safety/impact. 🏢

[18] Waymo Blog, Dec 2023 + Traffic Injury Prevention 2025. 부상 사고율: Waymo 0.41 vs 인간 2.78/백만 마일(감소85%); 경보율 낮음57%. 🔬

[19] Sobot.io. “AI Chatbot Accuracy 2026.” OPPO: 83%해결률/94%긍정 피드백; 산업 목표≥85%. 🏢

[20] Ringly.io. “45+ AI Customer Service Statistics 2026.” 98%리더는로AI까지수동 전환이 매우 중요, 90%어려움 인정. 📰

[21] Gitnux. “AI in Translation Industry Statistics 2026.” 영-서BLEU 94.2%; DeepL의학89.5%; 저자원72%; 환각률1.2%. 📰

[22] “Benchmarking GPT-4 against Human Translators.” arXiv:2411.13775, 2024. GPT-4≈초급/중급 번역사, 숙련 번역사에 뒤처짐. 🔬

[23] TRANSLIFE. “AI vs Human Translation Accuracy Research Analysis.” 2025. “인간무 등”에만 해당뉴스번역、단일언어쌍, 논란 매우 큼. 📰

[24] Towards Data Science. “The Multi-Agent Trap.” 2026.3. CMU: 가장우수Agent복잡한한 사무24%; 99%×10단계=90.4%; 85%×10단계=19.7%. 📰

[25] Google Research. “Towards a science of scaling agent systems.” 2025. 가능병렬작업+81%, 순차작업-70%; 독립Agent오류증폭17.2x; 임계값~45%. NBER 2026.2: 89%기업변화 없음. 🔬

[26] Price, I. et al. “Probabilistic weather forecasting with machine learning.” Nature, 2024. GenCast: 97.2%보다 우수ENS, >36h 99.8%. 🔬

[27] Google DeepMind. “WeatherNext 2.” 2025. 비교적GenCast 평균향상6.5%. 🏢

[28] Kestin, G. et al. “AI tutoring outperforms in-class active learning.” Scientific Reports, 15, 17458, 2025. Harvard RCT, 효과 크기0.73–1.3σ. 🔬

[29] Engageli. “25 AI in Education Statistics 2026.” 시험 점수+54%, 이수율+70%, 중퇴-15%; Coursera조사: 95% 교사 우려과도한 의존. 📰

[30] Stanford SCALE Initiative. “How AI can improve tutor effectiveness.” 수학+4pp(전체), 낮은 수준의 튜터 학생+9pp. 🔬

[31] AllAboutAI. “AI in Drug Development Statistics 2026.” AI 1상80–90% vs 전통40–65%; 24분자21성공(87.5%). 📰

[32] Drug Target Review. “AI in drug discovery: 2025 in review.” 2026.2. 기준2025.12FDA 승인 0건; CEO평가”우리 모두를 실망시킴”. 📰

[33] ArticleSledge. “AI Weather Forecasting 2026.” GraphCast/Pangu과소평가99th백분위감소수준20–35%; 100년1회전통더우수. 📰

[34] CPA Practice Advisor. Pearl.com 2025조사: GenAI세무 조언복잡한한 질문 최대 50% 부정확(납세자 권익 옹호자). 📰

[35] Capitol Tech/GAO. IRS AI감사: 흑인 납세자 감사 확률 3–5x; GAO알고리즘으로 인정편향; IRS 129개AI사용 사례(2024:54). 📰

[35a] Bai, Y. et al. “A Review of RL in Financial Applications.” Annual Review of Statistics, 12:209–232, 2025. 마켓메이킹은/는RL개선가장대 하위분야. 🔬

[35b] Sidley Austin. “AI in Financial Markets: Systemic Risk.” 2024.12. 영란은행: AI가능시장 위기 초래. 📰

[35c] MDPI JRFM. “AI and Financial Fragility.” 2025. LLM동질화→동조적 매도→시스템성폭락위험. 🔬

[36] OneUp Networks. “70% of Accountants Trust AI Tax Tools.” 2025. 감사 트리거 감소40%; 준비오류감소58%. 📰

[37] OpenAI, Sep 2025. 환각때문에학습인센티브로 인해지속적——추측을 보상하고안확실성인정. 2025년수학검증: 현재전아키텍처하환각안가능제거. 🏢

[38] Vectara HHEM Leaderboard. Gemini-2.0-Flash-001: 요약환각률0.7%; 4모델<1%. 기준2025.4. 📊

[39] aboutchromebooks.com. “AI Hallucination Rates 2026.” 개방형 사실질문평균9.2%; 2021→2025: 21.8%→0.7%(감소96%); 매년약감소3pp. 📰

[40] FreeAcademy.ai. “ChatGPT vs Claude vs Gemini 2026.” Claude~3%, GPT-5.2~6%, Gemini 3~6%; o3 PersonQA 33%; Grok-3뉴스출처 추적94%오류. 📰

[41] renovateqr.com/Lakera. 글로벌AI환각재무손실2024: $674억; 기업 인당 연간 손실$14,200. 2025법관수백 건 판결 관련 AI허위판례(~90%). 📰

[42] Phacet Labs. “AI agents accounting automation 2026.” 정확률6월내99.5%; 수동 개입 감소70%; 오류감소95%. 🏢

[43] WifiTalents. “AI in Accounting Industry 2026.” 100%전 거래 분석 vs 전통 샘플링; 사기탐지+50%; 세무오류예상감소60%. 📰

[44] DocShipper. “How AI is Changing Logistics 2025.” XPO 99.7%자동 매칭; Walmart 4700매장$15억절감/99.2%재고율; UPS ORION 30k경로/분. 🏢

[45] OneReach AI. “How AI Agents Transform Supply Chain.” 물류 비용 절감15%, 재고 개선35%; 프로세스 효율+25–30%. 📰

[46] Kodexo Labs. “Top AI Agents Supply Chain Logistics 2025.” 수요 예측95%정확률; 응답 시간+40%. 🏢

[47] SupplyChains Magazine. “Impact of Agentic AI on Supply Chain.” Amazon품절 감소32%. 📰

[48] Inbound Logistics. “AI in Supply Chain 2026 Outlook.” 산업평점2.5–7.5/10의견 분기 매우 큼; 데이터 준비도가 진정한 병목; LLM일관된 생성 부족신규인사이트능력. 📰

v3.0 · 2026-03-21 · 이조글로벌인공지능연구소 (LEECHO Global AI Research Lab) × Claude Opus 4.6
본 표는로위험인지참고도구, 정확하지 않은예측. 실제성공률받모델버전、Prompt 품질、작업복잡도、스캐폴딩 품질、데이터품질 등요인에 영향. 있음표시 🏢 의데이터로기업자체보고, 가능존재에서선택적편차. AIME 리더보드보드만점평균로자체보고(독립 검증 0건). SWE-bench Verified 이미되확인존재에서데이터 오염. 사용자는우선참고 🔬 및 📊 표시 데이터 소스를 우선 참조하세요. 새로운 데이터 기반의 지속적 수정을 환영합니다. 전재 시 출처를 명시해 주세요.

AI Agent 성공확률 스펙트럼표

인용 데이터 출처 색인 · Reference Index

댓글 남기기 응답 취소