v3.0 · 29개 시나리오 · 16개 산업 · 48개 참고문헌

AI Agent 성공확률 스펙트럼표

2024–2026년 3월 공개 연구 데이터를 기반으로, 환경 확실성에 따라 분류한 AI Agent 작업 성공률 참고 자료. 16개 1차 산업, 29개 시나리오를 포괄하며, 체스/바둑(무패율~100%)부터 블랙스완 예측(≈랜덤)까지 전체 스펙트럼을 다룹니다. 핵심 원리: 규칙이 완전하고 상태 공간이 유한할수록 AI가 강하고, 외생 변수가 많고 규칙이 불완전할수록 강화학습과 추론 능력이 발휘되기 어렵습니다.

Author 저자
이조 (LEECHO)
이조글로벌인공지능연구소 · LEECHO Global AI Research Lab
×
Co-Author 공동저자
Claude Opus 4.6
Anthropic · 리서치 및 데이터 수집
2026-03-21 · Incheon, Korea / San Francisco

⚡ 핵심 원리 · Environment Certainty Principle

AI(특히 강화학습)의 전제는 환경이 마르코프 결정 과정(MDP)으로 모델링 가능해야 한다는 것입니다 — 명확한 상태, 행동, 전이 확률이 필요합니다. 체스는 완벽히 충족하지만 금융시장은 전혀 충족하지 않습니다. 이는 자율주행이 맑은 날 vs 폭풍설에서 보이는 성능 차이와 같은 원리입니다. 환경 확실성이 AI 성공률의 이론적 상한을 결정합니다.

⚠️ 환각률 경고 · Hallucination Alert

2025년 수학적 증명: 현재 LLM 아키텍처에서 환각은 완전히 제거할 수 없습니다[37]. 요약 작업 최저 0.7%[38], 개방형 사실 질문 평균 9.2%[39], 추론 모델 o3 특정 질문에서 33%까지[40]. 글로벌 AI 환각으로 인한 재무 손실 2024년 674억 달러[41].

📊 데이터 출처 신뢰도 표시

🔬 동료심사 Nature/Science/npj 등 저널 · 📊 독립 벤치마크 Epoch AI/SEAL/Vals.ai · 🏢 기업 자체보고 주의 필요(cherry-pick 가능) · 📰 산업 보고서 McKinsey/Gartner/NBER 등

🔄 v2→v3 주요 수정사항

AIME 만점은 자체보고로 표시[5], 독립 검증 90.6%[6]. SWE-bench Verified 데이터 오염 경고 표시[10]. 코드를 SEAL 표준화 vs 커스텀 스캐폴딩으로 분리. 공급망/회계 4개 산업 추가. 전체 데이터에 번호 참조 추가.

🧮 다단계 Agent 복합 감쇄 계산기


→ 전체:
77.4%
공식: (단계별 성공률)^단계수. 95%×10단계=59.9%, 85%×10단계=19.7%[24]. Google Research: 독립 병렬 Agent 오류 17.2배 증폭[25].



ZONE 1 · 확실성 매우 높음 · 규칙 완비 · AI 완전 신뢰 가능
사용 시나리오 확실성 성공률 위험 RL 환각률 데이터 출처 및 인용 사용자 행동 · AI:사람 비율
1. 보드게임 / 완전정보 게임
체스, 바둑, 장기
★★★★★
무패~100%
승률28% 무승부72%
매우 낮음 매우 효과적 N/A 🔬AlphaZero 28승 0패 72무 vs Stockfish[1]; ELF OpenGo 20:0 vs 최상위프로[2]; 비표준 퍼즐 93% 실패[3] AI:사람 = 100:0. 완전 신뢰 가능.⚠️비표준 변형에서 AZ가 여전히 실패할 수 있음.
2. 수학 계산 / 경시대회 추론
AIME, IMO, 방정식 풀이
★★★★★
78–97%
독립 검증; 도구 사용 시 ~100%
매우 낮음 효과적 ~1% 🏢AIME리더보드 만점은자체보고, 독립 검증 0건[5]; 📊Vals.ai독립: Grok-4 90.6%[6]; 105모델평균78.3%[5]; 코드 도구 사용 시~100%[7] AI:사람 = 95:5. 복잡한한 문제는 코드로 검산. 인간 최상위 AIME 27–40%에 불과[7].



ZONE 2 · 확실성 높음 · 규칙 명확 · 검증 필요하나 높은 의존도 가능
사용 시나리오 확실성 성공률 위험 RL 환각률 데이터 출처 및 인용 사용자 행동 · AI:사람 비율
3. 코드 생성 — 단일파일/단일함수
함수 작성, 버그 수정, 단위 테스트
★★★★☆
62–81%
⚠️Verified 오염됨
낮음 효과적 ~3% 📊SWE-bench Verified평균62.2%,최상위80.9%[8]; ⚠️OpenAI가 Verified 데이터 오염 확인, 보고 중단[10]; 스캐폴딩 향상20%[11] AI:사람 = 80:20. 반드시 테스트 통과. 실제 참고 기준은 Pro(42-57%)[9].
4. 사이버보안 / 알려진 위협 탐지
피싱, 악성코드, 이상행동
★★★★☆
92–99%
알려진 공격 패턴
낮음 효과적 N/A 🔬RL 피싱 탐지95%/2%오탐[12]; 위협 탐지>95%오탐 감소60%[13]; 57%SOC 분석가: 전통 방식 불충분[14] AI:사람 = 85:15. 알려진 위협은 신뢰 가능. 제로데이/적대적은 수동 판단.
5. 회계 — 데이터 입력/대사/규정준수
송장 스캔, 은행 대사, 비용 분류
★★★★☆
95–99.5%
규칙 고도 구조화
낮음 부분적 효과 ~1% 🏢AI정확률6개월 내99.5%,오류감소95%[42]; 수동 개입 감소70%[42]; 100%전 거래 분석 vs 전통 샘플링[43] AI:사람 = 90:10. 높은 신뢰. 월결/연결 주요 시점 수동 검토.
6. 공급망 — 경로/재고 최적화
배송 경로, 창고 레이아웃, 재고 관리
★★★★☆
85–99.7%
구조화된 최적화 문제
낮음 효과적 N/A 🏢XPO 99.7%자동 부하 매칭[44]; Walmart 99.2%재고율 절감$15억[44]; 물류 비용 절감15%재고 개선35%[45] AI:사람 = 85:15. 최적화 문제 높은 신뢰. 이상 상황은 수동 개입 필요.
7. 데이터 검색 / 구조화 쿼리
SQL 쿼리, 문서 검색, 데이터베이스 조작
★★★★☆
85–91%
동시성 증가 시 하락
낮음 부분적 효과 ~1% 🔬Mount Sinai npj 2026: 멀티 Agent검색90.6%,80작업로 65.3%까지 하락[15] AI:사람 = 85:15. 결과 검증 가능. 고동시성 시 심각한 성능 저하.
8. 고객서비스 — 은행/금융 정형화 문의
잔액 조회, 송금, 계좌 조작
★★★★☆
95–98%
고도 구조화
낮음 부분적 효과 ~2% 🏢BofA Erica: 98%/44초,20억회상호작용[16]; 월 상호작용5600만 회[16] AI:사람 = 90:10. 은행 FAQ 매우 높은 신뢰도.
9. 자율주행(양호한 날씨)
맑은 날, 매핑된 도시, 정상 교통
★★★★☆
사고율 -85%
인간 대비 85% 낮음
낮음 효과적 N/A 🔬Waymo 1.707억무인 마일[17]; 부상률0.41 vs 인간2.78/백만 마일[18] AI:사람 = 90:10. ODD 내 신뢰 가능. 지오펜스 주의.



ZONE 3 · 확실성 중상 · 규칙 일부 알려짐 · 사람 검토 필요
사용 시나리오 확실성 성공률 위험 RL 환각률 데이터 출처 및 인용 사용자 행동 · AI:사람 비율
10. 고객서비스 — 일반 이커머스/제품 지원
반품, 제품 문의, 불만 처리
★★★☆☆
80–85%
복잡한한 문제는 전환 필요
낮음-중간 부분적 효과 ~3% 🏢OPPO: 83%해결률/94%긍정 피드백[19]; 산업 목표≥85%[19]; 90%기업 전환 어려움[20] AI:사람 = 70:30. 일반 문의 신뢰 가능. 감정적/복잡한한 문제는 반드시 수동.
11. 번역(고자원 언어+일반 텍스트)
영⇄중/서/불/독 뉴스/비즈니스
★★★★☆
90–95%
≈초급/중급 번역사
낮음-중간 부분적 효과 ~1.2% 📰영-서BLEU 94.2%[21]; 뉴스10언어쌍92.7%인간무 등[21]; GPT-4≈초급/중급,숙련자에 뒤처짐[22]; “인간무 등”특정 분야에만 해당[23] AI:사람 = 75:25. 일반 텍스트 사용 가능. 마케팅/법률은 숙련자 검토 필요.
12. 일기예보(1–5일)
온도, 풍속, 기압, 강수확률
★★★☆☆
97.2%전통 방식보다 우수
1320개 목표에서 ENS 능가
낮음-중간 부분적 효과 N/A 🔬GenCast 97.2%보다 우수ENS, >36h 99.8%[26]; WeatherNext 2추가 상승6.5%[27]; Nature 2024[26] AI:사람 = 80:20. 단기 높은 신뢰. 물리 법칙은 알려져 있으나 혼돈 시스템.
13. 교육/AI 튜터링(구조화 과목)
수학, 물리, 프로그래밍 교육
★★★☆☆
효과 +54%
시험 점수 향상
낮음-중간 부분적 효과 ~3–6% 🔬Harvard RCT: 효과 크기0.73–1.3σ[28]; 이수율+70%중퇴-15%[29]; Stanford 수학+4–9pp[30] AI:사람 = 65:35. 구조화 과목에서 뚜렷한 효과. 과도한 의존 주의(95% 교사 우려)[29].
14. 콘텐츠 요약/재작성(원본 문서 기반)
문서 요약, 회의록, 보고서 재작성
★★★☆☆
충실도 99.3%
원본 기반 요약 환각 매우 낮음
낮음-중간 부분적 효과 0.7%[38] 📊Gemini-2.0-Flash요약0.7%[38]; 4모델<1%[39]; 4연간 감소96%[39] AI:사람 = 80:20. 원본 문서 기반 높은 신뢰. 원본 없는 개방형 글쓰기위험 급상승.



ZONE 4 · 확실성 중간 · 규칙 불완전 · 매 단계 확인 필요
사용 시나리오 확실성 성공률 위험 RL 환각률 데이터 출처 및 인용 사용자 행동 · AI:사람 비율
15. 코드 엔지니어링 — 실제 다중파일 프로젝트
파일 간 수정, 대규모 코드베이스 유지보수
★★★☆☆
SEAL:42–46%
커스텀:50–57%
중간 부분적 효과 ~6% 📊SWE-bench Pro SEAL: Opus4.5 45.9%[9]; GPT-5.3-Codex 56.8%(커스텀)[9]; 스캐폴딩 차이22pp[11]; 35.9%의미론적 실패[10] AI:사람 = 50:50. 매 커밋마다 코드 리뷰 필수. 스캐폴딩 > 모델 차이.
16. 공급망 — 수요 예측
판매 예측, 계절적 수요, 시장 신호
★★★☆☆
~95%
안정적 시장; 변동 시 하락
중간 부분적 효과 N/A 🏢수요 예측95%정확률[46]; Amazon품절 감소32%[47]; 그러나 2.5–7.5/10의견 분기 매우 큼[48]; 데이터 준비도가 진정한 병목[48] AI:사람 = 60:40. 안정적 시장에서 유효. 외부 충격/신규 카테고리는 수동 판단.
17. 의료 AI(규칙 기반 하위작업)
약물 용량, 영상 라벨링, 문헌 검색
★★★☆☆
65–91%
부하 증가 시 하락
중간 부분적 효과 ~6% 🔬Mount Sinai npj 2026: 90.6%→65.3%(5→80작업)[15]; 단일 Agent 붕괴16.6%[15] AI:사람 = 40:60. ⚠️반드시 전문가 검토. 고부하 시 심각한 성능 저하.
18. 번역(저자원 언어+전문 분야)
소수 언어, 의학/법률 전문 번역
★★☆☆☆
72–89%
숙련 번역사에 뒤처짐
중간 효과 제한적 ~4% 📰저자원72%(전이 학습)[21]; DeepL의학89.5%[21]; 문화적 미세 차이85%[21] AI:사람 = 40:60. ⚠️반드시 숙련 번역사 검수. 의학/법률 오류는 치명적.
19. 신약 개발 / 분자 스크리닝
표적 발견, 가상 스크리닝, 선도 화합물
★★☆☆☆
1상80–90%
FDA 승인 0건
중간 부분적 효과 N/A 📰AI 신약1상80–90% vs 전통40–65%[31]; 24분자21성공(87.5%)[31]; 기준2025.12FDA 승인 0건[32] AI:사람 = 40:60. ⚠️스크리닝 가속에 효과적. 임상성공률미검증전통 방식보다 우수.
20. 회계 — 복잡한한 세무 판단
손상차손 테스트, 공정가치 평가, 국제 세무
★★☆☆☆
50–70%
복잡한한 질문 최대 50% 부정확
중간 효과 제한적 높은 위험 📰GenAI복잡한한 세무 문제50%부정확[34]; AI감사 선정 시 인종 편향 존재(3–5x)[35]; 감사 트리거 감소40%[36] AI:사람 = 30:70. ⚠️반드시 CPA 검토. 편향위험심각. 복잡한 판단은 인간을 대체할 수 없음.
21. 일기예보(7–15일+극단적 기상)
허리케인 강도, 극한 강수, 폭염
★★☆☆☆
전통 방식보다 우수
극단적 강도 20–35% 과소평가
중간 효과 제한적 N/A 🔬극한 강수 과소평가20–35%[33]; 100년에 한 번 이벤트는 전통 방식이 우수[33] AI:사람 = 50:50. ⚠️트렌드 참고 가능. 극단적 이벤트 강도는 완전 신뢰 불가.



ZONE 5 · 확실성 낮음 · 외생변수 다수 · 참고용으로만
사용 시나리오 확실성 성공률 위험 RL 환각률 데이터 출처 및 인용 사용자 행동 · AI:사람 비율
22. 자율주행(악천후)
폭우, 폭설, 짙은 안개, 우박
★★☆☆☆
대폭 하락
센서 작동 중단 가능
높음 효과 제한적 N/A 🔬강우량>20mm ADAS정지[4]; Tesla FSD폭풍설 시 작동 불가[4] AI:사람 = 10:90. 🚨인간이 항시 개입 준비. 절대 의존 불가.
23. 복잡한한 사무 자동화(10단계 이상)
시스템 간 조작, 다단계 승인
★★☆☆☆
~20–24%
10단계 프로세스
높음 효과 제한적 ~9% 📰CMU 2026: 복잡한한 사무24%[24]; 85%/단계×10단계=19.7%[24] AI:사람 = 20:80. 🚨매 핵심 단계마다 수동 확인 필수.
24. 콘텐츠 제작(개방형 사실 기반 글쓰기)
기사 작성, 연구 보고서, 사실적 서술
★★☆☆☆
67–97%
작업에 따라 급격히 차이
높음 거의 무효 3–33% 📊Claude~3%, GPT-5.2/Gemini~6%[40]; o3달성33%[40]; 평균9.2%[39] AI:사람 = 30:70. 🚨모든 사실은 독립적으로 검증 필수. 추론 모델 환각이 오히려 높음.
25. 의료 진단 / 치료 결정
난치병, 다제 병용, 희귀질환
★★☆☆☆
불확실
대규모 검증 부재
높음 효과 제한적 높은 위험 임상 의사결정 Agent 공개 대규모 데이터 없음; 진단79.6%(멀티모달)[15] AI:사람 = 15:85. 🚨보조 참고만. 환자 생명 안전 우선.
26. 법률 / 컴플라이언스 분석
계약 검토, 판례 예측, 규제 판단
★★☆☆☆
매우 불확실
환각 인용 빈발
높음 거의 무효 높은 위험 2025전 세계 법관 수백 건의 AI 허위 판례 관련 판결(~90%)[41]; Grok-3출처 추적 오류94%[40] AI:사람 = 15:85. 🚨모든 법률 인용은 수동 확인 필수.



ZONE 6 · 확실성 매우 낮음 · 비정상/외생충격 · 의사결정 근거 불가
사용 시나리오 확실성 성공률 위험 RL 환각률 데이터 출처 및 인용 사용자 행동 · AI:사람 비율
27. 시장조사 / 소비자 행동 예측
수요 예측, 사용자 선호, 경쟁사 트렌드
★☆☆☆☆
보장 불가
매우 높음 거의 무효 높음 📰NBER 2026.2: 89%기업 AI 생산성 변화 없음[25] AI:사람 = 10:90. 🚨데이터 정리 용도만. 예측 직접 채택 불가.
28. 금융 거래 실행/마켓메이킹
매수-매도 스프레드, 재고 관리, 주문 실행
★☆☆☆☆
제한적 개선
매우 높음 부분적 효과 N/A 🔬RL 리뷰: 마켓메이킹은 RL 금융 최대 개선 하위분야[35a]; 과적합이 여전히 근본적 과제 AI:사람 = 15:85. 🚨마켓메이킹 RL 부분 유효. 리스크 관리는 반드시 독립적.
29a. 금융 예측 / 거시경제
주가, 환율, 경제 동향
★☆☆☆☆
보장 불가
MDP 가정 불성립
치명적 근본적 실패 높음 🔬RL은 금융 불확실성 포착 불가[35a]; 영란은행 시스템 위험 경고[35b]; LLM동질화가 폭락 증폭[35c] AI:사람 = 0:100. 🚨🚨거래 근거로 사용 절대 금지. 거액 손실 초래 가능.
29b. 지정학 / 블랙스완 이벤트
전쟁 추이, 정책 급변, 팬데믹, 극단적 사건
☆☆☆☆☆
≈랜덤
치명적 완전 무효 매우 높음 학습 데이터로 “알 수 없는 미지”를 커버 불가; 탈레브 ⟪블랙스완⟫ 이론 프레임워크 AI:사람 = 0:100. 🚨🚨출력을 의사결정 근거로 절대 사용 불가.

이 표 사용 방법

시나리오 찾기 → 확인확실성+위험 → “AI:사람”비율인간-AI 협업 수준 결정. 녹색 영역(90:10)자동화 가능, 노란색(50:50)단계별 확인, 주황색(20:80)참고만, 빨간색(0:100)절대 인간 대체 불가.

왜 성공률 차이가 이렇게 큰가?

AI 전제는 환경을 모델링 가능해야 함: MDP. 체스는 완벽 충족, 금융시장은 전혀 불충족. 규칙이 완전할수록 → 학습 신호가 강할수록 → 성공률이 높아짐.

멀티 Agent ≠ 더 정확

직렬 복합 누적: 95%/단계×5단계=77%, ×10단계=60%[24]. Google: 순차 작업에서 멀티 Agent가 단일 Agent보다 70% 낮음[25].

신뢰도 표시 설명

🔬=Nature/Science 등 동료심사(최고)· 📊=독립 벤치마크(높음)· 🏢=기업 자체보고(중간, 주의 필요)· 📰=산업 보고서(참고)

인용 데이터 출처 색인 · Reference Index

[1] Silver, D. et al. “A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play.” Science, 362(6419), 1140–1144, 2018. AlphaZero vs Stockfish: 28승 0패 72무. 🔬
[2] Tian, Y. et al. “ELF OpenGo: An Analysis and Open Reimplementation of AlphaZero.” arXiv:1902.04522, 2019. 20:0 vs 글로벌최상위프로 선수. 🔬
[3] “Limitations in Planning Ability in AlphaZero.” NeurIPS 2024 Workshop on Behavioral ML. 비표준 퍼즐 93% 실패율. 🔬
[4] PMC/Sensors. “Analysis of Impact of Rain Conditions on ADAS.” 강우량>20mm센서 작동 정지. Tesla FSD폭풍설 제한, 출처:ThinkAutonomous 2025분석. 🔬
[5] llm-stats.com. “AIME 2025 Benchmark Leaderboard.” 105모델, 평 0.783, 전부 자체보고(self-reported), 독립 검증 0건. 기준2026년3월. 🏢
[6] Vals.ai. “AIME Benchmark.” 독립8회 실행 pass@1 평균: Grok-4 90.6%, o3-Mini 86.5%. 선언”어떤 모델도 완벽한 정확률에 도달하지 못함”. 📊
[7] IntuitionLabs. “AIME 2025 Benchmark Analysis.” GPT-4 o4-miniPython 샌드박스 사용 시~99.5%; 인간최상위 학생4–6/15(27–40%). 📰
[8] llm-stats.com. “SWE-Bench Verified Leaderboard.” 77모델, 평균0.622, 최상위Claude Opus 4.5 80.9%. 기준2026년3월. 🏢
[9] morphllm.com. “SWE-Bench Pro Leaderboard (2026).” SEAL표준화: Opus 4.5 45.9%; GPT-5.3-Codex자체보고56.8%. 📊
[10] OpenAI감사. SWE-Bench Verified데이터 오염확인——전따라모델가능금표준 패치를 그대로 재현. OpenAI이미정지보고Verified점수. via morphllm.com/swe-bench-pro. 📊
[11] Epoch AI. “What skills does SWE-bench Verified evaluate?” 2025. 스캐폴딩 차이차이가능달성20%+; 동일모델안동일 스캐폴딩22pp격차. 📊
[12] MDPI Information. “AI-Driven Phishing Detection: Enhancing Cybersecurity with RL.” 2025. DQN: 95%정확률, 2%오탐율. 🔬
[13] Durotolu, G.A. “Leveraging AI and ML for threat detection in U.S. cybersecurity.” WJARR, 2025. 탐지>95%, 오탐 감소60%. 🔬
[14] Proofpoint. “2025 Voice of the CISO Report.” 57% SOC분석사전통 정보 불충분 보고. 📰
[15] Klang, E. et al. “Orchestrated multi agents sustain accuracy under clinical-scale workloads.” npj Health Systems, 3, 23, 2026. doi:10.1038/s44401-026-00077-0. 멀티 Agent 90.6%→65.3%; 단일Agent 73.1%→16.6%. 🔬
[16] Desk365/Bank of America. Erica: 20억회상호작용, 98%에서44초내 해결, 월 상호작용5600만 회. 2025. 🏢
[17] Waymo Safety Impact Dashboard. 기준2025년12월1.707억순수 무인 주행 마일. waymo.com/safety/impact. 🏢
[18] Waymo Blog, Dec 2023 + Traffic Injury Prevention 2025. 부상 사고율: Waymo 0.41 vs 인간 2.78/백만 마일(감소85%); 경보율 낮음57%. 🔬
[19] Sobot.io. “AI Chatbot Accuracy 2026.” OPPO: 83%해결률/94%긍정 피드백; 산업 목표≥85%. 🏢
[20] Ringly.io. “45+ AI Customer Service Statistics 2026.” 98%리더는로AI까지수동 전환이 매우 중요, 90%어려움 인정. 📰
[21] Gitnux. “AI in Translation Industry Statistics 2026.” 영-서BLEU 94.2%; DeepL의학89.5%; 저자원72%; 환각률1.2%. 📰
[22] “Benchmarking GPT-4 against Human Translators.” arXiv:2411.13775, 2024. GPT-4≈초급/중급 번역사, 숙련 번역사에 뒤처짐. 🔬
[23] TRANSLIFE. “AI vs Human Translation Accuracy Research Analysis.” 2025. “인간무 등”에만 해당뉴스번역、단일언어쌍, 논란 매우 큼. 📰
[24] Towards Data Science. “The Multi-Agent Trap.” 2026.3. CMU: 가장우수Agent복잡한한 사무24%; 99%×10단계=90.4%; 85%×10단계=19.7%. 📰
[25] Google Research. “Towards a science of scaling agent systems.” 2025. 가능병렬작업+81%, 순차작업-70%; 독립Agent오류증폭17.2x; 임계값~45%. NBER 2026.2: 89%기업변화 없음. 🔬
[26] Price, I. et al. “Probabilistic weather forecasting with machine learning.” Nature, 2024. GenCast: 97.2%보다 우수ENS, >36h 99.8%. 🔬
[27] Google DeepMind. “WeatherNext 2.” 2025. 비교적GenCast 평균향상6.5%. 🏢
[28] Kestin, G. et al. “AI tutoring outperforms in-class active learning.” Scientific Reports, 15, 17458, 2025. Harvard RCT, 효과 크기0.73–1.3σ. 🔬
[29] Engageli. “25 AI in Education Statistics 2026.” 시험 점수+54%, 이수율+70%, 중퇴-15%; Coursera조사: 95% 교사 우려과도한 의존. 📰
[30] Stanford SCALE Initiative. “How AI can improve tutor effectiveness.” 수학+4pp(전체), 낮은 수준의 튜터 학생+9pp. 🔬
[31] AllAboutAI. “AI in Drug Development Statistics 2026.” AI 1상80–90% vs 전통40–65%; 24분자21성공(87.5%). 📰
[32] Drug Target Review. “AI in drug discovery: 2025 in review.” 2026.2. 기준2025.12FDA 승인 0건; CEO평가”우리 모두를 실망시킴”. 📰
[33] ArticleSledge. “AI Weather Forecasting 2026.” GraphCast/Pangu과소평가99th백분위감소수준20–35%; 100년1회전통더우수. 📰
[34] CPA Practice Advisor. Pearl.com 2025조사: GenAI세무 조언복잡한한 질문 최대 50% 부정확(납세자 권익 옹호자). 📰
[35] Capitol Tech/GAO. IRS AI감사: 흑인 납세자 감사 확률 3–5x; GAO알고리즘으로 인정편향; IRS 129개AI사용 사례(2024:54). 📰
[35a] Bai, Y. et al. “A Review of RL in Financial Applications.” Annual Review of Statistics, 12:209–232, 2025. 마켓메이킹은/는RL개선가장대 하위분야. 🔬
[35b] Sidley Austin. “AI in Financial Markets: Systemic Risk.” 2024.12. 영란은행: AI가능시장 위기 초래. 📰
[35c] MDPI JRFM. “AI and Financial Fragility.” 2025. LLM동질화→동조적 매도→시스템성폭락위험. 🔬
[36] OneUp Networks. “70% of Accountants Trust AI Tax Tools.” 2025. 감사 트리거 감소40%; 준비오류감소58%. 📰
[37] OpenAI, Sep 2025. 환각때문에학습인센티브로 인해지속적——추측을 보상하고안확실성인정. 2025년수학검증: 현재전아키텍처하환각안가능제거. 🏢
[38] Vectara HHEM Leaderboard. Gemini-2.0-Flash-001: 요약환각률0.7%; 4모델<1%. 기준2025.4. 📊
[39] aboutchromebooks.com. “AI Hallucination Rates 2026.” 개방형 사실질문평균9.2%; 2021→2025: 21.8%→0.7%(감소96%); 매년약감소3pp. 📰
[40] FreeAcademy.ai. “ChatGPT vs Claude vs Gemini 2026.” Claude~3%, GPT-5.2~6%, Gemini 3~6%; o3 PersonQA 33%; Grok-3뉴스출처 추적94%오류. 📰
[41] renovateqr.com/Lakera. 글로벌AI환각재무손실2024: $674억; 기업 인당 연간 손실$14,200. 2025법관수백 건 판결 관련 AI허위판례(~90%). 📰
[42] Phacet Labs. “AI agents accounting automation 2026.” 정확률6월내99.5%; 수동 개입 감소70%; 오류감소95%. 🏢
[43] WifiTalents. “AI in Accounting Industry 2026.” 100%전 거래 분석 vs 전통 샘플링; 사기탐지+50%; 세무오류예상감소60%. 📰
[44] DocShipper. “How AI is Changing Logistics 2025.” XPO 99.7%자동 매칭; Walmart 4700매장$15억절감/99.2%재고율; UPS ORION 30k경로/분. 🏢
[45] OneReach AI. “How AI Agents Transform Supply Chain.” 물류 비용 절감15%, 재고 개선35%; 프로세스 효율+25–30%. 📰
[46] Kodexo Labs. “Top AI Agents Supply Chain Logistics 2025.” 수요 예측95%정확률; 응답 시간+40%. 🏢
[47] SupplyChains Magazine. “Impact of Agentic AI on Supply Chain.” Amazon품절 감소32%. 📰
[48] Inbound Logistics. “AI in Supply Chain 2026 Outlook.” 산업평점2.5–7.5/10의견 분기 매우 큼; 데이터 준비도가 진정한 병목; LLM일관된 생성 부족신규인사이트능력. 📰

v3.0 · 2026-03-21 · 이조글로벌인공지능연구소 (LEECHO Global AI Research Lab) × Claude Opus 4.6
본 표는로위험인지참고도구, 정확하지 않은예측. 실제성공률받모델버전、Prompt 품질、작업복잡도、스캐폴딩 품질、데이터품질 등요인에 영향. 있음표시 🏢 의데이터로기업자체보고, 가능존재에서선택적편차. AIME 리더보드보드만점평균로자체보고(독립 검증 0건). SWE-bench Verified 이미되확인존재에서데이터 오염. 사용자는우선참고 🔬📊 표시 데이터 소스를 우선 참조하세요. 새로운 데이터 기반의 지속적 수정을 환영합니다. 전재 시 출처를 명시해 주세요.

댓글 남기기