AI Agent 성공확률 스펙트럼표
2024–2026년 3월 공개 연구 데이터를 기반으로, 환경 확실성에 따라 분류한 AI Agent 작업 성공률 참고 자료. 16개 1차 산업, 29개 시나리오를 포괄하며, 체스/바둑(무패율~100%)부터 블랙스완 예측(≈랜덤)까지 전체 스펙트럼을 다룹니다. 핵심 원리: 규칙이 완전하고 상태 공간이 유한할수록 AI가 강하고, 외생 변수가 많고 규칙이 불완전할수록 강화학습과 추론 능력이 발휘되기 어렵습니다.
AI(특히 강화학습)의 전제는 환경이 마르코프 결정 과정(MDP)으로 모델링 가능해야 한다는 것입니다 — 명확한 상태, 행동, 전이 확률이 필요합니다. 체스는 완벽히 충족하지만 금융시장은 전혀 충족하지 않습니다. 이는 자율주행이 맑은 날 vs 폭풍설에서 보이는 성능 차이와 같은 원리입니다. 환경 확실성이 AI 성공률의 이론적 상한을 결정합니다.
2025년 수학적 증명: 현재 LLM 아키텍처에서 환각은 완전히 제거할 수 없습니다[37]. 요약 작업 최저 0.7%[38], 개방형 사실 질문 평균 9.2%[39], 추론 모델 o3 특정 질문에서 33%까지[40]. 글로벌 AI 환각으로 인한 재무 손실 2024년 674억 달러[41].
🔬 동료심사 Nature/Science/npj 등 저널 · 📊 독립 벤치마크 Epoch AI/SEAL/Vals.ai · 🏢 기업 자체보고 주의 필요(cherry-pick 가능) · 📰 산업 보고서 McKinsey/Gartner/NBER 등
AIME 만점은 자체보고로 표시[5], 독립 검증 90.6%[6]. SWE-bench Verified 데이터 오염 경고 표시[10]. 코드를 SEAL 표준화 vs 커스텀 스캐폴딩으로 분리. 공급망/회계 4개 산업 추가. 전체 데이터에 번호 참조 추가.
→ 전체:
77.4%
| 사용 시나리오 | 확실성 | 성공률 | 위험 | RL | 환각률 | 데이터 출처 및 인용 | 사용자 행동 · AI:사람 비율 |
|---|---|---|---|---|---|---|---|
|
1. 보드게임 / 완전정보 게임
체스, 바둑, 장기
|
★★★★★
|
무패~100%
승률28% 무승부72%
|
매우 낮음 | 매우 효과적 | N/A | 🔬AlphaZero 28승 0패 72무 vs Stockfish[1]; ELF OpenGo 20:0 vs 최상위프로[2]; 비표준 퍼즐 93% 실패[3] | AI:사람 = 100:0. 완전 신뢰 가능.⚠️비표준 변형에서 AZ가 여전히 실패할 수 있음. |
|
2. 수학 계산 / 경시대회 추론
AIME, IMO, 방정식 풀이
|
★★★★★
|
78–97%
독립 검증; 도구 사용 시 ~100%
|
매우 낮음 | 효과적 | ~1% | 🏢AIME리더보드 만점은자체보고, 독립 검증 0건[5]; 📊Vals.ai독립: Grok-4 90.6%[6]; 105모델평균78.3%[5]; 코드 도구 사용 시~100%[7] | AI:사람 = 95:5. 복잡한한 문제는 코드로 검산. 인간 최상위 AIME 27–40%에 불과[7]. |
| 사용 시나리오 | 확실성 | 성공률 | 위험 | RL | 환각률 | 데이터 출처 및 인용 | 사용자 행동 · AI:사람 비율 |
|---|---|---|---|---|---|---|---|
|
3. 코드 생성 — 단일파일/단일함수
함수 작성, 버그 수정, 단위 테스트
|
★★★★☆
|
62–81%
⚠️Verified 오염됨
|
낮음 | 효과적 | ~3% | 📊SWE-bench Verified평균62.2%,최상위80.9%[8]; ⚠️OpenAI가 Verified 데이터 오염 확인, 보고 중단[10]; 스캐폴딩 향상20%[11] | AI:사람 = 80:20. 반드시 테스트 통과. 실제 참고 기준은 Pro(42-57%)[9]. |
|
4. 사이버보안 / 알려진 위협 탐지
피싱, 악성코드, 이상행동
|
★★★★☆
|
92–99%
알려진 공격 패턴
|
낮음 | 효과적 | N/A | 🔬RL 피싱 탐지95%/2%오탐[12]; 위협 탐지>95%오탐 감소60%[13]; 57%SOC 분석가: 전통 방식 불충분[14] | AI:사람 = 85:15. 알려진 위협은 신뢰 가능. 제로데이/적대적은 수동 판단. |
|
5. 회계 — 데이터 입력/대사/규정준수
송장 스캔, 은행 대사, 비용 분류
|
★★★★☆
|
95–99.5%
규칙 고도 구조화
|
낮음 | 부분적 효과 | ~1% | 🏢AI정확률6개월 내99.5%,오류감소95%[42]; 수동 개입 감소70%[42]; 100%전 거래 분석 vs 전통 샘플링[43] | AI:사람 = 90:10. 높은 신뢰. 월결/연결 주요 시점 수동 검토. |
|
6. 공급망 — 경로/재고 최적화
배송 경로, 창고 레이아웃, 재고 관리
|
★★★★☆
|
85–99.7%
구조화된 최적화 문제
|
낮음 | 효과적 | N/A | 🏢XPO 99.7%자동 부하 매칭[44]; Walmart 99.2%재고율 절감$15억[44]; 물류 비용 절감15%재고 개선35%[45] | AI:사람 = 85:15. 최적화 문제 높은 신뢰. 이상 상황은 수동 개입 필요. |
|
7. 데이터 검색 / 구조화 쿼리
SQL 쿼리, 문서 검색, 데이터베이스 조작
|
★★★★☆
|
85–91%
동시성 증가 시 하락
|
낮음 | 부분적 효과 | ~1% | 🔬Mount Sinai npj 2026: 멀티 Agent검색90.6%,80작업로 65.3%까지 하락[15] | AI:사람 = 85:15. 결과 검증 가능. 고동시성 시 심각한 성능 저하. |
|
8. 고객서비스 — 은행/금융 정형화 문의
잔액 조회, 송금, 계좌 조작
|
★★★★☆
|
95–98%
고도 구조화
|
낮음 | 부분적 효과 | ~2% | 🏢BofA Erica: 98%/44초,20억회상호작용[16]; 월 상호작용5600만 회[16] | AI:사람 = 90:10. 은행 FAQ 매우 높은 신뢰도. |
|
9. 자율주행(양호한 날씨)
맑은 날, 매핑된 도시, 정상 교통
|
★★★★☆
|
사고율 -85%
인간 대비 85% 낮음
|
낮음 | 효과적 | N/A | 🔬Waymo 1.707억무인 마일[17]; 부상률0.41 vs 인간2.78/백만 마일[18] | AI:사람 = 90:10. ODD 내 신뢰 가능. 지오펜스 주의. |
| 사용 시나리오 | 확실성 | 성공률 | 위험 | RL | 환각률 | 데이터 출처 및 인용 | 사용자 행동 · AI:사람 비율 |
|---|---|---|---|---|---|---|---|
|
10. 고객서비스 — 일반 이커머스/제품 지원
반품, 제품 문의, 불만 처리
|
★★★☆☆
|
80–85%
복잡한한 문제는 전환 필요
|
낮음-중간 | 부분적 효과 | ~3% | 🏢OPPO: 83%해결률/94%긍정 피드백[19]; 산업 목표≥85%[19]; 90%기업 전환 어려움[20] | AI:사람 = 70:30. 일반 문의 신뢰 가능. 감정적/복잡한한 문제는 반드시 수동. |
|
11. 번역(고자원 언어+일반 텍스트)
영⇄중/서/불/독 뉴스/비즈니스
|
★★★★☆
|
90–95%
≈초급/중급 번역사
|
낮음-중간 | 부분적 효과 | ~1.2% | 📰영-서BLEU 94.2%[21]; 뉴스10언어쌍92.7%인간무 등[21]; GPT-4≈초급/중급,숙련자에 뒤처짐[22]; “인간무 등”특정 분야에만 해당[23] | AI:사람 = 75:25. 일반 텍스트 사용 가능. 마케팅/법률은 숙련자 검토 필요. |
|
12. 일기예보(1–5일)
온도, 풍속, 기압, 강수확률
|
★★★☆☆
|
97.2%전통 방식보다 우수
1320개 목표에서 ENS 능가
|
낮음-중간 | 부분적 효과 | N/A | 🔬GenCast 97.2%보다 우수ENS, >36h 99.8%[26]; WeatherNext 2추가 상승6.5%[27]; Nature 2024[26] | AI:사람 = 80:20. 단기 높은 신뢰. 물리 법칙은 알려져 있으나 혼돈 시스템. |
|
13. 교육/AI 튜터링(구조화 과목)
수학, 물리, 프로그래밍 교육
|
★★★☆☆
|
효과 +54%
시험 점수 향상
|
낮음-중간 | 부분적 효과 | ~3–6% | 🔬Harvard RCT: 효과 크기0.73–1.3σ[28]; 이수율+70%중퇴-15%[29]; Stanford 수학+4–9pp[30] | AI:사람 = 65:35. 구조화 과목에서 뚜렷한 효과. 과도한 의존 주의(95% 교사 우려)[29]. |
|
14. 콘텐츠 요약/재작성(원본 문서 기반)
문서 요약, 회의록, 보고서 재작성
|
★★★☆☆
|
충실도 99.3%
원본 기반 요약 환각 매우 낮음
|
낮음-중간 | 부분적 효과 | 0.7%[38] | 📊Gemini-2.0-Flash요약0.7%[38]; 4모델<1%[39]; 4연간 감소96%[39] | AI:사람 = 80:20. 원본 문서 기반 높은 신뢰. 원본 없는 개방형 글쓰기위험 급상승. |
| 사용 시나리오 | 확실성 | 성공률 | 위험 | RL | 환각률 | 데이터 출처 및 인용 | 사용자 행동 · AI:사람 비율 |
|---|---|---|---|---|---|---|---|
|
15. 코드 엔지니어링 — 실제 다중파일 프로젝트
파일 간 수정, 대규모 코드베이스 유지보수
|
★★★☆☆
|
SEAL:42–46%
커스텀:50–57%
|
중간 | 부분적 효과 | ~6% | 📊SWE-bench Pro SEAL: Opus4.5 45.9%[9]; GPT-5.3-Codex 56.8%(커스텀)[9]; 스캐폴딩 차이22pp[11]; 35.9%의미론적 실패[10] | AI:사람 = 50:50. 매 커밋마다 코드 리뷰 필수. 스캐폴딩 > 모델 차이. |
|
16. 공급망 — 수요 예측
판매 예측, 계절적 수요, 시장 신호
|
★★★☆☆
|
~95%
안정적 시장; 변동 시 하락
|
중간 | 부분적 효과 | N/A | 🏢수요 예측95%정확률[46]; Amazon품절 감소32%[47]; 그러나 2.5–7.5/10의견 분기 매우 큼[48]; 데이터 준비도가 진정한 병목[48] | AI:사람 = 60:40. 안정적 시장에서 유효. 외부 충격/신규 카테고리는 수동 판단. |
|
17. 의료 AI(규칙 기반 하위작업)
약물 용량, 영상 라벨링, 문헌 검색
|
★★★☆☆
|
65–91%
부하 증가 시 하락
|
중간 | 부분적 효과 | ~6% | 🔬Mount Sinai npj 2026: 90.6%→65.3%(5→80작업)[15]; 단일 Agent 붕괴16.6%[15] | AI:사람 = 40:60. ⚠️반드시 전문가 검토. 고부하 시 심각한 성능 저하. |
|
18. 번역(저자원 언어+전문 분야)
소수 언어, 의학/법률 전문 번역
|
★★☆☆☆
|
72–89%
숙련 번역사에 뒤처짐
|
중간 | 효과 제한적 | ~4% | 📰저자원72%(전이 학습)[21]; DeepL의학89.5%[21]; 문화적 미세 차이85%[21] | AI:사람 = 40:60. ⚠️반드시 숙련 번역사 검수. 의학/법률 오류는 치명적. |
|
19. 신약 개발 / 분자 스크리닝
표적 발견, 가상 스크리닝, 선도 화합물
|
★★☆☆☆
|
1상80–90%
FDA 승인 0건
|
중간 | 부분적 효과 | N/A | 📰AI 신약1상80–90% vs 전통40–65%[31]; 24분자21성공(87.5%)[31]; 기준2025.12FDA 승인 0건[32] | AI:사람 = 40:60. ⚠️스크리닝 가속에 효과적. 임상성공률미검증전통 방식보다 우수. |
|
20. 회계 — 복잡한한 세무 판단
손상차손 테스트, 공정가치 평가, 국제 세무
|
★★☆☆☆
|
50–70%
복잡한한 질문 최대 50% 부정확
|
중간 | 효과 제한적 | 높은 위험 | 📰GenAI복잡한한 세무 문제50%부정확[34]; AI감사 선정 시 인종 편향 존재(3–5x)[35]; 감사 트리거 감소40%[36] | AI:사람 = 30:70. ⚠️반드시 CPA 검토. 편향위험심각. 복잡한 판단은 인간을 대체할 수 없음. |
|
21. 일기예보(7–15일+극단적 기상)
허리케인 강도, 극한 강수, 폭염
|
★★☆☆☆
|
전통 방식보다 우수
극단적 강도 20–35% 과소평가
|
중간 | 효과 제한적 | N/A | 🔬극한 강수 과소평가20–35%[33]; 100년에 한 번 이벤트는 전통 방식이 우수[33] | AI:사람 = 50:50. ⚠️트렌드 참고 가능. 극단적 이벤트 강도는 완전 신뢰 불가. |
| 사용 시나리오 | 확실성 | 성공률 | 위험 | RL | 환각률 | 데이터 출처 및 인용 | 사용자 행동 · AI:사람 비율 |
|---|---|---|---|---|---|---|---|
|
22. 자율주행(악천후)
폭우, 폭설, 짙은 안개, 우박
|
★★☆☆☆
|
대폭 하락
센서 작동 중단 가능
|
높음 | 효과 제한적 | N/A | 🔬강우량>20mm ADAS정지[4]; Tesla FSD폭풍설 시 작동 불가[4] | AI:사람 = 10:90. 🚨인간이 항시 개입 준비. 절대 의존 불가. |
|
23. 복잡한한 사무 자동화(10단계 이상)
시스템 간 조작, 다단계 승인
|
★★☆☆☆
|
~20–24%
10단계 프로세스
|
높음 | 효과 제한적 | ~9% | 📰CMU 2026: 복잡한한 사무24%[24]; 85%/단계×10단계=19.7%[24] | AI:사람 = 20:80. 🚨매 핵심 단계마다 수동 확인 필수. |
|
24. 콘텐츠 제작(개방형 사실 기반 글쓰기)
기사 작성, 연구 보고서, 사실적 서술
|
★★☆☆☆
|
67–97%
작업에 따라 급격히 차이
|
높음 | 거의 무효 | 3–33% | 📊Claude~3%, GPT-5.2/Gemini~6%[40]; o3달성33%[40]; 평균9.2%[39] | AI:사람 = 30:70. 🚨모든 사실은 독립적으로 검증 필수. 추론 모델 환각이 오히려 높음. |
|
25. 의료 진단 / 치료 결정
난치병, 다제 병용, 희귀질환
|
★★☆☆☆
|
불확실
대규모 검증 부재
|
높음 | 효과 제한적 | 높은 위험 | 임상 의사결정 Agent 공개 대규모 데이터 없음; 진단79.6%(멀티모달)[15] | AI:사람 = 15:85. 🚨보조 참고만. 환자 생명 안전 우선. |
|
26. 법률 / 컴플라이언스 분석
계약 검토, 판례 예측, 규제 판단
|
★★☆☆☆
|
매우 불확실
환각 인용 빈발
|
높음 | 거의 무효 | 높은 위험 | 2025전 세계 법관 수백 건의 AI 허위 판례 관련 판결(~90%)[41]; Grok-3출처 추적 오류94%[40] | AI:사람 = 15:85. 🚨모든 법률 인용은 수동 확인 필수. |
| 사용 시나리오 | 확실성 | 성공률 | 위험 | RL | 환각률 | 데이터 출처 및 인용 | 사용자 행동 · AI:사람 비율 |
|---|---|---|---|---|---|---|---|
|
27. 시장조사 / 소비자 행동 예측
수요 예측, 사용자 선호, 경쟁사 트렌드
|
★☆☆☆☆
|
보장 불가
|
매우 높음 | 거의 무효 | 높음 | 📰NBER 2026.2: 89%기업 AI 생산성 변화 없음[25] | AI:사람 = 10:90. 🚨데이터 정리 용도만. 예측 직접 채택 불가. |
|
28. 금융 거래 실행/마켓메이킹
매수-매도 스프레드, 재고 관리, 주문 실행
|
★☆☆☆☆
|
제한적 개선
|
매우 높음 | 부분적 효과 | N/A | 🔬RL 리뷰: 마켓메이킹은 RL 금융 최대 개선 하위분야[35a]; 과적합이 여전히 근본적 과제 | AI:사람 = 15:85. 🚨마켓메이킹 RL 부분 유효. 리스크 관리는 반드시 독립적. |
|
29a. 금융 예측 / 거시경제
주가, 환율, 경제 동향
|
★☆☆☆☆
|
보장 불가
MDP 가정 불성립
|
치명적 | 근본적 실패 | 높음 | 🔬RL은 금융 불확실성 포착 불가[35a]; 영란은행 시스템 위험 경고[35b]; LLM동질화가 폭락 증폭[35c] | AI:사람 = 0:100. 🚨🚨거래 근거로 사용 절대 금지. 거액 손실 초래 가능. |
|
29b. 지정학 / 블랙스완 이벤트
전쟁 추이, 정책 급변, 팬데믹, 극단적 사건
|
☆☆☆☆☆
|
≈랜덤
|
치명적 | 완전 무효 | 매우 높음 | 학습 데이터로 “알 수 없는 미지”를 커버 불가; 탈레브 ⟪블랙스완⟫ 이론 프레임워크 | AI:사람 = 0:100. 🚨🚨출력을 의사결정 근거로 절대 사용 불가. |
시나리오 찾기 → 확인확실성+위험 → “AI:사람”비율인간-AI 협업 수준 결정. 녹색 영역(90:10)자동화 가능, 노란색(50:50)단계별 확인, 주황색(20:80)참고만, 빨간색(0:100)절대 인간 대체 불가.
AI 전제는 환경을 모델링 가능해야 함: MDP. 체스는 완벽 충족, 금융시장은 전혀 불충족. 규칙이 완전할수록 → 학습 신호가 강할수록 → 성공률이 높아짐.
직렬 복합 누적: 95%/단계×5단계=77%, ×10단계=60%[24]. Google: 순차 작업에서 멀티 Agent가 단일 Agent보다 70% 낮음[25].
🔬=Nature/Science 등 동료심사(최고)· 📊=독립 벤치마크(높음)· 🏢=기업 자체보고(중간, 주의 필요)· 📰=산업 보고서(참고)
인용 데이터 출처 색인 · Reference Index
v3.0 · 2026-03-21 · 이조글로벌인공지능연구소 (LEECHO Global AI Research Lab) × Claude Opus 4.6
본 표는로위험인지참고도구, 정확하지 않은예측. 실제성공률받모델버전、Prompt 품질、작업복잡도、스캐폴딩 품질、데이터품질 등요인에 영향. 있음표시 🏢 의데이터로기업자체보고, 가능존재에서선택적편차. AIME 리더보드보드만점평균로자체보고(독립 검증 0건). SWE-bench Verified 이미되확인존재에서데이터 오염. 사용자는우선참고 🔬 및 📊 표시 데이터 소스를 우선 참조하세요. 새로운 데이터 기반의 지속적 수정을 환영합니다. 전재 시 출처를 명시해 주세요.