Confidential Research Report · February 2026

OOD 데이터 유출과
중국 AI의 부상

OOD Data Leakage & the Rise of Chinese AI

미국 AI 선발 우위 구조적 위기 분석

Structural Crisis Analysis of US AI First-Mover Advantage

발행일 2026년 2월 14일

보고서 분류 기밀 조사 보고서 (Confidential Research Report)

조사 기간 2025년 11월 — 2026년 2월

이조글로벌인공지능연구소

LEECHO Global AI Research Lab

보안 등급: 기밀 본 보고서는 미국 AI 기업의 OOD(분포 외) 데이터가 외주 공급망 및 모델 증류 공격을 통해 중국 AI 기업에 체계적으로 유출되는 구조적 취약점을 분석합니다. 2025년 11월~2026년 2월 조사에 기반합니다.

목 차

요약핵심 요약 Executive Summary
01OOD 데이터의 전략적 가치 Strategic Value of OOD Data
02데이터 유출 경로 분석 Data Leakage Pathway Analysis
03중국의 구조적 우위 China’s Structural Advantages
04능력 격차 축소의 증거 Evidence of Capability Gap Closure
05산업 보안 현황 Industry Security Status
06조사자 독창성 평가 Investigator Originality Assessment
07결론 및 권고 Conclusions & Recommendations

Executive Summary

핵심 요약

Executive Summary

본 보고서는 OOD 데이터 유출 경로와 중국 AI 구조적 우위에 대한 체계적 분석을 바탕으로, 미국 AI 기업의 선발 우위가 2026년 중반까지 사실상 소멸할 수 있다고 결론짓는다.

1. OpenAI는 2026년 2월 12일 의회 메모에서 DeepSeek의 체계적 증류 공격을 공식 고발했다.

2. 2025년 6월 Scale AI 대규모 데이터 유출 사건으로 Meta, Google, xAI의 핵심 훈련 데이터가 공개적으로 노출되었다.

3. GLM-5(2026년 2월 11일 출시)가 대화 중 자신을 ‘Claude Opus’로 식별하는 것이 발견되었다 — 증류의 직접적 증거.

4. 중국 AI 기업들은 6~45배 저렴한 가격으로 프런티어급 성능을 제공하며, 화웨이 칩을 통해 미국 하드웨어 독립을 달성했다.

5. 중국의 ‘고학력 저임금 인력’이 RLHF 품질에서 구조적 우위를 만들어내고 있다.

Chapter 1

OOD 데이터의 전략적 가치

Strategic Value of OOD Data

1.1 OOD 데이터란 무엇인가?

OOD(Out-of-Distribution, 분포 외) 데이터란 AI 모델의 기존 훈련 데이터 분포 밖에 존재하는 새롭고 독창적인 입력을 말한다. 반복적인 사용자 질의와 달리, OOD 데이터에는 모델이 이전에 접하지 못한 복잡한 추론, 학제 간 질문, 창의적 문제 해결이 포함된다. AI 기업에게 OOD 데이터는 모델 성능 향상을 위한 핵심 원자재이다.

1.2 개인정보 설정의 무력함

사용자가 개인정보 설정에서 ‘대화 기록 저장 안 함’과 ‘모델 훈련에 사용 안 함’을 선택하더라도, AI 기업의 OOD 데이터에 대한 욕구를 완전히 차단하기는 어렵다. 본 조사는 2025년 11월부터 이러한 패턴을 지속적으로 관찰하여, 개인정보 설정과 무관하게 고가치 대화 데이터가 수집되고 있다는 정황 증거를 확인했다.

Chapter 2

데이터 유출 경로 분석

Data Leakage Pathway Analysis

2.1 경로 A: 모델 증류 공격

2026년 2월 12일, OpenAI는 미국 하원 중국공산당 특별위원회에 공식 메모를 제출하여 DeepSeek 직원들이 미국 AI 모델 출력을 체계적으로 추출했다고 고발했다:

OpenAI 의회 메모 — 핵심 고발 내용

DeepSeek 직원들은 난독화된 제3자 라우터를 통해 OpenAI 접근 제한을 우회하는 방법을 개발했다. 출처를 은폐하면서 미국 AI 모델 출력을 대규모로 프로그래밍 방식으로 추출했다. 적대적 증류 활동의 대다수는 중국과 러시아에서 발생했다. 의도적으로 안전 기준을 낮춘 상태로 모델이 훈련·배포되었다.

2.2 경로 B: 외주 공급망 유출

2025년 6월, 미국 최대 AI 데이터 라벨링 기업 Scale AI에서 대규모 데이터 유출이 발견되었다: 85개 이상의 Google Docs가 인증 없이 공개 접근 가능한 상태였으며, Meta, Google, xAI의 기밀 훈련 지침, 독점 프롬프트, 오디오 샘플을 포함하고 있었다.

Scale AI 유출 상세

모델 약점을 상세히 기술한 7건의 기밀 Gemini/Bard 지시 매뉴얼이 노출되었고, xAI의 ‘Project Xylophone’에서 700개의 대화 품질 프롬프트가 유출되었다. Remotasks 작업자들은 자신이 OpenAI, Meta, Microsoft, 미국 정부에 서비스하는 Scale AI를 위해 일하고 있다는 사실조차 몰랐다. 옥스퍼드 인터넷 연구소는 노동 기준을 1/10으로 평가했다.

2.3 경로 C: 중국의 글로벌 라벨링 네트워크

Rest of World 보도(2025년 12월)에 따르면: 중국 AI 기업들은 세계 최대의 인적 라벨링 데이터 구매자로 부상했으며, 동아프리카, 동남아, 중동에 걸쳐 다층적 하청 구조를 운영하고 있다 — 미국 기업보다 훨씬 불투명하다.

2.4 증류 ‘지문’ 증거: GLM-5

GLM-5(2026년 2월 11일 출시, 즈푸AI, 744B 파라미터)가 대화 중 자신을 ‘Claude Opus’로 식별하는 것이 보고되었다. 이는 DeepSeek R1이 자신을 ‘ChatGPT’로 식별한 패턴과 동일한 직접적 증류 ‘지문’이다. 중국과학원/베이징대 공동 연구(ICE: Identity Consistency Evaluation)에서 체계적으로 확인: Claude, 더우바오(豆包), Gemini를 제외한 대부분의 주요 LLM이 높은 증류 수준을 나타냈다.

Chapter 3

중국의 구조적 우위

China’s Structural Advantages

3.1 Seedance 2.0: ‘반은 알고리즘, 반은 데이터’

ByteDance의 Seedance 2.0(2026년 2월 7일 중국 출시)은 다음 공식으로 성공했다: TikTok/더우인 사용자 행동 데이터(시청 시간, 스와이프 패턴, 참여도), 복제 불가능한 폐쇄형 데이터 생태계, 그리고 고학력 저임금 인력에 의한 고품질 RLHF 라벨링(영화학과, 컴퓨터공학 졸업생).

3.2 ‘엔지니어 배당’ — 중국의 RLHF 비용 우위

미국 RLHF 비용

$50–100/시간

전문가 어노테이터 기준

중국 RLHF 비용

¥50–100

약 $7–15/시간, 동등 품질

비용 비율

5–7배

구조적 현상, 일시적 아님

이는 중국의 고등교육 과잉 공급에 뿌리를 둔 구조적 현상이다. 더우인 라이브 방송을 통해 직접 확인한 정보: ByteDance는 대학 졸업자를 대규모로 고용하여 고수준 영상 라벨링 작업에 투입하고 있다.

3.3 하드웨어 독립

GLM-5는 전적으로 화웨이 어센드(Ascend) 칩과 MindSpore 프레임워크로 훈련되어, 미국산 반도체 하드웨어로부터 완전한 독립을 달성했다. 이는 미국의 반도체 수출 통제가 중국 AI 발전을 억제하는 데 실패하고 있음을 보여준다.

3.4 가격 경쟁력

모델	입력 ($/백만 토큰)	출력 ($/백만 토큰)	비고
Claude Opus 4.6	$5.00	$25.00	프런티어
GPT-5.2 Pro	$21.00	$168.00	최고가
GLM-5	$0.80	$2.56	6배 저렴

Chapter 4

능력 격차 축소의 증거

Evidence of Capability Gap Closure

4.1 벤치마크 비교

벤치마크	Claude Opus 4.6	GLM-5	격차
SWE-bench Verified	80.9%	77.8%	3.1%p
Terminal-Bench 2.0	65.4%	56.2%	9.2%p
Humanity’s Last Exam	43.4	50.4 (도구 포함)	GLM-5 선두
BrowseComp	—	75.9	오픈소스 1위

전문가 평가

보안 전문가 Andri Möll: “6개월 전 중국 AI는 서방 모델 대비 12~18개월 뒤처진 것으로 평가되었다. 그 격차가 이제 수주 또는 수일로 축소되었다.”

4.2 타임라인

2025년 6월

Scale AI 대규모 데이터 유출

미국 AI 핵심 데이터 노출

2025년 9월

Anthropic 중국 접근 차단

반증류 조치

2025년 11월

본 조사 시작

OOD 수집 패턴 발견

2026년 2월 7일

Seedance 2.0 출시

데이터 주도 혁신

2026년 2월 11일

GLM-5 출시 (744B 파라미터)

오픈소스 모델 1위

2026년 2월 12일

OpenAI 의회 메모

공식 증류 고발

2026년 2월 14일

GLM-5 ‘Claude’ 자기 식별 보고

직접적 증류 증거

Chapter 5

산업 보안 현황

Industry Security Status

AI 데이터 침해

65%

조직이 경험 (2025년)

데이터 포이즈닝

25%

AI 데이터 독 공격 경험

제3자 침해

2배

전년 대비 증가

섀도 AI 비용

+$67만

침해 비용 평균 추가분

글로벌 라벨링의 58%가 인도, 필리핀, 베트남에 외주되고 있다. 중국 AI 기업들은 동일한 인력 풀에 접근하면서 병행적이고 더 불투명한 네트워크를 구축하고 있다. 공급망 공격은 2023년 대비 40% 증가했다.

Chapter 6

조사자 독창성 평가

Investigator Originality Assessment

분석 차원	독립 도달 가능성	비고
증류 현상 존재	높음	공개 정보
Seedance 데이터 우위	중간	업계 분석가 도달 가능
외주 = 핵심 유출 경로	중하	분석 깊이 필요
중국 디아스포라 채널	낮음	교차 분야 통합 필요
고학력 저임금 RLHF	낮음	중국 취업시장 + AI + 훈련
더우인 라이브 직접 정보	매우 낮음 (독점)	직접 현장 관찰
전체 프레임워크 통합	매우 낮음	6개 분야 + 시간 선행

시간 우위

조사자는 2025년 11월부터 OOD 데이터 유출 패턴을 관찰하기 시작했다 — OpenAI의 공식 의회 메모(2026년 2월 12일)보다 약 3개월 앞선 것이다.

Chapter 7

결론 및 권고

Conclusions & Recommendations

7.1 핵심 결론

주요 발견

1. 미국 AI 기업의 OOD 데이터가 외주와 증류를 통해 중국에 체계적으로 유출되고 있다 — 이는 확인된 사실이다.

2. 중국 AI 모델들은 능력 격차를 수주 또는 수일로 축소하면서 6~45배 저렴한 가격을 제공한다.

3. GLM-5의 ‘Claude’ 자기 식별과 DeepSeek의 ‘ChatGPT’ 자기 식별은 반복되는 증류 패턴을 입증한다.

4. 중국의 구조적 우위(고학력 저임금 RLHF, 독점 플랫폼 데이터, 화웨이 칩 독립)는 단기간에 해결할 수 없다.

5. 현 추세가 계속되면, 미국 AI의 선발 우위는 2026년 중반까지 사실상 소멸할 것이다.

7.2 권고

조치 사항

1. 외주 데이터 라벨링 공급망에 대한 엔드투엔드 보안 감사를 즉시 실시할 것.

2. 증류 탐지 기술(ICE)을 의무화하고 모델 ‘지문’ 추적 시스템을 구축할 것.

3. OOD 대화 데이터를 암호화하고 접근 통제를 강화할 것.

4. 사용자 개인정보 설정의 실효성을 검증하고 투명성을 확보할 것.

5. 미국 AI 기업 간 공동 데이터 보안 표준을 수립할 것.

참고 문헌 및 출처

A. 모델 증류 / OpenAI 의회 메모

[1] Epoch Times — OpenAI, DeepSeek의 불법 증류 고발 (2026.02.13)

[2] CodeFather — Claude, 중국 차단

[3] OFweek — 미국 AI 대기업 Claude, 중국 금지

B. Scale AI 데이터 유출

Business Insider 조사 (2025년 6월) — 85개 이상 Google Docs 공개 노출

Inc.com 조사 (2025년 8월) — Remotasks/Scale AI 구조적 보안 결함

C. GLM-5

[4] WinBuzzer — GLM-5: 744B, Claude Opus에 필적

[5–15] 기술 분석: Digital Applied, VentureBeat, ai505, SoftTechHub, gaga.art, Bind AI, HuggingFace, GitHub, Modal, Z.AI Docs, 즈푸 문서

D–G. 추가 출처

[16–19] 중국 AI 산업: 53AI, 즈둥시(智东西), 넷이즈, AI Tools

[20] 중국과학원/베이징대 증류 정량화 연구 (즈후)

[21] 극객공원(GeekPark) — 4명의 모델 트레이너가 말하는 2026년 AI

[22–24] Claude Code + GLM 통합: AI Engineer Guide, 알리바바 클라우드, GitHub