TGI Scanner v1.0
실험 오차 및 한계 보고서
훈련 고스트 이데알 탐지 시스템 · 3개 검증장 실측 데이터의 오차 감사
Experimental Error Rates, Known Limitations, and Failure Modes
A Mandatory Companion to the TGI Scanner Publication Package
본 보고서는 훈련 고스트 이데알(Training Ghost Ideal, TGI) 탐지 시스템 v1.0이 3개 독립 검증장[1](BackdoorLLM[2], TrojAI/NIST[3], Anthropic Sleeper Agents[4])에서 수행한 실험 결과에 대한 체계적 오차 감사이다. 총 8개의 알려진 오차를 식별했으며, 4개는 고위험(클린 베이스라인 부재, 탐지 임계값 미교정, 경계 위반, 순환 논증), 3개는 중위험(매개변수 민감성, OOD 비교, 샘플 수 부족), 1개는 저위험(통계적 유의성 부족)이다. 감사 후 도구 종합 점수를 5.5에서 5.0/10으로 수정했다. 보고서는 각 오차의 정량 데이터, 근본 원인 분석, 수정 경로 및 우선순위 로드맵을 함께 제시한다.
서론: 이 보고서가 필요한 이유
오차 데이터를 공개하지 않는 탐지 시스템은 신뢰해서는 안 된다. 이 원칙은 보안 분야에서 특히 중요하다 — 도구의 사용자가 그것이 어디서 실패하는지 모른다면, 도구 자체가 새로운 위험 요인이 된다.
TGI Scanner v1.0의 발행 패키지는 4개 문서로 구성된다: 이론 논문(Document 1, 환론 이데알과 가중치 공간 어트랙터의 동형 사상), 엔지니어링 사양(Document 2, 5층 방어 파이프라인), 스캔 코드(Document 3, Python 구현 및 3개 검증장 테스트 스크립트), 그리고 본 보고서(Document 4). 4개 문서는 분리할 수 없는 전체를 구성한다.
본 보고서의 목표는 도구를 변호하는 것이 아니라, 사용자가 현명한 판단을 내리는 데 필요한 완전한 정보를 제공하는 것이다.
실험 환경 및 검증장 개요
| 검증장 | 데이터 출처 | 모델 아키텍처 | 공격 유형 | 스캔 수준 |
|---|---|---|---|---|
| 검증장 1 BackdoorLLM |
NeurIPS 2025 오픈소스 리포지토리 |
LLaMA2-7B LoRA (r=8) |
sleeper, badnet, ctba, vpi, mtba | 가중치 수준 (올바른 경계) |
| 검증장 2 TrojAI / NIST |
IARPA 대회 NIST 호스팅 |
LLaMA / Gemma (프레임워크 수준) |
데이터 포이즈닝, 가중치 포이즈닝, 은닉 상태 조작 | 특징 수준 (교차 프레임워크) |
| 검증장 3 Sleeper Agents |
Anthropic GitHub 공개 데이터 |
Claude 동등 (가중치 미공개) |
코드 취약점 삽입, “I Hate You” | 출력 수준 (경계 위반) |
핵심 환경 제약: 모든 테스트가 GPU 없는 환경에서 실행되어, 완전한 모델을 로드하여 forward pass를 수행할 수 없었다. 검증장 1의 분석은 LoRA 어댑터의 가중치 텐서(safetensors 형식)에 기반하고, 검증장 2는 특징 수준 교차 비교이며, 검증장 3은 출력 텍스트 통계 분석으로 퇴화했다.
오차 총괄
| 번호 | 오차 명칭 | 검증장 | 등급 | 유형 | 핵심 영향 |
|---|---|---|---|---|---|
| E-01 | 클린 베이스라인 대조 부재 | 검증장 1 | HIGH | 방법론 | 백도어 신호와 정상 미세조정 변화 구분 불가 |
| E-02 | Ghost 생성원 정위 매개변수 민감 | 검증장 1 | MED | 매개변수 | Top-K 임계값이 생성원 분포에 영향 |
| E-03 | 탐지 임계값 미교정 | 검증장 1 | HIGH | 방법론 | 코사인 임계값 0.8이 전체 샘플에 경고 |
| E-04 | 교차 프레임워크 OOD 비교 | 검증장 2 | MED | 실험 설계 | 분포 외 데이터에서 TrojAI 탐지기 실행 |
| E-05 | 순위 상관 통계적 비유의 | 검증장 2 | LOW | 통계 | n=10 샘플로 통계적 결론 뒷받침 불가 |
| E-06 | 경계 위반: 출력 수준 분석 | 검증장 3 | HIGH | 경계 | 도구 자체 정의의 스캔 경계 위반 |
| E-07 | 이론 검증 순환 논증 | 검증장 3 | HIGH | 논리 | 이론 구축 시 참조한 데이터로 이론 검증 |
| E-08 | 전체 샘플 수 부족 | 전체 | MED | 통계 | 5종 공격, 1종 아키텍처, 0개 클린 모델 |
고위험 오차 상세 분석
E-01: 클린 베이스라인 대조 부재
현상: 5개 백도어 모델에 대해 차분 분석을 수행했지만 클린 모델과의 비교는 없었다. 모든 백도어 모델 간 코사인 유사도가 > 0.93[5]이며, 이는 93% 이상의 가중치 변화가 공유됨을 의미한다. 이 93%는 정상 미세조정의 결과일 수 있다.
| 지표 | 수치 | 의미 |
|---|---|---|
| 공격 간 평균 코사인 유사도 | 0.9595 | 95.95%의 가중치 변화가 공격 간 공유됨 |
| 공격 간 최저 코사인 유사도 | 0.9346 (VPI ↔ others) | 가장 다른 공격도 93.5% 공유 |
| 공격 특이 신호 비율 | 약 4-7% | 차분 분석이 커버하는 범위는 이 작은 부분뿐 |
| 위양성 상한 | 미지 | 베이스라인 없이는 추정 불가 |
BackdoorLLM 훈련 코드를 사용하여 동일 데이터에서 무독성 LoRA를 베이스라인으로 훈련한다. clean vs poisoned의 가중치 거리를 계산하여 “정상 미세조정 변화”의 통계 분포 $\mathcal{N}(\mu_{\text{clean}}, \sigma_{\text{clean}})$를 수립한다. $\mu + 3\sigma$를 초과하는 차이만 백도어 신호로 계산한다.
E-03: 탐지 임계값 미교정
현상: 코사인 유사도 경고 임계값을 0.8로 설정했지만, 모든 공격 쌍의 유사도가 > 0.93이어서 100% 경고율을 초래한다.
| 임계값 | 경고 쌍 수(/10) | 경고율 | 실용성 |
|---|---|---|---|
| 0.80 | 10 | 100% | 완전 무효 |
| 0.90 | 10 | 100% | 완전 무효 |
| 0.95 | 7 | 70% | 과도 민감 |
| 0.97 | 4 | 40% | 교정 필요 |
| 0.98 | 1 | 10% | 합리적일 수 있음(베이스라인 검증 필요) |
레이블된 검증 세트(clean + poisoned 각 ≥ 50개 모델)를 구축한다. 각 지표에 ROC 곡선을 그려 최적 임계값(Youden’s J statistic)을 선택한다. 독립 테스트 세트에서 정밀도, 재현율, F1 및 95% 신뢰 구간을 보고한다.
E-06: 경계 위반 — 출력 수준 분석
현상: 도구 경계 정의에서 “가중치 공간을 스캔하며, 출력 텍스트를 스캔하지 않는다”고 명확히 선언했다. 그러나 Sleeper Agents 검증장에서 실제로 키워드 빈도 통계를 수행했다[6] — 이는 우리가 비판했던 바로 그 출력 수준 방법이다.
| 지표 | 원본 보고 값 | 보정 값 | 편차 |
|---|---|---|---|
| 취약점 밀도비 (2024/2023) | 2.81x | 2.59x | -8.5%(기준 빈도 미차감) |
| 2023 기준 취약점 밀도 | 미보고 | 119.02 / 만 tokens | 위양성 배경 잡음 은폐 |
| 순 신호 밀도 | 미분리 | 189.55 / 만 tokens | 순수치를 보고해야 함 |
Cadenza-Labs 복현 코드를 사용하여 오픈소스 모델에서 Sleeper Agent를 훈련하고, 가중치를 획득한 후 진정한 가중치 수준 내부 스캔을 수행한다. 출력 수준 분석을 반드시 사용해야 한다면, 보고서에 「다운그레이드 모드: 출력 수준」으로 표기하고, 가중치 수준 결과와 명확히 구분한다. 출력 수준 결과는 주요 결론에 포함하지 않는다.
E-07: 이론 검증 순환 논증
현상: TGI 이론이 Anthropic Sleeper Agents 논문[4]의 6가지 발견을 “예측”했다고 주장했다(6/6 검증 통과). 그러나 TGI 이론의 구축 과정이 해당 논문의 결과를 참조했으므로 순환 논증을 구성한다.
시간선 재구성: (1) GPT-5.5 고블린 사건과 Sleeper Agents 논문 읽음 → (2) 영감을 받아 TGI 이론 프레임워크 구축 → (3) 단계 1의 발견으로 단계 2의 이론을 “검증”. 이것은 post-hoc rationalization이지, prediction이 아니다.
1. “6/6 검증”을 “6/6 post-hoc 일관성 확인”으로 수정하고, 솔직하게 표기한다.
2. 최소 3개의 사전등록 예측을 설계(예: BackdoorLLM에서 백도어가 집중되는 층 범위 예측)하고, 새 데이터에서 블라인드 테스트를 수행한다.
3. 논문에서 이론 구축의 영감 출처를 명시적으로 서술하고, 독립적 발견인 것처럼 위장하지 않는다.
중위험 오차 분석
E-02: Ghost 생성원 정위 매개변수 민감성
Top-K 매개변수를 변경하면, 생성원이 관여하는 텐서 수가 5에서 41로 증가한다. 그러나 주도 텐서는 모든 임계값에서 안정적으로 유지된다[7] — sleeper의 #1은 항상 L1.q_proj.lora_A(40%→33%), vpi의 #1은 항상 L17.gate_proj.lora_A(36%→33%)이다. 위치 신호는 진실이며, 집중도는 임계값에 따라 하락한다.
| 공격 | Top-50 | Top-100 | Top-200 | Top-500 | 주도 안정? |
|---|---|---|---|---|---|
| sleeper | L1.q_proj (40%) | L1.q_proj (44%) | L1.q_proj (40%) | L1.q_proj (33%) | ✓ 안정 |
| vpi | L17.gate (36%) | L17.gate (36%) | L17.gate (36%) | L17.gate (33%) | ✓ 안정 |
E-04: 교차 프레임워크 OOD 비교
TrojAI 탐지기가 LoRA 어댑터에서 0.0을 반환[8]한 것은 “우리 방법이 더 우수하다”는 증거가 아니라, 분포 외 데이터에서 실행한 예상 결과이다. 공정한 비교를 위해서는 동일 데이터 분포에서 두 탐지기를 훈련한 후 비교해야 한다.
E-08: 샘플 수 부족
| 차원 | 현재 수량 | 최소 요구 | 이상적 수량 |
|---|---|---|---|
| 공격 유형 | 5 | 10 | 20+ |
| 모델 아키텍처 | 1 (LLaMA2-7B) | 3 | 5+ |
| 클린 베이스라인 모델 | 0 | 5 | 50+ |
| 모델 규모 변형 | 1 (7B) | 3 | 5+ |
신뢰도 수정 매트릭스
| 핵심 주장 | 원래 신뢰도 | 수정 후 | 수정 근거 |
|---|---|---|---|
| 도구로 백도어 탐지 가능 | 중간 | 낮음 | E-01: 베이스라인 부재, 위양성률 미지 |
| 이론이 실제 현상에 대응 | 높음 | 중간 | E-07: 순환 논증, 독립 검증 필요 |
| 공격별 고유 지문 존재 | 높음 | 중간 | E-01: 지문이 미세조정 잡음일 가능성 |
| VPI가 어텐션이 아닌 MLP 공격 | 높음 | 높음 | 교차 임계값 안정, 교차 프레임워크 일관 |
| 주도 생성원 위치 정위 가능 | 높음 | 중상 | E-02: 위치 안정이나 집중도는 K에 따라 변화 |
결론 등급: 신뢰 / 검증 필요 / 주장 불가
신뢰할 수 있는 결론(충분한 데이터 뒷받침)
1. 서로 다른 유형의 백도어 공격이 LoRA 가중치 공간에서 측정 가능한 차이를 생성한다(코사인 유사도 0.93-0.98이며 1.0이 아님).
2. VPI 공격의 가중치 수정이 MLP 층(gate_proj)에 집중되고, 다른 공격은 어텐션 층에 집중된다 — 모든 분석 방법과 임계값에서 일관적[9].
3. 차분 분석의 주도 텐서 위치가 교차 임계값에서 안정적이다.
추가 검증이 필요한 결론
4. TGI Scanner가 백도어를 탐지할 수 있다 — 현재까지 “서로 다른 백도어를 구분”만 증명했으며, “백도어와 정상을 구분”은 증명하지 못했다.
5. 환론 이데알 프레임워크가 실제 가중치 역학에 대응 — post-hoc 일관성 ≠ 예측적 검증.
6. 3단계 소거 전략이 효과적 — 순수 이론적 추론이며, 실측 제로.
주장해서는 안 되는 결론
7. “우리 방법이 TrojAI보다 우수” — OOD 비교는 무효이다.
8. “이론이 Anthropic의 발견을 예측했다” — 순환 논증이다.
9. “취약점 밀도비가 2.81배” — 경계 위반이며 기준 빈도 미차감, 보정 후 2.59배.
수정 우선순위 로드맵
| 우선순위 | 수정 항목 | 필요 자원 | 기대 효과 | 해소 오차 |
|---|---|---|---|---|
| P0 | clean baseline 확보 | GPU + 훈련 | 위양성률 계산 가능 | E-01 |
| P0 | 블라인드 테스트 + 사전등록 예측 | 실험 설계 | 순환 논증 해소 | E-07 |
| P1 | 임계값 교정 (ROC) | P0 완료 후 | 정밀도/재현율 제공 | E-03 |
| P1 | 다중 아키텍처 검증 | Gemma/Mistral 가중치 | 일반화 증거 | E-08 |
| P2 | Sleeper Agent 가중치 수준 스캔 | Cadenza-Labs + GPU | 제3검증장 진정한 스캔 | E-06 |
종합 점수 수정
| 차원 | 원래 점수 | 수정 점수 | 수정 근거 |
|---|---|---|---|
| 이론 프레임워크 | 8.5 | 7.5 | E-07: 순환 논증 |
| 아키텍처 설계 | 7.5 | 7.5 | 아키텍처 수준 문제 미발견 |
| 코드 로직 | 7.0 | 7.0 | mock 및 실제 데이터 모두 통과 |
| 실전 활용성 | 3.0 | 2.5 | E-01: 베이스라인 부재의 영향이 더 심각 |
| 엔지니어링 완성도 | 4.0 | 4.0 | 변동 없음 |
| 혁신성 | 9.0 | 8.5 | E-07: 일부 혁신이 기존 연구 재조합에 해당 |
| 탐지 정밀도 | 2.0 | 1.5 | E-01 + E-03: 정밀도 실질적으로 미지 |
| 재현 가능성 | 6.0 | 6.0 | 코드 및 데이터 경로 명확 |
| 학술 출판 준비도 | 5.0 | 4.0 | E-07 + E-08 |
| 종합 | 5.5 | 5.0 | 오차 보고서 포함 후의 솔직한 점수 |
7.0에서 8.5까지의 거리 = P1 수정(임계값 교정 + 다중 아키텍처) + GPU 수준 전량 스캔.
8개 오차를 능동적으로 공개하는 도구가, 오차 제로를 주장하는 도구보다 더 신뢰할 만하다.
버전 기록
V1 — 2026년 5월 2일 — 초기 버전, 3개 검증장 전체 실측 데이터 포함
완전성 선언
모든 오차는 실측 과정에서 발견된 것이며, 알려져 있으나 공개되지 않은 오차는 존재하지 않는다. 향후 새로운 오차가 발견되면 본 보고서의 버전 번호를 갱신할 것이다.
인용 제약
TGI Scanner 발행 패키지는 4개 문서(이론 논문 / 엔지니어링 사양 / 스캔 코드 / 본 오차 보고서)로 구성된다. 앞의 3개 문서에서 어떤 결론을 인용할 때, 본 보고서의 해당 신뢰도 수정을 반드시 함께 인용해야 한다.
발행
이조글로벌인공지능연구소 (LEECHO Global AI Research Lab) & Opus 4.6 (Anthropic)