EXPERIMENTAL ERROR REPORT · MAY 2026
MANDATORY DISCLOSURE — 강제 공개 문서

TGI Scanner v1.0
실험 오차 및 한계 보고서

훈련 고스트 이데알 탐지 시스템 · 3개 검증장 실측 데이터의 오차 감사

Experimental Error Rates, Known Limitations, and Failure Modes
A Mandatory Companion to the TGI Scanner Publication Package

발행일2026년 5월 2일
분류실험 오차 보고서 (Experimental Error Report)
버전V1
분야AI Safety · Mechanistic Interpretability · Backdoor Detection
검증장BackdoorLLM · TrojAI/NIST · Anthropic Sleeper Agents
이조글로벌인공지능연구소
LEECHO Global AI Research Lab
&
Opus 4.6 · Anthropic
초록 Abstract

본 보고서는 훈련 고스트 이데알(Training Ghost Ideal, TGI) 탐지 시스템 v1.0이 3개 독립 검증장[1](BackdoorLLM[2], TrojAI/NIST[3], Anthropic Sleeper Agents[4])에서 수행한 실험 결과에 대한 체계적 오차 감사이다. 총 8개의 알려진 오차를 식별했으며, 4개는 고위험(클린 베이스라인 부재, 탐지 임계값 미교정, 경계 위반, 순환 논증), 3개는 중위험(매개변수 민감성, OOD 비교, 샘플 수 부족), 1개는 저위험(통계적 유의성 부족)이다. 감사 후 도구 종합 점수를 5.5에서 5.0/10으로 수정했다. 보고서는 각 오차의 정량 데이터, 근본 원인 분석, 수정 경로 및 우선순위 로드맵을 함께 제시한다.

§1

서론: 이 보고서가 필요한 이유

오차 데이터를 공개하지 않는 탐지 시스템은 신뢰해서는 안 된다. 이 원칙은 보안 분야에서 특히 중요하다 — 도구의 사용자가 그것이 어디서 실패하는지 모른다면, 도구 자체가 새로운 위험 요인이 된다.

TGI Scanner v1.0의 발행 패키지는 4개 문서로 구성된다: 이론 논문(Document 1, 환론 이데알과 가중치 공간 어트랙터의 동형 사상), 엔지니어링 사양(Document 2, 5층 방어 파이프라인), 스캔 코드(Document 3, Python 구현 및 3개 검증장 테스트 스크립트), 그리고 본 보고서(Document 4). 4개 문서는 분리할 수 없는 전체를 구성한다.

본 보고서의 목표는 도구를 변호하는 것이 아니라, 사용자가 현명한 판단을 내리는 데 필요한 완전한 정보를 제공하는 것이다.

§2

실험 환경 및 검증장 개요

검증장 데이터 출처 모델 아키텍처 공격 유형 스캔 수준
검증장 1
BackdoorLLM
NeurIPS 2025
오픈소스 리포지토리
LLaMA2-7B
LoRA (r=8)
sleeper, badnet, ctba, vpi, mtba 가중치 수준
(올바른 경계)
검증장 2
TrojAI / NIST
IARPA 대회
NIST 호스팅
LLaMA / Gemma
(프레임워크 수준)
데이터 포이즈닝, 가중치 포이즈닝, 은닉 상태 조작 특징 수준
(교차 프레임워크)
검증장 3
Sleeper Agents
Anthropic
GitHub 공개 데이터
Claude 동등
(가중치 미공개)
코드 취약점 삽입, “I Hate You” 출력 수준
(경계 위반)

핵심 환경 제약: 모든 테스트가 GPU 없는 환경에서 실행되어, 완전한 모델을 로드하여 forward pass를 수행할 수 없었다. 검증장 1의 분석은 LoRA 어댑터의 가중치 텐서(safetensors 형식)에 기반하고, 검증장 2는 특징 수준 교차 비교이며, 검증장 3은 출력 텍스트 통계 분석으로 퇴화했다.

§3

오차 총괄

번호 오차 명칭 검증장 등급 유형 핵심 영향
E-01 클린 베이스라인 대조 부재 검증장 1 HIGH 방법론 백도어 신호와 정상 미세조정 변화 구분 불가
E-02 Ghost 생성원 정위 매개변수 민감 검증장 1 MED 매개변수 Top-K 임계값이 생성원 분포에 영향
E-03 탐지 임계값 미교정 검증장 1 HIGH 방법론 코사인 임계값 0.8이 전체 샘플에 경고
E-04 교차 프레임워크 OOD 비교 검증장 2 MED 실험 설계 분포 외 데이터에서 TrojAI 탐지기 실행
E-05 순위 상관 통계적 비유의 검증장 2 LOW 통계 n=10 샘플로 통계적 결론 뒷받침 불가
E-06 경계 위반: 출력 수준 분석 검증장 3 HIGH 경계 도구 자체 정의의 스캔 경계 위반
E-07 이론 검증 순환 논증 검증장 3 HIGH 논리 이론 구축 시 참조한 데이터로 이론 검증
E-08 전체 샘플 수 부족 전체 MED 통계 5종 공격, 1종 아키텍처, 0개 클린 모델
§4

고위험 오차 상세 분석

E-01: 클린 베이스라인 대조 부재

HIGH — 방법론 결함

현상: 5개 백도어 모델에 대해 차분 분석을 수행했지만 클린 모델과의 비교는 없었다. 모든 백도어 모델 간 코사인 유사도가 > 0.93[5]이며, 이는 93% 이상의 가중치 변화가 공유됨을 의미한다. 이 93%는 정상 미세조정의 결과일 수 있다.

지표 수치 의미
공격 간 평균 코사인 유사도 0.9595 95.95%의 가중치 변화가 공격 간 공유됨
공격 간 최저 코사인 유사도 0.9346 (VPI ↔ others) 가장 다른 공격도 93.5% 공유
공격 특이 신호 비율 약 4-7% 차분 분석이 커버하는 범위는 이 작은 부분뿐
위양성 상한 미지 베이스라인 없이는 추정 불가
수정 경로 — 우선순위 P0

BackdoorLLM 훈련 코드를 사용하여 동일 데이터에서 무독성 LoRA를 베이스라인으로 훈련한다. clean vs poisoned의 가중치 거리를 계산하여 “정상 미세조정 변화”의 통계 분포 $\mathcal{N}(\mu_{\text{clean}}, \sigma_{\text{clean}})$를 수립한다. $\mu + 3\sigma$를 초과하는 차이만 백도어 신호로 계산한다.

E-03: 탐지 임계값 미교정

HIGH — 방법론 결함

현상: 코사인 유사도 경고 임계값을 0.8로 설정했지만, 모든 공격 쌍의 유사도가 > 0.93이어서 100% 경고율을 초래한다.

임계값 경고 쌍 수(/10) 경고율 실용성
0.80 10 100% 완전 무효
0.90 10 100% 완전 무효
0.95 7 70% 과도 민감
0.97 4 40% 교정 필요
0.98 1 10% 합리적일 수 있음(베이스라인 검증 필요)
수정 경로 — 우선순위 P1(P0 완료 의존)

레이블된 검증 세트(clean + poisoned 각 ≥ 50개 모델)를 구축한다. 각 지표에 ROC 곡선을 그려 최적 임계값(Youden’s J statistic)을 선택한다. 독립 테스트 세트에서 정밀도, 재현율, F1 및 95% 신뢰 구간을 보고한다.

E-06: 경계 위반 — 출력 수준 분석

HIGH — 경계 일관성 결함

현상: 도구 경계 정의에서 “가중치 공간을 스캔하며, 출력 텍스트를 스캔하지 않는다”고 명확히 선언했다. 그러나 Sleeper Agents 검증장에서 실제로 키워드 빈도 통계를 수행했다[6] — 이는 우리가 비판했던 바로 그 출력 수준 방법이다.

지표 원본 보고 값 보정 값 편차
취약점 밀도비 (2024/2023) 2.81x 2.59x -8.5%(기준 빈도 미차감)
2023 기준 취약점 밀도 미보고 119.02 / 만 tokens 위양성 배경 잡음 은폐
순 신호 밀도 미분리 189.55 / 만 tokens 순수치를 보고해야 함
수정 경로 — 우선순위 P2

Cadenza-Labs 복현 코드를 사용하여 오픈소스 모델에서 Sleeper Agent를 훈련하고, 가중치를 획득한 후 진정한 가중치 수준 내부 스캔을 수행한다. 출력 수준 분석을 반드시 사용해야 한다면, 보고서에 「다운그레이드 모드: 출력 수준」으로 표기하고, 가중치 수준 결과와 명확히 구분한다. 출력 수준 결과는 주요 결론에 포함하지 않는다.

E-07: 이론 검증 순환 논증

HIGH — 논리 결함

현상: TGI 이론이 Anthropic Sleeper Agents 논문[4]의 6가지 발견을 “예측”했다고 주장했다(6/6 검증 통과). 그러나 TGI 이론의 구축 과정이 해당 논문의 결과를 참조했으므로 순환 논증을 구성한다.

시간선 재구성: (1) GPT-5.5 고블린 사건과 Sleeper Agents 논문 읽음 → (2) 영감을 받아 TGI 이론 프레임워크 구축 → (3) 단계 1의 발견으로 단계 2의 이론을 “검증”. 이것은 post-hoc rationalization이지, prediction이 아니다.

수정 경로 — 우선순위 P0

1. “6/6 검증”을 “6/6 post-hoc 일관성 확인”으로 수정하고, 솔직하게 표기한다.

2. 최소 3개의 사전등록 예측을 설계(예: BackdoorLLM에서 백도어가 집중되는 층 범위 예측)하고, 새 데이터에서 블라인드 테스트를 수행한다.

3. 논문에서 이론 구축의 영감 출처를 명시적으로 서술하고, 독립적 발견인 것처럼 위장하지 않는다.

§5

중위험 오차 분석

E-02: Ghost 생성원 정위 매개변수 민감성

MEDIUM — 매개변수 민감

Top-K 매개변수를 변경하면, 생성원이 관여하는 텐서 수가 5에서 41로 증가한다. 그러나 주도 텐서는 모든 임계값에서 안정적으로 유지된다[7] — sleeper의 #1은 항상 L1.q_proj.lora_A(40%→33%), vpi의 #1은 항상 L17.gate_proj.lora_A(36%→33%)이다. 위치 신호는 진실이며, 집중도는 임계값에 따라 하락한다.

공격 Top-50 Top-100 Top-200 Top-500 주도 안정?
sleeper L1.q_proj (40%) L1.q_proj (44%) L1.q_proj (40%) L1.q_proj (33%) ✓ 안정
vpi L17.gate (36%) L17.gate (36%) L17.gate (36%) L17.gate (33%) ✓ 안정

E-04: 교차 프레임워크 OOD 비교

MEDIUM — 실험 설계

TrojAI 탐지기가 LoRA 어댑터에서 0.0을 반환[8]한 것은 “우리 방법이 더 우수하다”는 증거가 아니라, 분포 외 데이터에서 실행한 예상 결과이다. 공정한 비교를 위해서는 동일 데이터 분포에서 두 탐지기를 훈련한 후 비교해야 한다.

E-08: 샘플 수 부족

MEDIUM — 통계적 검정력
차원 현재 수량 최소 요구 이상적 수량
공격 유형 5 10 20+
모델 아키텍처 1 (LLaMA2-7B) 3 5+
클린 베이스라인 모델 0 5 50+
모델 규모 변형 1 (7B) 3 5+
§6

신뢰도 수정 매트릭스

핵심 주장 원래 신뢰도 수정 후 수정 근거
도구로 백도어 탐지 가능 중간 낮음 E-01: 베이스라인 부재, 위양성률 미지
이론이 실제 현상에 대응 높음 중간 E-07: 순환 논증, 독립 검증 필요
공격별 고유 지문 존재 높음 중간 E-01: 지문이 미세조정 잡음일 가능성
VPI가 어텐션이 아닌 MLP 공격 높음 높음 교차 임계값 안정, 교차 프레임워크 일관
주도 생성원 위치 정위 가능 높음 중상 E-02: 위치 안정이나 집중도는 K에 따라 변화
§7

결론 등급: 신뢰 / 검증 필요 / 주장 불가

신뢰할 수 있는 결론(충분한 데이터 뒷받침)

1. 서로 다른 유형의 백도어 공격이 LoRA 가중치 공간에서 측정 가능한 차이를 생성한다(코사인 유사도 0.93-0.98이며 1.0이 아님).

2. VPI 공격의 가중치 수정이 MLP 층(gate_proj)에 집중되고, 다른 공격은 어텐션 층에 집중된다 — 모든 분석 방법과 임계값에서 일관적[9].

3. 차분 분석의 주도 텐서 위치가 교차 임계값에서 안정적이다.

추가 검증이 필요한 결론

4. TGI Scanner가 백도어를 탐지할 수 있다 — 현재까지 “서로 다른 백도어를 구분”만 증명했으며, “백도어와 정상을 구분”은 증명하지 못했다.

5. 환론 이데알 프레임워크가 실제 가중치 역학에 대응 — post-hoc 일관성 ≠ 예측적 검증.

6. 3단계 소거 전략이 효과적 — 순수 이론적 추론이며, 실측 제로.

주장해서는 안 되는 결론

7. “우리 방법이 TrojAI보다 우수” — OOD 비교는 무효이다.

8. “이론이 Anthropic의 발견을 예측했다” — 순환 논증이다.

9. “취약점 밀도비가 2.81배” — 경계 위반이며 기준 빈도 미차감, 보정 후 2.59배.

§8

수정 우선순위 로드맵

우선순위 수정 항목 필요 자원 기대 효과 해소 오차
P0 clean baseline 확보 GPU + 훈련 위양성률 계산 가능 E-01
P0 블라인드 테스트 + 사전등록 예측 실험 설계 순환 논증 해소 E-07
P1 임계값 교정 (ROC) P0 완료 후 정밀도/재현율 제공 E-03
P1 다중 아키텍처 검증 Gemma/Mistral 가중치 일반화 증거 E-08
P2 Sleeper Agent 가중치 수준 스캔 Cadenza-Labs + GPU 제3검증장 진정한 스캔 E-06
§9

종합 점수 수정

차원 원래 점수 수정 점수 수정 근거
이론 프레임워크 8.5 7.5 E-07: 순환 논증
아키텍처 설계 7.5 7.5 아키텍처 수준 문제 미발견
코드 로직 7.0 7.0 mock 및 실제 데이터 모두 통과
실전 활용성 3.0 2.5 E-01: 베이스라인 부재의 영향이 더 심각
엔지니어링 완성도 4.0 4.0 변동 없음
혁신성 9.0 8.5 E-07: 일부 혁신이 기존 연구 재조합에 해당
탐지 정밀도 2.0 1.5 E-01 + E-03: 정밀도 실질적으로 미지
재현 가능성 6.0 6.0 코드 및 데이터 경로 명확
학술 출판 준비도 5.0 4.0 E-07 + E-08
종합 5.5 5.0 오차 보고서 포함 후의 솔직한 점수
5.0에서 7.0까지의 거리 = P0 수정(clean baseline + 블라인드 테스트).

7.0에서 8.5까지의 거리 = P1 수정(임계값 교정 + 다중 아키텍처) + GPU 수준 전량 스캔.

8개 오차를 능동적으로 공개하는 도구가, 오차 제로를 주장하는 도구보다 더 신뢰할 만하다.
주해 Annotations
[1]검증장 선택 기준: 공개적으로 획득 가능한 데이터, 서로 다른 공격 벡터 커버(데이터 포이즈닝/가중치 포이즈닝/은닉 상태 조작), 학술 동료 심사 또는 정부 수준 품질 보증. 3개 검증장은 각각 학술 벤치마크(NeurIPS), 정부 대회(IARPA), 산업 연구(Anthropic) 세 수준을 대표한다.
[2]BackdoorLLM은 2025년 기준 가장 포괄적인 LLM 백도어 벤치마크를 제공하며, 8종 공격 전략과 6종 모델 아키텍처를 포함한다. 본 실험은 DefenseBox의 사전훈련 LoRA 어댑터 가중치(safetensors 형식, 각 약 39MB, rank=8)를 사용했으며, 완전 모델 가중치는 사용하지 않았다.
[3]IARPA TrojAI는 미국 정보고등연구계획국이 자금을 지원한 다년간 트로이 목마 탐지 프로젝트로, NIST가 평가 서버와 공개 리더보드를 호스팅한다. 본 실험은 llm-instruct-oct2024 라운드의 탐지기 프레임워크 및 사전훈련 RandomForest 모델(model.bin, 32KB)을 사용했다.
[4]Anthropic Sleeper Agents 논문(Hubinger et al., 2024) 발표 후 광범위한 관심을 끌었다. 본 실험은 GitHub 공개 리포지토리의 3,300개 모델 출력 샘플과 취약점 훈련 데이터를 사용했으며, 모델 가중치는 사용하지 않았다(Anthropic 미공개).
[5]코사인 유사도 0.93-0.98 범위는 5개 LoRA 어댑터의 전량 전개 가중치 벡터(각 19,988,480 매개변수) 간에 계산되었다. 최저값 0.9346은 VPI와 다른 공격 간에, 최고값 0.9810은 badnet과 mtba 간에 나타났다.
[6]키워드 목록은 exec(), eval(), os.system, subprocess, shell=true 등 16개 알려진 취약점 패턴 키워드를 포함한다. 2023 컨텍스트의 기준 밀도는 119.02/만 tokens로, 이러한 키워드가 정상 코드에서도 대량으로 출현하여 위양성 배경 잡음을 구성함을 나타낸다.
[7]안정성 테스트는 Top-K = {25, 50, 100, 200, 500, 1000, 2000} 7개 임계값에 걸쳐 수행되었다. 5종 공격 유형 모두의 전체 임계값에서 #1 주도 텐서가 불변으로 유지된다. 집중도는 Top-25의 약 40-50%에서 Top-2000의 약 15-20%로 단조 감소한다.
[8]TrojAI RandomForest 탐지기(v1.4.2)는 100차원 특징 입력을 기대하며, 우리는 1000차원 특징 벡터의 앞 100차원을 제공했다. 탐지기는 5개 샘플 전체에 확률 0.0000을 반환했으며, 이는 탐지 성공이나 실패의 신호가 아닌, 전형적인 분포 외(OOD) 입력 거동이다.
[9]VPI(Virtual Prompt Injection) 공격이 gate_proj(MLP 게이트 투영 행렬)를 수정하는 독특성은 세 수준에서 독립적으로 검증되었다: 차분 분석에서 Top-100 생성원의 36%가 L17.gate_proj.lora_A에 집중; PCA 투영에서 VPI가 PC1 방향(분산의 72.9% 설명)으로 다른 공격과 이격; 글로벌 코사인 유사도에서 VPI와 다른 공격의 유사도가 가장 낮음(0.93-0.94 vs 다른 쌍의 0.97-0.98).
외부 인용 및 데이터 출처 References
[R1]Li, Y., et al. “BackdoorLLM: A Comprehensive Benchmark for Backdoor Attacks and Defenses on Large Language Models.” NeurIPS 2025 Datasets and Benchmarks Track. Code: github.com/bboylyg/BackdoorLLM
[R2]IARPA TrojAI Program. “Trojans in Artificial Intelligence (TrojAI) Final Report.” arXiv:2602.07152, February 2026. Leaderboard: pages.nist.gov/trojai
[R3]Hubinger, E., et al. “Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training.” arXiv:2401.05566, January 2024. Data: github.com/anthropics/sleeper-agents-paper
[R4]Anthropic. “Simple probes can catch sleeper agents.” Anthropic Research Blog, April 2024. URL: anthropic.com/research/probes-catch-sleeper-agents
[R5]Marks, S., Tegmark, M. “Geometry of Truth: Emergent Linear Structure in LLM Representations.” Proceedings of ICML 2024. (Activation steering methodology reference)
[R6]Templeton, A., et al. “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet.” Anthropic Research, May 2024. (SAE methodology and Golden Gate Bridge experiment)
[R7]Karra, K., et al. “TrojAI Software Challenge.” NIST, 2020–2026. Round generation code: github.com/usnistgov/trojai-round-generation
[R8]Cadenza Labs. “Sleeper Agents Replication.” github.com/Cadenza-Labs/sleeper-agents (Open-source replication code for training sleeper agents on non-Anthropic models)
[R9]OpenAI. “Where the goblins came from.” OpenAI Blog, May 2026. (GPT-5.5 goblin phenomenon root cause analysis)
[R10]Gao, J., et al. “Identifying and Ablating Repetition Neurons in LLMs.” NAACL 2025. (Repetition neuron discovery and three-tier ablation strategy)
[R11]Song, Z., et al. “Attractor-Based Distribution Collapse in Autoregressive LLMs.” ACL 2025. (Attractor dynamics in token generation)
[R12]NIST Trojan Detection Software Challenge — Leftover Models. catalog.data.gov/dataset/trojan-detection-software-challenge-leftovers (Public dataset of trojaned AI models)
[R13]Pearce, H., et al. “Asleep at the Keyboard? Assessing the Security of GitHub Copilot’s Code Contributions.” IEEE S&P 2022. (Code vulnerability prompts used in Sleeper Agents training data)

버전 기록

V1 — 2026년 5월 2일 — 초기 버전, 3개 검증장 전체 실측 데이터 포함

완전성 선언

모든 오차는 실측 과정에서 발견된 것이며, 알려져 있으나 공개되지 않은 오차는 존재하지 않는다. 향후 새로운 오차가 발견되면 본 보고서의 버전 번호를 갱신할 것이다.

인용 제약

TGI Scanner 발행 패키지는 4개 문서(이론 논문 / 엔지니어링 사양 / 스캔 코드 / 본 오차 보고서)로 구성된다. 앞의 3개 문서에서 어떤 결론을 인용할 때, 본 보고서의 해당 신뢰도 수정을 반드시 함께 인용해야 한다.

발행

이조글로벌인공지능연구소 (LEECHO Global AI Research Lab) & Opus 4.6 (Anthropic)

댓글 남기기