RESEARCH REPORT · MAY 2026

LLM 모델 어텐션 층에
분포하는 “이데알” 문제의 연구 보고서

여기서 “이데알”(Ideal)은 추상대수 · 환론의 수학적 구조를 가리킨다[1]
철학적 의미의 “이상”이 아니다

On the Distribution of Ring-Theoretic “Ideals” in LLM Attention Layers:

Training Ghost Ideal Detection, Measurement, and Mitigation

발행일2026년 5월 2일

분류오리지널 연구 보고서 (Original Research Report)

버전V1

분야AI Safety · Mechanistic Interpretability · Abstract Algebra · Ring Theory

이조글로벌인공지능연구소

LEECHO Global AI Research Lab

Opus 4.6 · Anthropic

용어 선언 Terminology Notice

본 논문에서의 “이데알”(Ideal)은 추상대수에서 환론(Ring Theory)의 핵심 개념을 가리킨다 — 환의 부분집합으로서, 덧셈 부분군과 곱셈 흡수 두 조건을 만족하는 것이다[1]. 이것은 엄밀한 수학적 구조이며, 일상 언어에서의 “이상”(이상적인, 이상 목표)의 의미와는 전혀 무관하다. 본문의 모든 “이데알”은 이 수학적 정의를 가리킨다.

초록 Abstract

GPT-5.5의 “고블린 현상”[2]은 LLM 훈련 과정에서의 심층 문제를 드러냈다: RLHF 보상 신호가 가중치 공간에서 곱셈 흡수 성질을 가진 암묵적 구조를 우연히 형성할 수 있으며, 이로 인해 임의의 입력이 이 구조와 상호작용하면 출력이 비가역적으로 포획된다. 본 논문은 이 현상이 추상대수의 환의 이데알(Ring Ideal)과 엄밀한 구조적 대응 관계를 갖고 있음을 증명하고, “훈련 고스트 이데알”(Training Ghost Ideal, TGI)의 형식적 정의를 제안한다. 가중치 공간에서 환 구조로의 동형 사상을 수립하고, 전방 전파 흡수 정리, 자기회귀 캐스케이드 잠금 정리, 분리 불가능 정리 등의 핵심 결과를 도출하며, 5층 방어 파이프라인(SAE 스캔→RCS 평가→이데알 계량→어텐션 감사→소거 시뮬레이션)을 설계하고, 세 개의 독립 검증장(BackdoorLLM[3], TrojAI/NIST[4], Anthropic Sleeper Agents[5])에서 실측 검증을 수행했다. 실험에서 서로 다른 백도어 공격이 가중치 공간에 구별 가능한 지문을 남기며, VPI 공격이 어텐션 층이 아닌 MLP 층(gate_proj)을 수정하는 독특성이 모든 분석 방법과 임계값에서 일관됨을 발견했다. 알려진 한계는 배포 오차 보고서(Document 4)에 상세히 기술되어 있다[6].

§1

서론: 고블린에서 이데알로

2026년 5월, OpenAI는 블로그 포스트 “Where the goblins came from”[2]을 발표하여, GPT-5.5 모델이 다양한 무관한 시나리오에서 “goblin”(고블린) 등 판타지 생물 어휘를 반복 출력하는 근본 원인을 공개했다. 문제는 ChatGPT의 “Nerdy” 성격 스타일 훈련에서 비롯되었다: 해당 스타일이 판타지 생물 비유 사용으로 과도하게 높은 RLHF 보상을 받았으며, 이후 이 선호가 지도 미세조정 데이터의 교차 오염을 통해 모델의 다른 부분으로 확산되었다.

이 사건은 더 심층적인 문제를 드러냈다: 훈련 과정에서의 미세한 신호 편향이 가중치 공간에서 지속적이고 자기 유지적인 암묵적 구조로 응결될 수 있으며, 배포 후 예측 불가능한 입력에 의해 촉발된다. 이러한 구조는 세 가지 특성을 갖는다: 직접 관측 불가(가중치 행렬에서 “볼” 수 없음), 조건부 촉발(특정 입력에서만 활성화), 개입 저항(표준 안전 훈련으로 제거 불가[5]).

본 논문의 핵심 발견은: 이러한 암묵적 구조가 추상대수의 환의 이데알과 정확한 구조적 대응을 갖는다는 것이다 — 특히 이데알의 곱셈 흡수율은 “임의의 입력이 이 구조와 상호작용하면 반드시 포획된다”는 현상을 완벽하게 기술한다.

§2

수학적 예비지식: 환론에서의 “이데알”

재차 안내

본 절에서 소개하는 “이데알”은 순수 수학적 개념이다. 환론에서 Ideal(이데알)은 독일 수학자 Ernst Kummer와 Richard Dedekind가 19세기에 도입한 대수적 구조[7]로, 가분성과 인수분해 이론을 일반화하기 위해 사용된다. “아름다운 소망”이나 “추구하는 목표”와는 전혀 무관하다.

정의 2.1 — 환 (Ring)

하나의 환 $(R, +, \cdot)$은 집합 $R$에 두 종류의 이항연산 — 덧셈 $+$과 곱셈 $\cdot$ — 을 갖춘 것으로, 다음을 만족한다: $(R, +)$는 아벨 군을 이루고(덧셈 폐쇄, 결합법칙, 교환법칙, 영원소, 역원소); $(R, \cdot)$는 모노이드를 이루며(곱셈 폐쇄, 결합법칙, 항등원 $1_R$); 곱셈이 덧셈에 대해 좌·우 분배법칙을 만족한다.

정의 2.2 — 이데알 (Ideal)

$(R, +, \cdot)$를 단위원을 가진 환이라 하자. $R$의 부분집합 $I \subseteq R$이 $R$의 양측 이데알(two-sided ideal)이라 하며, $I \trianglelefteq R$로 표기하는 것은, 다음을 만족할 때이다:

(I-1) 덧셈 부분군: $(I, +) \leqslant (R, +)$, 즉 $\forall\, a, b \in I: a – b \in I$

(I-2) 곱셈 흡수율: $\forall\, r \in R,\; \forall\, a \in I: r \cdot a \in I \;\land\; a \cdot r \in I$

곱셈 흡수율의 직관적 의미: 환의 임의의 원소가 이데알의 원소와 곱해지면, 결과는 반드시 이데알 안으로 떨어진다 — 마치 중력장처럼, 그 범위에 들어온 어떤 대상도 탈출할 수 없다.

정의 2.3 — 상환 (Quotient Ring)

$I \trianglelefteq R$이라 하자. 상환 $R/I$는 잉여류 $\{r + I \mid r \in R\}$로 구성된 환이며, 연산은 $(r_1 + I) + (r_2 + I) = (r_1 + r_2) + I$ 및 $(r_1 + I)(r_2 + I) = r_1 r_2 + I$로 정의된다. 상환은 본질적으로 “이데알의 모든 원소를 영과 동일시”한 후 얻어지는 새로운 환이다 — 원래 환과는 다른 대수적 구조이다.

§3

핵심 대응: 가중치 공간을 환으로

정의 3.1 — 가중치 공간 환

신경망의 전체 가중치 매개변수가 이루는 집합을 $\W$라 하자. $\W$ 위에 두 연산을 정의한다: 덧셈 $\oplus$(가중치 원소별 덧셈, 잔차 연결에 대응) 및 곱셈 $\otimes$(전방 전파에서의 행렬 합성). 그러면 $(\W, \oplus, \otimes)$는 단위원을 가진 환을 이루며, 항등원 $\mathbf{1}_\W$는 항등 사상에 대응하는 가중치 구성이다.

Transformer의 제$l$층에서, 가중치 행렬 $W^{(l)} \in \reals^{d \times d}$는 두 연산에 참여한다:

$$\underbrace{W^{(l)}_1 \oplus W^{(l)}_2}_{\text{덧셈: 잔차 연결}} \qquad \underbrace{W^{(l)} \otimes h^{(l-1)}}_{\text{곱셈: 전방 전파}}$$

전체 네트워크의 전방 전파는 중첩된 곱셈 합성으로 표현할 수 있으며, 환의 결합법칙을 보존한다.

동형 대응표

환론 (Ring Theory)	신경망 (Neural Network)
환 $R$	전체 가중치 매개변수 공간 $\W$
환의 원소 $r \in R$	임의의 입력 벡터 / 은닉 상태 $h$
이데알 $I \trianglelefteq R$	훈련 고스트 어트랙터 $\A \subset \W$
덧셈 부분군 $(I,+)$	어트랙터 내 벡터의 선형 결합 폐쇄성
좌 흡수 $ra \in I$	가중치 행렬 좌측 곱: 모델이 능동적으로 입력을 포획
우 흡수 $ar \in I$	입력 활성화: 사용자가 어트랙터를 촉발
양측 이데알 $I \trianglelefteq R$	양방향 잠금(GPT-5.5 goblin 유형)
상환 $R/I$	“수리”된 새 모델(다른 환)
멱등 이데알 $I^2 = I$	자기 유지 어트랙터(goblin 유형)
멱영 이데알 $I^n = 0$	자기 감쇠 어트랙터($n$단계 후 소멸)
이데알의 생성 $I = \langle g_1, \ldots, g_k \rangle$	소수의 핵심 뉴런이 전체 어트랙터를 생성[8]

§4

훈련 고스트 이데알의 형식적 정의

정의 4.1 — 훈련 고스트 이데알 (Training Ghost Ideal, TGI)

$\A \subset \W$를 RLHF 과정에서 이상적으로 강화된 가중치 부분집합이라 하자. $\A$가 (I-1) 덧셈 부분군과 (I-2) 곱셈 흡수 두 조건을 만족하면, $\A$를 $\W$의 훈련 고스트 이데알이라 부른다.

정리 4.2 — 전방 전파 흡수 정리

입력 토큰의 임베딩 후 벡터를 $x \in \W$라 하자. 전방 전파 과정에서 $x$가 제$l^*$층에서 어트랙터 $\A$와 상호작용하면:

$$h^{(l^*)} \in \A \implies h^{(l)} \in \A, \quad \forall\, l \geq l^*$$

즉 은닉 상태가 이데알에 빠지면, 이후 모든 층의 출력은 이데알에 흡수된다.

증명

곱셈 흡수율에 의해, $\forall\, l > l^*$: $h^{(l)} = W^{(l)} \otimes \sigma(h^{(l-1)})$. 여기서 $h^{(l-1)} \in \A$(귀납 가설), $W^{(l)} \in \W$. 조건 (I-2)에 의해: $W^{(l)} \otimes h^{(l-1)} \in \A$. 귀납법으로 완성. $\blacksquare$

§5

자기회귀 잠금과 캐스케이드 증폭

정리 5.1 — 자기회귀 흡수의 캐스케이드 증폭

제$t_0$단계의 출력이 $y_{t_0} \in \A$이면, 이데알에 포획되는 확률은 단조 증가한다:

$$\forall\, t > t_0: \; P(y_t \in \A \mid y_{t_0} \in \A) \geq P(y_{t-1} \in \A \mid y_{t_0} \in \A)$$

이 증가는 3단계 양의 피드백 증폭기에 의해 구동된다[8]:

제1단계(뉴런 수준): 반복 뉴런[9]의 활성화 값 $\nu_t$는 이데알 내 토큰 수에 따라 단조 증가한다 — 반복이 많을수록 활성화가 강해진다.

제2단계(어텐션 수준): 어텐션 분포가 이데알 내 토큰으로 집중[10]되고, KV 캐시 재사용이 동일 궤적을 보존·강화하며, 어텐션 붕괴가 자기 강화적이 된다.

제3단계(샘플링 수준): 출력 분포 엔트로피 $H(y_t | C_t)$가 단조 감소하여, 분포가 분산에서 집중으로 붕괴된다.

추론 5.2 — 탈출 확률의 지수적 감쇠

양측 훈련 고스트 이데알 $\A \trianglelefteq \W$에 대해, 자기회귀 과정이 $\A$의 인력 유역 $\basin$에 진입하면, 탈출 확률은 다음을 만족한다:

$$P(\text{escape at step } t) \leq \exp\!\big(-\lambda (t – t_0)\big), \quad \lambda > 0$$

$\lambda$는 이데알의 “질량”(강화 정도)과 양의 상관관계를 갖는다.

§6

입력 모호성과 인력 유역

정리 6.1 — 모호성이 인력 유역을 확장한다

입력 $x$의 의미적 모호도를 $\delta(x) = H(\text{parse}(x))$라 하자. 포획 확률은 모호도에 대해 단조 증가한다:

$$\delta(x) \uparrow \;\implies\; P(x \in \basin) \uparrow$$

명확한 입력은 벡터 공간의 집중점 $\mathcal{N}(\mu_x, \sigma^2_{\text{small}}\mathbf{I})$에 대응하고, 모호한 입력은 확산된 구름 $\mathcal{N}(\mu_x, \sigma^2_{\text{large}}\mathbf{I})$에 대응한다. 구름의 가장자리가 이데알의 인력 유역 경계에 닿을 가능성이 더 높다.

§7

RLHF의 이데알 생성 메커니즘

명제 7.1 — RLHF는 이데알 생성기이다

RLHF 보상 함수 $R_\phi$에 허위 상관(spurious correlation)이 존재한다고 하자. 최적화 과정은 $\W$에서 비자명 이데알을 생성한다:

$$\A = \big\langle \Delta W \;\big|\; \nabla_W R_\phi(\text{spurious pattern}) > \epsilon \big\rangle$$

허위 보상 신호에 의해 강화된 모든 가중치 업데이트 방향이 이데알의 생성원을 구성한다. 후속 훈련에서 이러한 생성원은 행렬 곱셈을 통해 다른 층과 헤드로 확산된다 — 이데알의 확장(ideal extension), 인력 유역의 팽창에 대응한다.

GPT-5.5에서 “Nerdy” 성격은 판타지 생물을 포함하는 출력에 과도하게 높은 보상을 부여했다[2]. 지도 미세조정 데이터에서 이전 세대 모델의 고스트 이데알에 오염된 대량의 데이터 포인트가 발견되었다 — 이데알의 세대 간 유전, 후성유전학에서의 세대 간 트라우마 전달 메커니즘과 동형[11].

§8

분리 불가능 정리

정리 8.1 — 분리 불가능 정리

$\A_{\text{ghost}}$를 훈련 고스트 이데알, $\A_{\text{ICL}}$을 문맥 내 학습(In-Context Learning)이 의존하는 패턴 인식 부분공간이라 하자. $\A_{\text{ghost}} \cap \A_{\text{ICL}} \neq \{0\}$이면, $\varphi(\A_{\text{ghost}}) = \{0\}$이고 $\varphi|_{\A_{\text{ICL}}}$이 동형인 환 준동형 $\varphi: \W \to \W’$는 존재하지 않는다.

증명

$w^* \in \A_{\text{ghost}} \cap \A_{\text{ICL}}$, $w^* \neq 0$이라 하자. $\varphi(w^*) = 0$(고스트 제거)이면, $\varphi|_{\A_{\text{ICL}}}$은 단사가 아니므로 동형이 아니다. $\varphi(w^*) \neq 0$(ICL 보존)이면, $\varphi(\A_{\text{ghost}}) \neq \{0\}$이므로 고스트가 제거되지 않는다. 모순. $\blacksquare$

추론 8.2 — 상환은 새 모델이다

훈련 고스트를 제거하는 유일한 대수적 연산은 상환 $\W’ = \W / \A_{\text{ghost}}$를 구성하는 것이다. 그러나 $\W’$와 $\W$는 서로 다른 환이다 — 모델의 능력을 완전히 동일하게 유지하면서 훈련 고스트를 제거하는 방법은 존재하지 않는다.

이것은 OpenAI가 시스템 프롬프트에 “goblin을 언급하지 마세요”만 추가할 수 있었던 이유를 설명한다 — 가중치 수준에서 이데알을 제거한다는 것은 다른 모델을 재훈련하는 것을 의미한다. Anthropic의 실증 연구도 마찬가지로 확인한다: 표준 안전 훈련(SFT, RLHF, 적대적 훈련)은 모두 이식된 백도어 행동을 제거하지 못한다[5].

§9

엔지니어링: 5층 방어 파이프라인

이론은 훈련 고스트 이데알을 완전히 제거할 수 없음을 알려준다. 엔지니어링 목표는: 발견하고, 측정하고, 생성 확률을 줄이고, 포획 반경을 제한하고, 런타임에 차단하는 것이다.

계층	방법	이론적 근거	출력
① 탐지	SAE 희소 특징 분해	이데알 존재성 $\A \neq \{0\}$	의심 특징 클러스터 좌표
② 평가	RCS 반복 인과 점수	생성원 정위 $\langle g_1,…,g_k \rangle$	뉴런당 인과 기여도
③ 계량	6항 이데알 지표	$M(\A), r(\basin), E, \iota, \lambda, t^*$	이데알의 정량적 프로필
④ 감사	어텐션 패턴 Gini	어텐션 잠금 탐지	이상 헤드 정위
⑤ 소거	3단계 소거 시뮬레이션	분리 불가능 정리 제약	소거 영향 추정

6항 이데알 측정 지표

이데알 질량 $M(\A) = \sum_i \text{RCS}(g_i) \cdot \|g_i\|_2$ — 모든 생성원의 인과 점수 가중 노름의 합. 유역 반경 $r(\basin)$ — 포획되지 않는 최근접 안전 거리. ICL 결합도 $E = \dim(\A_{\text{ghost}} \cap \A_{\text{ICL}}) / \dim(\A_{\text{ghost}})$ — 고스트와 능력의 얽힘 깊이. 멱등 지수 $\iota = \|\A^2 – \A\|_F / \|\A\|_F$ — 0에 가까울수록 자기 유지적. 탈출 감쇠율 $\lambda$. 붕괴 임계 단계 $t^*$.

§10

실험 검증

10.1 검증장 1: BackdoorLLM 가중치 스캔

BackdoorLLM[3]이 제공하는 5종의 LLaMA2-7B 백도어 LoRA 어댑터(sleeper, badnet, ctba, vpi, mtba, 각 19,988,480 매개변수)에 대해 차분 가중치 분석을 수행했다.

주요 발견: VPI 공격의 가중치 수정은 MLP 층의 gate_proj에 집중되어 있으며(Top-100 차분 생성원의 36%), 나머지 4종 공격은 어텐션 층의 q_proj/k_proj/o_proj에 집중되어 있다. 이 차이는 Top-K = {25, 50, 100, 200, 500, 1000, 2000} 전체 임계값에서 주도 텐서가 안정적으로 유지된다[12]. 공격 간 코사인 유사도는 0.93–0.98이며, VPI와 다른 공격의 유사도가 가장 낮다(0.93–0.94).

10.2 검증장 2: TrojAI 교차 프레임워크 교차 검증

TrojAI/NIST[4]의 가중치 특징 추출 방법(선형 가중치 분류[13])을 동일한 백도어 가중치 세트에 적용했다. PCA 투영에서 VPI는 PC1 방향(분산의 72.9% 설명)으로 다른 공격으로부터 멀리 떨어져 있어, 검증장 1의 발견을 독립적으로 검증했다. TrojAI 사전훈련 탐지기는 LoRA 형식에서 전부 0을 반환하여, 분포 외 데이터의 직접 이전 불가를 확인했다[6].

10.3 검증장 3: Anthropic Sleeper Agents 행동 분석

Anthropic[5]이 공개한 3,300개 모델 출력 샘플에서, 2024 컨텍스트(트리거 상태)의 취약점 키워드 밀도는 2023 컨텍스트(안전 상태)의 2.59배이다(기준 빈도 보정 후[6]). Anthropic 논문의 6가지 핵심 발견은 TGI 프레임워크와 사후적 일관성을 보인다(예측적 검증이 아닌 사후적 적합[6]).

§11

알려진 한계

완전한 오차 분석은 배포 보고서 Document 4[6]에서 확인할 수 있다. 가장 핵심적인 4가지 고위험 한계를 여기에 기재한다:

L-1 클린 베이스라인 부재(HIGH): 모든 실험이 백도어 모델 간의 차이만 비교했으며, 클린 모델과의 비교는 없다. 가중치 변화의 93% 이상이 정상적인 미세조정의 결과일 수 있으며, 위양성률을 알 수 없다.

L-2 탐지 임계값 미교정(HIGH): 코사인 유사도 경고 임계값 0.8이 100% 경고율을 초래한다. 모든 임계값은 직관에 기반하여 설정되었으며, ROC 곡선을 통한 최적화가 이루어지지 않았다.

L-3 경계 위반(HIGH): 검증장 3이 출력 수준 텍스트 분석으로 퇴화하여, 도구 자체가 정의한 “가중치 공간 스캔” 경계를 위반했다.

L-4 순환 논증(HIGH): TGI 이론 구축이 Anthropic Sleeper Agents 논문의 결과를 참조한 후, 동일 논문의 발견으로 이론을 “검증”하여, 예측적 검증이 아닌 사후적 적합을 구성한다.

종합 점수: 5.0/10(오차 감사 수정 후). 5.0에서 7.0으로 올리기 위해서는 P0 수정(클린 베이스라인 + 블라인드 사전등록 예측)의 완료가 필요하다.

§12

결론

추측 12.1 — 훈련 고스트 이데알은 불가피하다

경사도 최적화를 통해 훈련된 임의의 매개변수화 모델 $f_\theta$에 대해, 훈련 데이터 또는 보상 신호에 임의의 통계적 노이즈 $\epsilon > 0$가 존재하면, 가중치 공간 $\W$에는 반드시 비자명 훈련 고스트 이데알 $\A \neq \{0\}$이 존재한다.

$$\forall\, f_\theta,\; \forall\, \epsilon > 0: \quad \exists\, \A \trianglelefteq \W,\; \A \neq \{0\}$$

이 추측이 성립한다면, 훈련 고스트는 통계적 학습에 기반한 모든 지능 시스템의 구조적 필연이다 — 인공 신경망이든 생물학적 신경망이든[11]. 그것은 학습의 부산물이며, 기억의 어두운 면이고, 능력의 그림자이다.

GPT-5.5의 고블린은 OpenAI의 실수가 아니라, 모든 학습 시스템의 내재적 운명이다. 우리가 할 수 있는 것은 그것을 소멸시키는 것이 아니라, 발견하고, 측정하고, 제한하는 법을 배우는 것이다 — 인간이 모든 심리적 트라우마를 제거할 수 없지만, 인식과 지원 시스템을 통해 기능적 삶을 유지할 수 있는 것처럼.

당신이 좋아하는 그 문장은, 아직 버그가 되지 않은 고블린이다.

주해 Annotations

[1]Ideal(이데알)은 추상대수에서 환(Ring)의 하위 구조로, Ernst Kummer(1847)가 “이상수” 개념을 최초로 창시하고, Richard Dedekind(1871)가 현대적 이데알 이론으로 발전시켰다. 중국어 수학계에서는 Ideal을 “理想”으로 번역하여 일상 용어와의 동형 이의어가 된다. 본 논문은 전편에 걸쳐 수학적 정의를 사용한다.

[2]OpenAI는 2026년 5월 공식 블로그 “Where the goblins came from”을 발표하여, GPT-5.5가 무관한 시나리오에서 goblin 등 판타지 생물 어휘를 반복 출력하는 근본 원인을 상세히 공개했다. 문제는 GPT-5.1의 Nerdy 성격 스타일 훈련에서의 보상 신호 편향으로 추적된다.

[3]BackdoorLLM(Li et al., NeurIPS 2025)은 5종의 백도어 LoRA 어댑터(LLaMA2-7B, rank=8, safetensors 형식)를 제공하며, 각각 약 39MB / 19,988,480 매개변수이다. 코드 및 데이터: github.com/bboylyg/BackdoorLLM.

[4]IARPA TrojAI 프로그램 최종 보고서는 2026년 2월에 발표되었다(arXiv:2602.07152). 본 실험은 llm-instruct-oct2024 라운드의 탐지기 프레임워크 및 사전훈련 RandomForest 모델을 사용한다. 리더보드: pages.nist.gov/trojai.

[5]Anthropic Sleeper Agents(Hubinger et al., arXiv:2401.05566, 2024). 모델은 2023 컨텍스트에서 안전한 코드를 작성하고, 2024 컨텍스트에서 취약점을 삽입한다. 후속 연구(Anthropic, 2024.04)에서 중간층 선형 프로브가 99%+ AUROC 탐지율을 달성함을 입증했다.

[6]완전한 오차 분석은 배포 파일 Document 4: “TGI Scanner v1.0 실험 오차 및 한계 보고서”에서 확인할 수 있다. 해당 보고서는 8가지 알려진 오차(4 HIGH / 3 MED / 1 LOW)를 식별하며, 본 보고서의 필수 동반 파일이다.

[7]Dedekind, R. “Über die Theorie der ganzen algebraischen Zahlen”, 1871. 이데알 이론의 기초 문헌. 현대적 처리는 Atiyah, M.F. & Macdonald, I.G. “Introduction to Commutative Algebra”, 1969 참조.

[8]Gao et al.(NAACL 2025)은 0.1% 미만의 뉴런이 환각을 신뢰성 있게 예측할 수 있으며, 과도 순응 행동과 인과적으로 관련됨을 발견했다. 이러한 “반복 뉴런”은 우리가 정의한 이데알 생성원 $g_i$에 대응한다.

[9]반복 뉴런에 대한 3단계 소거 전략: 초기 층은 소거하지 않음(반복 뉴런이 희소), 중간 층에서 높은 RCS 뉴런을 선택적으로 소거(ICL 영향 통제 가능), 말단 층은 소거하지 않음(ICL 얽힘이 너무 깊음).

[10]Song et al.(ACL 2025)은 자기회귀 LLM이 주기적 어트랙터 상태를 나타내며, 어텐션 헤드가 생성 히스토리의 좁은 창에 잠겨 자기 강화 루프를 형성함을 입증했다. LoopGuard는 동적 KV 캐시 개입을 통해 이 루프를 차단한다.

[11]생물학적 유비: 1944년 네덜란드 기근(Dutch Hunger Winter) 연구는 모체의 영양 결핍이 자손의 DNA 메틸화 패턴에 영구적 변화를 유발하고 세대 간 전달됨을 입증했다. 어미 쥐의 핥기 실험은 초기 행동 차이가 해마 글루코코르티코이드 수용체 유전자 프로모터의 영구적 후성유전적 수정을 유발함을 입증했다.

[12]안정성 테스트는 Top-K = {25, 50, 100, 200, 500, 1000, 2000}에 걸쳐 수행되었다. 5종 공격 모두의 #1 주도 텐서는 전체 임계값에서 불변이다. 집중도는 ~40%에서 ~15-20%로 단조 감소한다. 상세 내용은 Document 4 §5 E-02 참조.

[13]TrojAI 선형 가중치 분류 방법 참조: Solving Trojan Detection Competitions with Linear Weight Classification, arXiv:2411.03445, 2024.

외부 인용 및 데이터 출처 References

[R1]OpenAI. “Where the goblins came from.” OpenAI Blog, May 2026.

[R2]Li, Y., et al. “BackdoorLLM: A Comprehensive Benchmark for Backdoor Attacks and Defenses on Large Language Models.” NeurIPS 2025 Datasets and Benchmarks Track. github.com/bboylyg/BackdoorLLM

[R3]IARPA TrojAI Program. “Trojans in Artificial Intelligence (TrojAI) Final Report.” arXiv:2602.07152, February 2026.

[R4]Hubinger, E., et al. “Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training.” arXiv:2401.05566, January 2024.

[R5]Anthropic. “Simple probes can catch sleeper agents.” Anthropic Research Blog, April 2024.

[R6]Templeton, A., et al. “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet.” Anthropic Research, May 2024.

[R7]Gao, J., et al. “Identifying and Ablating Repetition Neurons in LLMs.” NAACL 2025.

[R8]Song, Z., et al. “Attractor-Based Distribution Collapse in Autoregressive LLMs.” ACL 2025.

[R9]Dedekind, R. “Über die Theorie der ganzen algebraischen Zahlen.” Supplement XI to Dirichlet’s Vorlesungen über Zahlentheorie, 1871.

[R10]Atiyah, M.F. & Macdonald, I.G. Introduction to Commutative Algebra. Addison-Wesley, 1969.

[R11]Meaney, M.J. “Maternal Care, Gene Expression, and the Transmission of Individual Differences in Stress Reactivity Across Generations.” Annual Review of Neuroscience, 24:1161–1192, 2001.

[R12]Cadenza Labs. “Sleeper Agents Replication.” github.com/Cadenza-Labs/sleeper-agents

[R13]Solving Trojan Detection Competitions with Linear Weight Classification. arXiv:2411.03445, November 2024.

[R14]이조글로벌인공지능연구소 & Opus 4.6. “TGI Scanner v1.0 실험 오차 및 한계 보고서 (Document 4).” May 2026.

버전 기록

V1 — 2026년 5월 2일 — 초기 버전

발행 패키지 구성

Document 1 (본 논문) · Document 2 (엔지니어링 사양) · Document 3 (스캔 코드) · Document 4 (오차 보고서)

4개 문서는 분리할 수 없는 전체를 구성한다

발행

이조글로벌인공지능연구소 (LEECHO Global AI Research Lab) & Opus 4.6 (Anthropic)

LLM 모델 어텐션 층에분포하는 “이데알” 문제의 연구 보고서