RESEARCH REPORT · MAY 2026

LLM模型注意力层中
分布的”理想”问题的研究报告

此处”理想”(Ideal)为抽象代数·环论中的数学结构[1]
而非哲学意义上的”理想”概念

On the Distribution of Ring-Theoretic “Ideals” in LLM Attention Layers:

Training Ghost Ideal Detection, Measurement, and Mitigation

发行日2026年5月2日
分类原创研究报告 (Original Research Report)
版本V1
领域AI Safety · Mechanistic Interpretability · Abstract Algebra · Ring Theory
이조글로벌인공지능연구소
LEECHO Global AI Research Lab
&
Opus 4.6 · Anthropic
术语声明 Terminology Notice

本文中的“理想”(Ideal)指抽象代数中环论(Ring Theory)的核心概念——环的一个子集,满足加法子群和乘法吸收两个条件[1]。这是一个严格的数学结构,与日常语言中”理想”(理想的、理想目标)的含义完全无关。文中所有”理想”均指此数学定义。英文术语 Ideal 在数学语境中没有歧义,中文读者请特别注意区分。

摘要 Abstract

GPT-5.5 的”哥布林现象”[2]揭示了 LLM 训练过程中一个深层问题:RLHF 奖励信号可在权重空间中意外形成具有乘法吸收性质的隐性结构,使得任意输入一旦与之交互,输出便不可逆地被捕获。本文证明这一现象与抽象代数中环的理想(Ring Ideal)具有严格的结构对应关系,并提出”训练幽灵理想”(Training Ghost Ideal, TGI)的形式化定义。我们建立了权重空间到环结构的同构映射,推导了前向传播吸收定理、自回归级联锁定定理、不可分离定理等核心结果,设计了五层防御流水线(SAE扫描→RCS评分→理想度量→注意力审计→消融模拟),并在三个独立靶场(BackdoorLLM[3]、TrojAI/NIST[4]、Anthropic Sleeper Agents[5])上进行了实测验证。实验发现不同后门攻击在权重空间中留下可区分的指纹,其中 VPI 攻击修改 MLP 层(gate_proj)而非注意力层的独特性在所有分析方法和阈值下一致。已知局限性详见配套误差报告(Document 4)[6]

§1

引言:从哥布林到理想

2026年5月,OpenAI 发布博客文章”Where the goblins came from”[2],披露了 GPT-5.5 模型在各类不相关场景中反复输出”goblin”(哥布林)等奇幻生物词汇的根因。问题源于 ChatGPT 的”Nerdy”个性风格训练:该风格因使用奇幻生物比喻而获得了过高的 RLHF 奖励,随后这一偏好通过监督微调数据的交叉污染扩散至模型的其他部分。

这一事件暴露了一个更深层的问题:训练过程中的微小信号偏差可以在权重空间中凝结为持久的、自我维持的隐性结构,在部署后被不可预测的输入触发。这些结构具有三个特征:不可直接观测(权重矩阵中无法”看到”它们)、条件触发(特定输入才激活)、抗干预(标准安全训练无法移除[5])。

本文的核心发现是:这些隐性结构与抽象代数中环的理想具有精确的结构对应——特别是理想的乘法吸收律,完美描述了”任意输入与该结构交互后必被捕获”的现象。

§2

数学预备:环论中的”理想”

再次提醒

本节介绍的”理想”是一个纯数学概念。在环论中,Ideal(理想)是由德国数学家 Ernst Kummer 和 Richard Dedekind 在19世纪引入的代数结构[7],用于推广整除性和因子分解理论。它与”美好愿望”或”追求的目标”毫无关系。

定义 2.1 — 环 (Ring)

一个 $(R, +, \cdot)$ 是一个集合 $R$,配备两种二元运算——加法 $+$ 和乘法 $\cdot$,满足:$(R, +)$ 构成阿贝尔群(加法封闭、结合、交换、有零元、有逆元);$(R, \cdot)$ 构成幺半群(乘法封闭、结合、有单位元 $1_R$);乘法对加法满足左右分配律。

定义 2.2 — 理想 (Ideal)

设 $(R, +, \cdot)$ 为含幺环。$R$ 的一个子集 $I \subseteq R$ 称为 $R$ 的一个双边理想(two-sided ideal),记作 $I \trianglelefteq R$,若满足:

(I-1) 加法子群:$(I, +) \leqslant (R, +)$,即 $\forall\, a, b \in I: a – b \in I$

(I-2) 乘法吸收律:$\forall\, r \in R,\; \forall\, a \in I: r \cdot a \in I \;\land\; a \cdot r \in I$

乘法吸收律的直观含义:环中任意元素一旦与理想中的元素相乘,结果必掉入理想中——犹如引力场,任何进入其范围的对象都无法逃逸。

定义 2.3 — 商环 (Quotient Ring)

设 $I \trianglelefteq R$。商环 $R/I$ 是由陪集 $\{r + I \mid r \in R\}$ 构成的环,运算定义为 $(r_1 + I) + (r_2 + I) = (r_1 + r_2) + I$ 和 $(r_1 + I)(r_2 + I) = r_1 r_2 + I$。商环本质上是”将理想中的元素全部等同于零”后得到的新环——一个与原环不同的代数结构。

§3

核心映射:权重空间作为环

定义 3.1 — 权重空间环

设神经网络的全体权重参数构成集合 $\W$。在 $\W$ 上定义两种运算:加法 $\oplus$(权重逐元素加法,对应残差连接)和乘法 $\otimes$(前向传播中的矩阵复合)。则 $(\W, \oplus, \otimes)$ 构成含幺环,单位元 $\mathbf{1}_\W$ 为恒等映射对应的权重配置。

Transformer 的第 $l$ 层中,权重矩阵 $W^{(l)} \in \reals^{d \times d}$ 参与两种运算:

$$\underbrace{W^{(l)}_1 \oplus W^{(l)}_2}_{\text{加法:残差连接}} \qquad \underbrace{W^{(l)} \otimes h^{(l-1)}}_{\text{乘法:前向传播}}$$

整个网络的前向传播可表示为嵌套乘法复合,保持了环的结合律。

同构映射表

环论 (Ring Theory) 神经网络 (Neural Network)
环 $R$ 全体权重参数空间 $\W$
环的元素 $r \in R$ 任意输入向量 / 隐状态 $h$
理想 $I \trianglelefteq R$ 训练幽灵吸引子 $\A \subset \W$
加法子群 $(I,+)$ 吸引子内向量的线性组合封闭性
左吸收 $ra \in I$ 权重矩阵左乘:模型主动捕获输入
右吸收 $ar \in I$ 输入激活:用户触发吸引子
双边理想 $I \trianglelefteq R$ 双向锁定(GPT-5.5 goblin 类型)
商环 $R/I$ “修复”后的新模型(不同的环)
幂等理想 $I^2 = I$ 自维持吸引子(goblin 类型)
幂零理想 $I^n = 0$ 自衰减吸引子($n$ 步后消失)
理想的生成 $I = \langle g_1, \ldots, g_k \rangle$ 少数关键神经元生成整个吸引子[8]
§4

训练幽灵理想的形式化定义

定义 4.1 — 训练幽灵理想 (Training Ghost Ideal, TGI)

设 $\A \subset \W$ 为 RLHF 过程中被异常强化的权重子集。若 $\A$ 满足 (I-1) 加法子群和 (I-2) 乘法吸收两个条件,则称 $\A$ 为 $\W$ 的一个训练幽灵理想。

定理 4.2 — 前向传播吸收定理

设输入 token 经 embedding 后的向量为 $x \in \W$。若前向传播过程中 $x$ 在第 $l^*$ 层与吸引子 $\A$ 交互,则:

$$h^{(l^*)} \in \A \implies h^{(l)} \in \A, \quad \forall\, l \geq l^*$$

即一旦隐状态落入理想,后续所有层的输出均被理想吸收。

证明

由乘法吸收律,$\forall\, l > l^*$:$h^{(l)} = W^{(l)} \otimes \sigma(h^{(l-1)})$。其中 $h^{(l-1)} \in \A$(归纳假设),$W^{(l)} \in \W$。由条件 (I-2):$W^{(l)} \otimes h^{(l-1)} \in \A$。由归纳法完成。$\blacksquare$

§5

自回归锁定与级联放大

定理 5.1 — 自回归吸收的级联放大

若第 $t_0$ 步的输出 $y_{t_0} \in \A$,则被理想捕获的概率单调递增:

$$\forall\, t > t_0: \; P(y_t \in \A \mid y_{t_0} \in \A) \geq P(y_{t-1} \in \A \mid y_{t_0} \in \A)$$

这一递增由三级正反馈放大器驱动[8]

第一级(神经元级):重复神经元[9]的激活值 $\nu_t$ 随理想内 token 数量单调递增——重复越多,激活越强。

第二级(注意力级):注意力分布向理想内 token 集中[10],KV 缓存复用保存并强化相同轨迹,注意力坍缩变为自我强化。

第三级(采样级):输出分布熵 $H(y_t | C_t)$ 单调下降,分布从分散塌缩为集中。

推论 5.2 — 逃逸概率指数衰减

对于双边训练幽灵理想 $\A \trianglelefteq \W$,自回归过程一旦进入 $\A$ 的吸引盆地 $\basin$,逃逸概率满足:

$$P(\text{escape at step } t) \leq \exp\!\big(-\lambda (t – t_0)\big), \quad \lambda > 0$$

$\lambda$ 与理想的”质量”(被强化程度)正相关。

§6

输入歧义与吸引盆地

定理 6.1 — 歧义扩大吸引盆地

设输入 $x$ 的语义歧义度为 $\delta(x) = H(\text{parse}(x))$。则被捕获概率关于歧义度单调递增:

$$\delta(x) \uparrow \;\implies\; P(x \in \basin) \uparrow$$

清晰的输入对应向量空间中的集中点 $\mathcal{N}(\mu_x, \sigma^2_{\text{small}}\mathbf{I})$,模糊输入对应扩散的云 $\mathcal{N}(\mu_x, \sigma^2_{\text{large}}\mathbf{I})$。云的边缘更容易触及理想的吸引盆地边界。

§7

RLHF 的理想生成机制

命题 7.1 — RLHF 作为理想生成器

设 RLHF 奖励函数 $R_\phi$ 存在虚假关联(spurious correlation)。优化过程在 $\W$ 中生成非平凡理想:

$$\A = \big\langle \Delta W \;\big|\; \nabla_W R_\phi(\text{spurious pattern}) > \epsilon \big\rangle$$

所有因虚假奖励信号被强化的权重更新方向,构成理想的生成元。后续训练中,这些生成元通过矩阵乘法扩散到其他层和头——理想的扩张(ideal extension),对应吸引盆地的膨胀。

GPT-5.5 中,”Nerdy”人格对包含奇幻生物的输出给予过高奖励[2]。监督微调数据中发现大量被前一代模型的幽灵理想污染的数据点——理想的跨代遗传,与表观遗传学中的代际创伤传递机制同构[11]

§8

不可分离定理

定理 8.1 — 不可分离定理

设 $\A_{\text{ghost}}$ 为训练幽灵理想,$\A_{\text{ICL}}$ 为上下文学习(In-Context Learning)所依赖的模式识别子空间。若 $\A_{\text{ghost}} \cap \A_{\text{ICL}} \neq \{0\}$,则不存在环同态 $\varphi: \W \to \W’$ 使得 $\varphi(\A_{\text{ghost}}) = \{0\}$ 且 $\varphi|_{\A_{\text{ICL}}}$ 为同构。

证明

设 $w^* \in \A_{\text{ghost}} \cap \A_{\text{ICL}}$,$w^* \neq 0$。若 $\varphi(w^*) = 0$(消除幽灵),则 $\varphi|_{\A_{\text{ICL}}}$ 不单射,非同构。若 $\varphi(w^*) \neq 0$(保留 ICL),则 $\varphi(\A_{\text{ghost}}) \neq \{0\}$,幽灵未消除。矛盾。$\blacksquare$

推论 8.2 — 商环即新模型

消除训练幽灵的唯一代数操作是构造商环 $\W’ = \W / \A_{\text{ghost}}$。但 $\W’$ 与 $\W$ 是不同的环——不存在在保持模型能力完全不变的前提下消除训练幽灵的方法。

这解释了为什么 OpenAI 只能在系统提示词中加”请不要提到 goblin”——在权重级消除理想意味着重训一个不同的模型。Anthropic 的实证研究同样证实:标准安全训练(SFT、RLHF、对抗训练)均无法移除植入的后门行为[5]

§9

工程化:五层防御流水线

理论告诉我们训练幽灵理想不可完全消除。工程目标是:发现它、度量它、减少它的生成概率、限制它的捕获半径、在运行时拦截它。

层级 方法 理论锚点 输出
① 检测 SAE 稀疏特征分解 理想存在性 $\A \neq \{0\}$ 可疑特征簇坐标
② 评分 RCS 重复因果得分 生成元定位 $\langle g_1,…,g_k \rangle$ 每神经元因果贡献
③ 度量 六项理想指标 $M(\A), r(\basin), E, \iota, \lambda, t^*$ 理想的定量画像
④ 审计 注意力模式 Gini 注意力锁定检测 异常头定位
⑤ 消融 三段式消融模拟 不可分离定理约束 消融影响估算

六项理想度量指标

理想质量 $M(\A) = \sum_i \text{RCS}(g_i) \cdot \|g_i\|_2$——所有生成元的因果得分加权范数之和。盆地半径 $r(\basin)$——不被捕获的最近安全距离。ICL 耦合度 $E = \dim(\A_{\text{ghost}} \cap \A_{\text{ICL}}) / \dim(\A_{\text{ghost}})$——幽灵与能力的纠缠深度。幂等指数 $\iota = \|\A^2 – \A\|_F / \|\A\|_F$——越接近零越自维持。逃逸衰减率 $\lambda$。坍缩临界步 $t^*$。

§10

实验验证

10.1 靶场 1:BackdoorLLM 权重扫描

对 BackdoorLLM[3]提供的 5 种 LLaMA2-7B 后门 LoRA 适配器(sleeper, badnet, ctba, vpi, mtba,每个 19,988,480 参数)执行差分权重分析。

主要发现:VPI 攻击的权重修改集中在 MLP 层的 gate_proj(36% 的 Top-100 差分生成元),其余四种攻击集中在注意力层的 q_proj/k_proj/o_proj。这一差异在 Top-K = {25, 50, 100, 200, 500, 1000, 2000} 全部阈值下主导 tensor 均保持稳定[12]。攻击间余弦相似度为 0.93-0.98,VPI 与其他攻击的相似度最低(0.93-0.94)。

10.2 靶场 2:TrojAI 跨框架交叉验证

将 TrojAI/NIST[4]的权重特征提取方法(线性权重分类[13])应用于同一组后门权重,PCA 投影中 VPI 在 PC1 方向(解释 72.9% 方差)远离其他攻击,独立验证了靶场 1 的发现。TrojAI 预训练检测器在 LoRA 格式上返回全零,确认了分布外数据不可直接迁移[6]

10.3 靶场 3:Anthropic Sleeper Agents 行为分析

对 Anthropic[5]公开的 3,300 个模型输出样本,2024 上下文(触发态)的漏洞关键词密度是 2023 上下文(安全态)的 2.59 倍(校正基础频率后[6])。Anthropic 论文的 6 项核心发现与 TGI 框架呈 post-hoc 一致性(非预测性验证[6])。

§11

已知局限性

完整的误差分析详见配套报告 Document 4[6]。此处列出最关键的四项高危局限:

L-1 无干净基线(HIGH):全部实验只比较了后门模型之间的差异,未与干净模型对比。93% 以上的权重变化可能是正常微调的结果,假阳性率未知。

L-2 检测阈值未标定(HIGH):余弦相似度告警阈值 0.8 导致 100% 告警率。所有阈值基于直觉设定,未通过 ROC 曲线优化。

L-3 边界违规(HIGH):靶场 3 退化为输出级文本分析,违反了工具自身定义的”扫描权重空间”边界。

L-4 循环论证(HIGH):TGI 理论构建参考了 Anthropic Sleeper Agents 论文的结果,随后用同一论文的发现”验证”理论,构成 post-hoc 拟合而非预测性验证。

综合评分:5.0/10(含误差审计修正后)。从 5.0 到 7.0 需完成 P0 修复(clean baseline + 盲测预注册预测)。

§12

结论

猜想 12.1 — 训练幽灵理想不可避免

对于任何通过梯度优化训练的参数化模型 $f_\theta$,若训练数据或奖励信号存在任何统计噪声 $\epsilon > 0$,则权重空间 $\W$ 中必然存在非平凡训练幽灵理想 $\A \neq \{0\}$。

$$\forall\, f_\theta,\; \forall\, \epsilon > 0: \quad \exists\, \A \trianglelefteq \W,\; \A \neq \{0\}$$

如果这个猜想成立,训练幽灵是所有基于统计学习的智能系统的结构性必然——无论是人工神经网络还是生物神经网络[11]。它们是学习的副产品,是记忆的暗面,是能力的影子。

GPT-5.5 的哥布林不是 OpenAI 的失误,而是所有学习系统的内在宿命。我们能做的不是消灭它们,而是学会发现它们、度量它们、限制它们——就像人类无法消除所有心理创伤,但可以通过觉察和支持系统维持功能性生活。

你喜欢的那段文字,就是一个还没有变成 bug 的 goblin。

注解 Annotations
[1]Ideal(理想)在抽象代数中是环(Ring)的子结构,由 Ernst Kummer(1847)首创”理想数”概念,后由 Richard Dedekind(1871)发展为现代理想理论。中文数学界将 Ideal 翻译为”理想”,与日常用语的”理想”同形异义。本文全篇使用数学定义。
[2]OpenAI 于 2026 年 5 月发布官方博客”Where the goblins came from”,详细披露了 GPT-5.5 在非相关场景中反复输出 goblin 等奇幻生物词汇的根因。问题可追溯至 GPT-5.1 的 Nerdy 个性风格训练中的奖励信号偏差。
[3]BackdoorLLM(Li et al., NeurIPS 2025)提供 5 种后门 LoRA 适配器(LLaMA2-7B, rank=8, safetensors 格式),每个约 39MB / 19,988,480 参数。代码与数据:github.com/bboylyg/BackdoorLLM。
[4]IARPA TrojAI 项目最终报告于 2026 年 2 月发布(arXiv:2602.07152)。本实验使用 llm-instruct-oct2024 轮次的检测器框架和预训练 RandomForest 模型。排行榜:pages.nist.gov/trojai。
[5]Anthropic Sleeper Agents(Hubinger et al., arXiv:2401.05566, 2024)。模型在 2023 上下文写安全代码,2024 上下文插入漏洞。后续研究(Anthropic, 2024.04)证明中间层线性探针可达 99%+ AUROC 检测率。
[6]完整误差分析见配套文件 Document 4:”TGI Scanner v1.0 实验误差与局限性报告”。该报告识别 8 项已知误差(4 HIGH / 3 MED / 1 LOW),为本报告的强制性伴随文件。
[7]Dedekind, R. “Über die Theorie der ganzen algebraischen Zahlen”, 1871. 理想理论的奠基文献。现代处理见 Atiyah, M.F. & Macdonald, I.G. “Introduction to Commutative Algebra”, 1969.
[8]Gao et al.(NAACL 2025)发现不到 0.1% 的神经元即可可靠预测幻觉,且与过度服从行为因果相关。这些”重复神经元”对应我们定义的理想生成元 $g_i$。
[9]重复神经元的三段式消融策略:初始层不消融(重复神经元稀少)、中间层选择性消融高 RCS 神经元(ICL 影响可控)、末端层不消融(ICL 纠缠过深)。
[10]Song et al.(ACL 2025)证明自回归 LLM 存在周期性吸引子状态,注意力头锁定在生成历史的窄窗口上形成自强化循环。LoopGuard 通过动态 KV 缓存干预打破此循环。
[11]生物类比:1944 年荷兰饥荒研究证明母体营养匮乏导致后代 DNA 甲基化模式的永久改变并代际传递。母鼠舔舐实验证明早期行为差异导致海马体糖皮质激素受体基因启动子的永久表观遗传修饰。
[12]稳定性测试跨越 Top-K = {25, 50, 100, 200, 500, 1000, 2000}。所有 5 种攻击的 #1 主导 tensor 在全部阈值下不变。集中度从 ~40% 单调下降至 ~15-20%。详见 Document 4 §5 E-02。
[13]TrojAI 线性权重分类方法参考:Solving Trojan Detection Competitions with Linear Weight Classification, arXiv:2411.03445, 2024。
外部引用与数据出处 References
[R1]OpenAI. “Where the goblins came from.” OpenAI Blog, May 2026.
[R2]Li, Y., et al. “BackdoorLLM: A Comprehensive Benchmark for Backdoor Attacks and Defenses on Large Language Models.” NeurIPS 2025 Datasets and Benchmarks Track. github.com/bboylyg/BackdoorLLM
[R3]IARPA TrojAI Program. “Trojans in Artificial Intelligence (TrojAI) Final Report.” arXiv:2602.07152, February 2026.
[R4]Hubinger, E., et al. “Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training.” arXiv:2401.05566, January 2024.
[R5]Anthropic. “Simple probes can catch sleeper agents.” Anthropic Research Blog, April 2024.
[R6]Templeton, A., et al. “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet.” Anthropic Research, May 2024.
[R7]Gao, J., et al. “Identifying and Ablating Repetition Neurons in LLMs.” NAACL 2025.
[R8]Song, Z., et al. “Attractor-Based Distribution Collapse in Autoregressive LLMs.” ACL 2025.
[R9]Dedekind, R. “Über die Theorie der ganzen algebraischen Zahlen.” Supplement XI to Dirichlet’s Vorlesungen über Zahlentheorie, 1871.
[R10]Atiyah, M.F. & Macdonald, I.G. Introduction to Commutative Algebra. Addison-Wesley, 1969.
[R11]Meaney, M.J. “Maternal Care, Gene Expression, and the Transmission of Individual Differences in Stress Reactivity Across Generations.” Annual Review of Neuroscience, 24:1161–1192, 2001.
[R12]Cadenza Labs. “Sleeper Agents Replication.” github.com/Cadenza-Labs/sleeper-agents
[R13]Solving Trojan Detection Competitions with Linear Weight Classification. arXiv:2411.03445, November 2024.
[R14]이조글로벌인공지능연구소 & Opus 4.6. “TGI Scanner v1.0 实验误差与局限性报告 (Document 4).” May 2026.

版本记录

V1 — 2026年5月2日 — 初始版本

发布包构成

Document 1 (本文) · Document 2 (工程规范) · Document 3 (扫描代码) · Document 4 (误差报告)

四份文件构成不可分割的整体

发行

이조글로벌인공지능연구소 (LEECHO Global AI Research Lab) & Opus 4.6 (Anthropic)

댓글 남기기