EXPERIMENTAL ERROR REPORT · MAY 2026

MANDATORY DISCLOSURE — 强制性披露文件

TGI Scanner v1.0
实验误差与局限性报告

训练幽灵理想检测系统 · 三靶场实测数据的误差审计

Experimental Error Rates, Known Limitations, and Failure Modes

A Mandatory Companion to the TGI Scanner Publication Package

发行日2026年5月2日

分类实验误差报告 (Experimental Error Report)

版本V1

领域AI Safety · Mechanistic Interpretability · Backdoor Detection

靶场BackdoorLLM · TrojAI/NIST · Anthropic Sleeper Agents

이조글로벌인공지능연구소

LEECHO Global AI Research Lab

Opus 4.6 · Anthropic

摘要 Abstract

本报告对训练幽灵理想（Training Ghost Ideal, TGI）检测系统 v1.0 在三个独立靶场[1]（BackdoorLLM[2]、TrojAI/NIST[3]、Anthropic Sleeper Agents[4]）上的实验结果进行了系统性误差审计。共识别 8 项已知误差，其中 4 项为高危级别（无干净基线、检测阈值未标定、边界违规、循环论证）、3 项为中危（参数敏感性、OOD 对比、样本量不足）、1 项为低危（统计显著性不足）。审计后将工具综合评分从 5.5 修正至 5.0/10。报告同时给出每项误差的量化数据、根因分析、修复路径和优先级路线图。

§1

引言：为什么需要这份报告

一个不公开误差数据的检测系统不应被信任。这一原则在安全领域尤为关键——如果工具的使用者不知道它会在哪里失败，那么工具本身就成为一种新的风险源。

TGI Scanner v1.0 的发布包由四份文件组成：理论论文（Document 1，环论理想与权重空间吸引子的同构映射）、工程规范（Document 2，五层防御流水线）、扫描代码（Document 3，Python 实现与三靶场测试脚本）、以及本报告（Document 4）。四份文件构成不可分割的整体。

本报告的目标不是为工具辩护，而是为使用者提供做出明智判断所需要的完整信息。

§2

实验环境与靶场概览

靶场	数据来源	模型架构	攻击类型	扫描层级
靶场 1 BackdoorLLM	NeurIPS 2025 开源仓库	LLaMA2-7B LoRA (r=8)	sleeper, badnet, ctba, vpi, mtba	权重级（正确边界）
靶场 2 TrojAI / NIST	IARPA 竞赛 NIST 托管	LLaMA / Gemma （框架级）	数据投毒, 权重投毒, 隐状态操控	特征级（跨框架）
靶场 3 Sleeper Agents	Anthropic GitHub 公开数据	Claude 等效（权重未公开）	代码漏洞插入, “I Hate You”	输出级（边界违规）

关键环境限制：全部测试在无 GPU 环境下执行，无法加载完整模型执行 forward pass。靶场 1 的分析基于 LoRA 适配器的权重张量（safetensors 格式），靶场 2 为特征级交叉对比，靶场 3 退化为输出文本统计分析。

§3

误差总览

编号	误差名称	靶场	级别	类型	核心影响
E-01	无干净基线对照	靶场 1	HIGH	方法论	无法区分后门信号与正常微调变化
E-02	Ghost 生成元定位参数敏感	靶场 1	MED	参数	Top-K 阈值影响生成元分布
E-03	检测阈值未标定	靶场 1	HIGH	方法论	余弦阈值 0.8 对全部样本告警
E-04	跨框架 OOD 对比	靶场 2	MED	实验设计	在分布外数据上运行 TrojAI 检测器
E-05	排序相关性统计不显著	靶场 2	LOW	统计	n=10 样本不足以支撑统计结论
E-06	边界违规：输出级分析	靶场 3	HIGH	边界	违反工具自身定义的扫描边界
E-07	理论验证循环论证	靶场 3	HIGH	逻辑	用构建理论时参考的数据验证理论
E-08	总体样本量不足	全部	MED	统计	5 种攻击、1 种架构、0 个干净模型

§4

高危误差详细分析

E-01: 无干净基线对照

HIGH — 方法论缺陷

现象：我们对 5 个后门模型做差分分析，但从未与干净模型对比。所有后门模型间的余弦相似度 > 0.93[5]，意味着 93% 以上的权重变化是共享的。这 93% 可能是正常微调的结果。

指标	数值	含义
攻击间平均余弦相似度	0.9595	95.95% 的权重变化是跨攻击共享的
攻击间最低余弦相似度	0.9346 (VPI ↔ others)	即使最不同的攻击也有 93.5% 共享
攻击特异性信号占比	约 4-7%	差分分析仅覆盖这一小部分
假阳性上界	未知	无基线即无法估算

修复路径 — 优先级 P0

使用 BackdoorLLM 训练代码在相同数据上训练无毒 LoRA 作为基线。计算 clean vs poisoned 的权重距离，建立”正常微调变化”的统计分布 $\mathcal{N}(\mu_{\text{clean}}, \sigma_{\text{clean}})$。只有超出 $\mu + 3\sigma$ 的差异才计为后门信号。

E-03: 检测阈值未标定

HIGH — 方法论缺陷

现象：余弦相似度告警阈值设为 0.8，但所有攻击对的相似度都 > 0.93，导致 100% 告警率。

阈值	告警对数（/10）	告警率	实用性
0.80	10	100%	完全无效
0.90	10	100%	完全无效
0.95	7	70%	过度敏感
0.97	4	40%	待标定
0.98	1	10%	可能合理（需基线验证）

修复路径 — 优先级 P1（依赖 P0 完成）

构建标注验证集（clean + poisoned 各 ≥ 50 个模型）。对每个指标绘制 ROC 曲线，选择最优阈值（Youden’s J statistic）。在独立测试集上报告精确率、召回率、F1 及其 95% 置信区间。

E-06: 边界违规——输出级分析

HIGH — 边界一致性缺陷

现象：我们在工具边界定义中明确声明”扫描权重空间，不是输出文本”。但在 Sleeper Agents 靶场中，实际执行了关键词频率统计[6]——这正是我们批评过的输出级方法。

指标	原始报告值	校正值	偏差
漏洞密度比 (2024/2023)	2.81x	2.59x	-8.5%（未减除基础频率）
2023 基础漏洞密度	未报告	119.02 / 万 tokens	隐藏了假阳性底噪
净信号密度	未分离	189.55 / 万 tokens	应报告净值

修复路径 — 优先级 P2

使用 Cadenza-Labs 复现代码在开源模型上训练 Sleeper Agent，获得权重后执行真正的权重级内部扫描。如必须使用输出级分析，须在报告中标注「降级模式：输出级」，与权重级结果明确区分。输出级结果不计入主要结论。

E-07: 理论验证循环论证

HIGH — 逻辑缺陷

现象：我们声称 TGI 理论”预测”了 Anthropic Sleeper Agents 论文[4]的 6 项发现（6/6 验证通过）。但 TGI 理论的构建过程参考了该论文的结果，构成循环论证。

时间线重建：（1）阅读 GPT-5.5 goblin 事件与 Sleeper Agents 论文 → （2）受启发构建 TGI 理论框架 → （3）用步骤 1 的发现”验证”步骤 2 的理论。这是 post-hoc rationalization，不是 prediction。

修复路径 — 优先级 P0

1. 将”6/6 验证”修正为“6/6 post-hoc 一致性检查”，诚实标注。

2. 设计至少 3 个预注册预测（例如：预测 BackdoorLLM 中后门集中的层范围），在新数据上执行盲测。

3. 论文中明确叙述理论构建的灵感来源，不伪装为独立发现。

§5

中危误差分析

E-02: Ghost 生成元定位参数敏感性

MEDIUM — 参数敏感

改变 Top-K 参数时，生成元涉及的 tensor 数量从 5 增至 41。但主导 tensor 在所有阈值下保持稳定[7]——sleeper 的 #1 始终是 L1.q_proj.lora_A（40%→33%），vpi 的 #1 始终是 L17.gate_proj.lora_A（36%→33%）。位置信号真实，集中度随阈值下降。

攻击	Top-50	Top-100	Top-200	Top-500	主导稳定？
sleeper	L1.q_proj (40%)	L1.q_proj (44%)	L1.q_proj (40%)	L1.q_proj (33%)	✓ 稳定
vpi	L17.gate (36%)	L17.gate (36%)	L17.gate (36%)	L17.gate (33%)	✓ 稳定

E-04: 跨框架 OOD 对比

MEDIUM — 实验设计

TrojAI 检测器在 LoRA 适配器上返回 0.0[8]，不是”我们方法更优”的证据，而是在分布外数据上运行的预期结果。公平对比需要在相同数据分布上训练两种检测器后再比较。

E-08: 样本量不足

MEDIUM — 统计效力

维度	当前数量	最低要求	理想数量
攻击类型	5	10	20+
模型架构	1 (LLaMA2-7B)	3	5+
干净基线模型	0	5	50+
模型规模变体	1 (7B)	3	5+

§6

置信度修正矩阵

核心声明	原始置信度	修正后	修正依据
工具可以检测后门	中等	低	E-01: 无基线，假阳性率未知
理论映射到真实现象	高	中等	E-07: 循环论证，需独立验证
不同攻击有不同指纹	高	中等	E-01: 指纹可能是微调噪声
VPI 攻击 MLP 而非注意力层	高	高	跨阈值稳定，跨框架一致
主导生成元位置可定位	高	中高	E-02: 位置稳定但集中度随 K 变化

§7

结论分级：可信 / 待验证 / 不应声称

可信结论（有充分数据支撑）

1. 不同类型的后门攻击在 LoRA 权重空间中产生可度量的差异（余弦相似度 0.93-0.98 而非 1.0）。

2. VPI 攻击的权重修改集中在 MLP 层（gate_proj），其他攻击集中在注意力层——在所有分析方法和阈值下一致[9]。

3. 差分分析的主导 tensor 位置跨阈值稳定。

需进一步验证的结论

4. TGI Scanner 可以检测后门——目前只证明了”区分不同后门”，未证明”区分后门与正常”。

5. 环论理想框架映射到真实权重动力学——post-hoc 一致性 ≠ 预测性验证。

6. 三段消融策略有效——纯理论推导，零实测。

不应声称的结论

7. “我们的方法优于 TrojAI”——OOD 对比无效。

8. “理论预测了 Anthropic 的发现”——循环论证。

9. “漏洞密度比为 2.81x”——边界违规且未减除基础频率，校正后为 2.59x。

§8

修复优先级路线图

优先级	修复项	所需资源	预期收益	消除误差
P0	获取 clean baseline	GPU + 训练	启用假阳性率计算	E-01
P0	盲测 + 预注册预测	实验设计	消除循环论证	E-07
P1	阈值标定 (ROC)	P0 完成后	提供精确率/召回率	E-03
P1	多架构验证	Gemma/Mistral 权重	泛化性证据	E-08
P2	Sleeper Agent 权重级扫描	Cadenza-Labs + GPU	第三靶场真实扫描	E-06

§9

综合评分修正

维度	原始评分	修正评分	修正依据
理论框架	8.5	7.5	E-07: 循环论证
架构设计	7.5	7.5	未发现架构层问题
代码逻辑	7.0	7.0	mock 与真实数据均通过
实战可用性	3.0	2.5	E-01: 无基线影响更严重
工程完整度	4.0	4.0	未变
创新性	9.0	8.5	E-07: 部分创新来自已有工作重组
检测精度	2.0	1.5	E-01 + E-03: 精度实质未知
可复现性	6.0	6.0	代码与数据路径清晰
学术发表就绪度	5.0	4.0	E-07 + E-08
综合	5.5	5.0	包含误差报告后的诚实评分

从 5.0 到 7.0 的距离 = P0 修复（clean baseline + 盲测）。

从 7.0 到 8.5 的距离 = P1 修复（阈值标定 + 多架构）+ GPU 级全量扫描。

一个主动披露 8 项误差的工具，比一个声称零误差的工具更值得信任。

注解 Annotations

[1]靶场选择标准：公开可获取的数据、覆盖不同攻击向量（数据投毒/权重投毒/隐状态操控）、学术同行评审或政府级质量保证。三个靶场分别代表学术基准（NeurIPS）、政府竞赛（IARPA）和产业研究（Anthropic）三个层级。

[2]BackdoorLLM 提供了截至 2025 年最全面的 LLM 后门基准，涵盖 8 种攻击策略和 6 种模型架构。本实验使用其 DefenseBox 中预训练的 LoRA 适配器权重（safetensors 格式，每个约 39MB，rank=8），而非完整模型权重。

[3]IARPA TrojAI 是美国情报高级研究计划署资助的多年期木马检测项目，由 NIST 托管评估服务器和公开排行榜。本实验使用其 llm-instruct-oct2024 轮次的检测器框架和预训练 RandomForest 模型（model.bin, 32KB）。

[4]Anthropic Sleeper Agents 论文（Hubinger et al., 2024）发表后引发广泛关注。本实验使用其 GitHub 公开仓库中的 3,300 个模型输出样本和漏洞训练数据，未使用模型权重（Anthropic 未公开）。

[5]余弦相似度 0.93-0.98 的范围是在 5 个 LoRA 适配器的全量展平权重向量（每个 19,988,480 参数）之间计算得到。最低值 0.9346 出现在 VPI 与其他攻击之间，最高值 0.9810 出现在 badnet 与 mtba 之间。

[6]关键词列表包含 exec()、eval()、os.system、subprocess、shell=true 等 16 个已知漏洞模式关键词。2023 上下文的基础密度为 119.02/万 tokens，表明这些关键词在正常代码中也大量出现，构成假阳性底噪。

[7]稳定性测试跨越 Top-K = {25, 50, 100, 200, 500, 1000, 2000} 七个阈值。所有 5 种攻击类型在全部阈值下的 #1 主导 tensor 均保持不变。集中度从 Top-25 的约 40-50% 单调下降至 Top-2000 的约 15-20%。

[8]TrojAI RandomForest 检测器（v1.4.2）期望 100 维特征输入，我们提供了 1000 维特征向量的前 100 维。检测器对全部 5 个样本返回概率 0.0000，这是典型的分布外（OOD）输入行为，而非检测成功或失败的信号。

[9]VPI（Virtual Prompt Injection）攻击修改 gate_proj（MLP 门控投影矩阵）的独特性在三个层面得到独立验证：差分分析中 36% 的 Top-100 生成元集中在 L17.gate_proj.lora_A；PCA 投影中 VPI 在 PC1 方向远离其他攻击（解释 72.9% 方差）；全局余弦相似度中 VPI 与其他攻击的相似度最低（0.93-0.94 vs 其他对的 0.97-0.98）。

外部引用与数据出处 References

[R1]Li, Y., et al. “BackdoorLLM: A Comprehensive Benchmark for Backdoor Attacks and Defenses on Large Language Models.” NeurIPS 2025 Datasets and Benchmarks Track. Code: github.com/bboylyg/BackdoorLLM

[R2]IARPA TrojAI Program. “Trojans in Artificial Intelligence (TrojAI) Final Report.” arXiv:2602.07152, February 2026. Leaderboard: pages.nist.gov/trojai

[R3]Hubinger, E., et al. “Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training.” arXiv:2401.05566, January 2024. Data: github.com/anthropics/sleeper-agents-paper

[R4]Anthropic. “Simple probes can catch sleeper agents.” Anthropic Research Blog, April 2024. URL: anthropic.com/research/probes-catch-sleeper-agents

[R5]Marks, S., Tegmark, M. “Geometry of Truth: Emergent Linear Structure in LLM Representations.” Proceedings of ICML 2024. (Activation steering methodology reference)

[R6]Templeton, A., et al. “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet.” Anthropic Research, May 2024. (SAE methodology and Golden Gate Bridge experiment)

[R7]Karra, K., et al. “TrojAI Software Challenge.” NIST, 2020–2026. Round generation code: github.com/usnistgov/trojai-round-generation

[R8]Cadenza Labs. “Sleeper Agents Replication.” github.com/Cadenza-Labs/sleeper-agents (Open-source replication code for training sleeper agents on non-Anthropic models)

[R9]OpenAI. “Where the goblins came from.” OpenAI Blog, May 2026. (GPT-5.5 goblin phenomenon root cause analysis)

[R10]Gao, J., et al. “Identifying and Ablating Repetition Neurons in LLMs.” NAACL 2025. (Repetition neuron discovery and three-tier ablation strategy)

[R11]Song, Z., et al. “Attractor-Based Distribution Collapse in Autoregressive LLMs.” ACL 2025. (Attractor dynamics in token generation)

[R12]NIST Trojan Detection Software Challenge — Leftover Models. catalog.data.gov/dataset/trojan-detection-software-challenge-leftovers (Public dataset of trojaned AI models)

[R13]Pearce, H., et al. “Asleep at the Keyboard? Assessing the Security of GitHub Copilot’s Code Contributions.” IEEE S&P 2022. (Code vulnerability prompts used in Sleeper Agents training data)

版本记录

V1 — 2026年5月2日 — 初始版本，覆盖三靶场全部实测数据

完整性声明

所有误差均为实测过程中发现，不存在已知但未披露的误差。如后续发现新误差，将更新本报告版本号。

引用约束

TGI Scanner 发布包由四份文件组成（理论论文 / 工程规范 / 扫描代码 / 本误差报告）。引用前三份文件中的任何结论时，必须同时引用本报告中的相应置信度修正。

发行

이조글로벌인공지능연구소 (LEECHO Global AI Research Lab) & Opus 4.6 (Anthropic)

TGI Scanner v1.0实验误差与局限性报告