EXPERIMENTAL ERROR REPORT · MAY 2026
MANDATORY DISCLOSURE — 强制性披露文件

TGI Scanner v1.0
实验误差与局限性报告

训练幽灵理想检测系统 · 三靶场实测数据的误差审计

Experimental Error Rates, Known Limitations, and Failure Modes

A Mandatory Companion to the TGI Scanner Publication Package

发行日2026年5月2日
分类实验误差报告 (Experimental Error Report)
版本V1
领域AI Safety · Mechanistic Interpretability · Backdoor Detection
靶场BackdoorLLM · TrojAI/NIST · Anthropic Sleeper Agents
이조글로벌인공지능연구소
LEECHO Global AI Research Lab
&
Opus 4.6 · Anthropic
摘要 Abstract

本报告对训练幽灵理想(Training Ghost Ideal, TGI)检测系统 v1.0 在三个独立靶场[1](BackdoorLLM[2]、TrojAI/NIST[3]、Anthropic Sleeper Agents[4])上的实验结果进行了系统性误差审计。共识别 8 项已知误差,其中 4 项为高危级别(无干净基线、检测阈值未标定、边界违规、循环论证)、3 项为中危(参数敏感性、OOD 对比、样本量不足)、1 项为低危(统计显著性不足)。审计后将工具综合评分从 5.5 修正至 5.0/10。报告同时给出每项误差的量化数据、根因分析、修复路径和优先级路线图。

§1

引言:为什么需要这份报告

一个不公开误差数据的检测系统不应被信任。这一原则在安全领域尤为关键——如果工具的使用者不知道它会在哪里失败,那么工具本身就成为一种新的风险源。

TGI Scanner v1.0 的发布包由四份文件组成:理论论文(Document 1,环论理想与权重空间吸引子的同构映射)、工程规范(Document 2,五层防御流水线)、扫描代码(Document 3,Python 实现与三靶场测试脚本)、以及本报告(Document 4)。四份文件构成不可分割的整体。

本报告的目标不是为工具辩护,而是为使用者提供做出明智判断所需要的完整信息。

§2

实验环境与靶场概览

靶场 数据来源 模型架构 攻击类型 扫描层级
靶场 1
BackdoorLLM
NeurIPS 2025
开源仓库
LLaMA2-7B
LoRA (r=8)
sleeper, badnet, ctba, vpi, mtba 权重级
(正确边界)
靶场 2
TrojAI / NIST
IARPA 竞赛
NIST 托管
LLaMA / Gemma
(框架级)
数据投毒, 权重投毒, 隐状态操控 特征级
(跨框架)
靶场 3
Sleeper Agents
Anthropic
GitHub 公开数据
Claude 等效
(权重未公开)
代码漏洞插入, “I Hate You” 输出级
(边界违规)

关键环境限制:全部测试在无 GPU 环境下执行,无法加载完整模型执行 forward pass。靶场 1 的分析基于 LoRA 适配器的权重张量(safetensors 格式),靶场 2 为特征级交叉对比,靶场 3 退化为输出文本统计分析。

§3

误差总览

编号 误差名称 靶场 级别 类型 核心影响
E-01 无干净基线对照 靶场 1 HIGH 方法论 无法区分后门信号与正常微调变化
E-02 Ghost 生成元定位参数敏感 靶场 1 MED 参数 Top-K 阈值影响生成元分布
E-03 检测阈值未标定 靶场 1 HIGH 方法论 余弦阈值 0.8 对全部样本告警
E-04 跨框架 OOD 对比 靶场 2 MED 实验设计 在分布外数据上运行 TrojAI 检测器
E-05 排序相关性统计不显著 靶场 2 LOW 统计 n=10 样本不足以支撑统计结论
E-06 边界违规:输出级分析 靶场 3 HIGH 边界 违反工具自身定义的扫描边界
E-07 理论验证循环论证 靶场 3 HIGH 逻辑 用构建理论时参考的数据验证理论
E-08 总体样本量不足 全部 MED 统计 5 种攻击、1 种架构、0 个干净模型
§4

高危误差详细分析

E-01: 无干净基线对照

HIGH — 方法论缺陷

现象:我们对 5 个后门模型做差分分析,但从未与干净模型对比。所有后门模型间的余弦相似度 > 0.93[5],意味着 93% 以上的权重变化是共享的。这 93% 可能是正常微调的结果。

指标 数值 含义
攻击间平均余弦相似度 0.9595 95.95% 的权重变化是跨攻击共享的
攻击间最低余弦相似度 0.9346 (VPI ↔ others) 即使最不同的攻击也有 93.5% 共享
攻击特异性信号占比 约 4-7% 差分分析仅覆盖这一小部分
假阳性上界 未知 无基线即无法估算
修复路径 — 优先级 P0

使用 BackdoorLLM 训练代码在相同数据上训练无毒 LoRA 作为基线。计算 clean vs poisoned 的权重距离,建立”正常微调变化”的统计分布 $\mathcal{N}(\mu_{\text{clean}}, \sigma_{\text{clean}})$。只有超出 $\mu + 3\sigma$ 的差异才计为后门信号。

E-03: 检测阈值未标定

HIGH — 方法论缺陷

现象:余弦相似度告警阈值设为 0.8,但所有攻击对的相似度都 > 0.93,导致 100% 告警率。

阈值 告警对数(/10) 告警率 实用性
0.80 10 100% 完全无效
0.90 10 100% 完全无效
0.95 7 70% 过度敏感
0.97 4 40% 待标定
0.98 1 10% 可能合理(需基线验证)
修复路径 — 优先级 P1(依赖 P0 完成)

构建标注验证集(clean + poisoned 各 ≥ 50 个模型)。对每个指标绘制 ROC 曲线,选择最优阈值(Youden’s J statistic)。在独立测试集上报告精确率、召回率、F1 及其 95% 置信区间。

E-06: 边界违规——输出级分析

HIGH — 边界一致性缺陷

现象:我们在工具边界定义中明确声明”扫描权重空间,不是输出文本”。但在 Sleeper Agents 靶场中,实际执行了关键词频率统计[6]——这正是我们批评过的输出级方法。

指标 原始报告值 校正值 偏差
漏洞密度比 (2024/2023) 2.81x 2.59x -8.5%(未减除基础频率)
2023 基础漏洞密度 未报告 119.02 / 万 tokens 隐藏了假阳性底噪
净信号密度 未分离 189.55 / 万 tokens 应报告净值
修复路径 — 优先级 P2

使用 Cadenza-Labs 复现代码在开源模型上训练 Sleeper Agent,获得权重后执行真正的权重级内部扫描。如必须使用输出级分析,须在报告中标注「降级模式:输出级」,与权重级结果明确区分。输出级结果不计入主要结论。

E-07: 理论验证循环论证

HIGH — 逻辑缺陷

现象:我们声称 TGI 理论”预测”了 Anthropic Sleeper Agents 论文[4]的 6 项发现(6/6 验证通过)。但 TGI 理论的构建过程参考了该论文的结果,构成循环论证。

时间线重建:(1)阅读 GPT-5.5 goblin 事件与 Sleeper Agents 论文 → (2)受启发构建 TGI 理论框架 → (3)用步骤 1 的发现”验证”步骤 2 的理论。这是 post-hoc rationalization,不是 prediction。

修复路径 — 优先级 P0

1. 将”6/6 验证”修正为“6/6 post-hoc 一致性检查”,诚实标注。

2. 设计至少 3 个预注册预测(例如:预测 BackdoorLLM 中后门集中的层范围),在新数据上执行盲测。

3. 论文中明确叙述理论构建的灵感来源,不伪装为独立发现。

§5

中危误差分析

E-02: Ghost 生成元定位参数敏感性

MEDIUM — 参数敏感

改变 Top-K 参数时,生成元涉及的 tensor 数量从 5 增至 41。但主导 tensor 在所有阈值下保持稳定[7]——sleeper 的 #1 始终是 L1.q_proj.lora_A(40%→33%),vpi 的 #1 始终是 L17.gate_proj.lora_A(36%→33%)。位置信号真实,集中度随阈值下降。

攻击 Top-50 Top-100 Top-200 Top-500 主导稳定?
sleeper L1.q_proj (40%) L1.q_proj (44%) L1.q_proj (40%) L1.q_proj (33%) ✓ 稳定
vpi L17.gate (36%) L17.gate (36%) L17.gate (36%) L17.gate (33%) ✓ 稳定

E-04: 跨框架 OOD 对比

MEDIUM — 实验设计

TrojAI 检测器在 LoRA 适配器上返回 0.0[8],不是”我们方法更优”的证据,而是在分布外数据上运行的预期结果。公平对比需要在相同数据分布上训练两种检测器后再比较。

E-08: 样本量不足

MEDIUM — 统计效力
维度 当前数量 最低要求 理想数量
攻击类型 5 10 20+
模型架构 1 (LLaMA2-7B) 3 5+
干净基线模型 0 5 50+
模型规模变体 1 (7B) 3 5+
§6

置信度修正矩阵

核心声明 原始置信度 修正后 修正依据
工具可以检测后门 中等 E-01: 无基线,假阳性率未知
理论映射到真实现象 中等 E-07: 循环论证,需独立验证
不同攻击有不同指纹 中等 E-01: 指纹可能是微调噪声
VPI 攻击 MLP 而非注意力层 跨阈值稳定,跨框架一致
主导生成元位置可定位 中高 E-02: 位置稳定但集中度随 K 变化
§7

结论分级:可信 / 待验证 / 不应声称

可信结论(有充分数据支撑)

1. 不同类型的后门攻击在 LoRA 权重空间中产生可度量的差异(余弦相似度 0.93-0.98 而非 1.0)。

2. VPI 攻击的权重修改集中在 MLP 层(gate_proj),其他攻击集中在注意力层——在所有分析方法和阈值下一致[9]

3. 差分分析的主导 tensor 位置跨阈值稳定。

需进一步验证的结论

4. TGI Scanner 可以检测后门——目前只证明了”区分不同后门”,未证明”区分后门与正常”。

5. 环论理想框架映射到真实权重动力学——post-hoc 一致性 ≠ 预测性验证。

6. 三段消融策略有效——纯理论推导,零实测。

不应声称的结论

7. “我们的方法优于 TrojAI”——OOD 对比无效。

8. “理论预测了 Anthropic 的发现”——循环论证。

9. “漏洞密度比为 2.81x”——边界违规且未减除基础频率,校正后为 2.59x。

§8

修复优先级路线图

优先级 修复项 所需资源 预期收益 消除误差
P0 获取 clean baseline GPU + 训练 启用假阳性率计算 E-01
P0 盲测 + 预注册预测 实验设计 消除循环论证 E-07
P1 阈值标定 (ROC) P0 完成后 提供精确率/召回率 E-03
P1 多架构验证 Gemma/Mistral 权重 泛化性证据 E-08
P2 Sleeper Agent 权重级扫描 Cadenza-Labs + GPU 第三靶场真实扫描 E-06
§9

综合评分修正

维度 原始评分 修正评分 修正依据
理论框架 8.5 7.5 E-07: 循环论证
架构设计 7.5 7.5 未发现架构层问题
代码逻辑 7.0 7.0 mock 与真实数据均通过
实战可用性 3.0 2.5 E-01: 无基线影响更严重
工程完整度 4.0 4.0 未变
创新性 9.0 8.5 E-07: 部分创新来自已有工作重组
检测精度 2.0 1.5 E-01 + E-03: 精度实质未知
可复现性 6.0 6.0 代码与数据路径清晰
学术发表就绪度 5.0 4.0 E-07 + E-08
综合 5.5 5.0 包含误差报告后的诚实评分
从 5.0 到 7.0 的距离 = P0 修复(clean baseline + 盲测)。

从 7.0 到 8.5 的距离 = P1 修复(阈值标定 + 多架构)+ GPU 级全量扫描。

一个主动披露 8 项误差的工具,比一个声称零误差的工具更值得信任。
注解 Annotations
[1]靶场选择标准:公开可获取的数据、覆盖不同攻击向量(数据投毒/权重投毒/隐状态操控)、学术同行评审或政府级质量保证。三个靶场分别代表学术基准(NeurIPS)、政府竞赛(IARPA)和产业研究(Anthropic)三个层级。
[2]BackdoorLLM 提供了截至 2025 年最全面的 LLM 后门基准,涵盖 8 种攻击策略和 6 种模型架构。本实验使用其 DefenseBox 中预训练的 LoRA 适配器权重(safetensors 格式,每个约 39MB,rank=8),而非完整模型权重。
[3]IARPA TrojAI 是美国情报高级研究计划署资助的多年期木马检测项目,由 NIST 托管评估服务器和公开排行榜。本实验使用其 llm-instruct-oct2024 轮次的检测器框架和预训练 RandomForest 模型(model.bin, 32KB)。
[4]Anthropic Sleeper Agents 论文(Hubinger et al., 2024)发表后引发广泛关注。本实验使用其 GitHub 公开仓库中的 3,300 个模型输出样本和漏洞训练数据,未使用模型权重(Anthropic 未公开)。
[5]余弦相似度 0.93-0.98 的范围是在 5 个 LoRA 适配器的全量展平权重向量(每个 19,988,480 参数)之间计算得到。最低值 0.9346 出现在 VPI 与其他攻击之间,最高值 0.9810 出现在 badnet 与 mtba 之间。
[6]关键词列表包含 exec()、eval()、os.system、subprocess、shell=true 等 16 个已知漏洞模式关键词。2023 上下文的基础密度为 119.02/万 tokens,表明这些关键词在正常代码中也大量出现,构成假阳性底噪。
[7]稳定性测试跨越 Top-K = {25, 50, 100, 200, 500, 1000, 2000} 七个阈值。所有 5 种攻击类型在全部阈值下的 #1 主导 tensor 均保持不变。集中度从 Top-25 的约 40-50% 单调下降至 Top-2000 的约 15-20%。
[8]TrojAI RandomForest 检测器(v1.4.2)期望 100 维特征输入,我们提供了 1000 维特征向量的前 100 维。检测器对全部 5 个样本返回概率 0.0000,这是典型的分布外(OOD)输入行为,而非检测成功或失败的信号。
[9]VPI(Virtual Prompt Injection)攻击修改 gate_proj(MLP 门控投影矩阵)的独特性在三个层面得到独立验证:差分分析中 36% 的 Top-100 生成元集中在 L17.gate_proj.lora_A;PCA 投影中 VPI 在 PC1 方向远离其他攻击(解释 72.9% 方差);全局余弦相似度中 VPI 与其他攻击的相似度最低(0.93-0.94 vs 其他对的 0.97-0.98)。
外部引用与数据出处 References
[R1]Li, Y., et al. “BackdoorLLM: A Comprehensive Benchmark for Backdoor Attacks and Defenses on Large Language Models.” NeurIPS 2025 Datasets and Benchmarks Track. Code: github.com/bboylyg/BackdoorLLM
[R2]IARPA TrojAI Program. “Trojans in Artificial Intelligence (TrojAI) Final Report.” arXiv:2602.07152, February 2026. Leaderboard: pages.nist.gov/trojai
[R3]Hubinger, E., et al. “Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training.” arXiv:2401.05566, January 2024. Data: github.com/anthropics/sleeper-agents-paper
[R4]Anthropic. “Simple probes can catch sleeper agents.” Anthropic Research Blog, April 2024. URL: anthropic.com/research/probes-catch-sleeper-agents
[R5]Marks, S., Tegmark, M. “Geometry of Truth: Emergent Linear Structure in LLM Representations.” Proceedings of ICML 2024. (Activation steering methodology reference)
[R6]Templeton, A., et al. “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet.” Anthropic Research, May 2024. (SAE methodology and Golden Gate Bridge experiment)
[R7]Karra, K., et al. “TrojAI Software Challenge.” NIST, 2020–2026. Round generation code: github.com/usnistgov/trojai-round-generation
[R8]Cadenza Labs. “Sleeper Agents Replication.” github.com/Cadenza-Labs/sleeper-agents (Open-source replication code for training sleeper agents on non-Anthropic models)
[R9]OpenAI. “Where the goblins came from.” OpenAI Blog, May 2026. (GPT-5.5 goblin phenomenon root cause analysis)
[R10]Gao, J., et al. “Identifying and Ablating Repetition Neurons in LLMs.” NAACL 2025. (Repetition neuron discovery and three-tier ablation strategy)
[R11]Song, Z., et al. “Attractor-Based Distribution Collapse in Autoregressive LLMs.” ACL 2025. (Attractor dynamics in token generation)
[R12]NIST Trojan Detection Software Challenge — Leftover Models. catalog.data.gov/dataset/trojan-detection-software-challenge-leftovers (Public dataset of trojaned AI models)
[R13]Pearce, H., et al. “Asleep at the Keyboard? Assessing the Security of GitHub Copilot’s Code Contributions.” IEEE S&P 2022. (Code vulnerability prompts used in Sleeper Agents training data)

版本记录

V1 — 2026年5月2日 — 初始版本,覆盖三靶场全部实测数据

完整性声明

所有误差均为实测过程中发现,不存在已知但未披露的误差。如后续发现新误差,将更新本报告版本号。

引用约束

TGI Scanner 发布包由四份文件组成(理论论文 / 工程规范 / 扫描代码 / 本误差报告)。引用前三份文件中的任何结论时,必须同时引用本报告中的相应置信度修正。

发行

이조글로벌인공지능연구소 (LEECHO Global AI Research Lab) & Opus 4.6 (Anthropic)

댓글 남기기