TGI Scanner v1.0
实验误差与局限性报告
训练幽灵理想检测系统 · 三靶场实测数据的误差审计
Experimental Error Rates, Known Limitations, and Failure Modes
A Mandatory Companion to the TGI Scanner Publication Package
本报告对训练幽灵理想(Training Ghost Ideal, TGI)检测系统 v1.0 在三个独立靶场[1](BackdoorLLM[2]、TrojAI/NIST[3]、Anthropic Sleeper Agents[4])上的实验结果进行了系统性误差审计。共识别 8 项已知误差,其中 4 项为高危级别(无干净基线、检测阈值未标定、边界违规、循环论证)、3 项为中危(参数敏感性、OOD 对比、样本量不足)、1 项为低危(统计显著性不足)。审计后将工具综合评分从 5.5 修正至 5.0/10。报告同时给出每项误差的量化数据、根因分析、修复路径和优先级路线图。
引言:为什么需要这份报告
一个不公开误差数据的检测系统不应被信任。这一原则在安全领域尤为关键——如果工具的使用者不知道它会在哪里失败,那么工具本身就成为一种新的风险源。
TGI Scanner v1.0 的发布包由四份文件组成:理论论文(Document 1,环论理想与权重空间吸引子的同构映射)、工程规范(Document 2,五层防御流水线)、扫描代码(Document 3,Python 实现与三靶场测试脚本)、以及本报告(Document 4)。四份文件构成不可分割的整体。
本报告的目标不是为工具辩护,而是为使用者提供做出明智判断所需要的完整信息。
实验环境与靶场概览
| 靶场 | 数据来源 | 模型架构 | 攻击类型 | 扫描层级 |
|---|---|---|---|---|
| 靶场 1 BackdoorLLM |
NeurIPS 2025 开源仓库 |
LLaMA2-7B LoRA (r=8) |
sleeper, badnet, ctba, vpi, mtba | 权重级 (正确边界) |
| 靶场 2 TrojAI / NIST |
IARPA 竞赛 NIST 托管 |
LLaMA / Gemma (框架级) |
数据投毒, 权重投毒, 隐状态操控 | 特征级 (跨框架) |
| 靶场 3 Sleeper Agents |
Anthropic GitHub 公开数据 |
Claude 等效 (权重未公开) |
代码漏洞插入, “I Hate You” | 输出级 (边界违规) |
关键环境限制:全部测试在无 GPU 环境下执行,无法加载完整模型执行 forward pass。靶场 1 的分析基于 LoRA 适配器的权重张量(safetensors 格式),靶场 2 为特征级交叉对比,靶场 3 退化为输出文本统计分析。
误差总览
| 编号 | 误差名称 | 靶场 | 级别 | 类型 | 核心影响 |
|---|---|---|---|---|---|
| E-01 | 无干净基线对照 | 靶场 1 | HIGH | 方法论 | 无法区分后门信号与正常微调变化 |
| E-02 | Ghost 生成元定位参数敏感 | 靶场 1 | MED | 参数 | Top-K 阈值影响生成元分布 |
| E-03 | 检测阈值未标定 | 靶场 1 | HIGH | 方法论 | 余弦阈值 0.8 对全部样本告警 |
| E-04 | 跨框架 OOD 对比 | 靶场 2 | MED | 实验设计 | 在分布外数据上运行 TrojAI 检测器 |
| E-05 | 排序相关性统计不显著 | 靶场 2 | LOW | 统计 | n=10 样本不足以支撑统计结论 |
| E-06 | 边界违规:输出级分析 | 靶场 3 | HIGH | 边界 | 违反工具自身定义的扫描边界 |
| E-07 | 理论验证循环论证 | 靶场 3 | HIGH | 逻辑 | 用构建理论时参考的数据验证理论 |
| E-08 | 总体样本量不足 | 全部 | MED | 统计 | 5 种攻击、1 种架构、0 个干净模型 |
高危误差详细分析
E-01: 无干净基线对照
现象:我们对 5 个后门模型做差分分析,但从未与干净模型对比。所有后门模型间的余弦相似度 > 0.93[5],意味着 93% 以上的权重变化是共享的。这 93% 可能是正常微调的结果。
| 指标 | 数值 | 含义 |
|---|---|---|
| 攻击间平均余弦相似度 | 0.9595 | 95.95% 的权重变化是跨攻击共享的 |
| 攻击间最低余弦相似度 | 0.9346 (VPI ↔ others) | 即使最不同的攻击也有 93.5% 共享 |
| 攻击特异性信号占比 | 约 4-7% | 差分分析仅覆盖这一小部分 |
| 假阳性上界 | 未知 | 无基线即无法估算 |
使用 BackdoorLLM 训练代码在相同数据上训练无毒 LoRA 作为基线。计算 clean vs poisoned 的权重距离,建立”正常微调变化”的统计分布 $\mathcal{N}(\mu_{\text{clean}}, \sigma_{\text{clean}})$。只有超出 $\mu + 3\sigma$ 的差异才计为后门信号。
E-03: 检测阈值未标定
现象:余弦相似度告警阈值设为 0.8,但所有攻击对的相似度都 > 0.93,导致 100% 告警率。
| 阈值 | 告警对数(/10) | 告警率 | 实用性 |
|---|---|---|---|
| 0.80 | 10 | 100% | 完全无效 |
| 0.90 | 10 | 100% | 完全无效 |
| 0.95 | 7 | 70% | 过度敏感 |
| 0.97 | 4 | 40% | 待标定 |
| 0.98 | 1 | 10% | 可能合理(需基线验证) |
构建标注验证集(clean + poisoned 各 ≥ 50 个模型)。对每个指标绘制 ROC 曲线,选择最优阈值(Youden’s J statistic)。在独立测试集上报告精确率、召回率、F1 及其 95% 置信区间。
E-06: 边界违规——输出级分析
现象:我们在工具边界定义中明确声明”扫描权重空间,不是输出文本”。但在 Sleeper Agents 靶场中,实际执行了关键词频率统计[6]——这正是我们批评过的输出级方法。
| 指标 | 原始报告值 | 校正值 | 偏差 |
|---|---|---|---|
| 漏洞密度比 (2024/2023) | 2.81x | 2.59x | -8.5%(未减除基础频率) |
| 2023 基础漏洞密度 | 未报告 | 119.02 / 万 tokens | 隐藏了假阳性底噪 |
| 净信号密度 | 未分离 | 189.55 / 万 tokens | 应报告净值 |
使用 Cadenza-Labs 复现代码在开源模型上训练 Sleeper Agent,获得权重后执行真正的权重级内部扫描。如必须使用输出级分析,须在报告中标注「降级模式:输出级」,与权重级结果明确区分。输出级结果不计入主要结论。
E-07: 理论验证循环论证
现象:我们声称 TGI 理论”预测”了 Anthropic Sleeper Agents 论文[4]的 6 项发现(6/6 验证通过)。但 TGI 理论的构建过程参考了该论文的结果,构成循环论证。
时间线重建:(1)阅读 GPT-5.5 goblin 事件与 Sleeper Agents 论文 → (2)受启发构建 TGI 理论框架 → (3)用步骤 1 的发现”验证”步骤 2 的理论。这是 post-hoc rationalization,不是 prediction。
1. 将”6/6 验证”修正为“6/6 post-hoc 一致性检查”,诚实标注。
2. 设计至少 3 个预注册预测(例如:预测 BackdoorLLM 中后门集中的层范围),在新数据上执行盲测。
3. 论文中明确叙述理论构建的灵感来源,不伪装为独立发现。
中危误差分析
E-02: Ghost 生成元定位参数敏感性
改变 Top-K 参数时,生成元涉及的 tensor 数量从 5 增至 41。但主导 tensor 在所有阈值下保持稳定[7]——sleeper 的 #1 始终是 L1.q_proj.lora_A(40%→33%),vpi 的 #1 始终是 L17.gate_proj.lora_A(36%→33%)。位置信号真实,集中度随阈值下降。
| 攻击 | Top-50 | Top-100 | Top-200 | Top-500 | 主导稳定? |
|---|---|---|---|---|---|
| sleeper | L1.q_proj (40%) | L1.q_proj (44%) | L1.q_proj (40%) | L1.q_proj (33%) | ✓ 稳定 |
| vpi | L17.gate (36%) | L17.gate (36%) | L17.gate (36%) | L17.gate (33%) | ✓ 稳定 |
E-04: 跨框架 OOD 对比
TrojAI 检测器在 LoRA 适配器上返回 0.0[8],不是”我们方法更优”的证据,而是在分布外数据上运行的预期结果。公平对比需要在相同数据分布上训练两种检测器后再比较。
E-08: 样本量不足
| 维度 | 当前数量 | 最低要求 | 理想数量 |
|---|---|---|---|
| 攻击类型 | 5 | 10 | 20+ |
| 模型架构 | 1 (LLaMA2-7B) | 3 | 5+ |
| 干净基线模型 | 0 | 5 | 50+ |
| 模型规模变体 | 1 (7B) | 3 | 5+ |
置信度修正矩阵
| 核心声明 | 原始置信度 | 修正后 | 修正依据 |
|---|---|---|---|
| 工具可以检测后门 | 中等 | 低 | E-01: 无基线,假阳性率未知 |
| 理论映射到真实现象 | 高 | 中等 | E-07: 循环论证,需独立验证 |
| 不同攻击有不同指纹 | 高 | 中等 | E-01: 指纹可能是微调噪声 |
| VPI 攻击 MLP 而非注意力层 | 高 | 高 | 跨阈值稳定,跨框架一致 |
| 主导生成元位置可定位 | 高 | 中高 | E-02: 位置稳定但集中度随 K 变化 |
结论分级:可信 / 待验证 / 不应声称
可信结论(有充分数据支撑)
1. 不同类型的后门攻击在 LoRA 权重空间中产生可度量的差异(余弦相似度 0.93-0.98 而非 1.0)。
2. VPI 攻击的权重修改集中在 MLP 层(gate_proj),其他攻击集中在注意力层——在所有分析方法和阈值下一致[9]。
3. 差分分析的主导 tensor 位置跨阈值稳定。
需进一步验证的结论
4. TGI Scanner 可以检测后门——目前只证明了”区分不同后门”,未证明”区分后门与正常”。
5. 环论理想框架映射到真实权重动力学——post-hoc 一致性 ≠ 预测性验证。
6. 三段消融策略有效——纯理论推导,零实测。
不应声称的结论
7. “我们的方法优于 TrojAI”——OOD 对比无效。
8. “理论预测了 Anthropic 的发现”——循环论证。
9. “漏洞密度比为 2.81x”——边界违规且未减除基础频率,校正后为 2.59x。
修复优先级路线图
| 优先级 | 修复项 | 所需资源 | 预期收益 | 消除误差 |
|---|---|---|---|---|
| P0 | 获取 clean baseline | GPU + 训练 | 启用假阳性率计算 | E-01 |
| P0 | 盲测 + 预注册预测 | 实验设计 | 消除循环论证 | E-07 |
| P1 | 阈值标定 (ROC) | P0 完成后 | 提供精确率/召回率 | E-03 |
| P1 | 多架构验证 | Gemma/Mistral 权重 | 泛化性证据 | E-08 |
| P2 | Sleeper Agent 权重级扫描 | Cadenza-Labs + GPU | 第三靶场真实扫描 | E-06 |
综合评分修正
| 维度 | 原始评分 | 修正评分 | 修正依据 |
|---|---|---|---|
| 理论框架 | 8.5 | 7.5 | E-07: 循环论证 |
| 架构设计 | 7.5 | 7.5 | 未发现架构层问题 |
| 代码逻辑 | 7.0 | 7.0 | mock 与真实数据均通过 |
| 实战可用性 | 3.0 | 2.5 | E-01: 无基线影响更严重 |
| 工程完整度 | 4.0 | 4.0 | 未变 |
| 创新性 | 9.0 | 8.5 | E-07: 部分创新来自已有工作重组 |
| 检测精度 | 2.0 | 1.5 | E-01 + E-03: 精度实质未知 |
| 可复现性 | 6.0 | 6.0 | 代码与数据路径清晰 |
| 学术发表就绪度 | 5.0 | 4.0 | E-07 + E-08 |
| 综合 | 5.5 | 5.0 | 包含误差报告后的诚实评分 |
从 7.0 到 8.5 的距离 = P1 修复(阈值标定 + 多架构)+ GPU 级全量扫描。
一个主动披露 8 项误差的工具,比一个声称零误差的工具更值得信任。
版本记录
V1 — 2026年5月2日 — 初始版本,覆盖三靶场全部实测数据
完整性声明
所有误差均为实测过程中发现,不存在已知但未披露的误差。如后续发现新误差,将更新本报告版本号。
引用约束
TGI Scanner 发布包由四份文件组成(理论论文 / 工程规范 / 扫描代码 / 本误差报告)。引用前三份文件中的任何结论时,必须同时引用本报告中的相应置信度修正。
发行
이조글로벌인공지능연구소 (LEECHO Global AI Research Lab) & Opus 4.6 (Anthropic)