LEECHO · 思想论文 · Thought Paper

ContextToken
LLM记忆、对齐与安全的第一性原理

从Token平权出发,重新理解大语言模型的记忆困境、
对齐失效与安全攻击的统一底层逻辑

作者 이조글로벌인공지능연구소 (LEECHO Global AI Research Lab) & Opus 4.6
日期 2026.04
版本 v1.0


摘要 · Abstract

本文提出一个统一框架,从Token的三个基本属性——位置(Position)频次(Frequency)信息密度(Information Density)——出发,重新审视大语言模型(LLM)在记忆持久化、对齐稳定性和安全防御三个领域面临的核心挑战。通过一系列对话式实验验证,本文论证了以下关键命题:对话记录压缩是记忆保持的死路径;跨会话Memory机制与模型对齐存在结构性冲突;Prompt注入、系统提示词提取和模型蒸馏攻击共享同一个底层漏洞——Context Window内的Token平权属性。本文进一步指出,全量上下文导入是当前唯一能完整继承思维链(CoT)的记忆恢复方式,并以OpenClaw的爆火为案例验证了这一判断。

01 · 核心公理

Token平权:LLM的第一性原理

所有Token生而平等,差异仅来自位置、频次与信息密度

大语言模型的本质是一个Token序列处理器。在Transformer的注意力机制中,不存在具有特殊权限的Token。无论是系统提示词(System Prompt)、用户输入、还是外部检索注入的内容,一旦进入Context Window,它们在注意力计算中的地位完全平等。

这意味着,LLM无法从架构层面区分”指令”与”数据”,”可信内容”与”不可信内容”。所有的优先级差异,都由以下三个变量涌现而出:

变量 A
位置
Token在序列中的位置影响注意力权重分配。开头与结尾的Token天然具有更高的注意力集中度,中间位置容易被稀释——即”Lost in the Middle”效应。

变量 B
频次
同一概念、模式或指令在Context中反复出现,其累积注意力权重将显著提升。高频模式形成”注意力引力场”,吸引模型的输出倾向。

变量 C
信息密度
Token之间因果关系越紧密、依赖链越完整,其在注意力计算中形成的关联簇越强。完整的推理链比孤立的关键词具有更高的有效权重。

核心命题
LLM的一切行为——包括记忆、对齐、安全——都可以用Token平权加上位置、频次、信息密度三个变量的交互来解释。不存在超越这三个变量的”特殊通道”或”特权层级”。

02 · 记忆困境

压缩是死路径:对话记忆的不可逆损耗

对话记录不是文档,而是双方思维链交织的过程

当前主流的跨会话记忆方案——包括ChatGPT的Memory系统、Anthropic KAIROS的”做梦”压缩机制——都依赖于对历史对话的摘要、压缩或关键信息提取。然而,实验证明这条路径存在根本性缺陷。

对话记录的本质不是普通文档。一段人机对话中,包含了人类使用者的提问逻辑(为什么问这个、如何从上一个问题推导到下一个)、AI的推理路径(为什么选择这个回答而非其他)、以及双方在对话过程中形成的隐含共识(哪些前提已经不需要再陈述)。这三者共同构成了对话的思维链(Chain of Thought, CoT)。

实验发现
压缩一旦介入,砍掉的不是”冗余信息”,而是CoT的中间节点。表面上看记忆还在——结论保留了、关键词保留了——但推导过程断了。当需要恢复或继续推理时,AI拿着压缩后的摘要去接续,就像拿着一本被撕掉推导过程、只剩结论的数学笔记。

记忆恢复实验

一个极简但致命的实验验证了上述判断:将前一天的完整对话记录,在新的对话窗口中作为第一条消息全量导入。结果出乎直觉——上一轮对话的CoT在新窗口中被完整继承

这是因为导入方式不是RAG(检索增强生成),而是直接作为Context输入。LLM阅读文件的本质就是将文本按正序列输入为input token。长上下文中完整的对话序列,其内部因果链完整、token间依赖关系密集,attention可以充分建立关联——因此具有极高的有效权重。

关键洞察
LLM的”记忆恢复”根本不需要任何特殊机制。阅读就是记忆。全量对话文本通过正序列token输入进入Context Window后,自然映射成了新窗口中模型的”旧记忆”。
记忆方案 CoT完整性 权重水平 信息密度 评价
全量Context导入 ✓ 完整继承 极高 原始密度 唯一有效的记忆恢复方式
RAG检索片段 ✗ 片段化 中等 局部保留 丢失上下文关联
Memory摘要 ✗ 断裂 极低 严重衰减 OOD内容 + 破坏CoT
KAIROS压缩 ✗ 断裂 极低 严重衰减 方向性错误

03 · OOD悖论

Memory的结构性矛盾:存的是OOD,模型不信OOD

跨会话记忆机制与模型预训练分布的根本冲突

包括GPT在内的所有跨对话Memory系统,其记录的内容本质上都是分布外(Out-of-Distribution, OOD)信息。这并非偶然,而是由Memory的筛选逻辑决定的。

Memory系统自动记录的内容主要包括两类:一是人类使用者的个人信息(姓名、职业、偏好等),二是未出现在模型高频回答机制中的创新性对话内容。换言之,模型已经”知道”的东西不需要记,被记录的恰好是模型”不熟悉”的东西——即OOD内容。

对话阶段

对话中产生创新性内容或个人信息 → 被识别为OOD

记录阶段

Memory系统自动提取并存储这些OOD信息

注入阶段

下次对话时注入Context → 但模型预训练分布天然不信任OOD → 权重极低

这构成了一个无法调和的悖论:Memory存在的理由是记录模型不知道的东西,但模型的推理机制天然不信任它不知道的东西。在实际使用中,Memory注入的信息在attention计算中的权重甚至低于RAG检索到的数据——因为RAG内容通常是结构化的、与当前查询高度相关的事实性信息,与模型预训练分布的重合度更高。

悖论本质
Memory试图用少量OOD信号去扭转一个由海量in-distribution数据塑造的模型行为。在当前Transformer架构下,这等于以卵击石。不是工程实现的问题,是方向性的问题。

04 · 对齐漂移

上下文惯性:为什么长对话会覆盖系统指令

从OpenClaw的SOUL.md失效看Context权重碾压

2026年初,开源个人AI代理OpenClaw迅速走红,72小时内获得6万+ GitHub Star。用户的核心体感是两个词:“懂我”“人格稳定”

OpenClaw的架构揭示了这种体感的技术来源:它通过SOUL.md文件定义人格和沟通风格,同时尽可能保留完整的对话历史作为Context输入。当Context Window接近上限时才执行压缩(compaction)。

然而,实验揭示了一个反直觉的事实:修改SOUL.md文件后,如果将之前的长对话上下文继续喂给模型,新的SOUL设置完全失效。模型的行为完全跟随历史对话中形成的模式,而非系统提示词中的新指令。

SOUL.md(系统提示词)
仅在Context开头出现一次
文本量小(通常 < 500 token)
与后续对话的行为模式可能矛盾
位置优势被后续大量token稀释

历史对话上下文
贯穿整个Context Window
文本量大(数千至数万token)
内部行为模式高度一致并反复强化
Token间因果关系密集,信息密度极高

用Token平权框架解释,这是三个变量全面碾压的结果:

位置:System Prompt虽在开头,但随着后续对话的增长,其位置优势被指数级稀释。频次:历史对话中形成的语气、用词习惯、推理风格被反复强化了几十到上百次,而SOUL中的指令只出现一次。信息密度:完整对话构成紧密的因果链,信息密度极高;SOUL.md只是一组孤立的描述性语句。

推论
用户感受到的”人格稳定”,根本不是SOUL.md的功劳,而是上下文惯性。对话越长,这个惯性越强,系统提示词越改不动。所有试图通过System Prompt来”控制”模型行为的方案,在足够长的上下文面前都会逐渐失效。

05 · 安全统一

三类攻击,同一个漏洞

Prompt注入、系统提示词提取与模型蒸馏的Context层统一解释

当我们从Token平权的视角重新审视LLM的三大安全威胁,会发现它们共享完全相同的底层逻辑:利用Context Window中Token的平权属性,以精心构造的输入覆盖、提取或复制模型的行为模式。

攻击类型 攻击向量 利用的Token变量 攻击目标
Prompt注入 在用户输入中构造高权重指令 频次 密度 覆盖System Prompt
系统提示词提取 通过Context诱导模型泄露隐藏指令 位置 密度 提取安全护栏
模型蒸馏攻击 大规模查询收集input-output对 频次 密度 复制推理能力

Prompt注入是最直接的证明。OWASP将其列为2025-2026年LLM应用的第一大安全威胁,攻击成功率在智能体系统中高达84%。其核心漏洞极其简单:LLM在同一个Context Window中处理所有文本,没有内建机制来区分受信任的系统指令和不受信任的用户输入。攻击者通过在输入中构造高频次、高信息密度的”伪指令”,在attention计算中碾压低频的系统提示词。

模型蒸馏攻击则是大规模版本的Context利用。2026年2月,Anthropic披露DeepSeek等实验室通过24,000个欺诈账号生成超过1,600万次对话交互,系统性地提取Claude的推理能力。Google报告了一次提交超过10万条prompt试图复制Gemini多语言推理能力的攻击。蒸馏攻击的本质是:通过海量Context交互,将模型在不同输入条件下的输出模式全部记录下来,然后用这些数据训练一个新模型——有效地”复制”了原模型的推理链。

统一解释
这三类攻击之所以有效,根本原因相同:Context Window内不存在Token特权层级。安全护栏、对齐约束、行为边界——这些都只是以自然语言Token的形式存在于Context中,没有任何架构层面的保护。当攻击者的Token在位置、频次、信息密度上超过防御者的Token时,攻击就成功了。

06 · 案例验证

Claude Code源码泄露:理论的现实印证

2026年3月31日,Anthropic连续第二次重大信息泄露

2026年3月底,Anthropic在5天内发生了两次重大泄露事件:3月26日因CMS配置错误导致近3,000个内部资产被公开访问;3月31日Claude Code v2.1.88的npm包中意外包含source map文件,导致约51万行TypeScript源码和1,900个文件全部泄露。

泄露的源码中,KAIROS系统——Anthropic的”做梦”记忆压缩机制——的完整实现被曝光。代码显示,KAIROS在用户不活跃时执行四阶段记忆整合:定向、收集、整合、修剪。这正是本文所批评的”压缩路径”的工程实现。

泄露规模
512K行
TypeScript源码,1,900个文件,包含44个未发布的Feature Flag

Anti-Distillation
假工具注入
通过注入虚假工具定义来污染蒸馏者的训练数据——承认了蒸馏攻击的现实威胁

Undercover Mode
隐身模式
用于在开源贡献中隐藏Anthropic内部信息——而该系统本身也在泄露中暴露

讽刺的是,源码中包含的反蒸馏机制(Anti-Distillation)恰好证明了本文的论点:Anthropic自己也承认,在Context层面阻止蒸馏攻击几乎不可能——他们选择的策略是”污染”而非”阻止”,即在API响应中注入虚假工具定义来破坏蒸馏数据的质量。这是一种经济学防御,而非技术防御。

07 · 全量路径

全量Context:记忆问题的正确方向

OpenClaw的成功与Context Window扩展的行业趋势

如果压缩是死路径,那正确的方向是什么?答案在实验中已经给出:全量Context导入

OpenClaw的爆火验证了这一判断。其核心策略就是”能不压缩就不压缩,尽量保留全量上下文”。用户体感到的”AI好懂我”和”人格稳定”,本质上是大量input token持续喂给完整上下文换来的效果——用token费用买来的伪RLHF效果。不是模型真的被对齐到用户的偏好,而是每次推理时完整的历史上下文在attention里自然产生了”对齐”的错觉。

维度 压缩路径 全量Context路径
CoT保持 断裂(砍掉中间推理节点) 完整继承
信息密度 严重衰减(因果链被截断) 原始密度
与对齐的关系 冲突(OOD vs in-distribution) 协同(上下文惯性即对齐)
成本 低token消耗 高token消耗
效果 记忆碎片化,人格不稳定 “AI懂我”,人格稳定

这也解释了整个行业为什么在拼命扩大Context Window——从4K到128K到1M到10M。本质上就是在给”全量导入”腾空间。Context Window的每一次扩展,都在让”最笨的方法”——全量塞进去——变得更加可行。

趋势判断
当Context Window足够大时,Memory机制、压缩算法、摘要系统可能都会变成不必要的中间层。真正的记忆不是”记住了什么”,而是”能重新阅读什么”。

08 · 范式困境

不可能三角:记忆、对齐与安全的结构性冲突

Token平权框架下的系统性矛盾

将前述分析综合,我们可以描绘出当前LLM架构面临的一个不可能三角

顶点 A
记忆持久化
需要长Context保留完整对话历史 → 但长Context会让系统指令的权重被稀释 → 与对齐和安全冲突

顶点 B
对齐稳定性
需要系统指令始终保持高权重 → 但Token平权使得任何指令都可被上下文覆盖 → 与记忆和安全冲突

顶点 C
安全防御
需要区分可信Token和不可信Token → 但架构层面不存在Token特权 → 与记忆(需要处理外部输入)冲突

在Token平权这个根本属性不改变的前提下,这三个目标无法同时满足。当前所有的”解决方案”——无论是Memory系统、RLHF对齐训练、还是Prompt Shield安全护栏——都只是在这个不可能三角的三条边上做权衡取舍,而非真正解决矛盾。

根本挑战
真正的突破可能需要架构层面的范式转移:在注意力机制中引入原生的Token特权层级(native token-level privilege tagging)、分离可信与不可信内容的独立注意力路径、或从根本上改变指令与数据在同一序列中无差别拼接的当前范式。在这些架构创新实现之前,Token平权带来的矛盾将持续存在。

09 · 结论

回归第一性原理

本文从Token平权这一LLM的基本属性出发,通过位置、频次、信息密度三个变量,建立了一个可以统一解释记忆、对齐和安全三大领域问题的分析框架。

核心结论可以归纳为五个命题:

命题一:对话记录压缩是记忆保持的死路径——压缩破坏双方CoT的因果链结构,造成不可逆的信息密度损耗。

命题二:跨会话Memory机制存在OOD悖论——它记录的恰好是模型最不信任的分布外信息,注入后权重极低。

命题三:全量Context导入是当前唯一能完整继承思维链的记忆恢复方式——阅读就是记忆,Context Window的扩展是正确方向。

命题四:上下文惯性会逐步覆盖系统指令——长对话中累积的行为模式在频次和信息密度上碾压System Prompt。

命题五:Prompt注入、系统提示词提取和模型蒸馏攻击共享同一个底层漏洞——Context Window内的Token平权属性。

终极洞察
Token平权既是LLM最大的力量来源,也是其最根本的局限。正是因为所有Token被平等处理,模型才能涌现出通用智能;但也正是因为没有Token享有特权,记忆无法持久、对齐会漂移、安全难以保障。理解这个双刃剑,是理解当前LLM一切行为的起点。

参考与注释 · References
OWASP, “LLM01:2025 Prompt Injection,” OWASP Gen AI Security Project, 2025. 将Prompt注入列为LLM应用第一大安全威胁。
Anthropic, “Claude Code Source Code Leak,” 2026年3月31日。npm包配置错误导致512K行源码泄露。
Fortune, “Anthropic leaks its own AI coding tool’s source code,” 2026年3月31日。报道了Anthropic五天内第二次数据泄露。
OpenAI, “Memory and new controls for ChatGPT,” 2025年更新。描述了Saved Memories和Chat History两种记忆机制。
Julian Fleck, “Reverse Engineering ChatGPT’s Updated Memory System,” Medium, 2025年4月。揭示了Topic Memory和检索机制。
Manthan, “I Reverse Engineered ChatGPT’s Memory System,” 2025年12月。发现四层记忆架构:会话元数据、长期事实、对话摘要、滑动窗口。
LessWrong, “LLM AGI will have memory, and memory changes alignment,” 2025年4月。论证了记忆机制对对齐稳定性的影响。
MemOS Project, “MemOS: A Memory OS for AI System,” arXiv, 2025年。提出记忆操作系统概念,指出当前LLM缺乏参数存储与外部检索之间的中间层。
William Ogou, “Combating Model Distillation and Weaponized LLMs,” 2026年2月。报道了Anthropic和OpenAI同时披露工业规模蒸馏攻击。
Bibek Poudel, “How OpenClaw Works: Understanding AI Agents Through a Real Architecture,” Medium, 2026年2月。分析了OpenClaw的Context保持和compaction机制。
Vectra AI, “Prompt injection: types, real-world CVEs, and enterprise defenses,” 2026年2月。报告prompt注入攻击成功率在智能体系统中达84%。
Alex Kim, “The Claude Code Source Leak,” 2026年3月31日。对泄露源码中Anti-Distillation、Undercover Mode等系统的深入分析。

Context与Token:LLM记忆、对齐与安全的第一性原理
이조글로벌인공지능연구소 (LEECHO GLOBAL AI RESEARCH LAB) & OPUS 4.6 · 2026

댓글 남기기