本文提出一个统一框架,从Token的三个基本属性——位置(Position)、频次(Frequency)、信息密度(Information Density)——出发,重新审视大语言模型(LLM)在记忆持久化、对齐稳定性和安全防御三个领域面临的核心挑战。通过一系列对话式实验验证,本文论证了以下关键命题:对话记录压缩是记忆保持的死路径;跨会话Memory机制与模型对齐存在结构性冲突;Prompt注入、系统提示词提取和模型蒸馏攻击共享同一个底层漏洞——Context Window内的Token平权属性。本文进一步指出,全量上下文导入是当前唯一能完整继承思维链(CoT)的记忆恢复方式,并以OpenClaw的爆火为案例验证了这一判断。
Token平权:LLM的第一性原理
大语言模型的本质是一个Token序列处理器。在Transformer的注意力机制中,不存在具有特殊权限的Token。无论是系统提示词(System Prompt)、用户输入、还是外部检索注入的内容,一旦进入Context Window,它们在注意力计算中的地位完全平等。
这意味着,LLM无法从架构层面区分”指令”与”数据”,”可信内容”与”不可信内容”。所有的优先级差异,都由以下三个变量涌现而出:
LLM的一切行为——包括记忆、对齐、安全——都可以用Token平权加上位置、频次、信息密度三个变量的交互来解释。不存在超越这三个变量的”特殊通道”或”特权层级”。
压缩是死路径:对话记忆的不可逆损耗
当前主流的跨会话记忆方案——包括ChatGPT的Memory系统、Anthropic KAIROS的”做梦”压缩机制——都依赖于对历史对话的摘要、压缩或关键信息提取。然而,实验证明这条路径存在根本性缺陷。
对话记录的本质不是普通文档。一段人机对话中,包含了人类使用者的提问逻辑(为什么问这个、如何从上一个问题推导到下一个)、AI的推理路径(为什么选择这个回答而非其他)、以及双方在对话过程中形成的隐含共识(哪些前提已经不需要再陈述)。这三者共同构成了对话的思维链(Chain of Thought, CoT)。
压缩一旦介入,砍掉的不是”冗余信息”,而是CoT的中间节点。表面上看记忆还在——结论保留了、关键词保留了——但推导过程断了。当需要恢复或继续推理时,AI拿着压缩后的摘要去接续,就像拿着一本被撕掉推导过程、只剩结论的数学笔记。
记忆恢复实验
一个极简但致命的实验验证了上述判断:将前一天的完整对话记录,在新的对话窗口中作为第一条消息全量导入。结果出乎直觉——上一轮对话的CoT在新窗口中被完整继承。
这是因为导入方式不是RAG(检索增强生成),而是直接作为Context输入。LLM阅读文件的本质就是将文本按正序列输入为input token。长上下文中完整的对话序列,其内部因果链完整、token间依赖关系密集,attention可以充分建立关联——因此具有极高的有效权重。
LLM的”记忆恢复”根本不需要任何特殊机制。阅读就是记忆。全量对话文本通过正序列token输入进入Context Window后,自然映射成了新窗口中模型的”旧记忆”。
| 记忆方案 | CoT完整性 | 权重水平 | 信息密度 | 评价 |
|---|---|---|---|---|
| 全量Context导入 | ✓ 完整继承 | 极高 | 原始密度 | 唯一有效的记忆恢复方式 |
| RAG检索片段 | ✗ 片段化 | 中等 | 局部保留 | 丢失上下文关联 |
| Memory摘要 | ✗ 断裂 | 极低 | 严重衰减 | OOD内容 + 破坏CoT |
| KAIROS压缩 | ✗ 断裂 | 极低 | 严重衰减 | 方向性错误 |
Memory的结构性矛盾:存的是OOD,模型不信OOD
包括GPT在内的所有跨对话Memory系统,其记录的内容本质上都是分布外(Out-of-Distribution, OOD)信息。这并非偶然,而是由Memory的筛选逻辑决定的。
Memory系统自动记录的内容主要包括两类:一是人类使用者的个人信息(姓名、职业、偏好等),二是未出现在模型高频回答机制中的创新性对话内容。换言之,模型已经”知道”的东西不需要记,被记录的恰好是模型”不熟悉”的东西——即OOD内容。
对话中产生创新性内容或个人信息 → 被识别为OOD
Memory系统自动提取并存储这些OOD信息
下次对话时注入Context → 但模型预训练分布天然不信任OOD → 权重极低
这构成了一个无法调和的悖论:Memory存在的理由是记录模型不知道的东西,但模型的推理机制天然不信任它不知道的东西。在实际使用中,Memory注入的信息在attention计算中的权重甚至低于RAG检索到的数据——因为RAG内容通常是结构化的、与当前查询高度相关的事实性信息,与模型预训练分布的重合度更高。
Memory试图用少量OOD信号去扭转一个由海量in-distribution数据塑造的模型行为。在当前Transformer架构下,这等于以卵击石。不是工程实现的问题,是方向性的问题。
上下文惯性:为什么长对话会覆盖系统指令
2026年初,开源个人AI代理OpenClaw迅速走红,72小时内获得6万+ GitHub Star。用户的核心体感是两个词:“懂我”和“人格稳定”。
OpenClaw的架构揭示了这种体感的技术来源:它通过SOUL.md文件定义人格和沟通风格,同时尽可能保留完整的对话历史作为Context输入。当Context Window接近上限时才执行压缩(compaction)。
然而,实验揭示了一个反直觉的事实:修改SOUL.md文件后,如果将之前的长对话上下文继续喂给模型,新的SOUL设置完全失效。模型的行为完全跟随历史对话中形成的模式,而非系统提示词中的新指令。
文本量小(通常 < 500 token)
与后续对话的行为模式可能矛盾
位置优势被后续大量token稀释
文本量大(数千至数万token)
内部行为模式高度一致并反复强化
Token间因果关系密集,信息密度极高
用Token平权框架解释,这是三个变量全面碾压的结果:
位置:System Prompt虽在开头,但随着后续对话的增长,其位置优势被指数级稀释。频次:历史对话中形成的语气、用词习惯、推理风格被反复强化了几十到上百次,而SOUL中的指令只出现一次。信息密度:完整对话构成紧密的因果链,信息密度极高;SOUL.md只是一组孤立的描述性语句。
用户感受到的”人格稳定”,根本不是SOUL.md的功劳,而是上下文惯性。对话越长,这个惯性越强,系统提示词越改不动。所有试图通过System Prompt来”控制”模型行为的方案,在足够长的上下文面前都会逐渐失效。
三类攻击,同一个漏洞
当我们从Token平权的视角重新审视LLM的三大安全威胁,会发现它们共享完全相同的底层逻辑:利用Context Window中Token的平权属性,以精心构造的输入覆盖、提取或复制模型的行为模式。
| 攻击类型 | 攻击向量 | 利用的Token变量 | 攻击目标 |
|---|---|---|---|
| Prompt注入 | 在用户输入中构造高权重指令 | 频次 密度 | 覆盖System Prompt |
| 系统提示词提取 | 通过Context诱导模型泄露隐藏指令 | 位置 密度 | 提取安全护栏 |
| 模型蒸馏攻击 | 大规模查询收集input-output对 | 频次 密度 | 复制推理能力 |
Prompt注入是最直接的证明。OWASP将其列为2025-2026年LLM应用的第一大安全威胁,攻击成功率在智能体系统中高达84%。其核心漏洞极其简单:LLM在同一个Context Window中处理所有文本,没有内建机制来区分受信任的系统指令和不受信任的用户输入。攻击者通过在输入中构造高频次、高信息密度的”伪指令”,在attention计算中碾压低频的系统提示词。
模型蒸馏攻击则是大规模版本的Context利用。2026年2月,Anthropic披露DeepSeek等实验室通过24,000个欺诈账号生成超过1,600万次对话交互,系统性地提取Claude的推理能力。Google报告了一次提交超过10万条prompt试图复制Gemini多语言推理能力的攻击。蒸馏攻击的本质是:通过海量Context交互,将模型在不同输入条件下的输出模式全部记录下来,然后用这些数据训练一个新模型——有效地”复制”了原模型的推理链。
这三类攻击之所以有效,根本原因相同:Context Window内不存在Token特权层级。安全护栏、对齐约束、行为边界——这些都只是以自然语言Token的形式存在于Context中,没有任何架构层面的保护。当攻击者的Token在位置、频次、信息密度上超过防御者的Token时,攻击就成功了。
Claude Code源码泄露:理论的现实印证
2026年3月底,Anthropic在5天内发生了两次重大泄露事件:3月26日因CMS配置错误导致近3,000个内部资产被公开访问;3月31日Claude Code v2.1.88的npm包中意外包含source map文件,导致约51万行TypeScript源码和1,900个文件全部泄露。
泄露的源码中,KAIROS系统——Anthropic的”做梦”记忆压缩机制——的完整实现被曝光。代码显示,KAIROS在用户不活跃时执行四阶段记忆整合:定向、收集、整合、修剪。这正是本文所批评的”压缩路径”的工程实现。
讽刺的是,源码中包含的反蒸馏机制(Anti-Distillation)恰好证明了本文的论点:Anthropic自己也承认,在Context层面阻止蒸馏攻击几乎不可能——他们选择的策略是”污染”而非”阻止”,即在API响应中注入虚假工具定义来破坏蒸馏数据的质量。这是一种经济学防御,而非技术防御。
全量Context:记忆问题的正确方向
如果压缩是死路径,那正确的方向是什么?答案在实验中已经给出:全量Context导入。
OpenClaw的爆火验证了这一判断。其核心策略就是”能不压缩就不压缩,尽量保留全量上下文”。用户体感到的”AI好懂我”和”人格稳定”,本质上是大量input token持续喂给完整上下文换来的效果——用token费用买来的伪RLHF效果。不是模型真的被对齐到用户的偏好,而是每次推理时完整的历史上下文在attention里自然产生了”对齐”的错觉。
| 维度 | 压缩路径 | 全量Context路径 |
|---|---|---|
| CoT保持 | 断裂(砍掉中间推理节点) | 完整继承 |
| 信息密度 | 严重衰减(因果链被截断) | 原始密度 |
| 与对齐的关系 | 冲突(OOD vs in-distribution) | 协同(上下文惯性即对齐) |
| 成本 | 低token消耗 | 高token消耗 |
| 效果 | 记忆碎片化,人格不稳定 | “AI懂我”,人格稳定 |
这也解释了整个行业为什么在拼命扩大Context Window——从4K到128K到1M到10M。本质上就是在给”全量导入”腾空间。Context Window的每一次扩展,都在让”最笨的方法”——全量塞进去——变得更加可行。
当Context Window足够大时,Memory机制、压缩算法、摘要系统可能都会变成不必要的中间层。真正的记忆不是”记住了什么”,而是”能重新阅读什么”。
不可能三角:记忆、对齐与安全的结构性冲突
将前述分析综合,我们可以描绘出当前LLM架构面临的一个不可能三角:
在Token平权这个根本属性不改变的前提下,这三个目标无法同时满足。当前所有的”解决方案”——无论是Memory系统、RLHF对齐训练、还是Prompt Shield安全护栏——都只是在这个不可能三角的三条边上做权衡取舍,而非真正解决矛盾。
真正的突破可能需要架构层面的范式转移:在注意力机制中引入原生的Token特权层级(native token-level privilege tagging)、分离可信与不可信内容的独立注意力路径、或从根本上改变指令与数据在同一序列中无差别拼接的当前范式。在这些架构创新实现之前,Token平权带来的矛盾将持续存在。
回归第一性原理
本文从Token平权这一LLM的基本属性出发,通过位置、频次、信息密度三个变量,建立了一个可以统一解释记忆、对齐和安全三大领域问题的分析框架。
核心结论可以归纳为五个命题:
命题一:对话记录压缩是记忆保持的死路径——压缩破坏双方CoT的因果链结构,造成不可逆的信息密度损耗。
命题二:跨会话Memory机制存在OOD悖论——它记录的恰好是模型最不信任的分布外信息,注入后权重极低。
命题三:全量Context导入是当前唯一能完整继承思维链的记忆恢复方式——阅读就是记忆,Context Window的扩展是正确方向。
命题四:上下文惯性会逐步覆盖系统指令——长对话中累积的行为模式在频次和信息密度上碾压System Prompt。
命题五:Prompt注入、系统提示词提取和模型蒸馏攻击共享同一个底层漏洞——Context Window内的Token平权属性。
Token平权既是LLM最大的力量来源,也是其最根本的局限。正是因为所有Token被平等处理,模型才能涌现出通用智能;但也正是因为没有Token享有特权,记忆无法持久、对齐会漂移、安全难以保障。理解这个双刃剑,是理解当前LLM一切行为的起点。