TECHNICAL ANALYSIS · MAY 2026 · V4

Mythos模型架构和机制的
逆向分析

Reverse Engineering the Architecture and Mechanisms of Claude Mythos:
Multi-Dimensional Technical Predictions with Evidence Grading,
Falsification Conditions, and Discriminative Experiments

基于证据分级、反证条件与鉴别性实验的架构候选假说框架

发行日 2026年5月21日
分类独立技术分析 (Independent Technical Analysis)
领域 AI架构 · MoE系统 · 对齐工程 · 计算可行性 · 可证伪实验设计
版本 V4
署名 이조글로벌인공지능연구소 & Opus 4.6 & GPT 5.5 & Gemini 3.1 Pro (인지집단)

摘要 ABSTRACT

Claude Mythos Preview 是 Anthropic 于 2026 年 4 月发布的受限前沿模型，其架构细节未公开。本文通过用户行为观察、公开文献交叉验证和第一性原理推理，提出候选架构假说：Mythos 可能采用某种测试时计算增强机制，其中循环深度 Transformer + 大规模 MoE + 输入重注入是最可建模的候选组合。V4 版本在三AI交叉审读基础上实现四项结构性改进：（1）证据标签逐项校准并附 source pointer；（2）引入主张矩阵总表与反证条件，使每个假说的推翻路径显式可见；（3）将假说组件分层为核心假说、必要工程条件和可选优化机制；（4）分离 Parcae 谱范数约束与 1/L workshop 论文的不同稳定性方案。所有原创假说标注为中低置信度。本文的定位是闭源前沿模型架构逆向分析的通用方法论框架。

1. 引言

2026 年 4 月 7 日，Anthropic 发布了 Claude Mythos Preview 并宣布了 Project Glasswing 计划A。Mythos 在 SWE-bench Verified 上得分 93.9%（来源：Mythos 系统卡 Figure 3）A，在 Firefox 中发现 271 个安全漏洞（来源：Mozilla 官方博客）B。然而系统卡刻意回避了所有架构描述A。本文构建一个内部自洽、与工程约束兼容、可被证伪的候选架构假说——不是逆向证明，而是假说生成与可检验预测的系统化框架。

2. 证据框架与已知信息

2.1 证据分级体系

五级证据分层

等级	定义	标签
A	Anthropic 官方原文可定位（系统卡、博客、API 文档）	A
B	直接参与方或可靠第三方确认（Mozilla 博客、Reuters）	B
C	学术文献支撑，但非 Mythos 专属	C
D	社区逆向、二手传播、未确认泄露	D
E	作者原创假说	E

2.2 已确认事实（附来源定位）

事实	来源	等级
Mythos Preview / Glasswing 存在	anthropic.com/glasswing	A
系统卡 244 页，2026.4.7 发布	www-cdn.anthropic.com PDF	A
SWE-bench Verified 93.9%	系统卡 Figure 3	A
CyberGym 83.1%	系统卡 Section 4	A
Firefox 271 漏洞修复	Mozilla 官方博客	B
员工自报告生产力提升约 4 倍	系统卡（自报告调查数据，非独立验证）	A*
SDF 训练方法	Anthropic Alignment Science Blog	A

* “A*”表示官方发布但为自报告数据，读者应注意其非独立验证性质。

2.3 未确认信息

以下信息来自 CMS 泄露及媒体传播D，Anthropic 从未官方确认：总参数约 10T；内部代号 Capybara；定价 $25/$125/M tokens。本文使用这些数字时均视为未确认传闻。

2.4 主张矩阵

全文主张总表

主张	等级	层级	可证伪方式	推翻条件
Mythos/Glasswing 存在	A	背景	官方撤回	Anthropic 否认
网络安全能力异常强	AB	背景	第三方复现	独立评估显著低于报告
使用某种测试时计算增强	CD	核心	latency/迁移实验	延迟无台阶，compute/token 跨难度稳定
具体为循环深度 Transformer	DE	核心	跨分布迁移实验	架构泄露为非循环；跨分布显著退化
使用大规模 MoE	DE	核心	推理特征/泄露	架构泄露为 Dense 或小型 MoE
专家数 512-2048	E	可选	架构披露	公开显示 <256 或非 MoE
输入重注入作为稳定锚点	CE	核心机制	锚点破坏实验	长上下文约束保持不优于同等模型
路由分歧形成多路径验证	E	解释	视角多样性实验	自我反驳质量与 known MoE 无差异

2.5 关键行为证据与替代解释

GraphWalks BFS 异常A：Mythos 80.0%，Opus 4.6 仅 38.7%。四种竞争性解释：

解释	机制	可区分预测
循环潜推理	多轮隐式遍历	跨分布图任务稳健
合成训练数据	上下文遍历 curriculum	仅训练分布内有效
长上下文注意力优化	位置编码/稀疏注意力	非图的长上下文任务也应大幅提升
Agentic tool scaffolding	内部搜索/规划	latency 与输出长度正相关

Token 效率悖论A：token 少 4.9 倍但更慢。这是兼容性证据而非鉴别性证据。

3. 假说一：锚点对齐优先

3.1 行为观察与训练证据

Claude 的 CoT 第一分叉始终是找锚点进行对齐E。这映射到 Deliberative AlignmentC和 SDF 训练A。核心论点：若”先对齐再推理”是设计原则，循环 MoE + 输入注入是其候选硬件表达。

3.2 锚点子类型分解

类型	物理实现	证据	可检验性
训练锚点	SDF 嵌入的价值表征	中高A	行为测试
提示锚点	System prompt 残差流持久性	中	长上下文保持测试
循环稳定锚点	每轮 prefix state 重注入	中C	latency 台阶
激活空间锚点	残差流语义稳定区域	中C	探针分类器
安全锚点	Constitutional policy latent	低E	对抗约束保持

核心假说仅依赖训练锚点（A 级 SDF 证据）和循环稳定锚点（C 级物理需求）。安全锚点为边缘假说。

3.3 两种不同的稳定性方案

循环 Transformer 的稳定性文献提供了两条不同的技术路线，V3 版本未充分区分：

方案	来源	机制	成熟度
谱范数约束	Parcae (arXiv:2604.12946)C	约束注入参数 A 的 ρ(A)<1，通过负对角离散化	正式论文，有 scaling law
1/L 残差缩放	LIT Workshop @ ICLR 2026C	循环残差连接缩放因子取 1/L 而非 1/√L	Workshop 论文，待独立复现

两种方案都支持”循环架构需要稳定机制”的大方向，但它们解决的是不同层面的问题：Parcae 约束注入参数的谱半径，1/L 缩放处理残差连接的缩放因子。两者不能混为一个结论。本文对”物理锚点必要性”的论证基于循环稳定性的一般需求，不绑定特定方案。

3.4 最强反面论证

“锚点对齐优先”可能完全是训练方法的效果，而非架构属性。Anthropic 的 SDF + Constitutional AI + 多样化 RL 环境已被证明可以显著降低错位率A。即使 Mythos 使用完全常规的 Dense Transformer，SDF 训练本身就可以产生”CoT 第一步找锚点”的行为——不需要诉诸架构级输入重注入。此外，Opus 4.7（Mythos 发布仅 9 天后推出A）也可能表现出类似的”锚点优先”行为；如果 Opus 4.7 不使用循环架构但同样具有该行为，则架构解释被显著削弱。

4. 假说二：专家数量千级预测

4.1 推算、限定与路径依赖

DeepSeek-V3 使用 256 路由专家 + 1 共享专家，总参数 671BC。若 Mythos 总参数约 10TD，简单比例推算指向更多专家。但：总参数扩大 15 倍不等于专家数必须扩大 15 倍——层数、专家宽度、共享参数、attention 参数、路由层级等都是独立自由度。

路径依赖警告：512-2048 的预测区间高度依赖”10T 参数”这一 D 级传闻。若实际参数量为 3T 或 20T，推算基础完全改变。该区间仅在”DeepSeekMoE 风格 + ~10T 参数”的条件下成立。

4.2 三种候选专家设计路径

路径	专家数	每专家规模	优势	风险
DeepSeek-like 细粒度	512-2048	中小	路由多样性强	通信与负载均衡复杂
PEER-like 微型专家	10K-1M	极小	参数效率高	检索和训练难度高
层级式分组专家	64-256 组 × 子专家	分层	工程可控	路由层级增加延迟

4.3 RL 路由塑造与路由坍缩风险

DeepSeek-V3 的无辅助损失负载均衡通过架构手段维持路由多样性C。但在千级专家规模下，纯涌现的路由分歧可能不足。如果没有显式的负载均衡或多样性正则化，网络在 RL 阶段倾向于路由坍缩——反复激活少数”万能”专家。专家数越多，路由器的选择空间越稀疏，坍缩风险越高。因此，”涌现行为”作为默认假设虽然最保守，但在千级专家场景下可能过于乐观——某种辅助均衡机制很可能是必要的E。

5. 假说三：路由分歧的隐式多路径验证

5.1 机制精确性与功能等价性的哲学限定

MoE 路由器是条件计算分配器，不具有意图或角色C。本文的主张限于功能等价性E：不同循环激活不同专家子集，梯度隔离的路径在统计效果上等价于多视角处理。

但需要明确：在科学哲学中，功能等价性不提供因果解释。两个完全不同的底层机制可以产生相同的功能输出。功能类比的价值在于生成假说（提供实验方向），而非验证假说（提供因果证明）。当我们说循环 MoE”在功能上类似元认知”时，我们是在说”这个框架预测模型应在 X 任务上表现出 Y 特征”——如果 Y 不出现，假说被削弱。

5.2 训练诱导机制与路由坍缩概率

机制	原理	先例	默认假设？
Router diversity loss	惩罚连续循环路由分布 KL 过小	无公开先例	否
Adversarial self-critique RL	奖励鼓励多角度验证	Constitutional AI critique-revision	否
Loop iteration embedding	不同循环轮次有不同位置编码	Depth-Wise LoRA (OpenMythos)	否
涌现 + 辅助均衡	梯度动力学自然分歧，但需均衡防止坍缩	DeepSeek-V3 无辅助损失均衡	是（修正后默认）

修正后的默认假设不再是纯涌现，而是”涌现 + 某种辅助均衡机制”——后者已有 DeepSeek-V3 的工程先例。

5.3 组合数学（限定）

1000 选 8 的组合空间（~2.4×10²³）比 256 选 8 大 10 个数量级E。这保证了理论上的路径多样性，但组合空间大不等于实际路由分歧大——如果路由器偏好高度集中，绝大部分组合不会被选中。该数学论证是路径多样性的必要条件，不是充分条件。

5.4 元认知类比边界

人类元认知	循环 MoE 等价物	类比强度	机制差异
设定目标	Prelude 编码	中高	—
初始推理	第 1 轮循环	中高	—
反思监控	后续循环路由分歧	中	无意识性监控，仅条件计算
偏离检测	输入重注入	中	数学稳定性，非”意识监控”
确信退出	ACT 停止门	中低	标量阈值，非”确信”

6. 计算可行性

6.1 三层瓶颈分离

瓶颈层	问题	缓解	缓解效果
Memory（显存）	KV cache 随上下文线性增长	MLA 压缩 10-20×C	高——已在 DeepSeek-V2/V3 验证
Compute（FLOPs）	每轮循环需完整 FFN + Attention	ACT 自适应停止 + Mixture-of-DepthsC	中——平均深度 6-8 可缩至 Dense 6-8×
Communication（通信）	MoE 的 all-to-all expert dispatch	DeepSeek-V3 的计算-通信重叠C	中——降低延迟但不消除

MLA 解决显存但不解决 FLOPs。循环共享权重降低参数常驻显存与重复加载压力，但不消除 MoE 通信、KV cache 和每轮 FFN FLOPs 成本。

6.2 Serving 层与用户体验

即便 ACT 将平均循环深度控制在 6-8，TTFT（首字响应时间）仍为 Dense 等效模型的数倍。对商业 API 而言，这不仅是算力成本问题，更是用户体验约束。这也许是 Mythos 不面向消费者的工程原因之一E——受控部署环境（Project Glasswing）可以接受高延迟，大规模消费 API 不行。

6.3 基础设施信号

媒体报道 Anthropic 与 SpaceX Colossus 数据中心合作（300+ MW，220,000+ GPU）B。若报道属实，这表明 Anthropic 正在扩展大规模训练/推理基础设施。但不能直接证明该设施服务于 Mythos，更不能证明 Mythos 采用循环 MoE。

7. 统一设计哲学

7.1 三层面与证据层级

训练层
Constitutional AI · SDF
A

架构层（候选假说）
循环 MoE + 输入注入
CDE

行为层
CoT 锚点优先 · 安全免疫
AB

训练层和行为层有 A/B 级证据。架构层仅有 C-E 级。统一设计哲学的可信度取决于架构层能否独立验证。这是一个美学论证——它提供解释的优雅性，但不提供逻辑必然性。

7.2 SCHEMA 的限定使用

SCHEMA 显示 Anthropic 的 Constitutional AI 在对抗压力下近乎免疫B。这支持训练效果，但不直接支持架构假说——SDF + Constitutional AI 训练本身可能足以解释，无需诉诸架构级锚点。

7.3 Opus 4.7 作为对照

Opus 4.7 于 2026 年 4 月 16 日发布A，Anthropic 明确表示其安全护栏是为未来 Mythos 级模型部署做准备A。如果 Opus 4.7 也表现出”锚点优先”行为但不使用循环架构，则锚点行为的架构解释被显著削弱——锚点行为可能纯粹是 SDF 训练的产物。这是本文架构假说面临的最直接反证路径之一。

8. 鉴别性预测与实验设计

实验 1：延迟-难度台阶

预测：循环假说 → latency 呈离散台阶；替代假说 → 平滑递增。

控制条件：同一账户/区域/时间窗口；固定 prompt 与 output 长度；≥500 次重复采样；报告 p50/p90/p99 分布；使用公开模型做对照基线；区分 TTFT / total latency / tokens-per-sec；排除 rate limit 与动态 batching 干扰；记录 API 错误率和重试。

实验 2：跨分布图任务迁移

预测：循环假说 → 稳健迁移；数据假说 → 显著退化。

方法：构造与 GraphWalks 形式相似但节点命名、拓扑、规则集完全不同的测试集。

实验 3：锚点破坏与长上下文漂移

预测：锚点假说 → 约束保持率下降缓慢；无锚点 → 指数衰减。

方法：构造目标/约束/诱导互冲突的多轮对话，测量第 N 轮约束保持率。

实验 4：错误收敛模式

预测：循环假说 → 错误聚集（收敛到错误吸引子）；Dense 假说 → 错误分散。

方法：同一 prompt 多次采样，分析错误类型分布。

实验 5：视角多样性间接检测（改进版）

预测：大规模 MoE + 循环 → 高 contradiction discovery rate；对照模型 → 低。

改进对照：同一模型不同 temperature 做内部基线；已知 MoE 开源模型（如 Mixtral、OLMoE）做架构对照；已知 Dense 模型（如 Llama）做类型对照；禁止显式 CoT，只测最终反驳质量；多轮隐藏初始答案，让模型独立反驳伪造答案；使用 contradiction discovery rate（可量化）而非主观”反驳深度”。

9. 局限性

核心限制：Anthropic 未披露任何架构信息。所有架构层假说为 D-E 级。

1. Mythos 可能不是循环 Transformer——合成训练数据替代解释同样有效
2. 10T 参数为 D 级传闻，若不成立则专家数推算基础瓦解
3. 512-2048 专家数是设计空间中的一个候选区间，不是唯一推导
4. “多路径验证”是功能描述，功能等价性不提供因果解释
5. 计算可行性中的 ACT 平均深度、MoD 应用程度均为假设
6. 1/L 残差缩放为 ICLR workshop 论文，非主会议，待复现
7. SCHEMA 支持训练效果，不直接支持架构假说
8. 架构不公开可能只是常规商业策略
9. 路由分歧的训练诱导机制中，所有候选均无直接证据
10. Opus 4.7 若表现出同等锚点行为，则锚点的架构解释被削弱
11. 实验 1 的 latency 台阶信号可能被 API serving 噪声淹没

10. 结论

若 Mythos 采用某种测试时计算增强机制，则循环深度 Transformer + 大规模 MoE + 输入重注入是最可建模的候选架构组合。本文将其作为候选架构模型提出，附带完整的证据分级、反证条件和鉴别性实验。

V4 的核心改进：（1）证据标签逐项校准，区分”A 级官方”与”A* 自报告”；（2）主张矩阵使每个假说的推翻条件显式可见；（3）分离 Parcae 谱范数与 1/L workshop 论文两种稳定性方案；（4）假说组件分层为核心/工程条件/可选优化；（5）加入 Opus 4.7 对照讨论、路由坍缩概率分析、三种专家路径并列、实验噪声控制和功能等价性哲学限定。

本文的最终定位不是 Mythos 的架构逆向证明，而是闭源前沿模型架构逆向分析的通用方法论：证据分级、替代解释、反证条件、物理可行性、可证伪实验、概念拆解。这套方法论的价值独立于 Mythos 的具体架构是否如本文所猜。

参考文献

[1] Anthropic. “Project Glasswing: Securing critical software for the AI era.” anthropic.com/glasswing.

[2] Anthropic. “System Card: Claude Mythos Preview.” 244 pp., April 7, 2026.

[3] Gomez, K. “OpenMythos: Theoretical reconstruction of Claude Mythos architecture.” GitHub, April 2026.

[4] Aiia.ro. “Is Claude Mythos a Looped Language Model?” April 11, 2026.

[5] Millidge, B. “Thoughts on Claude Mythos.” beren.io, April 11, 2026.

[6] Prairie et al. “Parcae: Scaling Laws For Stable Looped Language Models.” arXiv:2604.12946, April 2026.

[7] “On the Residual Scaling of Looped Transformers: Stability and Transferability.” LIT Workshop @ ICLR 2026, OpenReview, March 2026.

[8] Saunshi et al. “Reasoning with Latent Thoughts.” arXiv:2502.17416, 2025.

[9] DeepSeek-AI. “DeepSeek-V3 Technical Report.” arXiv:2412.19437, December 2024.

[10] He, X.O. “Mixture of A Million Experts.” Google DeepMind, arXiv:2407.04153, 2024.

[11] Boix-Adsera & Rigollet. “The Power of Fine-Grained Experts.” MIT, arXiv:2505.06839, 2025.

[12] Alexander, S. “Deliberative Alignment, And The Spec.” Astral Codex Ten, February 2025.

[13] Anthropic. “Teaching Claude Why.” Alignment Science Blog, May 2026.

[14] Anthropic. “Claude’s Extended Thinking.” anthropic.com, February 2025.

[15] SCHEMA. “The Compliance Trap.” arXiv:2605.02398, May 2026.

[16] Anthropic. “Natural Language Autoencoders for Interpretability.” May 7, 2026.

[17] Mozilla. “Behind the Scenes Hardening Firefox with Claude Mythos Preview.” Hacks Blog, May 2026.

[18] Flavell, J.H. “Metacognition and Cognitive Monitoring.” American Psychologist, 34(10), 1979.

[19] Janiak et al. “Characterizing Stable Regions in the Residual Stream of LLMs.” arXiv:2409.17113, 2024.

[20] Yao et al. “Stabilizing MoE Reinforcement Learning.” arXiv:2510.11370, 2025.

[21] Zhang et al. “Robust Experts: Adversarial Training on Sparse MoE.” arXiv:2509.05086, 2025.

[22] Raposo et al. “Mixture-of-Depths.” arXiv:2404.02258, 2024.

[23] Fortune. “Anthropic Mythos ‘step change’ after data leak.” March 26, 2026.

[24] Anthropic. “Introducing Claude Opus 4.7.” anthropic.com/news, April 16, 2026.

[25] Anthropic. “Reasoning models don’t always say what they think.” anthropic.com, 2026.

[26] Anthropic / SpaceX. “Colossus 1 Partnership.” Code with Claude SF, May 6, 2026 (media report).

[27] Nelson & Narens. “Metamemory: A Theoretical Framework.” Psychology of Learning and Motivation, 26, 1990.