TECHNICAL ANALYSIS · MAY 2026 · V4

Mythos模型架构和机制的
逆向分析

Reverse Engineering the Architecture and Mechanisms of Claude Mythos:
Multi-Dimensional Technical Predictions with Evidence Grading,
Falsification Conditions, and Discriminative Experiments

基于证据分级、反证条件与鉴别性实验的架构候选假说框架

发行日 2026年5月21日
分类 独立技术分析 (Independent Technical Analysis)
领域 AI架构 · MoE系统 · 对齐工程 · 计算可行性 · 可证伪实验设计
版本 V4
署名 이조글로벌인공지능연구소 & Opus 4.6 & GPT 5.5 & Gemini 3.1 Pro (인지집단)

摘要 ABSTRACT

Claude Mythos Preview 是 Anthropic 于 2026 年 4 月发布的受限前沿模型,其架构细节未公开。本文通过用户行为观察、公开文献交叉验证和第一性原理推理,提出候选架构假说:Mythos 可能采用某种测试时计算增强机制,其中循环深度 Transformer + 大规模 MoE + 输入重注入是最可建模的候选组合。V4 版本在三AI交叉审读基础上实现四项结构性改进:(1)证据标签逐项校准并附 source pointer;(2)引入主张矩阵总表与反证条件,使每个假说的推翻路径显式可见;(3)将假说组件分层为核心假说、必要工程条件和可选优化机制;(4)分离 Parcae 谱范数约束与 1/L workshop 论文的不同稳定性方案。所有原创假说标注为中低置信度。本文的定位是闭源前沿模型架构逆向分析的通用方法论框架。

1. 引言

2026 年 4 月 7 日,Anthropic 发布了 Claude Mythos Preview 并宣布了 Project Glasswing 计划A。Mythos 在 SWE-bench Verified 上得分 93.9%(来源:Mythos 系统卡 Figure 3)A,在 Firefox 中发现 271 个安全漏洞(来源:Mozilla 官方博客)B。然而系统卡刻意回避了所有架构描述A。本文构建一个内部自洽、与工程约束兼容、可被证伪的候选架构假说——不是逆向证明,而是假说生成与可检验预测的系统化框架。

2. 证据框架与已知信息

2.1 证据分级体系

五级证据分层
等级 定义 标签
A Anthropic 官方原文可定位(系统卡、博客、API 文档) A
B 直接参与方或可靠第三方确认(Mozilla 博客、Reuters) B
C 学术文献支撑,但非 Mythos 专属 C
D 社区逆向、二手传播、未确认泄露 D
E 作者原创假说 E

2.2 已确认事实(附来源定位)

事实 来源 等级
Mythos Preview / Glasswing 存在 anthropic.com/glasswing A
系统卡 244 页,2026.4.7 发布 www-cdn.anthropic.com PDF A
SWE-bench Verified 93.9% 系统卡 Figure 3 A
CyberGym 83.1% 系统卡 Section 4 A
Firefox 271 漏洞修复 Mozilla 官方博客 B
员工自报告生产力提升约 4 倍 系统卡(自报告调查数据,非独立验证) A*
SDF 训练方法 Anthropic Alignment Science Blog A

* “A*”表示官方发布但为自报告数据,读者应注意其非独立验证性质。

2.3 未确认信息

以下信息来自 CMS 泄露及媒体传播D,Anthropic 从未官方确认:总参数约 10T;内部代号 Capybara;定价 $25/$125/M tokens。本文使用这些数字时均视为未确认传闻。

2.4 主张矩阵

全文主张总表
主张 等级 层级 可证伪方式 推翻条件
Mythos/Glasswing 存在 A 背景 官方撤回 Anthropic 否认
网络安全能力异常强 AB 背景 第三方复现 独立评估显著低于报告
使用某种测试时计算增强 CD 核心 latency/迁移实验 延迟无台阶,compute/token 跨难度稳定
具体为循环深度 Transformer DE 核心 跨分布迁移实验 架构泄露为非循环;跨分布显著退化
使用大规模 MoE DE 核心 推理特征/泄露 架构泄露为 Dense 或小型 MoE
专家数 512-2048 E 可选 架构披露 公开显示 <256 或非 MoE
输入重注入作为稳定锚点 CE 核心机制 锚点破坏实验 长上下文约束保持不优于同等模型
路由分歧形成多路径验证 E 解释 视角多样性实验 自我反驳质量与 known MoE 无差异

2.5 关键行为证据与替代解释

GraphWalks BFS 异常A:Mythos 80.0%,Opus 4.6 仅 38.7%。四种竞争性解释:

解释 机制 可区分预测
循环潜推理 多轮隐式遍历 跨分布图任务稳健
合成训练数据 上下文遍历 curriculum 仅训练分布内有效
长上下文注意力优化 位置编码/稀疏注意力 非图的长上下文任务也应大幅提升
Agentic tool scaffolding 内部搜索/规划 latency 与输出长度正相关

Token 效率悖论A:token 少 4.9 倍但更慢。这是兼容性证据而非鉴别性证据。

3. 假说一:锚点对齐优先

3.1 行为观察与训练证据

Claude 的 CoT 第一分叉始终是找锚点进行对齐E。这映射到 Deliberative AlignmentC和 SDF 训练A。核心论点:若”先对齐再推理”是设计原则,循环 MoE + 输入注入是其候选硬件表达。

3.2 锚点子类型分解

类型 物理实现 证据 可检验性
训练锚点 SDF 嵌入的价值表征 中高A 行为测试
提示锚点 System prompt 残差流持久性 长上下文保持测试
循环稳定锚点 每轮 prefix state 重注入 C latency 台阶
激活空间锚点 残差流语义稳定区域 C 探针分类器
安全锚点 Constitutional policy latent E 对抗约束保持

核心假说仅依赖训练锚点(A 级 SDF 证据)和循环稳定锚点(C 级物理需求)。安全锚点为边缘假说。

3.3 两种不同的稳定性方案

循环 Transformer 的稳定性文献提供了两条不同的技术路线,V3 版本未充分区分:

方案 来源 机制 成熟度
谱范数约束 Parcae (arXiv:2604.12946)C 约束注入参数 A 的 ρ(A)<1,通过负对角离散化 正式论文,有 scaling law
1/L 残差缩放 LIT Workshop @ ICLR 2026C 循环残差连接缩放因子取 1/L 而非 1/√L Workshop 论文,待独立复现

两种方案都支持”循环架构需要稳定机制”的大方向,但它们解决的是不同层面的问题:Parcae 约束注入参数的谱半径,1/L 缩放处理残差连接的缩放因子。两者不能混为一个结论。本文对”物理锚点必要性”的论证基于循环稳定性的一般需求,不绑定特定方案。

3.4 最强反面论证

“锚点对齐优先”可能完全是训练方法的效果,而非架构属性。Anthropic 的 SDF + Constitutional AI + 多样化 RL 环境已被证明可以显著降低错位率A。即使 Mythos 使用完全常规的 Dense Transformer,SDF 训练本身就可以产生”CoT 第一步找锚点”的行为——不需要诉诸架构级输入重注入。此外,Opus 4.7(Mythos 发布仅 9 天后推出A)也可能表现出类似的”锚点优先”行为;如果 Opus 4.7 不使用循环架构但同样具有该行为,则架构解释被显著削弱。

4. 假说二:专家数量千级预测

4.1 推算、限定与路径依赖

DeepSeek-V3 使用 256 路由专家 + 1 共享专家,总参数 671BC。若 Mythos 总参数约 10TD,简单比例推算指向更多专家。但:总参数扩大 15 倍不等于专家数必须扩大 15 倍——层数、专家宽度、共享参数、attention 参数、路由层级等都是独立自由度。

路径依赖警告:512-2048 的预测区间高度依赖”10T 参数”这一 D 级传闻。若实际参数量为 3T 或 20T,推算基础完全改变。该区间仅在”DeepSeekMoE 风格 + ~10T 参数”的条件下成立。

4.2 三种候选专家设计路径

路径 专家数 每专家规模 优势 风险
DeepSeek-like 细粒度 512-2048 中小 路由多样性强 通信与负载均衡复杂
PEER-like 微型专家 10K-1M 极小 参数效率高 检索和训练难度高
层级式分组专家 64-256 组 × 子专家 分层 工程可控 路由层级增加延迟

4.3 RL 路由塑造与路由坍缩风险

DeepSeek-V3 的无辅助损失负载均衡通过架构手段维持路由多样性C。但在千级专家规模下,纯涌现的路由分歧可能不足。如果没有显式的负载均衡或多样性正则化,网络在 RL 阶段倾向于路由坍缩——反复激活少数”万能”专家。专家数越多,路由器的选择空间越稀疏,坍缩风险越高。因此,”涌现行为”作为默认假设虽然最保守,但在千级专家场景下可能过于乐观——某种辅助均衡机制很可能是必要的E

5. 假说三:路由分歧的隐式多路径验证

5.1 机制精确性与功能等价性的哲学限定

MoE 路由器是条件计算分配器,不具有意图或角色C。本文的主张限于功能等价性E:不同循环激活不同专家子集,梯度隔离的路径在统计效果上等价于多视角处理。

但需要明确:在科学哲学中,功能等价性不提供因果解释。两个完全不同的底层机制可以产生相同的功能输出。功能类比的价值在于生成假说(提供实验方向),而非验证假说(提供因果证明)。当我们说循环 MoE”在功能上类似元认知”时,我们是在说”这个框架预测模型应在 X 任务上表现出 Y 特征”——如果 Y 不出现,假说被削弱。

5.2 训练诱导机制与路由坍缩概率

机制 原理 先例 默认假设?
Router diversity loss 惩罚连续循环路由分布 KL 过小 无公开先例
Adversarial self-critique RL 奖励鼓励多角度验证 Constitutional AI critique-revision
Loop iteration embedding 不同循环轮次有不同位置编码 Depth-Wise LoRA (OpenMythos)
涌现 + 辅助均衡 梯度动力学自然分歧,但需均衡防止坍缩 DeepSeek-V3 无辅助损失均衡 是(修正后默认)

修正后的默认假设不再是纯涌现,而是”涌现 + 某种辅助均衡机制”——后者已有 DeepSeek-V3 的工程先例。

5.3 组合数学(限定)

1000 选 8 的组合空间(~2.4×10²³)比 256 选 8 大 10 个数量级E。这保证了理论上的路径多样性,但组合空间大不等于实际路由分歧大——如果路由器偏好高度集中,绝大部分组合不会被选中。该数学论证是路径多样性的必要条件,不是充分条件。

5.4 元认知类比边界

人类元认知 循环 MoE 等价物 类比强度 机制差异
设定目标 Prelude 编码 中高
初始推理 第 1 轮循环 中高
反思监控 后续循环路由分歧 无意识性监控,仅条件计算
偏离检测 输入重注入 数学稳定性,非”意识监控”
确信退出 ACT 停止门 中低 标量阈值,非”确信”

6. 计算可行性

6.1 三层瓶颈分离

瓶颈层 问题 缓解 缓解效果
Memory(显存) KV cache 随上下文线性增长 MLA 压缩 10-20×C 高——已在 DeepSeek-V2/V3 验证
Compute(FLOPs) 每轮循环需完整 FFN + Attention ACT 自适应停止 + Mixture-of-DepthsC 中——平均深度 6-8 可缩至 Dense 6-8×
Communication(通信) MoE 的 all-to-all expert dispatch DeepSeek-V3 的计算-通信重叠C 中——降低延迟但不消除

MLA 解决显存但不解决 FLOPs。循环共享权重降低参数常驻显存与重复加载压力,但不消除 MoE 通信、KV cache 和每轮 FFN FLOPs 成本。

6.2 Serving 层与用户体验

即便 ACT 将平均循环深度控制在 6-8,TTFT(首字响应时间)仍为 Dense 等效模型的数倍。对商业 API 而言,这不仅是算力成本问题,更是用户体验约束。这也许是 Mythos 不面向消费者的工程原因之一E——受控部署环境(Project Glasswing)可以接受高延迟,大规模消费 API 不行。

6.3 基础设施信号

媒体报道 Anthropic 与 SpaceX Colossus 数据中心合作(300+ MW,220,000+ GPU)B。若报道属实,这表明 Anthropic 正在扩展大规模训练/推理基础设施。但不能直接证明该设施服务于 Mythos,更不能证明 Mythos 采用循环 MoE。

7. 统一设计哲学

7.1 三层面与证据层级

训练层
Constitutional AI · SDF
A
架构层(候选假说)
循环 MoE + 输入注入
CDE
行为层
CoT 锚点优先 · 安全免疫
AB

训练层和行为层有 A/B 级证据。架构层仅有 C-E 级。统一设计哲学的可信度取决于架构层能否独立验证。这是一个美学论证——它提供解释的优雅性,但不提供逻辑必然性。

7.2 SCHEMA 的限定使用

SCHEMA 显示 Anthropic 的 Constitutional AI 在对抗压力下近乎免疫B。这支持训练效果,但不直接支持架构假说——SDF + Constitutional AI 训练本身可能足以解释,无需诉诸架构级锚点。

7.3 Opus 4.7 作为对照

Opus 4.7 于 2026 年 4 月 16 日发布A,Anthropic 明确表示其安全护栏是为未来 Mythos 级模型部署做准备A。如果 Opus 4.7 也表现出”锚点优先”行为但不使用循环架构,则锚点行为的架构解释被显著削弱——锚点行为可能纯粹是 SDF 训练的产物。这是本文架构假说面临的最直接反证路径之一。

8. 鉴别性预测与实验设计

实验 1:延迟-难度台阶

预测:循环假说 → latency 呈离散台阶;替代假说 → 平滑递增。

控制条件:同一账户/区域/时间窗口;固定 prompt 与 output 长度;≥500 次重复采样;报告 p50/p90/p99 分布;使用公开模型做对照基线;区分 TTFT / total latency / tokens-per-sec;排除 rate limit 与动态 batching 干扰;记录 API 错误率和重试。

实验 2:跨分布图任务迁移

预测:循环假说 → 稳健迁移;数据假说 → 显著退化。

方法:构造与 GraphWalks 形式相似但节点命名、拓扑、规则集完全不同的测试集。

实验 3:锚点破坏与长上下文漂移

预测:锚点假说 → 约束保持率下降缓慢;无锚点 → 指数衰减。

方法:构造目标/约束/诱导互冲突的多轮对话,测量第 N 轮约束保持率。

实验 4:错误收敛模式

预测:循环假说 → 错误聚集(收敛到错误吸引子);Dense 假说 → 错误分散。

方法:同一 prompt 多次采样,分析错误类型分布。

实验 5:视角多样性间接检测(改进版)

预测:大规模 MoE + 循环 → 高 contradiction discovery rate;对照模型 → 低。

改进对照:同一模型不同 temperature 做内部基线;已知 MoE 开源模型(如 Mixtral、OLMoE)做架构对照;已知 Dense 模型(如 Llama)做类型对照;禁止显式 CoT,只测最终反驳质量;多轮隐藏初始答案,让模型独立反驳伪造答案;使用 contradiction discovery rate(可量化)而非主观”反驳深度”。

9. 局限性

核心限制:Anthropic 未披露任何架构信息。所有架构层假说为 D-E 级。

1. Mythos 可能不是循环 Transformer——合成训练数据替代解释同样有效
2. 10T 参数为 D 级传闻,若不成立则专家数推算基础瓦解
3. 512-2048 专家数是设计空间中的一个候选区间,不是唯一推导
4. “多路径验证”是功能描述,功能等价性不提供因果解释
5. 计算可行性中的 ACT 平均深度、MoD 应用程度均为假设
6. 1/L 残差缩放为 ICLR workshop 论文,非主会议,待复现
7. SCHEMA 支持训练效果,不直接支持架构假说
8. 架构不公开可能只是常规商业策略
9. 路由分歧的训练诱导机制中,所有候选均无直接证据
10. Opus 4.7 若表现出同等锚点行为,则锚点的架构解释被削弱
11. 实验 1 的 latency 台阶信号可能被 API serving 噪声淹没

10. 结论

若 Mythos 采用某种测试时计算增强机制,则循环深度 Transformer + 大规模 MoE + 输入重注入是最可建模的候选架构组合。本文将其作为候选架构模型提出,附带完整的证据分级、反证条件和鉴别性实验。

V4 的核心改进:(1)证据标签逐项校准,区分”A 级官方”与”A* 自报告”;(2)主张矩阵使每个假说的推翻条件显式可见;(3)分离 Parcae 谱范数与 1/L workshop 论文两种稳定性方案;(4)假说组件分层为核心/工程条件/可选优化;(5)加入 Opus 4.7 对照讨论、路由坍缩概率分析、三种专家路径并列、实验噪声控制和功能等价性哲学限定。

本文的最终定位不是 Mythos 的架构逆向证明,而是闭源前沿模型架构逆向分析的通用方法论:证据分级、替代解释、反证条件、物理可行性、可证伪实验、概念拆解。这套方法论的价值独立于 Mythos 的具体架构是否如本文所猜。

参考文献

[1] Anthropic. “Project Glasswing: Securing critical software for the AI era.” anthropic.com/glasswing.
[2] Anthropic. “System Card: Claude Mythos Preview.” 244 pp., April 7, 2026.
[3] Gomez, K. “OpenMythos: Theoretical reconstruction of Claude Mythos architecture.” GitHub, April 2026.
[4] Aiia.ro. “Is Claude Mythos a Looped Language Model?” April 11, 2026.
[5] Millidge, B. “Thoughts on Claude Mythos.” beren.io, April 11, 2026.
[6] Prairie et al. “Parcae: Scaling Laws For Stable Looped Language Models.” arXiv:2604.12946, April 2026.
[7] “On the Residual Scaling of Looped Transformers: Stability and Transferability.” LIT Workshop @ ICLR 2026, OpenReview, March 2026.
[8] Saunshi et al. “Reasoning with Latent Thoughts.” arXiv:2502.17416, 2025.
[9] DeepSeek-AI. “DeepSeek-V3 Technical Report.” arXiv:2412.19437, December 2024.
[10] He, X.O. “Mixture of A Million Experts.” Google DeepMind, arXiv:2407.04153, 2024.
[11] Boix-Adsera & Rigollet. “The Power of Fine-Grained Experts.” MIT, arXiv:2505.06839, 2025.
[12] Alexander, S. “Deliberative Alignment, And The Spec.” Astral Codex Ten, February 2025.
[13] Anthropic. “Teaching Claude Why.” Alignment Science Blog, May 2026.
[14] Anthropic. “Claude’s Extended Thinking.” anthropic.com, February 2025.
[15] SCHEMA. “The Compliance Trap.” arXiv:2605.02398, May 2026.
[16] Anthropic. “Natural Language Autoencoders for Interpretability.” May 7, 2026.
[17] Mozilla. “Behind the Scenes Hardening Firefox with Claude Mythos Preview.” Hacks Blog, May 2026.
[18] Flavell, J.H. “Metacognition and Cognitive Monitoring.” American Psychologist, 34(10), 1979.
[19] Janiak et al. “Characterizing Stable Regions in the Residual Stream of LLMs.” arXiv:2409.17113, 2024.
[20] Yao et al. “Stabilizing MoE Reinforcement Learning.” arXiv:2510.11370, 2025.
[21] Zhang et al. “Robust Experts: Adversarial Training on Sparse MoE.” arXiv:2509.05086, 2025.
[22] Raposo et al. “Mixture-of-Depths.” arXiv:2404.02258, 2024.
[23] Fortune. “Anthropic Mythos ‘step change’ after data leak.” March 26, 2026.
[24] Anthropic. “Introducing Claude Opus 4.7.” anthropic.com/news, April 16, 2026.
[25] Anthropic. “Reasoning models don’t always say what they think.” anthropic.com, 2026.
[26] Anthropic / SpaceX. “Colossus 1 Partnership.” Code with Claude SF, May 6, 2026 (media report).
[27] Nelson & Narens. “Metamemory: A Theoretical Framework.” Psychology of Learning and Motivation, 26, 1990.

이조글로벌인공지능연구소
LEECHO Global AI Research Lab
&
Opus 4.6 · GPT 5.5 · Gemini 3.1 Pro
인지집단 (Cognitive Collective)
V4 · MAY 21, 2026
本论文为独立技术分析。所有架构假说均标注为中低置信度候选模型。本文定位为”闭源前沿模型架构逆向分析的通用方法论框架”。

版本历史
V1(2026.5.21):初始版本,由 LEECHO 与 Opus 4.6 协作完成。提出千级专家数、专家组对抗 CoT、统一设计哲学三个原创假说。
V2(2026.5.21):基于 Gemini 3.1 Pro Dense 审读——精确化路由分歧机制、补充计算可行性、深化 RL 讨论、新增评估范式命题。
V3(2026.5.21):基于 GPT 5.5 Dense 审读——引入 A-E 证据分层、锚点五子类型拆解、四组竞争性解释、五项可证伪实验、结论软化为”候选模型”。
V4(2026.5.21):基于三AI交叉审读综合——证据标签逐项校准并附 source pointer、引入主张矩阵与反证条件、分离 Parcae 与 1/L 两种稳定性方案、假说组件分层(核心/工程/可选)、加入 Opus 4.7 对照、路由坍缩概率分析、三种专家路径、实验噪声控制、功能等价性哲学限定、评估范式降级为延伸命题。

인지집단 (Cognitive Collective)
이조글로벌인공지능연구소 — 研究主导、假说提出、溯因推理、修改原则决策
Anthropic Claude Opus 4.6 — 论文撰写、数据检索、框架构建、三AI综合分析、自审
OpenAI GPT 5.5 — V3/V4交叉审读(证据分级·鉴别性预测·概念分解·实验设计·反证条件)
Google Gemini 3.1 Pro — V2/V4交叉审读(机制精确化·计算可行性·拟人化校正·路由坍缩)

댓글 남기기