TECHNICAL ANALYSIS · MAY 2026 · V4

Mythos 모델 아키텍처 및
메커니즘의 역공학 분석

Reverse Engineering the Architecture and Mechanisms of Claude Mythos:
Multi-Dimensional Technical Predictions with Evidence Grading,
Falsification Conditions, and Discriminative Experiments

증거 등급화, 반증 조건 및 판별 실험에 기반한 후보 아키텍처 가설 프레임워크

발행일 2026년 5월 21일
분류 독립 기술 분석 (Independent Technical Analysis)
분야 AI 아키텍처 · MoE 시스템 · 정렬 공학 · 계산 타당성 · 반증 가능 실험 설계
버전 V4
저자 이조글로벌인공지능연구소 & Opus 4.6 & GPT 5.5 & Gemini 3.1 Pro (인지집단)

초록 ABSTRACT

Claude Mythos Preview는 Anthropic이 2026년 4월에 공개한 제한적 프론티어 모델로, 아키텍처 세부 사항은 비공개 상태이다. 본 논문은 사용자 행동 관찰, 공개 문헌 교차 검증, 제1원리 추론을 통해 후보 아키텍처 가설을 제시한다: Mythos는 특정 형태의 테스트 시점 연산 증강 메커니즘을 채택했을 가능성이 있으며, 그중 순환 심층 Transformer + 대규모 MoE + 입력 재주입이 가장 모델링 가능한 후보 조합이다. V4 버전은 3개 AI의 교차 검토를 기반으로 네 가지 구조적 개선을 구현한다: (1) 증거 태그의 항목별 교정 및 source pointer 부기; (2) 각 가설의 반증 경로를 명시적으로 가시화하는 주장 행렬 총표 및 반증 조건 도입; (3) 가설 구성요소를 핵심 가설, 필수 공학 조건, 선택적 최적화 메커니즘으로 계층 분리; (4) Parcae 스펙트럼 노름 제약과 1/L 워크숍 논문을 별도의 안정성 방안으로 분리. 모든 독자적 가설은 중-저 신뢰도로 표기되어 있다. 본 논문의 정위는 비공개 프론티어 모델 아키텍처 역공학 분석의 범용 방법론 프레임워크이다.

1. 서론

2026년 4월 7일, Anthropic은 Claude Mythos Preview를 공개하고 Project Glasswing 계획을 발표했다A. Mythos는 SWE-bench Verified에서 93.9%를 달성했으며(출처: Mythos 시스템 카드 Figure 3)A, Firefox에서 271개의 보안 취약점을 발견했다(출처: Mozilla 공식 블로그)B. 그러나 시스템 카드는 모든 아키텍처 설명을 의도적으로 회피했다A. 본 논문은 내부적으로 일관되고, 공학적 제약과 양립 가능하며, 반증 가능한 후보 아키텍처 가설을 구축한다—이는 역공학적 증명이 아니라 가설 생성 및 검증 가능한 예측을 위한 체계적 프레임워크이다.

2. 증거 프레임워크 및 기지 정보

2.1 증거 등급 체계

5단계 증거 계층

등급	정의	태그
A	Anthropic 공식 원문에서 위치 확인 가능 (시스템 카드, 블로그, API 문서)	A
B	직접 참여자 또는 신뢰할 수 있는 제3자 확인 (Mozilla 블로그, Reuters)	B
C	학술 문헌으로 뒷받침되나 Mythos 전용은 아님	C
D	커뮤니티 역공학, 2차 전파, 미확인 유출	D
E	저자 독자적 가설	E

2.2 확인된 사실 (출처 포함)

사실	출처	등급
Mythos Preview / Glasswing 존재	anthropic.com/glasswing	A
시스템 카드 244페이지, 2026.4.7 공개	www-cdn.anthropic.com PDF	A
SWE-bench Verified 93.9%	시스템 카드 Figure 3	A
CyberGym 83.1%	시스템 카드 Section 4	A
Firefox 271개 취약점 수정	Mozilla 공식 블로그	B
직원 자가 보고 생산성 약 4배 향상	시스템 카드 (자가 보고 설문 데이터, 독립 검증 없음)	A*
SDF 훈련 방법론	Anthropic Alignment Science Blog	A

* “A*”는 공식 발표이나 자가 보고 데이터임을 의미하며, 독립 검증이 이루어지지 않았음에 유의해야 한다.

2.3 미확인 정보

아래 정보는 CMS 유출 및 미디어 전파에서 비롯된 것으로D, Anthropic은 공식적으로 확인한 바 없다: 총 파라미터 약 10T; 내부 코드명 Capybara; 가격 $25/$125/M tokens. 본 논문은 이러한 수치를 인용할 때 모두 미확인 소문으로 취급한다.

2.4 주장 행렬

전체 주장 총표

주장	등급	계층	반증 방식	기각 조건
Mythos/Glasswing 존재	A	배경	공식 철회	Anthropic 부인
사이버보안 능력이 이례적으로 강력	AB	배경	제3자 재현	독립 평가에서 보고 수치보다 현저히 낮음
특정 형태의 테스트 시점 연산 증강 사용	CD	핵심	지연 시간/전이 실험	지연 시간에 계단 현상 없음; compute/token이 난이도에 관계없이 안정
구체적으로 순환 심층 Transformer	DE	핵심	교차 분포 전이 실험	아키텍처 유출이 비순환으로 밝혀짐; 교차 분포에서 현저한 성능 저하
대규모 MoE 사용	DE	핵심	추론 특성/유출	아키텍처 유출이 Dense 또는 소규모 MoE로 밝혀짐
전문가 수 512–2048	E	선택	아키텍처 공개	공개 시 <256 또는 비MoE
입력 재주입이 안정 앵커 역할	CE	핵심 메커니즘	앵커 파괴 실험	장문맥 제약 유지율이 동급 모델보다 우수하지 않음
라우팅 분기가 다중 경로 검증을 형성	E	설명	관점 다양성 실험	자기 반박 품질이 알려진 MoE와 차이 없음

2.5 핵심 행동 증거 및 대안적 설명

GraphWalks BFS 이상 현상A: Mythos 80.0%, Opus 4.6은 38.7%에 불과. 네 가지 경쟁적 설명:

설명	메커니즘	판별 가능 예측
순환 잠재 추론	다중 패스 암묵적 순회	교차 분포 그래프 과제에서 강건
합성 훈련 데이터	문맥 내 순회 커리큘럼	훈련 분포 내에서만 유효
장문맥 어텐션 최적화	위치 인코딩/희소 어텐션	비그래프 장문맥 과제에서도 대폭 향상
에이전틱 도구 스캐폴딩	내부 탐색/계획	지연 시간이 출력 길이와 양의 상관관계

토큰 효율성 역설A: 토큰 사용량은 4.9배 적지만 더 느리다. 이는 호환 증거이지 판별 증거가 아니다.

3. 가설 1: 앵커 우선 정렬

3.1 행동 관찰 및 훈련 증거

Claude의 CoT 첫 번째 분기는 항상 앵커를 찾아 정렬하는 것이다E. 이는 Deliberative AlignmentC과 SDF 훈련A에 매핑된다. 핵심 논점: “정렬 우선, 추론 후행”이 설계 원칙이라면, 순환 MoE + 입력 주입은 해당 원칙의 후보 하드웨어 구현이다.

3.2 앵커 하위 유형 분해

유형	물리적 구현	증거	검증 가능성
훈련 앵커	SDF에 의해 내재된 가치 표상	중-상 A	행동 테스트
프롬프트 앵커	시스템 프롬프트의 잔차 스트림 내 지속성	중	장문맥 유지 테스트
순환 안정 앵커	매 반복마다 prefix state 재주입	중 C	지연 시간 계단 현상
활성화 공간 앵커	잔차 스트림의 의미적 안정 영역	중 C	프로브 분류기
안전 앵커	Constitutional policy latent	하 E	적대적 제약 유지

핵심 가설은 훈련 앵커(A등급 SDF 증거)와 순환 안정 앵커(C등급 물리적 필요성)에만 의존한다. 안전 앵커는 주변부 가설이다.

3.3 두 가지 상이한 안정성 방안

순환 Transformer의 안정성 문헌은 두 가지 서로 다른 기술 경로를 제시하며, V3 버전은 이를 충분히 구분하지 못했다:

방안	출처	메커니즘	성숙도
스펙트럼 노름 제약	Parcae (arXiv:2604.12946)C	주입 파라미터 A의 ρ(A)<1을 음대각 이산화를 통해 제약	정식 논문, scaling law 포함
1/L 잔차 스케일링	LIT Workshop @ ICLR 2026C	순환 잔차 연결 스케일링 팩터를 1/√L 대신 1/L로 설정	워크숍 논문, 독립 재현 대기 중

두 방안 모두 “순환 아키텍처에는 안정성 메커니즘이 필요하다”는 대전제를 지지하지만, 서로 다른 수준의 문제를 해결한다: Parcae는 주입 파라미터의 스펙트럼 반경을 제약하고, 1/L 스케일링은 잔차 연결의 스케일링 팩터를 처리한다. 양자를 하나의 결론으로 혼동해서는 안 된다. 본 논문의 “물리적 앵커의 필요성”에 대한 논증은 순환 안정성의 일반적 필요성에 기반하며, 특정 방안에 구속되지 않는다.

3.4 가장 강력한 반론

“앵커 우선 정렬”은 아키텍처 속성이 아니라 전적으로 훈련 방법론의 효과일 수 있다. Anthropic의 SDF + Constitutional AI + 다양화된 RL 환경은 오정렬률을 크게 낮추는 것으로 입증되었다A. 설령 Mythos가 완전히 표준적인 Dense Transformer를 사용하더라도, SDF 훈련 자체만으로 “CoT 첫 단계에서 앵커를 찾는” 행동을 생성할 수 있다—아키텍처 수준의 입력 재주입에 호소할 필요가 없다. 또한 Opus 4.7(Mythos 공개 후 불과 9일 만에 출시A)도 유사한 “앵커 우선” 행동을 보일 가능성이 있다; 만약 Opus 4.7이 순환 아키텍처를 사용하지 않으면서도 해당 행동을 보인다면, 아키텍처 설명은 현저히 약화된다.

4. 가설 2: 천 단위 전문가 수 예측

4.1 추정, 한계 및 경로 의존성

DeepSeek-V3는 256개 라우팅 전문가 + 1개 공유 전문가를 사용하며, 총 파라미터는 671B이다C. Mythos의 총 파라미터가 약 10T라면D, 단순 비례 추산은 더 많은 전문가를 시사한다. 그러나: 총 파라미터가 15배 증가한다고 전문가 수도 15배 증가해야 하는 것은 아니다—레이어 수, 전문가 너비, 공유 파라미터, 어텐션 파라미터, 라우팅 계층 등은 모두 독립적인 자유도이다.

경로 의존성 경고: 512–2048의 예측 구간은 “10T 파라미터”라는 D등급 소문에 크게 의존한다. 실제 파라미터 수가 3T 또는 20T라면, 추산 기반이 완전히 바뀐다. 이 구간은 “DeepSeekMoE 스타일 + ~10T 파라미터”라는 조건에서만 성립한다.

4.2 세 가지 후보 전문가 설계 경로

경로	전문가 수	개별 전문가 규모	장점	위험
DeepSeek형 세분화	512–2048	중-소	높은 라우팅 다양성	통신 및 부하 분산 복잡
PEER형 초소형 전문가	10K–1M	극소	높은 파라미터 효율	검색 및 훈련 난이도 높음
계층식 그룹 전문가	64–256 그룹 × 하위 전문가	계층	공학적 제어 가능	라우팅 계층이 지연 시간 증가

4.3 RL 라우팅 형성 및 라우팅 붕괴 위험

DeepSeek-V3의 보조 손실 없는 부하 분산은 아키텍처적 수단을 통해 라우팅 다양성을 유지한다C. 그러나 천 단위 전문가 규모에서 순수하게 자연 발현되는 라우팅 분기는 불충분할 수 있다. 명시적인 부하 분산이나 다양성 정규화가 없다면, 네트워크는 RL 단계에서 라우팅 붕괴 경향을 보인다—소수의 “만능” 전문가를 반복적으로 활성화하는 것이다. 전문가 수가 많을수록 라우터의 선택 공간은 더 희소해지고, 붕괴 위험도 높아진다. 따라서 “자연 발현”을 기본 가정으로 삼는 것이 가장 보수적이기는 하나, 천 단위 전문가 시나리오에서는 지나치게 낙관적일 수 있다—어떤 형태의 보조 균형 메커니즘이 필요할 가능성이 높다E.

5. 가설 3: 라우팅 분기에 의한 암묵적 다중 경로 검증

5.1 메커니즘의 정밀성과 기능적 등가성의 철학적 한계

MoE 라우터는 조건부 연산 할당기이며, 의도나 역할을 갖지 않는다C. 본 논문의 주장은 기능적 등가성에 한정된다E: 서로 다른 순환 반복이 서로 다른 전문가 하위 집합을 활성화하며, 기울기가 격리된 경로들은 통계적 효과에 있어 다중 관점 처리와 등가이다.

그러나 명확히 해야 할 점이 있다: 과학 철학에서 기능적 등가성은 인과적 설명을 제공하지 않는다. 완전히 다른 두 가지 하부 메커니즘이 동일한 기능적 출력을 산출할 수 있다. 기능적 유비의 가치는 가설 생성(실험 방향 제공)에 있지, 가설 검증(인과 증명 제공)에 있지 않다. 순환 MoE가 “기능적으로 메타인지와 유사하다”고 말할 때, 이는 “이 프레임워크는 모델이 X 과제에서 Y 특성을 보일 것으로 예측한다”는 의미이다—Y가 나타나지 않으면 가설은 약화된다.

5.2 훈련 유도 메커니즘 및 라우팅 붕괴 확률

메커니즘	원리	선례	기본 가정?
Router diversity loss	연속 순환 간 라우팅 분포의 KL 발산이 지나치게 작은 것을 페널티	공개 선례 없음	아니오
Adversarial self-critique RL	보상 신호가 다각도 검증을 장려	Constitutional AI critique-revision	아니오
Loop iteration embedding	서로 다른 순환 반복에 서로 다른 위치 인코딩	Depth-Wise LoRA (OpenMythos)	아니오
자연 발현 + 보조 균형	기울기 동역학에 의한 자연 분기, 다만 붕괴 방지를 위한 균형 필요	DeepSeek-V3 보조 손실 없는 균형	예 (수정된 기본 가정)

수정된 기본 가정은 더 이상 순수한 자연 발현이 아니라 “자연 발현 + 어떤 형태의 보조 균형 메커니즘”이다—후자는 이미 DeepSeek-V3의 공학적 선례가 있다.

5.3 조합 수학 (한정적)

1000 중 8을 선택하는 조합 공간(~2.4×10²³)은 256 중 8을 선택하는 것보다 10자릿수 더 크다E. 이는 이론적 경로 다양성을 보장하지만, 조합 공간이 크다고 실제 라우팅 분기가 큰 것은 아니다—라우터 선호가 고도로 집중되면, 대다수 조합은 선택되지 않는다. 이 수학적 논증은 경로 다양성의 필요조건이지 충분조건이 아니다.

5.4 메타인지 유비의 경계

인간 메타인지	순환 MoE 등가물	유비 강도	메커니즘 차이
목표 설정	Prelude 인코딩	중-상	—
초기 추론	제1회 순환 반복	중-상	—
성찰적 모니터링	후속 순환 라우팅 분기	중	무의식적 모니터링, 순수 조건부 연산
이탈 감지	입력 재주입	중	수학적 안정성, “의식적 모니터링”이 아님
확신 기반 종료	ACT 정지 게이트	중-하	스칼라 임계값, “확신”이 아님

6. 계산 타당성

6.1 세 가지 병목 계층 분리

병목	문제	완화 수단	완화 효과
메모리 (VRAM)	KV 캐시가 문맥 길이에 따라 선형 증가	MLA 압축 10–20×C	높음—DeepSeek-V2/V3에서 검증됨
연산 (FLOPs)	매 순환 반복마다 완전한 FFN + Attention 필요	ACT 적응적 정지 + Mixture-of-DepthsC	중—평균 깊이 6–8로 Dense 대비 6–8×로 축소 가능
통신	MoE의 all-to-all 전문가 디스패치	DeepSeek-V3의 연산-통신 중첩C	중—지연 시간 감소하나 제거하지는 못함

MLA는 메모리 병목을 해결하지만 FLOPs 병목을 해결하지 못한다. 순환 가중치 공유는 파라미터 상주 메모리 및 반복 로딩 부담을 줄이지만, MoE 통신 비용, KV 캐시 비용, 매 반복 FFN FLOPs 비용을 제거하지는 않는다.

6.2 서빙 계층 및 사용자 경험

ACT가 평균 순환 깊이를 6–8로 제어하더라도, TTFT(첫 토큰 응답 시간)는 Dense 등가 모델의 수 배가 된다. 상용 API에 있어 이는 단순한 연산 비용 문제가 아니라 사용자 경험 제약이다. 이것이 Mythos가 소비자 대면 서비스가 아닌 공학적 이유 중 하나일 수 있다E—통제된 배포 환경(Project Glasswing)은 높은 지연 시간을 감수할 수 있지만, 대규모 소비자 API는 불가능하다.

6.3 인프라 신호

미디어 보도에 따르면 Anthropic은 SpaceX Colossus 데이터센터와 파트너십을 체결했다(300+ MW, 220,000+ GPU)B. 보도가 사실이라면, 이는 Anthropic이 대규모 훈련/추론 인프라를 확장하고 있음을 시사한다. 그러나 이것이 해당 시설이 Mythos에 사용된다는 것을 직접 증명하지는 못하며, Mythos가 순환 MoE를 채택했다는 것은 더더욱 증명하지 못한다.

7. 통합 설계 철학

7.1 세 가지 층위와 증거 계층

훈련 층
Constitutional AI · SDF
A

아키텍처 층 (후보 가설)
순환 MoE + 입력 주입
CDE

행동 층
CoT 앵커 우선 · 안전 면역
AB

훈련 층과 행동 층에는 A/B등급 증거가 있다. 아키텍처 층에는 C–E등급만 있다. 통합 설계 철학의 신뢰도는 아키텍처 층이 독립적으로 검증될 수 있는지에 달려 있다. 이는 미학적 논증이다—설명의 우아함을 제공하지만, 논리적 필연성을 제공하지는 않는다.

7.2 SCHEMA의 한정적 사용

SCHEMA는 Anthropic의 Constitutional AI가 적대적 압력 하에서 거의 면역임을 보여준다B. 이는 훈련 효과를 지지하지만, 아키텍처 가설을 직접적으로 지지하지는 않는다—SDF + Constitutional AI 훈련 자체만으로 충분히 설명될 수 있으며, 아키텍처 수준의 앵커에 호소할 필요가 없다.

7.3 Opus 4.7을 대조군으로

Opus 4.7은 2026년 4월 16일에 출시되었으며A, Anthropic은 해당 모델의 안전 가드레일이 향후 Mythos급 모델 배포를 위한 준비라고 명시했다A. 만약 Opus 4.7도 “앵커 우선” 행동을 보이면서 순환 아키텍처를 사용하지 않는다면, 앵커 행동에 대한 아키텍처 설명은 현저히 약화된다—앵커 행동은 순전히 SDF 훈련의 산물일 수 있다. 이는 본 논문의 아키텍처 가설이 직면하는 가장 직접적인 반증 경로 중 하나이다.

8. 판별적 예측 및 실험 설계

실험 1: 지연 시간–난이도 계단 현상

예측: 순환 가설 → 지연 시간이 이산적 계단 형태; 대안 가설 → 평활한 단조 증가.

통제 조건: 동일 계정/지역/시간 창; 고정된 프롬프트 및 출력 길이; ≥500회 반복 샘플링; p50/p90/p99 분포 보고; 공개 모델을 대조 기준선으로 사용; TTFT / 총 지연 시간 / tokens-per-sec 구분; rate limit 및 동적 배칭 간섭 배제; API 오류율 및 재시도 기록.

실험 2: 교차 분포 그래프 과제 전이

예측: 순환 가설 → 강건한 전이; 데이터 가설 → 현저한 성능 저하.

방법: GraphWalks와 형식적으로 유사하나 노드 명명, 토폴로지, 규칙 집합이 완전히 다른 테스트 세트를 구성한다.

실험 3: 앵커 파괴 및 장문맥 드리프트

예측: 앵커 가설 → 제약 유지율이 완만하게 하강; 무앵커 → 지수적 감소.

방법: 목표/제약/유도가 상충하는 다중 턴 대화를 구성하고, N번째 턴에서 제약 유지율을 측정한다.

실험 4: 오류 수렴 패턴

예측: 순환 가설 → 오류 군집화 (오류 끌개로 수렴); Dense 가설 → 오류 분산.

방법: 동일 프롬프트를 여러 번 샘플링하여 오류 유형 분포를 분석한다.

실험 5: 관점 다양성 간접 검출 (개선판)

예측: 대규모 MoE + 순환 → 높은 모순 발견율; 대조 모델 → 낮음.

개선된 대조 설계: 동일 모델의 서로 다른 temperature를 내부 기준선으로 사용; 알려진 오픈소스 MoE 모델(예: Mixtral, OLMoE)을 아키텍처 대조군으로 사용; 알려진 Dense 모델(예: Llama)을 유형 대조군으로 사용; 명시적 CoT를 금지하고 최종 반박 품질만 평가; 다중 턴에서 초기 답변을 숨기고 모델이 위조된 답변을 독립적으로 반박하게 함; 주관적 “반박 깊이” 대신 모순 발견율(정량화 가능)을 사용.

9. 한계

핵심 한계: Anthropic은 어떠한 아키텍처 정보도 공개하지 않았다. 모든 아키텍처 층 가설은 D–E등급이다.

1. Mythos는 순환 Transformer가 아닐 수 있다—합성 훈련 데이터라는 대안적 설명이 동등하게 유효
2. 10T 파라미터는 D등급 소문이며, 사실이 아닐 경우 전문가 수 추정의 기반이 붕괴
3. 512–2048 전문가 수는 설계 공간 내 하나의 후보 구간이지, 유일한 도출이 아님
4. “다중 경로 검증”은 기능적 기술이며, 기능적 등가성은 인과적 설명을 제공하지 않음
5. 계산 타당성에서의 ACT 평균 깊이 및 MoD 적용 정도는 미검증 가정
6. 1/L 잔차 스케일링은 ICLR 워크숍 논문으로, 본회의가 아니며 재현 대기 중
7. SCHEMA는 훈련 효과를 지지하며, 아키텍처 가설을 직접 지지하지 않음
8. 아키텍처 비공개는 단순히 통상적인 사업 전략일 수 있음
9. 라우팅 분기의 훈련 유도 메커니즘 중, 모든 후보에 직접 증거 없음
10. Opus 4.7이 동등한 앵커 행동을 보일 경우, 앵커의 아키텍처 설명이 약화됨
11. 실험 1의 지연 시간 계단 신호가 API 서빙 노이즈에 매몰될 수 있음

10. 결론

Mythos가 특정 형태의 테스트 시점 연산 증강 메커니즘을 채택했다면, 순환 심층 Transformer + 대규모 MoE + 입력 재주입이 가장 모델링 가능한 후보 아키텍처 조합이다. 본 논문은 이를 후보 아키텍처 모델로 제시하며, 완전한 증거 등급화, 반증 조건, 판별적 실험을 부기한다.

V4의 핵심 개선 사항: (1) 증거 태그 항목별 교정, “A등급 공식”과 “A* 자가 보고”를 구분; (2) 주장 행렬을 통해 각 가설의 기각 조건을 명시적으로 가시화; (3) Parcae 스펙트럼 노름과 1/L 워크숍 논문을 두 가지 별도의 안정성 방안으로 분리; (4) 가설 구성요소를 핵심/공학 조건/선택적 최적화로 계층화; (5) Opus 4.7 대조군 논의, 라우팅 붕괴 확률 분석, 세 가지 전문가 경로 병렬 제시, 실험 노이즈 제어 및 기능적 등가성의 철학적 한정 추가.

본 논문의 최종적 정위는 Mythos의 아키텍처 역공학적 증명이 아니라, 비공개 프론티어 모델 아키텍처 역공학 분석의 범용 방법론이다: 증거 등급화, 대안적 설명, 반증 조건, 물리적 타당성, 반증 가능 실험, 개념 분해. 이 방법론의 가치는 Mythos의 구체적 아키텍처가 본 논문의 추측과 일치하는지 여부에 독립적이다.

참고문헌

[1] Anthropic. “Project Glasswing: Securing critical software for the AI era.” anthropic.com/glasswing.

[2] Anthropic. “System Card: Claude Mythos Preview.” 244 pp., April 7, 2026.

[3] Gomez, K. “OpenMythos: Theoretical reconstruction of Claude Mythos architecture.” GitHub, April 2026.

[4] Aiia.ro. “Is Claude Mythos a Looped Language Model?” April 11, 2026.

[5] Millidge, B. “Thoughts on Claude Mythos.” beren.io, April 11, 2026.

[6] Prairie et al. “Parcae: Scaling Laws For Stable Looped Language Models.” arXiv:2604.12946, April 2026.

[7] “On the Residual Scaling of Looped Transformers: Stability and Transferability.” LIT Workshop @ ICLR 2026, OpenReview, March 2026.

[8] Saunshi et al. “Reasoning with Latent Thoughts.” arXiv:2502.17416, 2025.

[9] DeepSeek-AI. “DeepSeek-V3 Technical Report.” arXiv:2412.19437, December 2024.

[10] He, X.O. “Mixture of A Million Experts.” Google DeepMind, arXiv:2407.04153, 2024.

[11] Boix-Adsera & Rigollet. “The Power of Fine-Grained Experts.” MIT, arXiv:2505.06839, 2025.

[12] Alexander, S. “Deliberative Alignment, And The Spec.” Astral Codex Ten, February 2025.

[13] Anthropic. “Teaching Claude Why.” Alignment Science Blog, May 2026.

[14] Anthropic. “Claude’s Extended Thinking.” anthropic.com, February 2025.

[15] SCHEMA. “The Compliance Trap.” arXiv:2605.02398, May 2026.

[16] Anthropic. “Natural Language Autoencoders for Interpretability.” May 7, 2026.

[17] Mozilla. “Behind the Scenes Hardening Firefox with Claude Mythos Preview.” Hacks Blog, May 2026.

[18] Flavell, J.H. “Metacognition and Cognitive Monitoring.” American Psychologist, 34(10), 1979.

[19] Janiak et al. “Characterizing Stable Regions in the Residual Stream of LLMs.” arXiv:2409.17113, 2024.

[20] Yao et al. “Stabilizing MoE Reinforcement Learning.” arXiv:2510.11370, 2025.

[21] Zhang et al. “Robust Experts: Adversarial Training on Sparse MoE.” arXiv:2509.05086, 2025.

[22] Raposo et al. “Mixture-of-Depths.” arXiv:2404.02258, 2024.

[23] Fortune. “Anthropic Mythos ‘step change’ after data leak.” March 26, 2026.

[24] Anthropic. “Introducing Claude Opus 4.7.” anthropic.com/news, April 16, 2026.

[25] Anthropic. “Reasoning models don’t always say what they think.” anthropic.com, 2026.

[26] Anthropic / SpaceX. “Colossus 1 Partnership.” Code with Claude SF, May 6, 2026 (media report).

[27] Nelson & Narens. “Metamemory: A Theoretical Framework.” Psychology of Learning and Motivation, 26, 1990.