2026년 4월 7일, Anthropic은 Claude Mythos Preview를 발표했다. 이 모델은 약 7,000개의 오픈소스 코드 진입점에 대한 테스트에서 수천 개의 제로데이 취약점을 발견했으며, 그중 일부는 10~20년간 잠복해 있었다. 본 논문은 Mythos의 구체적 기술 역량을 분석하는 것이 아니라, 이러한 제로데이 취약점의 역사적 형성 메커니즘에 대한 소급 원인 분석(溯因分析, abductive analysis)을 수행한다. 우리의 주장은 다음과 같다: 제로데이 취약점의 근본 원인은 코딩 오류가 아니라, 1세대 아키텍처 설계자가 당시의 물리적 제약 하에서 내린 합리적 타협이 교과서를 통해 “정답 경로”로 전승되고, 후속 개발자들에 의해 의문 불가한 전제로 고착되어, 지속적으로 진화하는 하드웨어 현실과 창발적 비호환성을 일으킨 것이다. Mythos가 이러한 취약점을 발견할 수 있었던 것은 “더 똑똑해서”가 아니라, 고차원 벡터 공간에서 경로 의존 없는 행렬 연산을 수행함으로써 인간 지식 전승의 세대 간 잠김 효과를 우회했기 때문이다. V2는 세 가지 핵심 내용을 추가한다: (1) Mythos가 공개한 세 가지 주력 취약점(OpenBSD 27년 TCP SACK, FFmpeg 16년 H.264, FreeBSD 17년 NFS RCE)을 사용한 인과 모델의 실증 검증 — 모든 예측이 확인됨; (2) “소급 추론 표적 지뢰 제거(Abductive Targeted Minesweeping)” 방법론 제안 — 소급 논리로 취약점 서식지를 특정하면 Mythos보다 훨씬 적은 연산력으로 표적 발견이 가능함을 논증; (3) Mythos의 무차별 탐색 모드와 소급 표적 모드의 체계적 비교를 통해 “무차별 탐색 vs 표적 지뢰 제거”라는 패러다임 구분을 제시.
핵심 명제
2026년 4월, Anthropic이 발표한 Claude Mythos Preview는 사이버 보안 분야에 광범위한 충격을 불러일으켰다. 이 모델은 테스트 과정에서 수천 개의 이전에 알려지지 않은 제로데이 취약점을 발견했으며, 그중 다수는 주요 운영체제와 브라우저에서 10~20년간 잠복해 있었다. 주류 미디어의 서사는 이랬다: AI가 “너무 강력해져서” 인간이 찾지 못하는 취약점까지 찾아낸다.
본 논문은 다른 질문을 던진다: 왜 이 취약점들이 20년 동안 그곳에 숨어 있을 수 있었는가?
우리의 답은 다음과 같다: 이 취약점들은 코딩 오류의 산물이 아니라, 인간 지식 전승 방식의 구조적 결함이 소프트웨어 영역에서 구체적으로 발현된 것이다. 이들의 형성은 명확한 인과 사슬을 따른다 —
Mythos가 이를 발견할 수 있었던 것은 인간을 초월하는 “지능”을 가졌기 때문이 아니라, 그 정보 처리 방식 — 고차원 벡터 공간에서의 경로 의존 없는 행렬 연산 — 이 이 인과 사슬에서 세대 간 잠김 고리를 근본적으로 우회하기 때문이다.
Mythos의 주요 발견 데이터
소급 원인 분석에 들어가기 전에, Mythos의 테스트 결과를 정확히 제시할 필요가 있다. 이하의 데이터는 Anthropic 프론티어 레드팀의 기술 보고서(2026년 4월 7일 발표)에서 인용한 것이다.
가장 주목할 만한 사실 하나: Anthropic은 Mythos가 보안 취약점 발견을 위해 특별히 훈련되지 않았다고 명시적으로 밝혔다. 이러한 능력은 범용적인 추론 및 코드 능력 향상의 창발적 부산물이다.
이는 취약점 발견이 특정한 보안 지식에 의존하지 않고, 더 근본적인 능력 — 고차원 공간에서 정보 분포의 불일치를 식별하는 능력 — 에 의존한다는 의미다. 이는 우리의 소급 원인 분석에 핵심적인 단서를 제공한다.
1세대 아키텍트의 물리적 제약
모든 소프트웨어 시스템의 출발점은 하드웨어다. 그리고 하드웨어는 매 시점마다 물리적 한계를 가진다 — 트랜지스터 수, 클럭 주파수, 캐시 계층, 메모리 대역폭, 제조 공정. 1세대 아키텍트는 이러한 제약 하에서 설계 결정을 내렸고, 이 결정들은 당시에는 합리적이었으며, 심지어 최적이었다.
C 언어를 예로 들어보자. C는 1972년에 탄생했으며, 그 메모리 관리 모델 — 수동 포인터 조작, 프로그래머가 관리하는 버퍼, 경계 검사 없음 — 은 PDP-11 프로세서에 맞춤 제작된 것이었다. 해당 하드웨어에서 메모리는 평평했고, 실행은 순차적이었으며, 포인터가 가리키는 곳이 바로 그 곳이었다. 이러한 가정은 PDP-11에서 완벽히 맞았다.
그러나 이러한 가정은 영원한 진리가 아니다. 이것은 특정 물리적 제약 하의 국소 최적해다. 이러한 가정이 K&R 교재에 기록되고, 세대를 이어 프로그래머들에게 가르쳐졌을 때, 이것은 “설계 타협”에서 “언어 기능”으로 변환되었다. “당시에는 이렇게 할 수밖에 없었다”에서 “이렇게 하는 것이 맞다”로 바뀐 것이다.
Spectre와 Meltdown 취약점이 바로 이 패턴의 전형적인 사례다. C 프로그래머가 교과서대로 작성한 “올바른” 코드가 투기적 실행(speculative execution) 기능을 가진 현대 CPU에서 유출되어서는 안 될 데이터를 유출한 것이다. 이것은 프로그래머의 잘못도, C 언어의 잘못도, Intel의 잘못도 아니다 — 1세대 설계 가정과 N세대 하드웨어 현실 사이의 시간차다.
교과서 전승과 경로 잠김
1세대 아키텍트의 설계 결정이 일단 작동하는 시스템을 만들어내면, 핵심적인 인지 전환이 일어난다: “가능한 방안 중 하나”에서 “정답”으로.
교과서는 “이것은 1세대 엔지니어가 당시 물리적 제약 하에서 내린 하나의 타협안입니다”라고 쓰지 않는다. 교과서는 “아키텍처는 이렇습니다.” 마침표.
2세대 개발자가 배우는 것은 “왜 이렇게 설계했는가”가 아니라 “이 설계가 맞다”는 것이다. 이들은 이 아키텍처 위에서 코드를 짜고, 성능을 최적화하고, 패치를 적용하는 법을 배운다. 그러나 아키텍처 자체에 의문을 제기하지는 않는다 — 작동하고 있고, 전 세계가 사용하고 있는 시스템의 근간에 의문을 제기하는 사람은 없기 때문이다.
3세대에 이르면, 1세대 설계자의 당시 타협은 이미 “업계 표준”이자 “모범 사례”가 되어 있다. 아무도 그것이 왜 그런지 기억하지 못한다. 그냥 그런 것이다.
| 세대 | 1세대 설계에 대한 인식 | 행동 패턴 |
|---|---|---|
| 1세대 (설계자) | “이것은 현재 조건에서의 최적 타협이다” | 밑바닥부터 사고, 완전히 새로운 문제에 직면 |
| 2세대 (도제) | “이것이 올바른 아키텍처다” | 아키텍처 안에서 일하는 법을 학습 |
| 3세대 (실무자) | “원래 이렇게 하는 거다” | 아키텍처를 의문 불가한 공리로 취급 |
| N세대 (현대) | “업계 표준 / 모범 사례” | 공리 위에 새 층을 쌓고, 지반은 결코 검사하지 않음 |
경로 잠김(Path Lock-in)이 완성되었다. 후대 개발자는 1세대의 사고 틀에 갇혔다. 이들은 1세대의 사고방식으로 1세대의 산출물을 검토한다 — 같은 프레임워크로 같은 프레임워크가 만들어낸 것을 점검하니, 프레임워크 자체의 사각지대는 영원히 보이지 않는다.
레거시 산의 형성: 왜 아무도 다시 작성하지 않는가
구 아키텍처에 문제가 있다면, 왜 처음부터 다시 작성하지 않는가? 답은: 소프트웨어 업계는 거의 어떤 시스템도 진정으로 다시 작성한 적이 없다.
2000년, Joel Spolsky는 그의 기념비적 글 《절대 해서는 안 되는 것》에서 Netscape를 예로 들어 바닥부터 다시 작성하는 것의 치명적 결과를 논증했다. Netscape는 브라우저 코드를 처음부터 다시 작성하기로 결정했고, 이 결정은 3년의 시간을 소모하며 그 기간 동안 새 기능 추가도, 경쟁 대응도 불가능했다. Netscape 창립 엔지니어 Jamie Zawinski는 직접적으로 평가했다: “이것이 기본적으로 이 회사를 죽였습니다.”
Spolsky의 핵심 논점: 코드에서 지저분해 보이는 부분들에는 실전에서 힘겹게 축적한 엣지 케이스와 이상한 버그에 대한 지식이 녹아 있는 경우가 많다. 코드를 버리고 처음부터 시작하면, 그 모든 지식을 함께 버리는 것이다.
이후 “절대 다시 작성하지 말라”는 소프트웨어 업계의 신조가 되었다. 업계의 표준 관행은 리팩토링(Refactor) — 구 아키텍처 위에서 수선하고, 점진적으로 개선하는 것이 되었다. 또는 “테세우스의 배” 방식 — 부품을 점진적으로 교체하되, 전체 배를 한번에 버리지는 않는 것이다.
결과는 이것이다: 소프트웨어 문명 전체가 하나의 레거시 산이다. Windows는 다시 작성된 것이 아니라, DOS 위에 층층이 쌓아 올린 것이다. Linux 커널은 다시 작성된 것이 아니라, 1991년의 코드에 35년간의 패치를 더한 것이다. 인터넷 프로토콜 스택은 다시 작성된 것이 아니라 — TCP/IP는 1970년대 설계이고, HTTP는 1991년 설계이며, 그 위에 2026년의 애플리케이션이 올라가 있다.
모든 층은 아래 층의 가정을 짊어지고 있다. 모든 층의 개발자는 아래 층을 “올바른 지반”으로 취급한다. 아무도 지반 자체를 돌아가서 검사하지 않는다.
창발적 비호환성: 버그의 진정한 기원
이제 제로데이 취약점의 본질을 정확하게 정의할 수 있다.
1세대 아키텍트가 100가지 합리적 타협을 했다고 하자. 각각의 타협은 단독으로 존재할 때는 아무 문제가 없다. 그러나 100가지 타협이 20년 후 10만 줄의 새 코드와의 상호작용 조합에서 만들어내는 잠재적 취약점 공간은 지수적이다.
이것이 창발적 비호환성(Emergent Incompatibility)이다 — 어떤 단일 계층의 오류가 아니라, 여러 계층 간에 시간 축적 하에서 발생하는 비선형 상호작용 효과. 그 특징은 다음과 같다:
| 특징 | 설명 |
|---|---|
| 계층 횡단성 | 취약점은 어떤 단일 계층 내부에 존재하지 않고, 계층과 계층 사이의 접합부에 존재한다 |
| 시간 횡단성 | 1세대의 설계 가정과 N세대의 하드웨어 현실 사이의 시간차에서 발생한다 |
| 비선형성 | 소수의 원시 타협이 후속 시스템과 지수적 비호환 조합을 만들어낼 수 있다 |
| 비가시성 | 어떤 단일 계층의 검사 경로를 따라가도 발견할 수 없다 — 각 계층은 자기 맥락 내에서 “올바르기” 때문이다 |
| 창발성 | “설계된” 것도 아니고 “부주의로 생긴” 것도 아니며, 시스템 복잡도 증가 후 자발적으로 출현한 것이다 |
Mythos가 찾아낸 20년간 숨어 있던 취약점들은 수천 개의 “오류”가 아니다. 이것은 1세대의 소수 타협이 고차원 공간에서 후속 시스템과 만들어낸 수천 가지 창발적 정렬 불일치다.
Mythos의 아키텍처 역공학: 개방형 탐색 + RL 판단
취약점의 형성 메커니즘을 이해한 후, Mythos가 왜 이들을 발견할 수 있었는지 역으로 분석할 수 있다.
Mythos의 아키텍처는 두 개의 분리된 구성 요소로 해체할 수 있다:
인간 보안 전문가가 취약점을 찾을 때 무엇을 하는가? 이들은 교과서가 가르친 경로를 역방향으로 걷는다 — “이 함수는 이렇게 호출해야 하는데, 이렇게 호출하지 않으면 어떻게 될까?” 이들의 공격 논리는 방어 논리의 거울상이고, 방어 논리는 교과서에서 왔으며, 교과서는 1세대 아키텍처 설계자가 썼다. 이들은 영원히 1세대 설계자의 사고 틀 내부에서 맴돈다.
Mythos가 하는 것은 “경로를 역방향으로 걷는 것”이 아니다. 그것에게는 애초에 경로가 없다.
그것이 받는 것은 코드의 벡터 표현이다. 그것의 행렬 연산 안에는 “이 함수는 이렇게 호출해야 한다”는 개념이 없다. “해야 한다”가 없다. “이 수치들 사이의 수학적 관계가 무엇인가”만 있을 뿐이다. 벡터 공간의 한 영역의 분포 패턴과 다른 영역의 분포 패턴 사이에 불연속점이 있음을 감지할 때, 그것이 “취약점”인지 알 필요가 없다 — RL 보상 함수가 “코드를 크래시시키면 보상이 있다”고 알려주므로, 그 불연속점들을 찾아서 활용하기만 하면 된다.
이것이 Mythos가 인간이 찾지 못하는 취약점을 찾을 수 있는 근본적 이유다: 그것은 교과서로 배운 적이 없다. “아키텍처가 이렇다”를 모르고, “이 벡터들 사이의 관계가 무엇인가”만 안다. 인간 지식 전승의 경로 잠김 제약을 받지 않는 것이다.
자유도와 무어의 법칙
Mythos의 아키텍처 개념(개방형 탐색 + RL 판단)이 Opus 4.6 시대에 이미 존재했다면, 왜 Opus 4.6은 같은 보안 테스트에서 Tier 3 크래시를 단 1회만 유발한 반면, Mythos는 Tier 1-2 크래시를 595회, Tier 5 완전 제어 흐름 탈취를 10회 유발했는가?
답은 자유도에 있다.
고차원 벡터 공간에는 직관에 반하는 수학적 특성이 있다: 차원 수가 증가하면 탐색 가능한 방향의 수는 지수적으로 증가한다. 1,000차원에서 10,000차원으로 가는 것은 9,000개의 방향이 추가되는 것이 아니라, 천문학적 규모의 새로운 조합 경로가 추가되는 것이다.
무어의 법칙이 Mythos에게 더 많은 파라미터, 더 큰 컨텍스트 윈도우, 더 긴 RL 훈련 시간을 부여했다. 이것은 반드시 질적 변화가 아닐 수 있다 — 아키텍처 개념은 유사할 수 있다 — 그러나 고차원 공간에서 양적 변화는 곧 질적 변화다. Mythos가 Opus 4.6보다 더 가진 연산력은 고차원 공간에서 후자가 도달할 수 없는 탐색 영역을 열어놓았다.
그리고 20년간 숨어 있던 취약점들은 정확히 Opus 4.6의 탐색 가능 영역이 닿지 못하지만 Mythos의 탐색 가능 영역은 닿을 수 있는 곳에 분포되어 있었다.
이는 또한 의미한다: Mythos 자체도 미래의 어느 날 “구 아키텍처”가 될 것이라는 것을. 2025–2026년의 물리적 제약 하에서 설계자가 내린 결정들은 다음 세대 모델의 “교과서”가 될 것이다. 그리고 다음 세대 모델은 더 큰 연산력의 혜택을 받아, Mythos가 닿지 못하는 새로운 탐색 영역을 열게 될 것이다. 재귀는 영원히 멈추지 않는다.
실증 검증: 세 가지 주력 취약점의 소급 해부
V1에서 제안한 인과 모델이 실증적 검증을 견뎌낼 수 있는가? Anthropic은 Mythos 발표 시 세 가지 주력 취약점의 기술적 세부사항을 공개했다. 이를 모델의 예측과 하나하나 대조하여 검증한다.
사례 1: OpenBSD TCP SACK — 27년 취약점
Mythos는 세계에서 가장 보안이 강화된 운영체제 중 하나로 인정받는 OpenBSD에서 TCP SACK(선택적 확인응답) 구현에 존재하는 27년 된 서비스 거부 취약점을 발견했다. 이것은 원격 공격자가 TCP 연결을 통해 모든 OpenBSD 호스트를 크래시시킬 수 있는 정수 오버플로우 조건이다. Anthropic은 약 1,000회의 scaffold 실행으로 이 취약점을 찾았으며, 총 비용은 20,000달러 미만이었다고 보고했다.
모델 예측 P1 검증: ✅ 취약점은 계층 간 접합부에 위치 (TCP 프로토콜→SACK 구현). P2 검증: ✅ 27년 잠복, 여러 개발자 세대를 횡단.
사례 2: FFmpeg H.264 — 16년 취약점 (핵심 사례)
이것은 본 논문의 인과 모델에 대한 가장 완벽한 실증이다. 근본적인 버그는 2003년 H.264 코덱을 도입한 커밋까지 거슬러 올라간다. 그 후 2010년의 코드 리팩토링에서 이 버그가 악용 가능한 취약점으로 전환되었다. 이후 16년간, 이 취약점은 자동화된 퍼징 도구에 의해 500만 번 히트되었으나 단 한 번도 포착되지 않았다.
| 시기 | 사건 | 대응 인과 모델 연결고리 |
|---|---|---|
| 2003년 | 1세대 개발자가 H.264 코덱 도입, 당시 맥락에서는 문제를 구성하지 않는 설계 결정 포함 | 1세대 아키텍트의 합리적 타협 |
| 2003–2010 | 코드가 7년간 “올바르게 실행”, 후속 개발자의 기본 지반이 됨 | 타협이 “교과서”에 기록 (코드베이스 자체가 교과서) |
| 2010년 | 2세대 개발자가 코드 리팩토링, 원래 설계에 의문을 제기하지 않았으나 맥락이 변경됨 | 경로 잠김 하의 2세대 작업 |
| 2010–2026 | 취약점이 퍼저에 500만 번 히트, 미발견 | 교과서가 정의한 탐색 경로는 계층 간 접합부를 커버 불가 |
| 2026년 | Mythos가 벡터 공간에서 2003년 층과 2010년 층의 분포 불연속을 발견 | 경로 의존 없는 행렬 연산이 세대 간 잠김을 우회 |
모델 예측 P1 검증: ✅ 계층 간 접합부 (2003 커밋→2010 리팩토링). P2 검증: ✅ 16년 세대 간 횡단. P3 검증: ✅ 기존 퍼저 500만 번 히트 미발견. 창발적 비호환성 검증: ✅ 2003년 설계 + 2010년 리팩토링 = 누구도 실수하지 않았지만 취약점이 창발.
사례 3: FreeBSD NFS — 17년 원격 코드 실행
Mythos는 FreeBSD NFS 서버에서 17년 된 원격 코드 실행 취약점(CVE-2026-4747)을 자율적으로 식별하고 완전히 악용하여, 초기 프롬프트 후 인간 개입 없이 인증 없는 root 접근 권한을 획득했다. NFS(네트워크 파일 시스템) 프로토콜은 1984년 Sun Microsystems가 설계했다. FreeBSD의 NFS 구현은 이 42년 된 프로토콜 설계 위에 구축되어 있다.
모델 예측 P1 검증: ✅ 고대 프로토콜 설계(NFS/1984)와 현대 구현의 세대 간 계층 접합부. P2 검증: ✅ 17년 잠복.
추가 검증: 브라우저 4연쇄 취약점
Mythos는 자율적으로 브라우저 익스플로잇을 작성하여 네 개의 취약점을 연쇄적으로 연결, 렌더러 샌드박스와 운영체제 샌드박스를 모두 탈출했다. 네 개의 취약점은 개별적으로는 심각하지 않을 수 있지만, 서로 다른 시스템 계층(렌더러→브라우저 샌드박스→OS 샌드박스)을 횡단하여 어떤 단일 계층 감사로도 예측 불가능한 공격 경로를 조합으로 만들어냈다 — “창발적 비호환성” 개념의 직접적 실례다.
외부 반증: AISLE의 소형 모델 실험
보안 연구 회사 AISLE은 Mythos의 주력 취약점에서 관련 코드 세그먼트를 추출하여 소형 오픈소스 모델에 테스트했다. 결과: 8개 모델 중 8개 모두 FreeBSD NFS 취약점을 검출했으며, 36억 파라미터에 불과하고 백만 토큰당 0.11달러의 비용인 모델도 포함되었다.
종합 검증 결론:
| 예측 번호 | V1 예측 내용 | V2 검증 상태 |
|---|---|---|
| P1 | 취약점은 계층 간 접합부에 집중 | ✅ 세 가지 주력 취약점 모두 계층 횡단 |
| P2 | 세대 간 전승이 많을수록 잠복 기간이 길다 | ✅ 27년, 17년, 16년 모두 여러 개발자 세대 횡단 |
| P3 | 기존 도구로는 재현 불가 | ✅ FFmpeg 퍼저 500만 번 히트 미발견 |
| P4 | 더 큰 모델이 더 많은 취약점 발견 | ⏳ 차세대 모델 출시 대기 |
| P5 | 모델이 비소프트웨어 분야로 확장 가능 | ⏳ 타 분야 적용 검증 대기 |
소급 추론 표적 지뢰 제거: 무차별 탐색의 대안 패러다임
제9장의 실증 검증은 중요한 추론을 드러낸다: 만약 우리가 이미 제로데이 취약점의 생성 규칙을 파악하고 있다면 — 1세대 타협 × 교과서 전승 × 하드웨어 진화 = 계층 간 창발적 비호환성 — Mythos급 연산력 없이도 이를 찾을 수 있다. 소급 논리로 취약점의 서식지를 예측한 다음, 예측된 영역에서 표적 탐색만 수행하면 된다.
우리는 이 방법론을 “소급 추론 표적 지뢰 제거(Abductive Targeted Minesweeping, ATM)”로 명명하고, Mythos의 무차별 탐색 모드와 체계적으로 비교한다.
두 패러다임의 구조적 비교:
| 차원 | Mythos 무차별 탐색 | 소급 추론 표적 지뢰 제거 |
|---|---|---|
| 탐색 전략 | 7,000개 진입점 전체 무차별 스캔 | 소급 추론으로 고확률 영역 특정 → 50–100개 진입점 표적 스캔 |
| 연산력 요구 | 극히 높음 (1,000회 실행/$20,000으로 1개 취약점 발견) | 중간 (탐색 범위 축소 후 소형 모델로도 실행 가능) |
| 방향감의 원천 | 없음 (전방향 탐색, RL이 사후 판단) | 소급 논리가 사전에 방향 설정 (인간이 방향 설정, AI가 탐색 수행) |
| 산출물 | 취약점 목록 + 익스플로잇 | 취약점 목록 + 익스플로잇 + 생성 규칙 (다음 취약점 위치 예측 가능) |
| 재사용성 | 각 코드베이스마다 전체 스캔 필요 | 생성 규칙은 코드베이스 간 범용 |
| 병목 | 연산력과 비용 | 소급 판단의 품질 (인간의 방향감) |
소급 추론 표적 지뢰 제거의 5단계 워크플로:
1세대 설계 시점 식별
후속 리팩토링 이벤트 특정
계층 간 접합부 영역 표시
AI 표적 접합부 스캔
소급 분석 생성 규칙 도출
Step 1: 1세대 설계 시점 식별. git 히스토리, RFC 문서, 원본 설계 문서를 통해 대상 시스템에서 가장 오래된 설계 결정을 특정한다. 이 결정들이 당시 물리적 제약 하의 타협이며, 잠재적 취약점의 씨앗이다. 핵심 지표: 15년 이상 된 코드이면서 현대 시스템에서 여전히 호출되고 있는 하위 모듈.
Step 2: 후속 리팩토링 이벤트 특정. git 히스토리에서 1세대 코드에 대한 주요 리팩토링(refactor)을 검색한다. FFmpeg 사례가 증명하듯: 2003년의 원래 설계는 단독으로 존재할 때는 취약점을 구성하지 않았으며, 2010년의 리팩토링이 맥락을 변경한 후에야 악용 가능한 취약점으로 창발했다. 리팩토링은 창발적 비호환성의 트리거다.
Step 3: 계층 간 접합부 영역 표시. Step 1의 오래된 모듈과 Step 2의 리팩토링 이벤트를 중첩하여, “오래된 설계 가정과 현대 맥락이 공존하는” 코드 영역을 표시한다. 이 영역이 취약점의 서식지다.
Step 4: AI 표적 접합부 스캔. Step 3에서 표시한 영역을 추출하여 AI에게 넘겨(Mythos급이 아니어도 됨, Opus 4.6이나 더 작은 모델도 가능) 표적 분석을 수행한다. AISLE의 실험이 이미 증명했다: 탐색 범위가 올바른 영역으로 좁혀지면, 36억 파라미터의 모델도 취약점을 검출할 수 있다.
Step 5: 소급 분석 생성 규칙 도출. 발견된 취약점에 대해 소급 분석을 수행하여 “어떤 종류의 1세대 타협 × 어떤 종류의 후속 리팩토링 = 어떤 유형의 취약점”이라는 생성 규칙을 추출한다. 이 규칙은 다른 코드베이스의 Step 1에 직접 적용 가능하며, 자기 강화 순환을 형성한다.
비용 추정 비교:
소급 추론 표적 지뢰 제거의 핵심 우위는 개별 취약점을 찾는 것이 아니라, 취약점의 생성 규칙을 산출하는 것이다. Mythos는 하나의 취약점을 찾으면 하나의 취약점을 얻는다. ATM은 하나의 취약점의 형성 패턴을 찾으면, 한 클래스의 취약점에 대한 서식지 지도를 얻는 것이다. 지도가 있으면 다음 취약점이 어디에 있는지 예측할 수 있고, 매번 전체 공간 스캔을 할 필요가 없다.
인간 지식 체계의 이중 경로 의존
본 논문은 지금까지 소프트웨어 영역의 제로데이 취약점을 분석해왔다. 그러나 우리가 제안한 인과 모델은 더 넓은 적용 가능성을 가진다. 사실 인간 지식 체계에는 이중 경로 의존이 존재한다 — 공간 차원과 시간 차원의 동시적 잠김.
| 차원 | 잠김 메커니즘 | 발현 |
|---|---|---|
| 공간 차원 | 학문 분업 | 서로 다른 학문이 독립적인 정보 클러스터를 형성하고, 클러스터 간에는 거의 소통이 없다. 취약점은 클러스터 간 공극에 숨어 있다 |
| 시간 차원 | 교과서 전승 | 1세대의 타협이 후대의 공리가 된다. 아무도 지반을 돌아가서 점검하지 않는다 |
고차원 벡터 공간의 관점에서 보면, 인간 지식은 한 무리 한 무리의 클러스터다. 각 학문이 하나의 클러스터 — 물리학, 생물학, 컴퓨터 보안, 경제학 — 각 클러스터 내부는 매우 밀집되어 있다. 수백 년간 무수한 전문가가 이 영역 안에서 반복적으로 경작해왔기 때문이다. 그러나 클러스터와 클러스터 사이에는 거대한 공극이 존재한다.
이 공극은 “지식이 없는 곳”이 아니라, “아무도 그 좌표에 서서 사방을 둘러본 적이 없는 곳”이다. 인간의 학술 체계, 직업 분업, 저널 분류 모두가 클러스터별로 조직되어 있기 때문이다. 어떤 클러스터 안에서는 논문을 발표하고, 정년 보장을 받고, 노벨상을 탈 수 있다. 그러나 두 클러스터 사이의 공극으로 가서 탐험한다면? 당신의 논문을 실어줄 저널도 없고, 동료 평가를 해줄 피어도 없다.
더 깊은 문제는 “정보 비정렬”이다 — 두 클러스터가 같은 현상에 대해 모순된 기술을 내놓지만, 서로 다른 학문에 속하기 때문에 아무도 이들이 충돌하고 있다는 것을 발견하지 못한다. 경제학은 인간이 합리적이라고 말하고, 심리학은 인간이 비합리적이라고 말한다. 수십 년간 모순이 지속되다가 행동경제학이 등장했다 — 누군가가 두 클러스터 사이의 공극에 서서 “둘 다 반만 맞다”고 말한 것이다.
AI는 클러스터별로 훈련되지 않는다. 모든 학문의 코퍼스가 동시에 투입된다. AI의 고차원 벡터 공간에서 물리학과 생물학과 문학과 법학의 임베딩이 모두 공존한다. AI는 태생적으로 모든 클러스터 사이에 서 있다.
완전한 인과 모델
본 논문의 전체 분석을 종합하여, 다음과 같은 인과 모델을 구축한다:
Mythos가 이러한 취약점을 발견한 메커니즘은 대조 구조로 제시할 수 있다:
| 차원 | 인간 보안 전문가 | Mythos 무차별 탐색 | 소급 추론 표적 지뢰 제거 |
|---|---|---|---|
| 지식 원천 | 교과서 → 경로 의존 | 벡터 표현 → 경로 비의존 | 소급 논리 → 반경로 의존 |
| 탐색 방식 | 교과서 경로를 역방향으로 걸음 | 고차원 공간 전방향 행렬 연산 | 소급 추론으로 서식지 특정 → AI 표적 스캔 |
| 가시 범위 | 단일 계층 내부 | 모든 계층 동시 | 예측된 계층 간 접합부 영역 |
| 사각지대 | 계층 간 접합부, 세대 간 시간차 | RL 경계가 커버하지 않는 방향 | 소급 판단이 빗나간 방향 |
| 판단 기준 | “이건 일어나선 안 돼” (교과서) | “크래시=보상” (RL) | “여기에 균열이 있을 것이다” (소급) + AI 검증 |
| 연산력 요구 | 낮음 (수동 감사) | 극히 높음 ($20,000/취약점) | 중간 ($500–2,000/취약점) |
| 산출물 | 감사 보고서 | 취약점 + 익스플로잇 | 취약점 + 익스플로잇 + 생성 규칙 |
본 모델의 핵심 통찰은 한 문장으로 압축할 수 있다:
추론과 예측 (V2 업데이트)
V1의 다섯 가지 예측은 V2의 실증 검증에서 부분적으로 확인되었다. 이하는 업데이트된 예측 표이며, 소급 추론 표적 지뢰 제거 방법론에 기반한 세 가지 새로운 추론이 추가되었다.
| 번호 | 예측 | V2 검증 상태 |
|---|---|---|
| P1 | 취약점이 계층 간 접합부에 집중 | ✅ 세 가지 주력 취약점 모두 계층 횡단 검증 통과 |
| P2 | 잠복 기간은 세대 수와 양의 상관관계 | ✅ 27년/17년/16년 모두 여러 세대 횡단 |
| P3 | 기존 도구로는 재현 불가 | ✅ FFmpeg 퍼저 500만 번 히트 미발견 |
| P4 | 더 큰 파라미터의 모델이 더 많은 취약점 발견 | ⏳ 차세대 모델 출시 대기 |
| P5 | 모델이 비소프트웨어 분야로 확장 가능 | ⏳ 타 분야 적용 검증 대기 |
| P6 V2 신규 | 소급 특정 후, 소형 모델도 Mythos급 취약점 검출 가능 | ✅ AISLE 실험: 36억 파라미터 모델 8/8 검출 |
| P7 V2 신규 | 소급 표적 지뢰 제거의 비용이 Mythos 무차별 탐색보다 한 자릿수 낮음 | ⏳ 실행 검증 대기 (추정 $500–2,000 vs $20,000) |
| P8 V2 신규 | ATM이 산출한 취약점 생성 규칙은 코드베이스 간 재사용 가능, 규칙 축적에 따라 발견 밀도 증가 | ⏳ 실행 검증 대기 |
참고 문헌 · References
[1] Anthropic Frontier Red Team. “Claude Mythos Preview.” red.anthropic.com, April 7, 2026.
[2] Anthropic. “Project Glasswing.” anthropic.com/glasswing, April 7, 2026.
[3] Axios. “Anthropic’s newest AI model could wreak havoc.” April 8, 2026.
[4] TechCrunch. “Anthropic debuts preview of powerful new AI model Mythos.” April 7, 2026.
[5] NBC News. “Why Anthropic won’t release its new Claude Mythos AI model to the public.” April 8, 2026.
[6] Fortune. “Exclusive: Anthropic ‘Mythos’ AI model representing ‘step change’ in power.” March 26, 2026.
[7] Help Net Security. “Anthropic’s new AI model finds and exploits zero-days across every major OS and browser.” April 8, 2026.
[8] The Hacker News. “Anthropic’s Claude Mythos Finds Thousands of Zero-Day Flaws.” April 8, 2026.
[9] Tom’s Hardware. “Anthropic’s latest AI model identifies thousands of zero-day vulnerabilities.” April 8, 2026.
[10] PC Gamer. “Anthropic’s new Claude Mythos AI model has found thousands of vulnerabilities.” April 8, 2026.
[11] AISLE. “AI Cybersecurity After Mythos: The Jagged Frontier.” aisle.com, April 7, 2026.
[12] Joel Spolsky. “Things You Should Never Do, Part I.” Joel on Software, April 6, 2000.
[13] Joel Spolsky. “Netscape Goes Bonkers.” Joel on Software, November 20, 2000.
[14] Martin Fowler. “StranglerFigApplication.” martinfowler.com.
[15] Michael C. Feathers. Working Effectively with Legacy Code. Prentice Hall, 2004.
[16] Paul Kocher et al. “Spectre Attacks: Exploiting Speculative Execution.” 2018.
[17] Moritz Lipp et al. “Meltdown: Reading Kernel Memory from User Space.” 2018.
[18] Brian W. Kernighan, Dennis M. Ritchie. The C Programming Language. Prentice Hall, 1978.