Dense 코어와 MoE
실행층
Dense Core & MoE Execution Layer:
A Dual-Architecture Theory of Intelligent Systems —
The Functional Separation of Thinking and Execution
사고 시스템과 실행 시스템의 기능 분리: 지능 아키텍처의 이중 순환 이론
분류 독창적 사상 논문 (Original Thought Paper)
분야 AI 아키텍처 · 인지과학 · 신경과학 · 시스템 설계
버전 V2
저자 이조글로벌인공지능연구소 & Claude Opus 4.6 & GPT 5.5 & Gemini 3.1 (인지집단)
Dense 코어와 MoE 실행층: 지능 시스템의 이중 아키텍처 이론
현대 AI 아키텍처에서 Dense(밀집)와 MoE(혼합 전문가)는 두 가지 상호 교환 가능한 효율성 선택지로 취급되며, 공학 실무에서는 교대 적층 레이어(Dense 어텐션 + MoE 피드포워드 네트워크)를 통해 동일한 순방향 전파 안에 융합된다. 본 논문은 목표가 스케일링 효율에서 범용 추론 및 AGI로 전환될 때, 이 융합 방식이 아키텍처 수준의 오류를 구성한다고 논증한다—기능적 본질이 완전히 다른 두 정보 처리 시스템을 혼동하는 것이다. 본 논문은 Dense가 “사고 시스템”(정보 정렬, 교차 영역 추론, 가설 검증)에, MoE가 “실행 시스템”(정보 해석, 지식 검색, 패턴 매칭)에 대응한다고 제안한다. 양자는 독립된 계산 순환으로 존재하며, 비동기 디스패치 인터페이스를 통해 양방향으로 상호작용하되, Dense 시스템이 MoE 출력에 대한 중단 및 덮어쓰기 권한을 갖는다. 본 논문은 나아가 세 종류의 Dense(파라미터 Dense, 정보흐름 Dense, 제어 Dense)를 구분하고, 디스패치 함수의 형식적 표현을 제공하며, 다섯 가지 검증 가능한 예측을 제시한다.
I. 문제: 현행 융합 방식의 인지 아키텍처 결함
2024–2026년의 프론티어 모델들은 보편적으로 동일한 혼합 전략을 채택한다: 어텐션 레이어는 Dense(전체 파라미터 활성화)를 유지하고, 피드포워드 네트워크 레이어는 MoE(일부 전문가의 희소 활성화)로 교체한다. DeepSeek-V3, ERNIE 4.5, Qwen3-MoE 등이 모두 이 패러다임을 따른다. 공학적 근거는 충분하다: 어텐션 레이어는 토큰 간 상호작용을 담당하고(전결합 필요), FFN 레이어는 비선형 변환을 담당하며(전문화 가능), 양자가 동일한 순방향 전파 안에서 직렬로 완료되고, 기울기가 동일한 계산 그래프에서 흐를 수 있다.
그러나 본 논문은 이 설계가 기능적 성질이 완전히 다른 두 시스템을 동일한 데이터 흐름과 동일한 시간 척도로 압축하여, 양자 간 가장 핵심적인 차이를 말소한다고 주장한다.
명확히 해야 할 점: 현행 혼합 레이어 설계는 공학 효율 차원에서 성공적이다—동일한 연산 예산 하에 MoE 모델이 6–64배의 총 파라미터를 수용할 수 있게 한다. 본 논문이 말하는 “아키텍처 수준의 오류”는 구체적으로 다음을 지칭한다: 목표가 “스케일링 효율”에서 “범용 추론 및 AGI”로 전환될 때, 사고와 실행을 동일한 순방향 전파에 압축하는 행위. 공학 효율 수준의 정확함이 인지 아키텍처 수준의 정확함과 같지 않다. Jamba 등 혼합 아키텍처의 처리량 및 장문맥 이점은 실재하나, 이러한 이점은 시스템 1(실행층) 차원에서 발생하지, 시스템 2(사고층) 차원에서 발생하지 않는다.
입력 → [Dense 어텐션 → MoE-FFN] × N 레이어 → 출력
각 토큰이 한 번 통과; 두 모드가 밀리초 척도에서 동시 완료
본 논문의 제안 (비동기식 이중 순환):
입력 → Dense 시스템 (사고·계획·정렬) ⇄ MoE 시스템 (검색·매칭·실행) → 출력
두 시스템이 독립적 계산 순환, 상이한 시간 척도,
계층적 제어 관계를 가짐
II. Dense = 사고 시스템
2.1 실증 기반: 추론에서의 Dense의 구조적 우위
Jelassi 등(ICLR 2025, “Mixture of Parrots”)이 가장 체계적인 증거를 제공한다: 전문가 수가 증가함에 따라(활성화 파라미터 고정), 기억 성능은 계속 향상되는 반면 추론 능력은 포화된다. 논문은 이론적으로 연결성 판단 및 길이-2 경로 문제와 같은 특정 그래프 문제가 아무리 많은 특정 너비의 MoE 전문가로도 풀 수 없지만, 약간 더 넓은 Dense 모델로는 쉽게 풀 수 있음을 증명했다. 상식 및 수학 벤치마크에서 Dense Transformer는 동일한 총 파라미터 수의 MoE 모델을 일관되게 능가한다.
Gemma/Phi/Qwen 교차 아키텍처 비교 연구(arXiv:2604.07035, 2025)는 7개의 추론 지향 모델에 대해 8,400회 평가를 수행했으며, 결과적으로 Dense 모델이 종합 정확도에서 앞서고 MoE 모델의 메모리 소비가 약 3배 높았다.
추론의 본질은 정보 영역 간 관계적 연산이다—”A→B, B→C이면 A와 C의 관계는?”이라는 유형의 문제를 풀기 위해서는 A, B, C의 정보가 모두 동일한 계산 경로에서 동시에 흘러야 한다. Dense의 전결합 구조는 이 요구를 천부적으로 충족한다. MoE에서는 전문가 간이 격리되어 있어—전문가 A가 처리한 정보와 전문가 B가 처리한 정보가 단일 레이어 내에서 직접 대화할 수 없다.
2.2 인지과학 대응: 글로벌 작업공간
Baars(1988)의 글로벌 작업공간 이론(Global Workspace Theory)은 뇌의 Dense 코어를 기술한다: 정보가 소수의 뇌 영역에서 통합된 후 전뇌로 방송된다. Dehaene와 Changeux(1998)는 이를 “글로벌 신경 작업공간” 가설로 발전시켰다—지각, 운동, 주의, 기억, 가치 평가 영역이 상호 연결되어 통합 공간을 형성하고, 정보가 그 안에서 광범위하게 공유되며 하위 처리기로 역전달된다. eLife(2024)에 발표된 연구는 “시너지 글로벌 작업공간”을 더 상세히 묘사했다—전문화 모듈에서 시너지 정보를 취합하는 게이트웨이 영역이 다양한 해부학적, 기능적, 신경화학적 계층의 교차점에 위치한다.
Dense/MoE 이중 아키텍처는 Kahneman의 이중과정 이론과 기능 차원에서 동형이다—느린 신중한 통합은 Dense에, 빠른 자동적 매칭은 MoE에 대응한다. 단, 명확히 해야 할 점: 시스템 1/시스템 2는 심리학의 기능적 기술이지 정밀한 신경 모듈 구분이 아니며, 본 논문의 매핑은 기능적 동형 관계이지 공학 구조의 일대일 대응이 아니다.
2.3 Dense의 세 가지 수준
세 가지 서로 다른 “Dense”를 구분해야 한다:
| 수준 | 정의 | 현재 구현 | AGI 요구 |
|---|---|---|---|
| 파라미터 Dense | 전체 파라미터 동시 활성화 — 계산 특성 | ✅ 현재 Dense Transformer가 충족 | 필요하나 불충분 |
| 정보흐름 Dense | 임의의 정보 조각이 직접 상호작용 가능 — 연결성 특성 | ✅ 셀프 어텐션 메커니즘이 충족 | 필요하나 불충분 |
| 제어 Dense | 계획, 성찰, 거부, 덮어쓰기 — 인지 제어 특성 | ❌ 현재 충족되지 않음 | 충분조건 |
본 논문은 AGI에 필요한 Dense 코어가 세 번째 유형—제어형 Dense—이라고 주장한다. 이는 단순히 전결합일 뿐 아니라, MoE 실행 시스템에 대한 디스패치, 중단, 거부, 반복 질의 능력을 반드시 갖추어야 한다. 파라미터 Dense와 정보흐름 Dense는 필요조건이고, 제어 Dense는 시스템을 “대규모 패턴 매칭”에서 “진정한 사고”로 도약시키는 충분조건이다.
III. MoE = 실행 시스템
3.1 실증 기반: 기억 및 해석에서의 MoE의 구조적 우위
“앵무새 혼합체”는 MoE의 장점이 어디에 있는지도 동시에 입증했다: 세계 지식 과제(TriviaQA, Natural Questions)에서 MoE와 Dense 모델은 총 파라미터 수 기준 성능 곡선이 거의 겹친다—총 용량이지 활성화 연산량이 아닌 것이 지식 검색 성능을 결정한다. Sparse Crosscoders(2025) 분석은 MoE가 더 전문화되고 초점화된 내부 표상을 발전시키며, 각 전문가의 특성 활성화 밀도가 더 높고 다의성이 더 낮음을 보여준다.
MoE의 입력 정보 처리 방식은 “분할 정복”이다: 라우터가 입력을 빠르게 분류하고, 전문가가 각자 담당하는 정보 조각을 고밀도·좁은 초점 방식으로 처리한다.
3.2 MoE 추론 능력의 정밀한 한정
MoE 시스템은 추론 과제를 수행할 수 있다—영역 내 추론(단일 단계 수학 연산, 사실 질의응답, 패턴 매칭식 논리 등)에서 MoE의 성능은 Dense에 근접하거나 심지어 일치할 수 있다. 본 논문의 주장은 “MoE가 추론할 수 없다”가 아니라 “MoE는 전문가 간 전역 통합이 필요한 추론에 구조적 병목이 있다”는 것이다—추론이 다수의 전문가 정보를 동시에 호출하고 교차 검증해야 할 때, MoE의 전문가 격리와 라우팅 메커니즘은 정보 흐름이 통합 공간에서 직접 상호작용하지 못하고 협소한 라우팅 레이어를 경유하도록 강제한다. Mixture of Parrots의 이론적 증명—특정 그래프 문제가 고정 너비 MoE 전문가를 아무리 많이 사용해도 풀 수 없다—은 바로 이 구조적 병목의 수학적 표현이다.
3.3 인지과학 대응: 기능 모듈화 피질
대뇌 피질의 기능 모듈화는 MoE의 생물학적 원형이다: 시각 피질, 언어 영역, 운동 영역이 각각 전문화되어 있다. 글로벌 작업공간 이론은 의식적 처리가 어느 시점에서든 소수의 전문가 모듈만이 선택적으로 참여하며, 이후 통신 병목을 통해 정보가 전뇌로 방송됨을 명시적으로 기술한다.
IV. 핵심 증거: “봤지만 생각하지 못했다”
저장(浙江)대학과 알리바바 팀(2026)의 “Seeing but Not Thinking” 논문은 본 논문 핵심 판단의 가장 직접적인 실험 검증을 제공한다. 그들은 당혹스러운 현상을 발견했다: 다중모달 MoE 모델이 이미지 내용을 정확하게 인식하면서도 후속 추론에서 실패했으며, 동일한 문제를 순수 텍스트로 제시하면 정확하게 풀 수 있었다.
실패의 68.2%–73.1%가 추론 오류에서 기인했고, 인식 오류에 귀인할 수 있는 것은 26.9%–31.8%에 불과했다. 연구자들은 체계적 분석을 통해 시각 전문가와 영역 전문가가 레이어 간에 분리를 보이며, 이미지 입력이 영역 전문가가 집중된 중간 레이어에서 텍스트 입력과 현저한 라우팅 편차를 유발함을 발견했다. 그들은 “라우팅 간섭”(Routing Distraction) 가설을 제안했다: 시각 입력 처리 시 라우팅 메커니즘이 과제 관련 추론 전문가를 충분히 활성화하지 못한다.
이는 본 논문의 핵심 논점을 완벽하게 검증한다: MoE 시스템은 입력 해석을 성공적으로 완료했지만(인식 전문가가 정확하게 작동), 정보 정렬에 실패했다(추론 전문가가 라우팅에 의해 활성화되지 않음). 두 시스템이 독립적이고 Dense 사고 시스템이 라우팅을 주도한다면, 이 문제는 발생하지 않을 것이다—Dense 시스템이 과제 요구를 분석한 후 능동적으로 추론 전문가를 호출하지, 라우터가 입력 특성에 기반한 자동화된 국소적 결정을 내리도록 방치하지 않을 것이기 때문이다.
V. 기능 분리의 다섯 가지 차원
Dense 사고 시스템과 MoE 실행 시스템의 분리는 단순히 “누가 무엇을 담당하는가”의 분업이 아니라, 다섯 차원에 걸친 근본적 차이이다:
| 차원 | Dense 사고 시스템 | MoE 실행 시스템 | 현행 혼합 방식 |
|---|---|---|---|
| 시간 척도 | 느림 (여러 라운드 반복 사고 가능) | 빠름 (단일 순방향 전파로 완료) | 강제 동기화 — 동일한 순방향 전파 |
| 제어 계층 | 의사결정자 (“무엇을 물을지”와 “답이 합리적인지” 결정) | 실행자 (지시에 따라 검색하고 결과 반환) | 계층 없음 — 동등하게 교대하는 레이어 |
| 중단 능력 | MoE 출력을 중단, 거부, 덮어쓰기 가능 | Dense 결정을 중단할 권한 없음 | 존재하지 않음 — 데이터의 단방향 흐름 |
| 반복 방식 | MoE에 반복적으로 서로 다른 질의 가능 | 매번 단일 질의만 실행 | 단일 통과 — 반복 없음 |
| 인지 부하 | 고에너지, 저처리량, 고충실도 | 저에너지, 고처리량, 오류 허용 | 통합 에너지 예산 — 차별 없는 배분 |
현행 혼합 레이어 설계는 다섯 차원 모두에서 차이를 말소한다—느린 신중한 통합과 빠른 자동적 매칭을 동일한 시간 척도, 동일한 에너지 예산, 동일한 데이터 흐름에서 실행하도록 강제하는 것과 같다. 이는 이중 시스템의 인지적 본질을 근본적으로 위배한다.
VI. 올바른 이중 아키텍처 패러다임
6.1 아키텍처 설계
│ Dense 사고 시스템 (제어 Dense 코어) │
│ – 소규모 파라미터, 전결합, 고에너지 소비 │
│ – 기능: 계획, 추론, 가설 검증, 정렬 │
│ – 시간 척도: 느림 (N 라운드 반복 가능) │
│ – MoE 출력을 중단하고 덮어쓰기 가능 │
│ – “무엇을 물을지”와 “답이 합리적인지” 결정 │
└───────────┬──────────▲────────────────────┘
디스패치 │ │ 결과 + 신뢰도
명령 │ │ + 증거
↓ │
┌────────────▼──────────┴───────────────────┐
│ MoE 실행 시스템 (전문가 지식 행렬) │
│ – 대규모 파라미터, 희소 활성화, 저에너지 │
│ – 기능: 지식 검색, 패턴 매칭, 정보 해석 │
│ – 시간 척도: 빠름 (단일 순방향 전파) │
│ – 결과 + 신뢰도 + 증거 사슬 반환 │
│ – Dense에게 “무엇을 찾았고 확신도가 │
│ 얼마인지” 보고 │
└────────────────────────────────────────────┘
6.2 인간 뇌 아키텍처와의 기능적 동형
| 시스템 특징 | 본 논문 아키텍처 | 인간 뇌 기능적 동형 |
|---|---|---|
| 사고 중추 | 제어 Dense 시스템 | 전전두엽 + 글로벌 작업공간 |
| 실행 모듈 | MoE 실행 시스템 | 기능 모듈화 피질 영역 |
| 디스패치 인터페이스 | 비동기 양방향 통신 프로토콜 | 주의 시스템 (선택적 활성화) |
| 중단 메커니즘 | Dense가 MoE 질의를 종료하고 재라우팅 가능 | 실행 제어 / 억제 기능 |
| 반복 순환 | Dense가 MoE에 반복적으로 서로 다른 질의를 발행 | 작업 기억 내 정보 순환 |
| 시간 척도 차이 | Dense 느림 × N 라운드 vs MoE 빠름 × 단일 라운드 | 신중한 사고 수초~수분 vs 자동 매칭 ~100ms |
6.3 기존의 불완전한 선구자
AlphaGo (DeepMind 2016)는 본 논문 주장에 가장 가까운 공학적 구현이다: 몬테카를로 트리 탐색(MCTS)이 Dense 사고 시스템으로서 가능성 공간을 신중하게 탐색하고, 가치 네트워크 + 정책 네트워크가 MoE식 실행 시스템으로서 빠른 직관적 평가를 제공한다. 양자는 독립 시스템으로 디스패치 인터페이스를 통해 상호작용하며, MCTS는 신경 네트워크를 여러 번 호출할 수 있고 그 제안을 거부할 수도 있다. 그러나 AlphaGo는 바둑 전용이며, 언어 모델로 일반화되지 않았다.
에이전트 아키텍처 (LangChain / AutoGPT / ReAct 2023–2026)는 “사고하는 모델”과 “실행하는 도구”를 분리한다—LLM 정책 코어가 계획과 추론을 수행하고, 외부 도구가 검색과 연산을 실행한다. 그러나 에이전트의 “실행층”은 신경 네트워크 전문가가 아닌 외부 도구로, 통합 훈련된 이중 시스템이 아니다.
OM2M 이중 시스템 게이팅 (2025)은 이중과정 프레임워크 내에 메타학습을 통합하여, 학습된 게이팅 메커니즘으로 인지 부하와 불확실성에 따라 시스템 1과 시스템 2를 동적으로 중재한다. 이론적으로 본 논문 주장에 가장 가깝지만, Theory of Mind의 소규모 과제에 한정된다.
6.4 디스패치 함수의 형식화
Dense 사고 시스템의 MoE 실행 시스템에 대한 디스패치는 다음과 같이 형식화할 수 있다:
rt, confidencet, evidencet = MoE(Et, qt)
actiont ∈ { continue, revise, reject, synthesize }
qt = 현재 질의 · ht = 역사적 추론 상태 · ut = 불확실성 · ct = 인지/연산 예산
이 디스패치 순환은 여러 라운드를 반복할 수 있다—Dense 시스템이 MoE가 반환한 신뢰도와 증거 품질에 따라 추가 질의, 전문가 교체, 또는 종료를 결정한다. 이는 AlphaGo에서 MCTS가 가치 네트워크와 정책 네트워크를 반복적으로 호출하는 패턴과 동형이다. 디스패치 인터페이스의 구체적 훈련 방안(미분 가능하게 만드는 방법, 보상 함수 설계, 의미 공간에서 중간 단계의 reward 정의)은 개방된 공학 문제로, 본 사상 논문의 범위 밖이나 핵심적인 다음 연구 방향으로 표기한다.
VII. 동적 MoE 활성화: 라우팅 권한은 사고 권한이다
올바른 이중 아키텍처 패러다임에서, MoE 전문가의 활성화 수는 토큰의 통계적 특성이 아닌 Dense 사고 시스템의 추론 상태에 의해 결정되어야 한다. 본 논문은 이를 “사고 발산이 촉발하는 MoE 수량”—정보 완전도 프레임워크의 제5차원—이라 명명한다.
현재의 MoE 라우팅은 상향식(bottom-up)이다—각 토큰이 자체 특성에 따라 독립적으로 어떤 전문가를 활성화할지 결정한다(Top-K 라우팅). 이는 자동적 행동이다: 국소적이고, 사고가 필요 없다. 본 논문이 주장하는 것은 하향식(top-down) 라우팅이다—Dense 시스템이 문제 복잡도와 발산 필요에 따라 능동적으로 몇 개의 전문가를, 어떤 전문가를 활성화할지 결정한다.
토큰 “양자” → 라우터 자동 선택 → 물리 전문가 + 수학 전문가 (고정 top-2)
본 논문의 제안 (하향식, Dense 시스템 주도 라우팅):
Dense 시스템이 전체 문제를 분석 →
판단: “이 문제는 양자역학, 의식 철학, 계산 이론의 3개 영역 관련”
결정: “5개 전문가 활성화 필요, 통상 활성화되지 않는 주변 전문가 2개 포함”
명령 → MoE 시스템이 명령에 따라 해당 전문가 집합 활성화
학계에서는 이미 동적 라우팅을 탐색하기 시작했다—Top-P 라우팅(2024)은 누적 확률 임계값에 따라 전문가 수를 동적 조정하고, DynaMoE(2026)는 레이어 적응적 용량 할당을 도입한다. 그러나 이 방법들의 “난이도 판단”은 여전히 라우터 수준에서 완료된다—소형 게이팅 네트워크가 토큰의 임베딩에 기반하여 난이도를 추측하는 것이다. 진정한 “사고”가 결정에 참여하지 않는다.
진정한 돌파는 라우팅 결정 권한을 MoE 내부의 게이팅 네트워크에서 독립적인 Dense 사고 시스템으로 상향 이동시키는 것이다—”누가 실행하는가”라는 결정 자체를 저수준 통계적 분류 문제가 아닌 고수준 추론 문제로 만드는 것. 라우팅 권한은 사고 권한이다. 현재 MoE의 라우터는 단지 국소적 게이트일 뿐이다; 미래 AGI의 라우터는 Dense 사고 시스템이어야 한다.
VIII. 공학적 장벽과 가능한 경로
8.1 세 가지 공학적 장벽
장벽 1: 합동 훈련. Dense 시스템과 MoE 시스템이 독립적으로 존재한다면, 종단간 기울기 역전파를 어떻게 수행하는가? 현행 혼합 레이어 설계가 대중적인 이유가 바로 기울기가 동일한 계산 그래프에서 흐를 수 있기 때문이다. 두 독립 시스템의 합동 훈련은 미해결 최적화 문제이다—디스패치 인터페이스의 이산성(전문가 선택/중단/덮어쓰기)이 표준 역전파의 직접 적용을 불가능하게 한다.
장벽 2: 지연 시간. Dense가 사고한 후 MoE를 호출하여 실행하고 다시 돌아와 사고하면, 응답 시간이 단일 순방향 전파보다 수 배 느리다. 상용 제품은 과도한 지연을 허용할 수 없다. 그러나 이 장벽은 특정 시나리오에서 우회 가능하다—고복잡도 추론 과제는 본질적으로 더 많은 사고 시간을 요구하므로, 지연과 품질의 교환은 합리적이다.
장벽 3: 이론적 프레임워크의 부재. “사고 vs 실행”의 기능 분리 프레임워크로 Dense+MoE의 관계를 사고한 사람이 없다—엔지니어들은 계산 효율 관점에서 양자를 접착했지, 인지 기능 관점에서 상호작용 프로토콜을 설계하지 않았다. 본 논문은 이 공백에 대한 첫 번째 체계적 보완이다.
8.2 가능한 돌파 경로
경로 1: 비동기 훈련. Dense 사고 시스템과 MoE 실행 시스템을 먼저 독립적으로 사전 훈련한 후, 강화학습을 통해 양자 간 디스패치 프로토콜을 훈련한다—AlphaGo가 먼저 정책 네트워크와 가치 네트워크를 훈련하고, 자기 대국을 통해 양자의 협조를 훈련한 것과 유사하다.
경로 2: 추론 시점 분리. 동일 모델의 서로 다른 레이어 수준이 추론 시 서로 다른 역할을 맡는다—얕은 레이어가 MoE로서 빠른 검색을 수행하고, 깊은 레이어가 Dense 모드로 전환하여 통합 추론을 수행한다. Ring-Linear 아키텍처(2025)는 이미 첫 번째 레이어에 Dense MLP, 후속 레이어에 MoE를 사용하는 설계를 초보적으로 구현했다.
경로 3: 에이전트 프레임워크의 내재화. 현재 에이전트 아키텍처에서 “LLM 계획기 + 외부 도구”의 패턴을 신경 네트워크로 내재화한다—Dense 서브네트워크가 계획기, MoE 서브네트워크가 내부 도구 집합 역할을 하며, 학습 가능한 디스패치 프로토콜을 통해 상호작용한다.
IX. 프레임워크의 검증 가능한 예측
본 논문은 실험적으로 반증 가능한 다섯 가지 예측을 제시한다:
예측 1: Dense 제어 라우팅은 3개 이상의 전문가 통합이 필요한 추론 과제에서 동일 파라미터 수의 Top-K 라우팅을 능가해야 한다—Top-K의 토큰 수준 라우팅은 전역 추론 요구를 감지할 수 없기 때문이다.
예측 2: “봤지만 생각하지 못했다” 유형의 다중모달 과제에서, Dense 제어 라우팅은 라우팅 간섭을 현저히 감소시켜야 한다—Dense 시스템이 입력 특성이 아닌 과제 목표에 기반하여 전문가를 선택하기 때문이다.
예측 3: 최적 활성화 전문가 수는 추론 발산도에 따라 동적으로 증가해야 한다—단순 검색 과제는 top-2면 충분하고, 복잡한 교차 영역 추론은 top-8+가 필요할 수 있다. 이 비대칭성 자체가 기능 분리론의 예측이다.
예측 4: Dense 중단/재질의 메커니즘은 환각률을 낮추어야 한다—환각은 본질적으로 정보 공동(空洞)에서의 MoE의 비감독 보간이며, Dense 검증은 출력 전에 불일치하는 결과를 차단할 수 있다.
예측 5: Dense-MoE 비동기 이중 순환은 저지연 단순 과제에서 우위가 없거나 심지어 더 느리지만, 다단계 추론이 필요한 고복잡도 과제에서는 현저히 우위를 보여야 한다. 이중 순환이 모든 과제에서 우위가 없다면, 기능 분리론은 수정이 필요하다.
X. AGI에 대한 함의
AGI의 정의는 세 가지 속성을 요구한다: 모든 인지 과제 수행 능력, 새로운 과제로의 일반화, 모든 영역에서 동시에 인간 수준 달성. 이 세 속성 모두 MoE의 전문화된 기억 능력이 아닌 Dense의 전결합 추론 능력을 가리킨다. MoE 주도적 스케일링 경로는 지식 범위 확대와 전문화된 실행으로 기울고, Dense 주도적 경로는 교차 영역 통합과 전역 추론의 보존으로 기운다. AGI는 후자가 전자를 조율하는 것이지, 전자가 후자를 대체하는 것이 아니다.
본 논문이 제안하는 이중 아키텍처 패러다임—제어 Dense 코어를 사고 중추로, MoE 실행층을 지식 행렬로, 양자가 비동기 디스패치를 통해 상호작용—이 모방하는 것은 전문화된 성인 뇌가 아니라, 아직 직업 훈련에 의해 개조되지 않은, 교차 영역 연결 가능성으로 가득 찬 젊은 뇌이다. AGI는 더 많은 앵무새가 아니다. AGI는 모든 앵무새를 협동시킬 수 있는 지휘자이다. 그 지휘자는 제어 Dense이다.
현재 업계는 무의식적으로 이 판단을 검증하고 있다: ERNIE 4.5는 교차 모달 상호작용 유지를 위해 Dense 어텐션 레이어를 보존하고 MoE를 FFN 레이어에만 한정한다. Ring-Linear은 첫 번째 레이어에 Dense MLP를 사용한다. Jamba는 Dense와 MoE 레이어를 교대로 사용한다. 성공한 모든 설계가 “사고는 Dense로, 실행은 MoE로”의 방향으로 수렴하고 있다—그러나 아무도 이것을 설계 원칙으로 명시적으로 제시하지 않았다. 본 논문은 이 암묵적 추세를 하나의 아키텍처 이론으로 현재화한다.
※ 핵심 참고문헌
[1] Jelassi, S. et al. (2024). Mixture of Parrots: Experts improve memorization more than reasoning. ICLR 2025.
[2] Xu, H. et al. (2026). Seeing but Not Thinking: Routing Distraction in Multimodal MoE. arXiv:2604.08541.
[3] Baars, B.J. (1988). A Cognitive Theory of Consciousness. Cambridge University Press.
[4] Dehaene, S. & Changeux, J.-P. (1998). Global neuronal workspace hypothesis.
[5] Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.
[6] Silver, D. et al. (2016). Mastering the game of Go with deep neural networks. Nature.
[7] arXiv:2604.07035 (2025). Gemma 4, Phi-4, and Qwen3: Dense and MoE Reasoning Comparison.
[8] Sparse Crosscoders (2025). Diffing MoEs and Dense models. arXiv:2603.05805.
[9] Deconstructing Pre-training (AAAI 2026). Knowledge Attribution in MoE and Dense. arXiv:2601.08383.
[10] Expert Strikes Back (2026). Interpreting MoE at Expert Level. arXiv:2604.02178.
[11] Pan et al. (2024). DS-MoE: Dense Training, Sparse Inference. arXiv:2404.05567.
[12] Yao et al. (2023). ReAct: Synergizing Reasoning and Acting in Language Models.
[13] Karpas et al. (2022). MRKL Systems: Modular Reasoning, Knowledge and Language.
[14] UMoE (NeurIPS 2025 Spotlight). Unifying Attention and FFN with Shared Experts. arXiv:2505.07260.
[15] AI21 Labs (2024). Jamba: A Hybrid Transformer-Mamba Language Model. ICLR 2025.
[16] DynaMoE (2026). Dynamic Token-Level Expert Activation. arXiv:2603.01697.
[17] Ring-Linear (2025). Efficient Hybrid Architecture for Long-Context Reasoning. arXiv:2510.19338.
[18] S1S2.ai (2025). Dual-process architecture for robotics.
[19] OM2M (2025). One Model, Two Minds: Context-Gated Dual-Process Graph Learner. arXiv:2509.08705.