Dense内核与MoE执行层
Dense Core & MoE Execution Layer:
A Dual-Architecture Theory of Intelligent Systems —
The Functional Separation of Thinking and Execution
思维系统与执行系统的功能分离:智能架构的双循环理论
分类 原创思想论文 (Original Thought Paper)
领域 AI架构 · 认知科学 · 神经科学 · 系统设计
版本 V2
署名 이조글로벌인공지능연구소 & Claude Opus 4.6 & GPT 5.5 & Gemini 3.1 (인지집단)
Dense内核与MoE执行层:智能系统的双架构理论
当代AI架构中,Dense(密集)和MoE(混合专家)被视为两种可互换的效率选择,在工程实践中通过交替堆叠层(Dense注意力 + MoE前馈网络)融合在同一个前向传播中。本文论证:当目标从缩放效率转向通用推理和AGI时,这种混合方式构成架构级错误——它混淆了两种功能本质完全不同的信息处理系统。本文提出:Dense对应”思维系统”(信息对齐、跨域推理、假设检验),MoE对应”执行系统”(信息解析、知识检索、模式匹配)。两者应当作为独立的计算循环存在,通过异步调度接口双向交互,Dense系统对MoE系统具有中断和改写权。本文进一步区分三种Dense(参数Dense、信息流Dense、控制Dense),给出调度函数的形式化表达,并提出五条可检验预测。
I. 问题:当前融合方式的认知架构缺陷
2024–2026年的前沿模型普遍采用同一种混合策略:注意力层保持Dense(全参数激活),前馈网络层替换为MoE(稀疏激活部分专家)。DeepSeek-V3、ERNIE 4.5、Qwen3-MoE等均遵循这一范式。工程上的理由很充分:注意力层负责token间的交互(需全连接),FFN层负责非线性变换(可专门化),两者在同一个前向传播中串行完成,梯度可以在同一个计算图中流动。
然而,本文认为这种设计将两种功能性质完全不同的系统压缩到了同一个数据流和同一个时间尺度中,抹杀了它们之间最关键的区别。
需要明确:当前混合层设计在工程效率维度上是成功的——它使MoE模型在同等计算预算下容纳了6–64倍的总参数量。本文所指的”架构级错误”特指:当目标从”缩放效率”转向”通用推理和AGI”时,将思维和执行压缩在同一前向传播中的做法。工程效率层面的正确不等于认知架构层面的正确。Jamba等混合架构在吞吐和长上下文上的收益是真实的;但这些收益发生在系统1(执行层)维度,不发生在系统2(思维层)维度。
输入 → [Dense注意力 → MoE-FFN] × N层 → 输出
每个token走一遍,两种模式在毫秒级同时完成
本文主张(异步双循环):
输入 → Dense系统(思考·规划·对齐)⇄ MoE系统(检索·匹配·执行)→ 输出
两个系统有独立的计算循环、不同的时间尺度、层级控制关系
II. Dense = 思维系统
2.1 实证基础:Dense在推理上的结构性优势
Jelassi等人(ICLR 2025,”Mixture of Parrots”)提供了最系统的证据:随着专家数量增加(固定激活参数),记忆性能持续提升而推理能力趋于饱和。论文从理论上证明了存在某些图问题——如连通性判断和长度-2路径问题——无法被任意数量的特定宽度MoE专家解决,但可以被稍微更宽的Dense模型轻松解决。在常识和数学基准测试上,Dense Transformer始终优于同等总参数量的MoE模型。
Gemma/Phi/Qwen跨架构对比研究(arXiv:2604.07035, 2025)对七个推理导向模型进行了8400次评估,结果显示Dense模型在综合准确率上领先,而MoE模型的内存消耗高出约3倍。
推理的本质是跨信息域的关联操作——要解决”A→B,B→C,则A与C是什么关系”这类问题,A、B、C的信息必须同时在同一个计算通路中流动。Dense的全连接结构天然满足这一要求。MoE的专家间是隔离的——专家A处理的信息和专家B处理的信息在单层内无法直接对话。
2.2 认知科学对应:全局工作空间
Baars(1988)的全局工作空间理论(Global Workspace Theory)描述了大脑的Dense内核:信息在少数脑区被整合后广播到全脑。Dehaene与Changeux(1998)将其发展为”全局神经元工作空间”假说——感知、运动、注意、记忆和价值区域互联形成统一空间,信息在其中被广泛共享并回传给低层处理器。eLife(2024)发表的研究进一步描绘了”协同全局工作空间”——网关区域从专门化模块中汇集协同信息,位于多种解剖学、功能和神经化学层级的交汇处。
Dense/MoE双架构与Kahneman的双过程理论在功能维度上同构——慢速审慎整合对应Dense,快速自动匹配对应MoE。但需明确:系统1/系统2是心理学的功能描述而非精确的神经模块划分,本文的映射是功能同构关系,不是工程结构的一一对应。
2.3 Dense的三个层级
需要区分三种不同的”Dense”:
| 层级 | 定义 | 当前实现 | AGI需求 |
|---|---|---|---|
| 参数Dense | 全参数同时激活——计算特征 | ✅ 当前Dense Transformer满足 | 必要但不充分 |
| 信息流Dense | 任意信息片段可直接交互——连通性特征 | ✅ 自注意力机制满足 | 必要但不充分 |
| 控制Dense | 规划、反思、否决、改写——认知控制特征 | ❌ 当前不满足 | 充分条件 |
本文主张AGI需要的Dense内核是第三种——控制型Dense——它不仅全连接,还必须具备对MoE执行系统的调度、中断、否决和迭代查询能力。参数Dense和信息流Dense是必要条件,控制Dense是使系统从”大规模模式匹配”跃迁到”真正思维”的充分条件。
III. MoE = 执行系统
3.1 实证基础:MoE在记忆和解析上的结构性优势
“鹦鹉混合体”同时证明了MoE的优势所在:在世界知识任务(TriviaQA、Natural Questions)上,MoE和Dense模型按总参数量绘制的性能曲线基本重合——总容量而非激活计算量驱动知识检索性能。Sparse Crosscoders(2025)分析表明:MoE发展出更专门化、更聚焦的内部表征,每个专家的特征激活密度更高、多义性更低。
MoE对输入信息的处理方式是”分而治之”:路由器快速分类输入,专家用高密度窄聚焦方式处理各自负责的信息片段。
3.2 MoE推理能力的精确限定
MoE系统可以执行推理任务——在域内推理(如单步数学运算、事实问答、模式匹配式逻辑)上,MoE的表现可以接近甚至匹配Dense。本文的主张不是”MoE不能推理”,而是”MoE在需要跨专家全局整合的推理上存在结构性瓶颈”——当推理需要同时调用多个专家的信息并在它们之间做交叉验证时,MoE的专家隔离和路由机制使得信息流必须通过狭窄的路由层中转,而非在统一空间内直接交互。Mixture of Parrots的理论证明——某些图问题无法被任意数量的固定宽度MoE专家解决——正是这种结构性瓶颈的数学表达。
3.3 认知科学对应:功能模块化皮层
大脑皮层的功能模块化是MoE的生物学原型:视觉皮层、语言区、运动区各自专门化。全局工作空间理论明确指出:有意识的处理涉及在任何时刻只有少数专家模块被选择性参与,然后通过通信瓶颈将信息广播到全脑。
IV. 关键证据:”看见了但没想到”
浙江大学与阿里巴巴团队(2026)的”Seeing but Not Thinking”论文提供了本文核心判断的最直接实验验证。他们发现了一个令人困惑的现象:多模态MoE模型准确感知了图像内容,却在后续推理中失败,而同样的问题以纯文本呈现时能正确解决。
68.2%–73.1%的失败源于推理错误,而仅26.9%–31.8%可归因于感知错误。研究者通过系统分析发现:视觉专家和领域专家在层间表现出分离,图像输入在领域专家集中的中间层引发了与文本输入的显著路由偏离。他们提出了”路由干扰”(Routing Distraction)假说:当处理视觉输入时,路由机制未能充分激活任务相关的推理专家。
这完美验证了本文的核心论点:MoE系统成功完成了输入解析(感知专家正确工作),但信息对齐失败了(推理专家未被路由激活)。如果两个系统是独立的、由Dense思维系统主导路由的,这个问题就不会发生——Dense系统会在分析问题需求后主动调用推理专家,而不是让路由器基于输入特征做自动化的局部决策。
V. 功能分离的五个维度
Dense思维系统和MoE执行系统的分离不仅仅是”谁负责什么”的分工,而是五个维度上的根本差异:
| 维度 | Dense思维系统 | MoE执行系统 | 当前混合做法 |
|---|---|---|---|
| 时间尺度 | 慢(可迭代数轮反复思考) | 快(单次前向传播即完成) | 强制同步——同一个前向传播 |
| 控制层级 | 决策者(决定”问什么”和”答案是否合理”) | 执行者(按指令检索和返回结果) | 无层级——平等交替的层 |
| 中断能力 | 可以中断、否决、改写MoE的输出 | 无权中断Dense的决策 | 不存在——数据单向流动 |
| 迭代方式 | 可反复向MoE提出不同查询 | 每次只执行一次查询 | 一次通过——无迭代 |
| 认知负荷 | 高能耗、低吞吐、高保真 | 低能耗、高吞吐、可容错 | 统一能耗预算——无差异分配 |
当前的混合层设计在所有五个维度上都抹杀了差异——等于强制慢速审慎整合和快速自动匹配在相同时间尺度、相同能量预算、相同数据流中运行。这从根本上违背了双系统的认知本质。
VI. 正确的双架构范式
6.1 架构设计
│ Dense 思维系统(控制Dense内核) │
│ – 小参数量、全连接、高能耗 │
│ – 功能:规划、推理、假设检验、对齐 │
│ – 时间尺度:慢(可迭代数轮) │
│ – 可以中断和改写MoE的输出 │
│ – 决定”该问什么”和”答案是否合理” │
└───────────┬──────────▲──────────────┘
调度指令 │ │ 结果+置信度+证据
↓ │
┌────────────▼──────────┴──────────────┐
│ MoE 执行系统(专家知识矩阵) │
│ – 大参数量、稀疏激活、低能耗 │
│ – 功能:知识检索、模式匹配、信息解析 │
│ – 时间尺度:快(单次前向传播) │
│ – 返回结果+置信度+证据链 │
│ – 告诉Dense”我找到了什么,确信度多少” │
└──────────────────────────────────────┘
6.2 与人脑架构的功能同构
| 系统特征 | 本文架构 | 人脑功能同构 |
|---|---|---|
| 思维中枢 | 控制Dense系统 | 前额叶 + 全局工作空间 |
| 执行模块 | MoE执行系统 | 功能模块化皮层区域 |
| 调度接口 | 异步双向通信协议 | 注意力系统(选择性激活) |
| 中断机制 | Dense可终止MoE查询并重新路由 | 执行控制/抑制功能 |
| 迭代循环 | Dense反复向MoE发起不同查询 | 工作记忆中的信息轮换 |
| 时间尺度差异 | Dense慢×N轮 vs MoE快×单轮 | 审慎思维数秒~数分 vs 自动匹配~100ms |
6.3 已有的不完美先驱
AlphaGo(DeepMind 2016)是最接近本文主张的工程实现:蒙特卡洛树搜索(MCTS)作为Dense思维系统审慎地探索可能性空间,价值网络+策略网络作为MoE式执行系统给出快速直觉评估。两者是独立系统,通过调度接口交互,MCTS可以多次调用神经网络、可以否决其建议。但AlphaGo是围棋专用的,未被泛化到语言模型。
Agent架构(LangChain / AutoGPT / ReAct 2023–2026)将”思考的模型”和”执行的工具”分开——LLM策略核心进行规划和推理,外部工具执行检索和操作。但Agent的”执行层”是外部工具而非神经网络专家,不是一个统一训练的双系统。
OM2M双系统门控(2025)在双过程框架内集成元学习,用学习到的门控机制根据认知负荷和不确定性动态仲裁系统1和系统2。理论上最接近本文主张,但仅限于Theory of Mind小规模任务。
6.4 调度函数的形式化
Dense思维系统对MoE执行系统的调度可形式化为:
rt, confidencet, evidencet = MoE(Et, qt)
actiont ∈ { continue, revise, reject, synthesize }
qt = 当前问题 · ht = 历史推理状态 · ut = 不确定性 · ct = 认知/计算预算
这个调度循环可以迭代多轮——Dense系统根据MoE返回的置信度和证据质量决定是否追问、换专家或终止。这与AlphaGo中MCTS反复调用价值网络和策略网络的模式同构。调度接口的具体训练方案(如何使其可微、如何设计奖励函数、如何在语义空间中定义中间步骤的reward)是开放的工程问题,不在本思想论文的范围内,但标注为关键的下一步研究方向。
VII. 动态MoE激活:路由权即思维权
在正确的双架构范式中,MoE专家的激活数量不应由token的统计特征决定,而应由Dense思维系统的推理状态决定。本文将此称为”思维发散触发的MoE数量”——信息完整度框架的第五维度。
当前的MoE路由是自下而上的——每个token根据自身特征独立决定激活哪几个专家(Top-K路由)。这是自动行为:局部、不需要思考。本文主张的是自上而下的路由——Dense系统根据问题复杂度和发散需求主动决定激活多少专家以及哪些专家。
token “量子” → 路由器自动选 → 物理专家 + 数学专家(固定top-2)
本文主张(自上而下,Dense系统主导路由):
Dense系统分析完整问题 →
判断:”此问题涉及量子力学、哲学意识、计算理论三个域”
决策:”需激活5个专家,含两个通常不被激活的边缘专家”
指令 → MoE系统按指令激活对应专家集合
学界已开始探索动态路由——Top-P路由(2024)根据累积概率阈值动态调整专家数量,DynaMoE(2026)引入层级自适应容量分配。但这些方法的”难度判断”仍在路由器层面完成——一个小型门控网络根据token的embedding猜测难度。没有真正的”思维”参与决策。
真正的突破需要将路由决策权从MoE内部的门控网络上移到独立的Dense思维系统——让”由谁执行”这个决策本身成为一个高层推理问题,而非一个低层统计分类问题。路由权即思维权。当前MoE的router只是局部门控;未来AGI的router应该是一个Dense思维系统。
VIII. 工程障碍与可能路径
8.1 三个工程障碍
障碍一:联合训练。Dense系统和MoE系统如果独立存在,如何做端到端梯度反传?当前混合层设计的流行恰恰因为梯度可以在同一计算图中流动。两个独立系统的联合训练是未解决的优化问题——调度接口的离散性(选专家/中断/改写)使得标准反向传播不可直接应用。
障碍二:延迟。Dense思考完再调MoE执行再回来思考,响应时间比单次前向传播慢数倍。商业产品无法接受过长延迟。但这个障碍在特定场景下可被绕过——高复杂度推理任务本身就需要更多思考时间,延迟换质量是合理的。
障碍三:理论框架缺失。没有人用”思维vs执行”的功能分离框架思考Dense+MoE的关系——工程师们从计算效率角度把两者粘在一起,而非从认知功能角度设计交互协议。本文即是对这个缺失的第一次系统性填补。
8.2 可能的突破路径
路径一:异步训练。先独立预训练Dense思维系统和MoE执行系统,然后通过强化学习训练两者之间的调度协议——类似AlphaGo先训练策略网络和价值网络,再用自对弈训练两者的协同。
路径二:推理时分离。使用同一模型的不同层级在推理时承担不同角色——浅层作为MoE执行快速检索,深层切换为Dense模式进行整合推理。Ring-Linear架构(2025)已初步实现了第一层用Dense MLP、后续层用MoE的设计。
路径三:Agent框架的内化。将当前Agent架构中”LLM规划器+外部工具”的模式内化为神经网络——Dense子网络作为规划器,MoE子网络作为内部工具集,通过可学习的调度协议交互。
IX. 框架的可检验预测
本文提出五条可被实验否证的预测:
预测一:Dense-controlled routing在需要跨3+专家整合的推理任务上,应优于同参数量的Top-K routing——因为Top-K的token级路由无法感知全局推理需求。
预测二:在”看见但没想到”类多模态任务上,Dense-controlled routing应显著减少routing distraction——因为Dense系统根据任务目标而非输入特征选择专家。
预测三:最优激活专家数应随推理发散度动态上升——简单检索任务top-2即可,复杂跨域推理可能需要top-8+。这个不对称性本身就是功能分离论的预测。
预测四:Dense中断/重问机制应降低幻觉率——幻觉本质上是MoE在信息空洞处的无监督插值,Dense验证可以在输出前拦截不一致的结果。
预测五:Dense-MoE异步双循环在低延迟简单任务上不占优甚至更慢,但在高复杂度、需多步推理的任务上应显著占优。如果双循环在所有任务上都不占优,则功能分离论需要修正。
X. 对AGI的含义
AGI的定义要求三个属性:执行任何认知任务、泛化到新任务、所有领域同时达到人类水平。这三个属性都指向Dense的全连接推理能力,而非MoE的专门化记忆能力。以MoE为主导的缩放路径更倾向于扩大知识覆盖与专家化执行;以Dense为主导的路径更倾向于保留跨域整合与全局推理。AGI需要后者调度前者,而不是让前者替代后者。
本文提出的双架构范式——控制Dense内核作为思维中枢、MoE执行层作为知识矩阵、两者通过异步调度交互——模仿的不是专业化的成人大脑,而是那个还没有被职业训练改造过的、充满跨域连接可能性的年轻大脑。AGI不是更多的鹦鹉。AGI是一个能让所有鹦鹉协同的指挥家。那个指挥家是控制Dense的。
当前行业正在无意中验证这一判断:ERNIE 4.5保留Dense注意力层以维持跨模态交互、仅将MoE限制在FFN层。Ring-Linear在第一层用Dense MLP。Jamba交替使用Dense和MoE层。每一个成功的设计都在向”思维Dense、执行MoE”的方向靠拢——但没有人把它作为设计原则明确提出。本文将这个隐性趋势显性化为一个架构理论。
※ 核心参考文献
[1] Jelassi, S. et al. (2024). Mixture of Parrots: Experts improve memorization more than reasoning. ICLR 2025.
[2] Xu, H. et al. (2026). Seeing but Not Thinking: Routing Distraction in Multimodal MoE. arXiv:2604.08541.
[3] Baars, B.J. (1988). A Cognitive Theory of Consciousness. Cambridge University Press.
[4] Dehaene, S. & Changeux, J.-P. (1998). Global neuronal workspace hypothesis.
[5] Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.
[6] Silver, D. et al. (2016). Mastering the game of Go with deep neural networks. Nature.
[7] arXiv:2604.07035 (2025). Gemma 4, Phi-4, and Qwen3: Dense and MoE Reasoning Comparison.
[8] Sparse Crosscoders (2025). Diffing MoEs and Dense models. arXiv:2603.05805.
[9] Deconstructing Pre-training (AAAI 2026). Knowledge Attribution in MoE and Dense. arXiv:2601.08383.
[10] Expert Strikes Back (2026). Interpreting MoE at Expert Level. arXiv:2604.02178.
[11] Pan et al. (2024). DS-MoE: Dense Training, Sparse Inference. arXiv:2404.05567.
[12] Yao et al. (2023). ReAct: Synergizing Reasoning and Acting in Language Models.
[13] Karpas et al. (2022). MRKL Systems: Modular Reasoning, Knowledge and Language.
[14] UMoE (NeurIPS 2025 Spotlight). Unifying Attention and FFN with Shared Experts. arXiv:2505.07260.
[15] AI21 Labs (2024). Jamba: A Hybrid Transformer-Mamba Language Model. ICLR 2025.
[16] DynaMoE (2026). Dynamic Token-Level Expert Activation. arXiv:2603.01697.
[17] Ring-Linear (2025). Efficient Hybrid Architecture for Long-Context Reasoning. arXiv:2510.19338.
[18] S1S2.ai (2025). Dual-process architecture for robotics.
[19] OM2M (2025). One Model, Two Minds: Context-Gated Dual-Process Graph Learner. arXiv:2509.08705.