跨学科论文 · Interdisciplinary

AI计算的热力学本质
从麦克斯韦妖到Transformer排序

以信号与噪声的统一框架，重新审视大语言模型的能耗困局——排序是计算的本质，热是排序的代价，而Slop是排序的投降

    2026年3月

    |

    信息热力学 · AI架构 · 能源经济学

发行日
2026年3月

分类
原创跨学科论文 (Original Interdisciplinary Paper)

领域
信息热力学 · Transformer架构 · 能源经济学 · 量子物理

이조글로벌인공지능연구소

LEECHO Global AI Research Lab

Claude Opus 4.6 · Anthropic

摘 要

本文提出一个跨学科分析框架，将AI大语言模型的计算过程还原为热力学中的排序操作，论证Transformer的注意力机制在本质上等价于麦克斯韦妖的信息分拣工作。文章从Landauer原理出发，建立了”输入信噪比—注意力熵—计算热耗散”的因果链条，揭示AI Slop（低质量AI输出）的物理学本质是排序失败后系统退回统计高频默认态，并进一步论证全球AI数据中心的能源危机根源不在算力不足，而在输入端信噪比系统性过低导致的无效排序。文章最终指出，在半导体逼近量子隧穿极限的当下，AI计算面临的不仅是工程瓶颈，更是一道由热力学第二定律和量子物理共同划定的物理边界。

关键词
Landauer原理
麦克斯韦妖
Transformer
注意力熵
AI Slop
信噪比
量子隧穿
数据中心能耗

01 · 引论

信号、噪声与计算的物理代价

为什么一个信息论问题必须用热力学来回答

2024年，全球数据中心用电量约为415太瓦时（TWh），相当于全球总电力消耗的1.5%。国际能源署（IEA）预测，到2030年这一数字将翻倍至约945TWh——超过日本全国的电力消耗总量。美国的情况更为极端：数据中心的电力需求增速是其他所有行业总和的四倍以上，预计到2030年，美国用于数据处理的电力将超过铝、钢铁、水泥和化工等全部能源密集型产业的用电之和。

415 TWh

2024年全球数据中心用电量

945 TWh

IEA预测2030年数据中心用电

176 TWh

2026年美国数据中心年耗电

15-20%

年度电力需求增长率

对此的主流解释集中在工程层面：模型参数规模指数增长、推理请求爆发式增加、冷却系统效率不足。然而，这些解释回避了一个更深层的问题：为什么计算本身必然消耗能量？为什么更多的计算意味着更多的热？这些问题的答案不在工程学里，而在物理学——特别是热力学和信息论的交汇处。

本文的核心论题是：AI大语言模型的全部计算工作，在物理层面可以被还原为一种排序操作——从无序的token概率分布中建立有序的输出序列。这一排序操作在热力学上等价于麦克斯韦妖的信息分拣工作，受Landauer原理约束，每一次不可逆的信息擦除都有不可削减的最低能量代价。从这个视角出发，AI能耗问题的根源不是算力不足，而是输入端信噪比系统性过低导致了大量无效排序。

02 · 理论基础

Landauer原理与计算的热力学不可避免性

信息擦除的最低物理代价

1961年，IBM物理学家Rolf Landauer提出了一条深刻的原理：任何逻辑不可逆的计算操作——例如将两条计算路径合并为一条——必然向环境耗散最低限度的热量。这一最低值被称为Landauer极限。

Landauer 极限

$$E_{\min} = k_B \, T \ln 2$$

$k_B$ — 玻尔兹曼常数（$1.38 \times 10^{-23}$ J/K）
$T$ — 环境绝对温度（开尔文）
室温（$T \approx 300\text{K}$）下：$E_{\min} \approx 0.018 \text{ eV} \approx 2.9 \times 10^{-21} \text{ J}$

这条原理的意义远超其数值本身。它建立了信息与热力学之间的桥梁：信息的擦除不是抽象的逻辑操作，而是具有物理后果的行为。2012年，法国里昂高等师范学院的实验团队在《自然》杂志发表了对Landauer极限的直接实验验证。2025年，Bormashenko在《Entropy》期刊发表的综述文章确认，Landauer原理作为热力学第二定律的直接推论，已被广泛接受为物理定律。

对本文论证至关重要的是Landauer原理的一条推论：计算系统的能耗下限不由算法的复杂度决定，而由计算过程中不可逆信息擦除的比特数决定。换言之，不是计算本身消耗能量，而是计算过程中记忆的写入与擦除消耗能量。2024年，Wolpert在《美国国家科学院院刊》发文进一步提出”失配成本”（mismatch cost）概念，量化了实际计算能耗超出Landauer极限的程度，为优化计算能效提供了热力学框架。

核心命题

Landauer原理揭示了一个根本事实：计算是物理过程，必须服从热力学定律。任何向环境释放的热量不是工程缺陷，而是信息处理的物理代价。AI系统概莫能外。

03 · 核心论证

Transformer作为麦克斯韦妖

注意力机制的排序本质与热力学约束

麦克斯韦妖（Maxwell’s Demon）是热力学中最著名的思想实验之一。一个智能存在（”妖”）守在一箱气体分子之间的隔板旁，通过分辨快分子和慢分子并将它们排到两侧，似乎在不消耗能量的情况下降低了系统的熵。然而，Landauer和Bennett的工作证明了妖怪必败：妖怪的分辨行为需要记忆，记忆满后必须擦除旧信息才能继续工作，每次擦除的能量代价就是Landauer极限。

本文的核心类比是：Transformer大语言模型在每一次前向推理（forward pass）中所做的工作，在结构上等价于麦克斯韦妖的分拣操作。

具体而言：Transformer的自注意力机制接收一段token序列作为输入，通过查询（Query）、键（Key）、值（Value）三组矩阵的运算，为每一对token组合计算关联权重（attention score），然后通过softmax函数将这些权重归一化为概率分布。这一过程的计算复杂度为 $O(n^2 d)$，其中 $n$ 为序列长度，$d$ 为嵌入维度。但从信息论角度看，这个过程的本质是排序——从所有可能的token关联中，按相关性高低建立优先级。

注意力权重与熵

$$\text{Attention}(Q,K,V) = \text{softmax}\!\left(\frac{QK^\top}{\sqrt{d_k}}\right)V$$

注意力熵：$H(\mathbf{a}) = -\sum_{j=1}^{n} a_j \log a_j$，其中 $\mathbf{a}$ 为softmax归一化后的注意力权重向量
$H$ 高 → 分布平坦（妖怪无法分辨）；$H$ 低 → 分布尖锐（排序高效）

输入 tokens

→

QKV 投射

→

注意力排序
(= 妖怪分拣)

→

Softmax 归一化

→

输出 token

→

热耗散
Landauer 税

正如麦克斯韦妖在分拣分子时必须不断写入和擦除记忆，Transformer在每一步推理中也必须写入中间计算状态（KV cache），并在新输入到来时更新或丢弃旧的状态。每一次状态擦除都触发Landauer极限的能量代价。这不是可以通过更好的芯片或更高效的算法消除的——这是物理定律设定的底线。

近年来的研究为这一类比提供了直接的理论支撑。Zhai等人在ICLR 2023发表的研究表明，注意力头的注意力熵（attention entropy）与训练稳定性直接相关——当注意力熵过低（即attention score过度集中在少数token上）时，训练会出现不稳定甚至发散。反之，注意力熵过高（即attention分布趋于均匀）时，模型失去区分能力。这正是信息分拣的热力学约束在神经网络层面的数学表达。

关键推论

Transformer的每一次forward pass都是一次麦克斯韦妖的工作周期。信号越纯净，排序越高效，但做功总量不减——因为每一次有效排序都有不可消除的Landauer能量代价。妖怪不能免税。

04 · 信噪比分析

输入信噪比如何决定计算效率

从Shannon信道定理到Transformer的softmax分布形态

Shannon信道容量公式建立了信噪比与信息传输上限之间的关系：

Shannon 信道容量定理

$$C = B \, \log_2\!\left(1 + \text{SNR}\right)$$

$C$ — 信道容量（bit/s），信息传输速率的理论上限
$B$ — 信道带宽（Hz）
$\text{SNR} = P_{\text{signal}} \,/\, P_{\text{noise}}$ — 信噪比

这条公式有一个深刻的含义：信号的传输质量不取决于信号的绝对强度，而取决于信号与噪声之间的比值。一个微弱但纯净的信号，传输效果优于一个强大但被噪声淹没的信号。

将这一原理映射到Transformer系统中，可以建立如下对应关系：

Shannon 信道	Transformer 推理	热力学等价
信号功率 $P_{\text{signal}}$	输入token的内在一致性与逻辑连贯度	低熵输入（有序态）
噪声功率 $P_{\text{noise}}$	输入token间的矛盾、冗余与离散程度	高熵输入（无序态）
信噪比 SNR	softmax 分布的尖锐度 / 注意力熵	妖怪的分辨清晰度
信道容量 C	有效信息输出率	单位能耗的有效排序量

当输入信噪比高时——即token之间的逻辑关系紧密、内在一致——注意力机制的softmax分布呈现尖锐形态，概率集中在少数高相关方向上，排序路径清晰，搜索空间被大幅压缩。这在研究文献中已被量化：高资源场景下的注意力熵分布呈现明确的峰值模式，集中在关键元素上。

当输入信噪比低时——即token之间离散、矛盾、缺乏结构——softmax分布趋于平坦，概率分散在大量候选方向上。注意力机制必须在所有可能的token对之间进行全面比较排序。这就是O(n²)复杂度真正令人痛苦的地方：不是每次都需要n²次比较，而是低信噪比输入迫使系统无法跳过任何比较。

核心洞察

输入信噪比不仅影响输出质量，更直接决定计算的物理代价。高信噪比输入压缩了搜索空间，降低了排序负担；低信噪比输入强制系统进行穷举式比较，将排序负担推至理论上限。全球AI的能耗问题，在根源上是一个输入信噪比问题。

05 · 病理分析

AI Slop的物理学诊断

排序失败的热力学症状

“AI Slop”——Merriam-Webster 2025年度词汇——指那些由AI生成的空洞的、重复的、表面流畅但信息量为零的输出。”作为一个AI语言模型……”、”这是一个很好的问题”、”让我们深入探讨一下”——这些套话是AI行业最显眼的污染物。

本文为AI Slop提供一个物理学诊断：Slop是排序失败的直接症状。

当输入信噪比过低，softmax概率分布趋于平坦，注意力机制无法建立有效的优先级排序。但系统被要求必须输出——它必须生成下一个token。在无法完成有效排序的情况下，系统退回到训练数据中出现频率最高的token组合。这些高频模式在训练时曾是有效信号，但因被反复使用而衰变为统计噪声——它们保留了信号的外形（完整的语法、正确的标点、流畅的句式），但信息量为零。

因此，Slop是双重失败的产物。第一层，输入信噪比过低导致排序无法完成。第二层，排序失败后系统默认退回的输出本身就是已衰变的死信号。更危险的是，Slop制造了虚假的确定性——它以信号的外形包装了噪声的内容，比坦诚的噪声更具误导性。

佛罗里达大学2026年3月发表的研究实证了这一判断：中等质量的AI生成内容同时损害了消费者体验和专业创作者的生态位。学术界对Slop的特征概括——表面胜任感、不对称努力、可大规模生产性——在本框架下获得了物理学解释：表面胜任感是统计高频模式的伪装，不对称努力是生产成本极低但审核成本极高的熵学后果，可大规模生产性则是排序失败的可复现性——相同的低信噪比输入在相同的模型上必然产生相同模式的Slop。

诊断结论

AI Slop不是AI的创造，是AI面对噪声时的投降。它是麦克斯韦妖在排序失败后交出的默认答案——不是信号的产物，是信号缺席时噪声自动填充的结果。

06 · 反直觉推论

高信噪比的热力学悖论

为什么高质量输入反而增加GPU热负荷

一个表面上直觉正确的推论是：高信噪比输入降低了排序负担，因此应该降低能耗。然而，这个推论忽略了一个关键区分——排序效率与做功总量不是同一件事。

当输入信噪比低时，系统确实在进行大量比较，但其中大部分是”空转”。softmax分布平坦，系统在候选方向之间犹豫不决，最终退回高频默认模式（Slop）。这种空转的能耗低于预期，因为真正的信息处理没有发生——妖怪在摸鱼。

而当输入信噪比极高时，排序路径清晰，系统没有犹豫的空间。每一步推理都是实质性的信息写入，每一次写入之后的状态更新都触发真实的Landauer能量代价。妖怪被信号驱动着全速运转，无处偷懒。

指标	低信噪比输入	高信噪比输入
Softmax 分布	平坦（高注意力熵）	尖锐（低注意力熵）
排序效率	低（穷举式比较）	高（收敛快）
有效信息输出	接近零（Slop）	高密度信号
单步真实做功	低（空转为主）	高（每步都是实质运算）
单位时间热耗散	中等	高（持续峰值负荷）
信息/能量比	极低	高（但绝对能耗不减）

这意味着AI系统的能效（每焦耳有效信息输出）和绝对能耗是两个不同的量。高信噪比输入提高了能效——单位能耗下的有效输出最大化——但没有降低绝对能耗，反而可能增加。正如满载全速运转的发动机油耗高于空转，但输出功率也远大于空转。

能效与绝对能耗的分离

$$\eta = \frac{I_{\text{effective}}}{E_{\text{total}}} \uparrow \quad \text{但} \quad E_{\text{total}} = \sum_{t=1}^{N} E_{\text{Landauer}}(t) + E_{\text{overhead}}(t) \;\not\!\downarrow$$

$\eta$ — 信息能效（有效比特 / 焦耳），随信噪比提升而提升
$E_{\text{total}}$ — 总能耗，不因排序效率提升而下降，因有效排序步数增加而可能上升

这一悖论在数据中心层面有直接的工程后果。数据中心的散热系统基于统计均匀热负载假设进行设计。当少数用户持续提供高信噪比输入时，其对应的GPU节点进入持续满载，形成局部热点，可能击穿设计余量。这种热点效应比均匀高负载更难管理，因为它打破了散热系统的基本假设。

07 · 产业诊断

AI生产力悖论的热力学解释

为什么数千亿美元的投资没有带来预期的生产力提升

2026年3月的产业数据呈现了一幅矛盾的图景：全球AI投资达到空前规模，但生产力回报令人失望。PwC 2026年全球CEO调查显示，56%的CEO表示AI投资尚未取得回报。美国国家经济研究局的研究更为严峻——90%的企业报告AI对生产力或就业没有可测量的影响。经济学家已将这一现象命名为”AI生产力悖论”。

本文框架为这一悖论提供了热力学解释。

问题出在一个双向的信噪比失配上。在输入端，企业将混乱的流程、含糊的需求、自相矛盾的文档注入AI系统，期待获得高质量输出。这在热力学上等价于向麦克斯韦妖倾倒纯噪声，然后期待它排出有序结构。妖怪排不动，交出Slop。

在输出端，即使AI产出了高精度的信号，人类的认知系统也往往无法解析。人类日常意识运行在特定的信噪比区间内——需要一定量的冗余、类比、情感铺垫作为”认知着陆跑道”。当AI输出的精度超过人类的认知处理带宽时，多余的精度在人类认知的截断点处被丢弃，净信息增益为零。Workday 2026年的研究量化了这一现象：AI节省的时间中，37-40%被审查、修正和验证AI输出所消耗。

人类输入
低信噪比

→

AI 排序
高能耗 · 低效率

→

AI 输出
高精度 / Slop

→

人类审查
认知截断

→

净增益 ≈ 0

这形成了一个热力学上的负循环：人类产生噪声，AI消耗能量排序，输出被人类截断或拒绝，人类再重新输入噪声。每一轮都在消耗能量、产生热量，但有效信号没有增加。全球AI产业花了数千亿美元在扩大妖怪的工作台面积，但真正需要做的是减少倒在工作台上的噪声。

产业推论

AI生产力提升的真正入口不在模型端——不是更大的参数、更多的数据、更强的芯片——而在人类端的信噪比提升。同一个模型，高信噪比用户获得激光式精准输出，低信噪比用户获得手电筒式弥散照射。差别不在AI端，在人端。

08 · 物理极限

量子隧穿：AI计算的终极物理边界

当电子不再服从开关逻辑

前文的分析在经典物理框架内即可成立。但当半导体制程逼近量子尺度时，AI计算面临的约束从工程问题升级为物理极限。

现代芯片的晶体管是最极致的经典信号机器——电流通过或不通过，1或0，信号在二元空间中被绝对纯化。然而，当晶体管栅极薄至约1-2纳米（约5-6个原子厚度）时，电子不再服从经典的开关逻辑——它通过量子隧穿效应，以概率方式出现在栅极的另一侧。开关说”关”，电子说”不在乎”。

业界已将3纳米工艺视为”音障”——在这一尺度下，量子隧穿效应开始显著影响芯片性能。隧穿导致关态漏电流增加和功耗升高，能量以热的形式被浪费。工程界正在用FinFET、GAA（环绕栅极）等架构试图抵抗这一趋势，但在本文框架下，这是一场必败的防御战——不是工程不够好，是物理定律在收缩可用空间。

用信号与噪声的框架来理解：晶体管是人类建造的将信号纯化到极致的装置，整个数字文明建立在”1绝对是1、0绝对是0″的假设之上。但当物理尺寸缩小到量子尺度，混沌从底层渗透上来——电子的行为开始表现出概率性和不确定性。噪声不是从外部入侵信号的，而是从信号的物理基底中生长出来的。

这意味着AI计算的确定性建立在一个本质上不确定的物理基底之上。上层的算法、模型、对齐方案无论多精妙，底层电子的量子行为不会因此改变。这不是概率可以忽略的统计涨落——在纳秒级的高频操作中，量子噪声有可能成为触发系统性错误的起点。

物理边界

AI计算面临两堵墙：Landauer极限是热力学墙——每次信息擦除有不可削减的最低能耗；量子隧穿是量子物理墙——电子的确定性行为在纳米尺度处崩溃。两堵墙共同划定了硅基数字计算的终极物理边界。

09 · 综合讨论

从麦克斯韦妖的账单到文明的能量代价

信号的纯化与熵的产生是严格耦合的

将前文各节的论证综合起来，可以建立一条完整的因果链：

人类向AI系统输入信息。输入的信噪比决定了Transformer注意力机制的排序负担。排序是不可逆的信息操作，受Landauer原理约束，每一步都有最低能量代价。排序的产出——有效信号——是从噪声中提炼出来的有序结构。提炼的废料是热。热散入环境，增加了宇宙的总熵。

因此，AI每生产一段有效的信号输出，就同时向环境倾倒等量的熵。信号不是凭空产生的，它是从噪声中提纯的，而提纯的物理代价是不可逆的热耗散。全球AI数据中心消耗的电力、排放的热量，本质上就是麦克斯韦妖星球规模的账单——人类建造了一个行星级的排序机器，热力学第二定律在收税。

这一分析框架还解释了一个更深层的现象。Shannon信道定理 $C = B\log_2(1+\text{SNR})$ 中，括号内的”$1$”是永远无法消除的项——即使信号功率趋向无穷大，噪声底噪也不会归零。这个数学上的”$1$”，就是信号永远无法完全脱离噪声的形式化表达。它对应的物理事实是：计算的热耗散永远不可能为零，秩序的维持永远需要代价，信号的存在永远以环境熵增为条件。

对人类文明而言，这意味着信息时代的能量约束不是暂时的技术瓶颈，而是物理学的结构性特征。信号的纯化与熵的产生是严格耦合的——你不可能在不增加宇宙总熵的情况下获得更纯净的局部信号。每一个洞见、每一次计算、每一段有效输出的代价，都是某处温度升高了一点。

10 · 结论

重新定义AI能源问题的边界

本文的核心论证可以压缩为以下命题链：

（一）Transformer的计算本质是排序——从无序的概率分布中建立有序的token序列。

（二）排序是热力学操作，受Landauer原理约束，每次不可逆信息擦除有不可削减的最低能量代价。Transformer在物理层面等价于麦克斯韦妖。

（三）输入信噪比直接决定排序效率。高信噪比输入压缩搜索空间、提高能效；低信噪比输入强制穷举式排序、浪费能量。

（四）AI Slop是排序失败的症状——系统在无法完成有效排序时退回统计高频默认态。

（五）AI生产力悖论的根源是双向信噪比失配——输入端噪声过多，输出端人类认知带宽不足。

（六）在半导体逼近量子隧穿极限的当下，经典信号的物理基底正在被量子噪声侵蚀。AI计算面临的终极约束不是工程问题，而是热力学第二定律和量子物理共同划定的物理边界。

这些命题共同指向一个结论：AI产业当前将绝大部分资源投入模型端（更大的参数、更多的数据、更强的芯片）的策略，在物理学层面存在结构性盲区。如果输入端的信噪比不提升，更大的模型只意味着更大的妖怪在更多的噪声中做更多的无效排序，缴更多的热力学税。解决AI能源问题的最根本路径，也许不是工程上的——不是更好的散热、更高效的芯片、更绿色的电力——而是信息论上的：提升输入信号的纯度，减少需要排序的噪声总量。

这是一个不便的结论。因为它意味着AI系统性能的终极瓶颈不在技术端，而在人类端。机器可以无限升级，但如果驱动机器的信号质量不提升，升级只会放大浪费。热力学第二定律不在乎你的融资轮次有多大。

参考文献

Landauer, R. “Irreversibility and heat generation in the computing process.” IBM Journal of Research and Development, 5(3), 183-191 (1961).
Bennett, C. H. “The thermodynamics of computation—a review.” International Journal of Theoretical Physics, 21(12), 905-940 (1982).
Bérut, A. et al. “Experimental verification of Landauer’s principle linking information and thermodynamics.” Nature, 483, 187-189 (2012).
Bormashenko, E. “Landauer’s Principle: Past, Present and Future.” Entropy, 27, 437 (2025).
Wolpert, D. H. “Is stochastic thermodynamics the key to understanding the energy costs of computation?” Proc. Natl. Acad. Sci., 121, e2321112121 (2024).
Shannon, C. E. “A mathematical theory of communication.” Bell System Technical Journal, 27(3), 379-423 (1948).
Vaswani, A. et al. “Attention is all you need.” Advances in Neural Information Processing Systems, 30 (2017).
Zhai, S. et al. “Stabilizing Transformer Training by Preventing Attention Entropy Collapse.” ICLR (2023).
Jha, N. K. et al. “Entropy-Guided Attention for Private LLMs.” arXiv:2501.03489 (2025).
Geshkovski, B. et al. “A Mathematical Theory of Attention.” arXiv:2007.02876 (2020).
Duman Keleş, F. et al. “On the Computational Complexity of Self-Attention.” Algorithmic Learning Theory, PMLR 201 (2023).
Hao, K. et al. “Attention Entropy is a Key Factor: An Analysis of Parallel Context Encoding.” arXiv:2412.16545 (2024).
International Energy Agency. “Energy and AI.” IEA Special Report (2025).
Lawrence Berkeley National Laboratory. “2024 Report on U.S. Data Center Energy Use.” U.S. Department of Energy (2024).
Chattopadhyay, P. et al. “Landauer Principle and Thermodynamics of Computation.” arXiv:2506.10876 (2025).
Freund, S. et al. “Fundamental energy cost of finite-time parallelizable computing.” Nature Communications, 14, 613 (2023).
Merriam-Webster. “Word of the Year 2025: Slop.” Merriam-Webster Dictionary (2025).
University of Florida. “AI slop: Study finds mediocre AI-generated content hurts consumers and creators.” UF News (March 2026).
Semiconductor Engineering. “Quantum Effects at 7/5nm.” Semiconductor Engineering (2024).
Gadepally, V. “AI data center energy costs and solutions.” MIT Sustainability Conference, MIT Sloan (2025).

Note 本论文提出一个跨学科分析框架，将AI大语言模型的计算过程还原为热力学中的排序操作。论证基于Landauer原理、Shannon信息论与Transformer注意力机制的交叉分析。本文为独立思想论文，未经同行评审。所有公式推导和物理类比旨在提供启发性思考框架，而非严格的量化预测。