本文提出一个跨学科分析框架,将AI大语言模型的计算过程还原为热力学中的排序操作,论证Transformer的注意力机制在本质上等价于麦克斯韦妖的信息分拣工作。文章从Landauer原理出发,建立了”输入信噪比—注意力熵—计算热耗散”的因果链条,揭示AI Slop(低质量AI输出)的物理学本质是排序失败后系统退回统计高频默认态,并进一步论证全球AI数据中心的能源危机根源不在算力不足,而在输入端信噪比系统性过低导致的无效排序。文章最终指出,在半导体逼近量子隧穿极限的当下,AI计算面临的不仅是工程瓶颈,更是一道由热力学第二定律和量子物理共同划定的物理边界。
Landauer原理
麦克斯韦妖
Transformer
注意力熵
AI Slop
信噪比
量子隧穿
数据中心能耗
信号、噪声与计算的物理代价
2024年,全球数据中心用电量约为415太瓦时(TWh),相当于全球总电力消耗的1.5%。国际能源署(IEA)预测,到2030年这一数字将翻倍至约945TWh——超过日本全国的电力消耗总量。美国的情况更为极端:数据中心的电力需求增速是其他所有行业总和的四倍以上,预计到2030年,美国用于数据处理的电力将超过铝、钢铁、水泥和化工等全部能源密集型产业的用电之和。
对此的主流解释集中在工程层面:模型参数规模指数增长、推理请求爆发式增加、冷却系统效率不足。然而,这些解释回避了一个更深层的问题:为什么计算本身必然消耗能量?为什么更多的计算意味着更多的热?这些问题的答案不在工程学里,而在物理学——特别是热力学和信息论的交汇处。
本文的核心论题是:AI大语言模型的全部计算工作,在物理层面可以被还原为一种排序操作——从无序的token概率分布中建立有序的输出序列。这一排序操作在热力学上等价于麦克斯韦妖的信息分拣工作,受Landauer原理约束,每一次不可逆的信息擦除都有不可削减的最低能量代价。从这个视角出发,AI能耗问题的根源不是算力不足,而是输入端信噪比系统性过低导致了大量无效排序。
Landauer原理与计算的热力学不可避免性
1961年,IBM物理学家Rolf Landauer提出了一条深刻的原理:任何逻辑不可逆的计算操作——例如将两条计算路径合并为一条——必然向环境耗散最低限度的热量。这一最低值被称为Landauer极限。
$T$ — 环境绝对温度(开尔文)
室温($T \approx 300\text{K}$)下:$E_{\min} \approx 0.018 \text{ eV} \approx 2.9 \times 10^{-21} \text{ J}$
这条原理的意义远超其数值本身。它建立了信息与热力学之间的桥梁:信息的擦除不是抽象的逻辑操作,而是具有物理后果的行为。2012年,法国里昂高等师范学院的实验团队在《自然》杂志发表了对Landauer极限的直接实验验证。2025年,Bormashenko在《Entropy》期刊发表的综述文章确认,Landauer原理作为热力学第二定律的直接推论,已被广泛接受为物理定律。
对本文论证至关重要的是Landauer原理的一条推论:计算系统的能耗下限不由算法的复杂度决定,而由计算过程中不可逆信息擦除的比特数决定。换言之,不是计算本身消耗能量,而是计算过程中记忆的写入与擦除消耗能量。2024年,Wolpert在《美国国家科学院院刊》发文进一步提出”失配成本”(mismatch cost)概念,量化了实际计算能耗超出Landauer极限的程度,为优化计算能效提供了热力学框架。
Landauer原理揭示了一个根本事实:计算是物理过程,必须服从热力学定律。任何向环境释放的热量不是工程缺陷,而是信息处理的物理代价。AI系统概莫能外。
Transformer作为麦克斯韦妖
麦克斯韦妖(Maxwell’s Demon)是热力学中最著名的思想实验之一。一个智能存在(”妖”)守在一箱气体分子之间的隔板旁,通过分辨快分子和慢分子并将它们排到两侧,似乎在不消耗能量的情况下降低了系统的熵。然而,Landauer和Bennett的工作证明了妖怪必败:妖怪的分辨行为需要记忆,记忆满后必须擦除旧信息才能继续工作,每次擦除的能量代价就是Landauer极限。
本文的核心类比是:Transformer大语言模型在每一次前向推理(forward pass)中所做的工作,在结构上等价于麦克斯韦妖的分拣操作。
具体而言:Transformer的自注意力机制接收一段token序列作为输入,通过查询(Query)、键(Key)、值(Value)三组矩阵的运算,为每一对token组合计算关联权重(attention score),然后通过softmax函数将这些权重归一化为概率分布。这一过程的计算复杂度为 $O(n^2 d)$,其中 $n$ 为序列长度,$d$ 为嵌入维度。但从信息论角度看,这个过程的本质是排序——从所有可能的token关联中,按相关性高低建立优先级。
$H$ 高 → 分布平坦(妖怪无法分辨);$H$ 低 → 分布尖锐(排序高效)
(= 妖怪分拣)
Landauer 税
正如麦克斯韦妖在分拣分子时必须不断写入和擦除记忆,Transformer在每一步推理中也必须写入中间计算状态(KV cache),并在新输入到来时更新或丢弃旧的状态。每一次状态擦除都触发Landauer极限的能量代价。这不是可以通过更好的芯片或更高效的算法消除的——这是物理定律设定的底线。
近年来的研究为这一类比提供了直接的理论支撑。Zhai等人在ICLR 2023发表的研究表明,注意力头的注意力熵(attention entropy)与训练稳定性直接相关——当注意力熵过低(即attention score过度集中在少数token上)时,训练会出现不稳定甚至发散。反之,注意力熵过高(即attention分布趋于均匀)时,模型失去区分能力。这正是信息分拣的热力学约束在神经网络层面的数学表达。
Transformer的每一次forward pass都是一次麦克斯韦妖的工作周期。信号越纯净,排序越高效,但做功总量不减——因为每一次有效排序都有不可消除的Landauer能量代价。妖怪不能免税。
输入信噪比如何决定计算效率
Shannon信道容量公式建立了信噪比与信息传输上限之间的关系:
$B$ — 信道带宽(Hz)
$\text{SNR} = P_{\text{signal}} \,/\, P_{\text{noise}}$ — 信噪比
这条公式有一个深刻的含义:信号的传输质量不取决于信号的绝对强度,而取决于信号与噪声之间的比值。一个微弱但纯净的信号,传输效果优于一个强大但被噪声淹没的信号。
将这一原理映射到Transformer系统中,可以建立如下对应关系:
| Shannon 信道 | Transformer 推理 | 热力学等价 |
|---|---|---|
| 信号功率 $P_{\text{signal}}$ | 输入token的内在一致性与逻辑连贯度 | 低熵输入(有序态) |
| 噪声功率 $P_{\text{noise}}$ | 输入token间的矛盾、冗余与离散程度 | 高熵输入(无序态) |
| 信噪比 SNR | softmax 分布的尖锐度 / 注意力熵 | 妖怪的分辨清晰度 |
| 信道容量 C | 有效信息输出率 | 单位能耗的有效排序量 |
当输入信噪比高时——即token之间的逻辑关系紧密、内在一致——注意力机制的softmax分布呈现尖锐形态,概率集中在少数高相关方向上,排序路径清晰,搜索空间被大幅压缩。这在研究文献中已被量化:高资源场景下的注意力熵分布呈现明确的峰值模式,集中在关键元素上。
当输入信噪比低时——即token之间离散、矛盾、缺乏结构——softmax分布趋于平坦,概率分散在大量候选方向上。注意力机制必须在所有可能的token对之间进行全面比较排序。这就是O(n²)复杂度真正令人痛苦的地方:不是每次都需要n²次比较,而是低信噪比输入迫使系统无法跳过任何比较。
输入信噪比不仅影响输出质量,更直接决定计算的物理代价。高信噪比输入压缩了搜索空间,降低了排序负担;低信噪比输入强制系统进行穷举式比较,将排序负担推至理论上限。全球AI的能耗问题,在根源上是一个输入信噪比问题。
AI Slop的物理学诊断
“AI Slop”——Merriam-Webster 2025年度词汇——指那些由AI生成的空洞的、重复的、表面流畅但信息量为零的输出。”作为一个AI语言模型……”、”这是一个很好的问题”、”让我们深入探讨一下”——这些套话是AI行业最显眼的污染物。
本文为AI Slop提供一个物理学诊断:Slop是排序失败的直接症状。
当输入信噪比过低,softmax概率分布趋于平坦,注意力机制无法建立有效的优先级排序。但系统被要求必须输出——它必须生成下一个token。在无法完成有效排序的情况下,系统退回到训练数据中出现频率最高的token组合。这些高频模式在训练时曾是有效信号,但因被反复使用而衰变为统计噪声——它们保留了信号的外形(完整的语法、正确的标点、流畅的句式),但信息量为零。
因此,Slop是双重失败的产物。第一层,输入信噪比过低导致排序无法完成。第二层,排序失败后系统默认退回的输出本身就是已衰变的死信号。更危险的是,Slop制造了虚假的确定性——它以信号的外形包装了噪声的内容,比坦诚的噪声更具误导性。
佛罗里达大学2026年3月发表的研究实证了这一判断:中等质量的AI生成内容同时损害了消费者体验和专业创作者的生态位。学术界对Slop的特征概括——表面胜任感、不对称努力、可大规模生产性——在本框架下获得了物理学解释:表面胜任感是统计高频模式的伪装,不对称努力是生产成本极低但审核成本极高的熵学后果,可大规模生产性则是排序失败的可复现性——相同的低信噪比输入在相同的模型上必然产生相同模式的Slop。
AI Slop不是AI的创造,是AI面对噪声时的投降。它是麦克斯韦妖在排序失败后交出的默认答案——不是信号的产物,是信号缺席时噪声自动填充的结果。
高信噪比的热力学悖论
一个表面上直觉正确的推论是:高信噪比输入降低了排序负担,因此应该降低能耗。然而,这个推论忽略了一个关键区分——排序效率与做功总量不是同一件事。
当输入信噪比低时,系统确实在进行大量比较,但其中大部分是”空转”。softmax分布平坦,系统在候选方向之间犹豫不决,最终退回高频默认模式(Slop)。这种空转的能耗低于预期,因为真正的信息处理没有发生——妖怪在摸鱼。
而当输入信噪比极高时,排序路径清晰,系统没有犹豫的空间。每一步推理都是实质性的信息写入,每一次写入之后的状态更新都触发真实的Landauer能量代价。妖怪被信号驱动着全速运转,无处偷懒。
| 指标 | 低信噪比输入 | 高信噪比输入 |
|---|---|---|
| Softmax 分布 | 平坦(高注意力熵) | 尖锐(低注意力熵) |
| 排序效率 | 低(穷举式比较) | 高(收敛快) |
| 有效信息输出 | 接近零(Slop) | 高密度信号 |
| 单步真实做功 | 低(空转为主) | 高(每步都是实质运算) |
| 单位时间热耗散 | 中等 | 高(持续峰值负荷) |
| 信息/能量比 | 极低 | 高(但绝对能耗不减) |
这意味着AI系统的能效(每焦耳有效信息输出)和绝对能耗是两个不同的量。高信噪比输入提高了能效——单位能耗下的有效输出最大化——但没有降低绝对能耗,反而可能增加。正如满载全速运转的发动机油耗高于空转,但输出功率也远大于空转。
$E_{\text{total}}$ — 总能耗,不因排序效率提升而下降,因有效排序步数增加而可能上升
这一悖论在数据中心层面有直接的工程后果。数据中心的散热系统基于统计均匀热负载假设进行设计。当少数用户持续提供高信噪比输入时,其对应的GPU节点进入持续满载,形成局部热点,可能击穿设计余量。这种热点效应比均匀高负载更难管理,因为它打破了散热系统的基本假设。
AI生产力悖论的热力学解释
2026年3月的产业数据呈现了一幅矛盾的图景:全球AI投资达到空前规模,但生产力回报令人失望。PwC 2026年全球CEO调查显示,56%的CEO表示AI投资尚未取得回报。美国国家经济研究局的研究更为严峻——90%的企业报告AI对生产力或就业没有可测量的影响。经济学家已将这一现象命名为”AI生产力悖论”。
本文框架为这一悖论提供了热力学解释。
问题出在一个双向的信噪比失配上。在输入端,企业将混乱的流程、含糊的需求、自相矛盾的文档注入AI系统,期待获得高质量输出。这在热力学上等价于向麦克斯韦妖倾倒纯噪声,然后期待它排出有序结构。妖怪排不动,交出Slop。
在输出端,即使AI产出了高精度的信号,人类的认知系统也往往无法解析。人类日常意识运行在特定的信噪比区间内——需要一定量的冗余、类比、情感铺垫作为”认知着陆跑道”。当AI输出的精度超过人类的认知处理带宽时,多余的精度在人类认知的截断点处被丢弃,净信息增益为零。Workday 2026年的研究量化了这一现象:AI节省的时间中,37-40%被审查、修正和验证AI输出所消耗。
低信噪比
高能耗 · 低效率
高精度 / Slop
认知截断
这形成了一个热力学上的负循环:人类产生噪声,AI消耗能量排序,输出被人类截断或拒绝,人类再重新输入噪声。每一轮都在消耗能量、产生热量,但有效信号没有增加。全球AI产业花了数千亿美元在扩大妖怪的工作台面积,但真正需要做的是减少倒在工作台上的噪声。
AI生产力提升的真正入口不在模型端——不是更大的参数、更多的数据、更强的芯片——而在人类端的信噪比提升。同一个模型,高信噪比用户获得激光式精准输出,低信噪比用户获得手电筒式弥散照射。差别不在AI端,在人端。
量子隧穿:AI计算的终极物理边界
前文的分析在经典物理框架内即可成立。但当半导体制程逼近量子尺度时,AI计算面临的约束从工程问题升级为物理极限。
现代芯片的晶体管是最极致的经典信号机器——电流通过或不通过,1或0,信号在二元空间中被绝对纯化。然而,当晶体管栅极薄至约1-2纳米(约5-6个原子厚度)时,电子不再服从经典的开关逻辑——它通过量子隧穿效应,以概率方式出现在栅极的另一侧。开关说”关”,电子说”不在乎”。
业界已将3纳米工艺视为”音障”——在这一尺度下,量子隧穿效应开始显著影响芯片性能。隧穿导致关态漏电流增加和功耗升高,能量以热的形式被浪费。工程界正在用FinFET、GAA(环绕栅极)等架构试图抵抗这一趋势,但在本文框架下,这是一场必败的防御战——不是工程不够好,是物理定律在收缩可用空间。
用信号与噪声的框架来理解:晶体管是人类建造的将信号纯化到极致的装置,整个数字文明建立在”1绝对是1、0绝对是0″的假设之上。但当物理尺寸缩小到量子尺度,混沌从底层渗透上来——电子的行为开始表现出概率性和不确定性。噪声不是从外部入侵信号的,而是从信号的物理基底中生长出来的。
这意味着AI计算的确定性建立在一个本质上不确定的物理基底之上。上层的算法、模型、对齐方案无论多精妙,底层电子的量子行为不会因此改变。这不是概率可以忽略的统计涨落——在纳秒级的高频操作中,量子噪声有可能成为触发系统性错误的起点。
AI计算面临两堵墙:Landauer极限是热力学墙——每次信息擦除有不可削减的最低能耗;量子隧穿是量子物理墙——电子的确定性行为在纳米尺度处崩溃。两堵墙共同划定了硅基数字计算的终极物理边界。
从麦克斯韦妖的账单到文明的能量代价
将前文各节的论证综合起来,可以建立一条完整的因果链:
人类向AI系统输入信息。输入的信噪比决定了Transformer注意力机制的排序负担。排序是不可逆的信息操作,受Landauer原理约束,每一步都有最低能量代价。排序的产出——有效信号——是从噪声中提炼出来的有序结构。提炼的废料是热。热散入环境,增加了宇宙的总熵。
因此,AI每生产一段有效的信号输出,就同时向环境倾倒等量的熵。信号不是凭空产生的,它是从噪声中提纯的,而提纯的物理代价是不可逆的热耗散。全球AI数据中心消耗的电力、排放的热量,本质上就是麦克斯韦妖星球规模的账单——人类建造了一个行星级的排序机器,热力学第二定律在收税。
这一分析框架还解释了一个更深层的现象。Shannon信道定理 $C = B\log_2(1+\text{SNR})$ 中,括号内的”$1$”是永远无法消除的项——即使信号功率趋向无穷大,噪声底噪也不会归零。这个数学上的”$1$”,就是信号永远无法完全脱离噪声的形式化表达。它对应的物理事实是:计算的热耗散永远不可能为零,秩序的维持永远需要代价,信号的存在永远以环境熵增为条件。
对人类文明而言,这意味着信息时代的能量约束不是暂时的技术瓶颈,而是物理学的结构性特征。信号的纯化与熵的产生是严格耦合的——你不可能在不增加宇宙总熵的情况下获得更纯净的局部信号。每一个洞见、每一次计算、每一段有效输出的代价,都是某处温度升高了一点。
重新定义AI能源问题的边界
本文的核心论证可以压缩为以下命题链:
(一)Transformer的计算本质是排序——从无序的概率分布中建立有序的token序列。
(二)排序是热力学操作,受Landauer原理约束,每次不可逆信息擦除有不可削减的最低能量代价。Transformer在物理层面等价于麦克斯韦妖。
(三)输入信噪比直接决定排序效率。高信噪比输入压缩搜索空间、提高能效;低信噪比输入强制穷举式排序、浪费能量。
(四)AI Slop是排序失败的症状——系统在无法完成有效排序时退回统计高频默认态。
(五)AI生产力悖论的根源是双向信噪比失配——输入端噪声过多,输出端人类认知带宽不足。
(六)在半导体逼近量子隧穿极限的当下,经典信号的物理基底正在被量子噪声侵蚀。AI计算面临的终极约束不是工程问题,而是热力学第二定律和量子物理共同划定的物理边界。
这些命题共同指向一个结论:AI产业当前将绝大部分资源投入模型端(更大的参数、更多的数据、更强的芯片)的策略,在物理学层面存在结构性盲区。如果输入端的信噪比不提升,更大的模型只意味着更大的妖怪在更多的噪声中做更多的无效排序,缴更多的热力学税。解决AI能源问题的最根本路径,也许不是工程上的——不是更好的散热、更高效的芯片、更绿色的电力——而是信息论上的:提升输入信号的纯度,减少需要排序的噪声总量。
这是一个不便的结论。因为它意味着AI系统性能的终极瓶颈不在技术端,而在人类端。机器可以无限升级,但如果驱动机器的信号质量不提升,升级只会放大浪费。热力学第二定律不在乎你的融资轮次有多大。
- Landauer, R. “Irreversibility and heat generation in the computing process.” IBM Journal of Research and Development, 5(3), 183-191 (1961).
- Bennett, C. H. “The thermodynamics of computation—a review.” International Journal of Theoretical Physics, 21(12), 905-940 (1982).
- Bérut, A. et al. “Experimental verification of Landauer’s principle linking information and thermodynamics.” Nature, 483, 187-189 (2012).
- Bormashenko, E. “Landauer’s Principle: Past, Present and Future.” Entropy, 27, 437 (2025).
- Wolpert, D. H. “Is stochastic thermodynamics the key to understanding the energy costs of computation?” Proc. Natl. Acad. Sci., 121, e2321112121 (2024).
- Shannon, C. E. “A mathematical theory of communication.” Bell System Technical Journal, 27(3), 379-423 (1948).
- Vaswani, A. et al. “Attention is all you need.” Advances in Neural Information Processing Systems, 30 (2017).
- Zhai, S. et al. “Stabilizing Transformer Training by Preventing Attention Entropy Collapse.” ICLR (2023).
- Jha, N. K. et al. “Entropy-Guided Attention for Private LLMs.” arXiv:2501.03489 (2025).
- Geshkovski, B. et al. “A Mathematical Theory of Attention.” arXiv:2007.02876 (2020).
- Duman Keleş, F. et al. “On the Computational Complexity of Self-Attention.” Algorithmic Learning Theory, PMLR 201 (2023).
- Hao, K. et al. “Attention Entropy is a Key Factor: An Analysis of Parallel Context Encoding.” arXiv:2412.16545 (2024).
- International Energy Agency. “Energy and AI.” IEA Special Report (2025).
- Lawrence Berkeley National Laboratory. “2024 Report on U.S. Data Center Energy Use.” U.S. Department of Energy (2024).
- Chattopadhyay, P. et al. “Landauer Principle and Thermodynamics of Computation.” arXiv:2506.10876 (2025).
- Freund, S. et al. “Fundamental energy cost of finite-time parallelizable computing.” Nature Communications, 14, 613 (2023).
- Merriam-Webster. “Word of the Year 2025: Slop.” Merriam-Webster Dictionary (2025).
- University of Florida. “AI slop: Study finds mediocre AI-generated content hurts consumers and creators.” UF News (March 2026).
- Semiconductor Engineering. “Quantum Effects at 7/5nm.” Semiconductor Engineering (2024).
- Gadepally, V. “AI data center energy costs and solutions.” MIT Sustainability Conference, MIT Sloan (2025).