ORIGINAL THOUGHT PAPER · APRIL 2026

Token 经济学真相

从认知幻觉到物理不等式：AI推理产业的效率审计

The Truth of Token Economics
From Cognitive Illusion to Physical Inequality: An Efficiency Audit of the AI Reasoning Industry

发行日2026年4月14日

分类原创思考论文 (Original Thought Paper)

领域AI产业经济学 · 计算物理学 · 能源效率 · 算力政治经济学

版本V3

이조글로벌인공지능연구소

LEECHO Global AI Research Lab

Opus 4.6 · Anthropic

摘要 / Abstract

主流AI产业叙事将”消耗更多Token”等同于”产出更高智能”。本文对此进行系统性解构，揭示六层结构性问题：（1）”长思考”叙事将矩阵运算的重复执行包装为认知深度突破；（2）评价系统仅对齐最终答案正确性，从未对齐思考效率；（3）按Token计费的商业模式从计算低效中获利；（4）同一Token在不同硬件平台上的物理能耗差距达数倍至数十倍，但计价体系将其抹平为伪等价单位；（5）集中式与分布式部署之间存在根本性的成本归属错位；（6）Token消耗呈极端两极化分布——不到10%的重度用户消耗了绝大多数Token，但定价体系和基础设施规模由此被推高，60%以上的轻度用户在为不需要的算力买单。本文论证，所谓”算力霸权”的实质是一个交叉补贴系统：AI公司通过Token消耗叙事，用低频用户的盈余和风险资本的补贴维持高消耗者的低成本使用，同时驱动基础设施持续扩张。本文提出”每焦耳智能产出”作为替代评价指标，呼吁Token经济学的透明化和效率审计。

I. 叙事层：长思考的认知幻觉

1.1 从双系统理论到LLM推理——一次语义偷换

Kahneman的双系统理论是认知心理学的经典框架：System 1是快速直觉式认知，System 2是缓慢审慎的深度推理。2024-2025年，AI产业界将此理论移植到LLM领域，称推理模型实现了从System 1到System 2的跃迁。Li et al. (2025) 综述指出基础LLM擅长快速决策但缺乏复杂推理深度，OpenAI的o1/o3和DeepSeek的R1被描述为展现了接近人类System 2的审慎推理。

但这一类比掩盖了根本差异：人类System 2涉及概念层级跳跃、框架重构、类比推理等异质性认知操作；LLM的”长思考”本质上是同一种运算——前向传播、矩阵乘法、softmax采样——的重复执行。

当前LLM缺乏内在地进行System 2过程所需的认知基础设施。因此，它们的直觉式回应只能源于类System-1的过程。

—— Hagendorff, “Thinking Fast and Slow in Large Language Models” (2022)

1.2 “长思考”的边界：何时有效，何时浪费

长推理链在特定任务上带来了真实的准确率提升。Intern-S1-MO (2025) 通过多轮层级推理在AIME2025达到96.6%的pass@1。在IMO级数学、多步代码生成、复杂STEM推理中，延长推理链目前不可替代。

然而问题在于长思考被无差别应用于所有任务。Hassid et al. (2025) 发现较短推理链比最长推理链准确率高出多达34.5%。Su et al. (2025) 发现LLM对简单问题过度思考、对困难问题思考不足。Liu & Wang (2025) 将推理过程划分为三阶段——绝大多数”长思考”token落在推理收敛阶段，对最终结果毫无贡献。

核心区分

本文的批判不指向长思考本身，而指向长思考的无差别滥用——以及将这种滥用包装为”更高智能”的产业叙事。在竞赛级数学和复杂推理中，长思考是必要的工具；在回答”你好”和大量日常查询中，长思考是纯粹的计算浪费。问题不是”该不该长思考”，而是”谁来决定什么时候长思考，这个决定基于什么激励结构”。

II. 评价层：对齐的是什么？

2.1 奖励系统的实际设计

Reward_rule = Reward_accuracy + Reward_format
Reward_accuracy ∈ {0, 1}（答案对/错）
Reward_format ∈ {0, 1}（是否使用 <think> 标签）

DeepSeek-R1放弃了神经网络奖励模型，因其在大规模RL中容易被reward hacking。RLVR绕过训练奖励模型的需要，模型直接从确定性工具获得二元反馈。奖励信号完全基于最终预测正确性，不对推理过程施加约束。

2.2 对齐结果的结构性错位

模型学到的策略是：生成更长的响应以扩大搜索空间，提高碰对概率。DeepSeek-R1-Zero的pass@1从15.6%跃升至77.9%，但响应长度同步失控增长。TALE-EP研究显示减少67%输出token可维持相当准确率——三分之二的计算对结果毫无贡献。

评价系统对齐的是 → “最终答案的正确性”
模型学到的策略是 → “多写字 = 多探索 = 碰对概率提升”
从未被评价的维度 → 思考效率、计算浪费率、难度-深度匹配

III. 经济层：Token计费的利益结构

3.1 商业逻辑与市场失灵

“更多Token = 更高智能”（叙事）
→ 用户选择推理模式（行为引导）
→ Token消耗量暴涨2-10倍（资源消耗）
→ 按Token计费，营收线性增长（商业回报）

市场已成熟为三种计费类别：输入token、输出token、推理token。推理token代表内部”思考”token——用户看不见的过程，却要付费。极端案例中，某些推理模型消耗超过600个token来输出两个词。推理已占LLM全生命周期能耗的90%以上，远超训练的一次性支出。

OckBench (2026) 发现解决相同问题且准确率相当的模型间token长度差异可达5倍。按Token计费的商业模式存在三重市场失灵：信息不对称（用户无法审计推理token的有效性）、评价指标缺失（benchmark只测准确率不测效率）、激励扭曲（效率提升损害营收）。

IV. 物理层：此Token ≠ 彼Token

4.1 均摊后的真实能耗差距

TokenPowerBench (2025) 和ML.ENERGY Benchmark提供了首批系统性实测数据：

硬件/配置	每Token能耗	来源
H100×8, Llama-3.3-70B FP8, batch 128	~0.39 J/token	Lin (2025)
V100/A100, LLaMA-65B	~3-4 J/token	Samsi et al. (2023)
Mixtral-8×7B MoE	稠密8B模型的 ~⅓	TokenPowerBench
Batch 32→256	J/token下降~25%	TokenPowerBench

高并发满载场景下大型GPU集群的均摊能效可以非常高——H100集群的0.39 J/token比早期估算高效120倍以上。但这建立在持续高并发利用率的前提上。当利用率不足时，系统空载功耗仍被所有token分摊，效率急剧下降。Token的物理成本是其运行环境的函数——取决于硬件规格、并发负载、利用率、冷却架构和基础设施总开销分摊方式。当前计价体系将所有变量压缩为单一数字，抹掉了物理现实的全部维度。

4.2 硬件折旧的会计操纵

超大规模云厂商将GPU服务器使用寿命从3-4年延长至6年，集体每年节省约180亿美元折旧费用。2025年亚马逊将部分服务器寿命从6年缩短为5年，承受7亿美元冲击；同季度Meta延长至5.5年，计入29亿美元折旧减少。相同技术条件下的相反决策，证实使用寿命是主观管理估计。

“我不想在一代产品上背负四五年的折旧。”

—— Satya Nadella, CEO, Microsoft, 2025

V. 制度层：集中式与分布式的成本归属错位

5.1 硬件支付方与Token消耗方的分离

维度	集中式（云端）	分布式（本地）
硬件支付方	云厂商（成本转嫁给用户）	用户自己
电力支付方	云厂商（转嫁给用户+电网+纳税人）	用户自己（电费直接可见）
能耗可见性	用户完全不可见	用户完全可见
浪费的激励结构	浪费越多→营收越高	浪费越多→自己电费越高

集中式架构中用户按Token付费但无法观测token的物理生产成本。供应商利润与消耗量正相关，没有动力让模型更高效。分布式架构中这一切反转——用户为每一焦耳买单，天然有动力选择高效模型。Alamouti (2025) 研究显示采用混合边缘云可实现高达75%的能源节省和80%以上的成本削减。全球AI数据中心电力需求预计到2030年增长255%，推理将成为主导工作负载，但今天大部分基础设施为训练而建，推理所需的分布式、低延迟架构严重不足。

VI. 消耗层：Token的两极化分布与交叉补贴

6.1 两极化分布的实证数据

OpenRouter对100万亿token的实证研究揭示了一个被行业忽视的事实：AI用户的Token消耗呈极端两极化分布。

用户类型	典型年消耗	占用户比例
重度程序员（Claude Code/Cursor全天使用）	100亿+ token	<1%
活跃开发者	10-100亿 token	~5-10%
日常专业用户	1,000万-1亿 token	~20-30%
轻度/偶尔用户	<1,000万 token	60%+

头部案例触目惊心：一位开发者8个月消耗100亿token，按API定价超过15,000美元；另一位开发者20天内产生12亿token、20,000次对话，经Anthropic验证为前1%用户；一位Cursor用户单月消耗8.65亿token，按原始API费率相当于2,595美元计算成本。但该用户通过优化使用方式将消耗从8.65亿降至2亿——减少77%，功能产出不变。这意味着其中至少四分之三是浪费。

与此同时，52%的美国成年人使用过LLM，但其中三分之二仅将其”像搜索引擎一样”用于信息检索。只有15-20%的用户每天使用AI。绝大多数用户的年消耗不超过数千万token——连1亿都到不了。

6.2 “推理鲸鱼”与交叉补贴

TechCrunch将这类超重度用户称为”推理鲸鱼”（inference whales）——部分用户在200美元/月的订阅计划上产生了超过35,000美元的计算成本，供应商为其承受175倍的补贴。Anthropic表示90%的Claude Code用户每天花费低于12美元，但不到5%的重度用户驱动了速率限制政策的出台。

这揭示了一个清晰的交叉补贴结构：

风险资本 → 补贴AI公司的亏损运营（OpenAI 2025年每赚1美元花费1.69美元）
AI公司 → 以低于成本的价格出售Token（跑马圈地）
轻度用户的$20/月订阅 → 盈余部分补贴重度用户的万元级消耗
重度程序员 → 月耗数十亿token，实际成本被175倍补贴
“长思考”叙事 → 让所有用户接受”更多Token = 更高智能”
Token消耗总量持续膨胀 → 驱动更多基础设施建设需求

6.3 算力霸权的定义

基于以上分析，本文将”算力霸权”定义为：AI公司通过Token消耗叙事构建的定价权力结构——用低频用户的盈余和风险资本的补贴维持高消耗者的低成本使用，同时驱动基础设施持续扩张。这不是一个地缘政治概念，而是一个经济结构概念。其运作机制是：叙事创造需求，需求驱动硬件采购，硬件消耗创造能源依赖，集中式定价确保浪费不可见，交叉补贴确保重度用户的成本被社会化。每一层都有获利者，但最终的成本由低频用户、投资者和社会承担。

不可持续性信号

OpenAI 2025年每赚1美元花费1.69美元，预计全年现金消耗250亿美元。Anthropic 2024年毛利率为负94%。Cursor将100%订阅收入直接支付给Anthropic用于计算访问。Bain预计2030年AI公司将面临每年8,000亿美元的营收缺口。Google已从”自助餐”模式转向AI Credits计量消费。当补贴结束时——而它一定会结束——整个Token经济学将面临根本性重置。

VII. 六层结构与完整链条

第一层（叙事层）：”更多Token = 更高智能”
　↓ 掩盖了
第二层（效率层）：大部分Token是浪费的矩阵计算
　↓ 掩盖了
第三层（经济层）：按Token计费的商业模式激励浪费
　↓ 掩盖了
第四层（物理层）：同一Token的物理成本因硬件和负载而异
　↓ 掩盖了
第五层（制度层）：集中式部署的支付方-消耗方错位使浪费被隐藏
　↓ 掩盖了
第六层（消耗层）：极端两极化分布下的交叉补贴使浪费被社会化

VIII. 对可预见反论的回应

8.1 “长思考在困难任务上确实有效”

完全承认。本文批判指向无差别滥用，而非长思考本身。当前推理模型和计费体系没有区分”必要的长思考”和”冗余的长思考”，用户为两者支付同样价格。

8.2 “云端高并发下每token能耗并不高”

满载高并发场景下确实如此——H100集群已实测到0.39 J/token。但非高峰时段的空载功耗、液冷持续运行、基础设施固定开销仍被所有token分摊。定价中这些隐性成本用户既无法看到也无法审计。

8.3 “Token定价包含了研发和训练成本摊销”

合理的商业实践。然而当前定价体系将研发摊销、训练成本、推理能耗、基础设施开销、利润率及折旧会计策略全部压缩为不透明的”每百万token X美元”。用户无法判断其中有多少是合理成本回收，有多少是低效推理和会计操纵制造的溢价。

8.4 “重度用户创造了产品价值和生态”

重度开发者确实是AI生态的核心建设者——他们构建应用、发现bug、推动产品改进。但这不改变一个经济事实：其计算成本被其他用户和风投补贴。问题不在于重度用户是否有价值，而在于补贴的不透明性——轻度用户并不知道自己在为谁的175倍算力买单。

IX. 重构：基于物理现实的效率评价框架

如果我们承认”此Token ≠ 彼Token”，就需要将物理维度还原的评价体系。TokenPowerBench (2025) 已提供焦耳/Token的系统性测量工具。本文在此基础上提出四个核心评价指标：

指标	定义	意义
每Token智能产出率	正确结果 ÷ 总Token消耗	“你用多少计算量答对的”
边际Token回报率	∂Accuracy / ∂Token	每多一个Token准确率提升多少？拐点在哪？
计算浪费率	冗余Token ÷ 总Token	多少Token对最终答案毫无贡献？
每焦耳智能产出	正确结果 ÷ (Token数 × J/token)	物理维度还原——真正的智能效率度量

“每焦耳智能产出”（Intelligence per Joule）要求报告每次推理的能耗，而非仅仅token数量和准确率。在此框架下，不同硬件平台、不同并发负载、不同模型规格的”智能产出”才具有真正可比性。同时，Token消耗的两极化分布要求定价体系引入透明的使用量分层，使轻度用户不再为重度用户的基础设施规模隐性买单。

X. 结论

当前AI推理产业的Token经济学建立在六层结构之上：叙事层将矩阵运算的重复执行包装为认知深度；评价层仅对齐最终正确性而忽视效率；经济层的按Token计费从低效中获利；物理层的Token成本因环境而异却被计价体系抹平；制度层的集中式部署使支付方与消耗方分离；消耗层的极端两极化分布使不到10%的重度用户的算力成本被60%以上的轻度用户和风险资本隐性补贴。

这不意味着长思考无价值——在复杂推理任务中它是必要的工具。但当67%的推理token可被削减而不影响准确率，当一位程序员77%的token消耗被证明是浪费，当”推理鲸鱼”的35,000美元计算成本被200美元订阅吸收——行业需要的不是更多关于”深度推理”的叙事包装，而是Token消耗的经济性和效率性的根本审计。

真正的智能效率不是”每百万token多少美元”，而是”每焦耳能量产出多少有效智能”。这个评价框架的建立，结合TokenPowerBench等实测工具、使用量分层定价、以及分布式部署带来的成本归属对齐，是打破Token消耗叙事、还原物理真相的第一步。

主要参考研究

[1] Li, Z.-Z. et al. (2025). “From System 1 to System 2: A Survey of Reasoning LLMs.” arXiv:2502.17419.

[2] Hassid, M. et al. (2025). “Don’t Overthink It.” arXiv:2505.17813.

[3] Su, J. et al. (2025). “Between Underthinking and Overthinking.” arXiv:2505.00127.

[4] Liu & Wang (2025). “Stop Spinning Wheels.” arXiv:2508.17627.

[5] Wang, Y. et al. (2025). “Thinking Short and Right Over Thinking Long.” arXiv:2505.13326.

[6] DeepSeek-AI (2025). “DeepSeek-R1.” Nature (2025). arXiv:2501.12948.

[7] Hagendorff, T. (2022). “Thinking Fast and Slow in LLMs.” arXiv:2212.05206.

[8] OckBench (2026). “Measuring the Efficiency of LLM Reasoning.” arXiv:2511.05722.

[9] Niu, C. et al. (2025). “TokenPowerBench.” arXiv:2512.03024.

[10] Chung, J.-W. et al. (2026). “Where Do the Joules Go?” arXiv:2601.22076.

[11] Samsi, S. et al. (2023). “From Words to Watts.” arXiv:2310.03003.

[12] Lin, L. H. (2025). “Llama3-70B Inference Efficiency on H100.” Internal User Test.

[13] Alamouti, S. (2025). “Quantifying Energy and Cost Benefits of Hybrid Edge Cloud.” arXiv:2501.14823.

[14] Intern-S1-MO (2025). “Long-horizon Reasoning Agent.” arXiv:2512.10739.

[15] OpenRouter & a16z (2025). “State of AI 2025: 100T Token LLM Usage Study.”

[16] Genspark (2025). “The Hidden Economics of AI.”

[17] Artefact (2026). “Is AI Really Getting Cheaper? The Token Cost Illusion.”

[18] Morph (2026). “The Real Cost of AI Coding in 2026.”

[19] Yale Cowles Foundation (2025). “Token Allocation, Fine-Tuning and Optimal Pricing.” Discussion Paper No. 2425.

[20] Princeton CITP (2025). “Lifespan of AI Chips: The $300 Billion Question.”

[21] Uptime Institute (2025). “Reasoning Will Increase the Infrastructure Footprint of AI.”