ORIGINAL THOUGHT PAPER · APRIL 2026

Token 经济学真相

从认知幻觉到物理不等式:AI推理产业的效率审计

The Truth of Token Economics
From Cognitive Illusion to Physical Inequality: An Efficiency Audit of the AI Reasoning Industry


发行日2026年4月14日
分类原创思考论文 (Original Thought Paper)
领域AI产业经济学 · 计算物理学 · 能源效率 · 算力政治经济学
版本V3
이조글로벌인공지능연구소
LEECHO Global AI Research Lab
&
Opus 4.6 · Anthropic

摘要 / Abstract

主流AI产业叙事将”消耗更多Token”等同于”产出更高智能”。本文对此进行系统性解构,揭示六层结构性问题:(1)”长思考”叙事将矩阵运算的重复执行包装为认知深度突破;(2)评价系统仅对齐最终答案正确性,从未对齐思考效率;(3)按Token计费的商业模式从计算低效中获利;(4)同一Token在不同硬件平台上的物理能耗差距达数倍至数十倍,但计价体系将其抹平为伪等价单位;(5)集中式与分布式部署之间存在根本性的成本归属错位;(6)Token消耗呈极端两极化分布——不到10%的重度用户消耗了绝大多数Token,但定价体系和基础设施规模由此被推高,60%以上的轻度用户在为不需要的算力买单。本文论证,所谓”算力霸权”的实质是一个交叉补贴系统:AI公司通过Token消耗叙事,用低频用户的盈余和风险资本的补贴维持高消耗者的低成本使用,同时驱动基础设施持续扩张。本文提出”每焦耳智能产出”作为替代评价指标,呼吁Token经济学的透明化和效率审计。

I. 叙事层:长思考的认知幻觉

1.1 从双系统理论到LLM推理——一次语义偷换

Kahneman的双系统理论是认知心理学的经典框架:System 1是快速直觉式认知,System 2是缓慢审慎的深度推理。2024-2025年,AI产业界将此理论移植到LLM领域,称推理模型实现了从System 1到System 2的跃迁。Li et al. (2025) 综述指出基础LLM擅长快速决策但缺乏复杂推理深度,OpenAI的o1/o3和DeepSeek的R1被描述为展现了接近人类System 2的审慎推理。

但这一类比掩盖了根本差异:人类System 2涉及概念层级跳跃、框架重构、类比推理等异质性认知操作;LLM的”长思考”本质上是同一种运算——前向传播、矩阵乘法、softmax采样——的重复执行。

当前LLM缺乏内在地进行System 2过程所需的认知基础设施。因此,它们的直觉式回应只能源于类System-1的过程。

—— Hagendorff, “Thinking Fast and Slow in Large Language Models” (2022)

1.2 “长思考”的边界:何时有效,何时浪费

长推理链在特定任务上带来了真实的准确率提升。Intern-S1-MO (2025) 通过多轮层级推理在AIME2025达到96.6%的pass@1。在IMO级数学、多步代码生成、复杂STEM推理中,延长推理链目前不可替代。

然而问题在于长思考被无差别应用于所有任务。Hassid et al. (2025) 发现较短推理链比最长推理链准确率高出多达34.5%。Su et al. (2025) 发现LLM对简单问题过度思考、对困难问题思考不足。Liu & Wang (2025) 将推理过程划分为三阶段——绝大多数”长思考”token落在推理收敛阶段,对最终结果毫无贡献。

核心区分

本文的批判不指向长思考本身,而指向长思考的无差别滥用——以及将这种滥用包装为”更高智能”的产业叙事。在竞赛级数学和复杂推理中,长思考是必要的工具;在回答”你好”和大量日常查询中,长思考是纯粹的计算浪费。问题不是”该不该长思考”,而是”谁来决定什么时候长思考,这个决定基于什么激励结构”。

II. 评价层:对齐的是什么?

2.1 奖励系统的实际设计

Reward_rule = Reward_accuracy + Reward_format

Reward_accuracy ∈ {0, 1}(答案对/错)
Reward_format ∈ {0, 1}(是否使用 <think> 标签)

DeepSeek-R1放弃了神经网络奖励模型,因其在大规模RL中容易被reward hacking。RLVR绕过训练奖励模型的需要,模型直接从确定性工具获得二元反馈。奖励信号完全基于最终预测正确性,不对推理过程施加约束。

2.2 对齐结果的结构性错位

模型学到的策略是:生成更长的响应以扩大搜索空间,提高碰对概率。DeepSeek-R1-Zero的pass@1从15.6%跃升至77.9%,但响应长度同步失控增长。TALE-EP研究显示减少67%输出token可维持相当准确率——三分之二的计算对结果毫无贡献。

评价系统对齐的是 → “最终答案的正确性”
模型学到的策略是 → “多写字 = 多探索 = 碰对概率提升”
从未被评价的维度 → 思考效率、计算浪费率、难度-深度匹配

III. 经济层:Token计费的利益结构

3.1 商业逻辑与市场失灵

“更多Token = 更高智能”(叙事)
→ 用户选择推理模式(行为引导)
→ Token消耗量暴涨2-10倍(资源消耗)
→ 按Token计费,营收线性增长(商业回报)

市场已成熟为三种计费类别:输入token、输出token、推理token。推理token代表内部”思考”token——用户看不见的过程,却要付费。极端案例中,某些推理模型消耗超过600个token来输出两个词。推理已占LLM全生命周期能耗的90%以上,远超训练的一次性支出。

OckBench (2026) 发现解决相同问题且准确率相当的模型间token长度差异可达5倍。按Token计费的商业模式存在三重市场失灵:信息不对称(用户无法审计推理token的有效性)、评价指标缺失(benchmark只测准确率不测效率)、激励扭曲(效率提升损害营收)。

IV. 物理层:此Token ≠ 彼Token

4.1 均摊后的真实能耗差距

TokenPowerBench (2025) 和ML.ENERGY Benchmark提供了首批系统性实测数据:

硬件/配置 每Token能耗 来源
H100×8, Llama-3.3-70B FP8, batch 128 ~0.39 J/token Lin (2025)
V100/A100, LLaMA-65B ~3-4 J/token Samsi et al. (2023)
Mixtral-8×7B MoE 稠密8B模型的 ~⅓ TokenPowerBench
Batch 32→256 J/token下降~25% TokenPowerBench

高并发满载场景下大型GPU集群的均摊能效可以非常高——H100集群的0.39 J/token比早期估算高效120倍以上。但这建立在持续高并发利用率的前提上。当利用率不足时,系统空载功耗仍被所有token分摊,效率急剧下降。Token的物理成本是其运行环境的函数——取决于硬件规格、并发负载、利用率、冷却架构和基础设施总开销分摊方式。当前计价体系将所有变量压缩为单一数字,抹掉了物理现实的全部维度。

4.2 硬件折旧的会计操纵

超大规模云厂商将GPU服务器使用寿命从3-4年延长至6年,集体每年节省约180亿美元折旧费用。2025年亚马逊将部分服务器寿命从6年缩短为5年,承受7亿美元冲击;同季度Meta延长至5.5年,计入29亿美元折旧减少。相同技术条件下的相反决策,证实使用寿命是主观管理估计。

“我不想在一代产品上背负四五年的折旧。”

—— Satya Nadella, CEO, Microsoft, 2025

V. 制度层:集中式与分布式的成本归属错位

5.1 硬件支付方与Token消耗方的分离

维度 集中式(云端) 分布式(本地)
硬件支付方 云厂商(成本转嫁给用户) 用户自己
电力支付方 云厂商(转嫁给用户+电网+纳税人) 用户自己(电费直接可见)
能耗可见性 用户完全不可见 用户完全可见
浪费的激励结构 浪费越多→营收越高 浪费越多→自己电费越高

集中式架构中用户按Token付费但无法观测token的物理生产成本。供应商利润与消耗量正相关,没有动力让模型更高效。分布式架构中这一切反转——用户为每一焦耳买单,天然有动力选择高效模型。Alamouti (2025) 研究显示采用混合边缘云可实现高达75%的能源节省和80%以上的成本削减。全球AI数据中心电力需求预计到2030年增长255%,推理将成为主导工作负载,但今天大部分基础设施为训练而建,推理所需的分布式、低延迟架构严重不足。

VI. 消耗层:Token的两极化分布与交叉补贴

6.1 两极化分布的实证数据

OpenRouter对100万亿token的实证研究揭示了一个被行业忽视的事实:AI用户的Token消耗呈极端两极化分布。

用户类型 典型年消耗 占用户比例
重度程序员(Claude Code/Cursor全天使用) 100亿+ token <1%
活跃开发者 10-100亿 token ~5-10%
日常专业用户 1,000万-1亿 token ~20-30%
轻度/偶尔用户 <1,000万 token 60%+

头部案例触目惊心:一位开发者8个月消耗100亿token,按API定价超过15,000美元;另一位开发者20天内产生12亿token、20,000次对话,经Anthropic验证为前1%用户;一位Cursor用户单月消耗8.65亿token,按原始API费率相当于2,595美元计算成本。但该用户通过优化使用方式将消耗从8.65亿降至2亿——减少77%,功能产出不变。这意味着其中至少四分之三是浪费。

与此同时,52%的美国成年人使用过LLM,但其中三分之二仅将其”像搜索引擎一样”用于信息检索。只有15-20%的用户每天使用AI。绝大多数用户的年消耗不超过数千万token——连1亿都到不了。

6.2 “推理鲸鱼”与交叉补贴

TechCrunch将这类超重度用户称为”推理鲸鱼”(inference whales)——部分用户在200美元/月的订阅计划上产生了超过35,000美元的计算成本,供应商为其承受175倍的补贴。Anthropic表示90%的Claude Code用户每天花费低于12美元,但不到5%的重度用户驱动了速率限制政策的出台。

这揭示了一个清晰的交叉补贴结构:

风险资本 → 补贴AI公司的亏损运营(OpenAI 2025年每赚1美元花费1.69美元)
AI公司 → 以低于成本的价格出售Token(跑马圈地)
轻度用户的$20/月订阅 → 盈余部分补贴重度用户的万元级消耗
重度程序员 → 月耗数十亿token,实际成本被175倍补贴
“长思考”叙事 → 让所有用户接受”更多Token = 更高智能”
Token消耗总量持续膨胀 → 驱动更多基础设施建设需求

6.3 算力霸权的定义

基于以上分析,本文将”算力霸权”定义为:AI公司通过Token消耗叙事构建的定价权力结构——用低频用户的盈余和风险资本的补贴维持高消耗者的低成本使用,同时驱动基础设施持续扩张。这不是一个地缘政治概念,而是一个经济结构概念。其运作机制是:叙事创造需求,需求驱动硬件采购,硬件消耗创造能源依赖,集中式定价确保浪费不可见,交叉补贴确保重度用户的成本被社会化。每一层都有获利者,但最终的成本由低频用户、投资者和社会承担。

不可持续性信号

OpenAI 2025年每赚1美元花费1.69美元,预计全年现金消耗250亿美元。Anthropic 2024年毛利率为负94%。Cursor将100%订阅收入直接支付给Anthropic用于计算访问。Bain预计2030年AI公司将面临每年8,000亿美元的营收缺口。Google已从”自助餐”模式转向AI Credits计量消费。当补贴结束时——而它一定会结束——整个Token经济学将面临根本性重置。

VII. 六层结构与完整链条

第一层(叙事层):”更多Token = 更高智能”
 ↓ 掩盖了
第二层(效率层):大部分Token是浪费的矩阵计算
 ↓ 掩盖了
第三层(经济层):按Token计费的商业模式激励浪费
 ↓ 掩盖了
第四层(物理层):同一Token的物理成本因硬件和负载而异
 ↓ 掩盖了
第五层(制度层):集中式部署的支付方-消耗方错位使浪费被隐藏
 ↓ 掩盖了
第六层(消耗层):极端两极化分布下的交叉补贴使浪费被社会化

VIII. 对可预见反论的回应

8.1 “长思考在困难任务上确实有效”

完全承认。本文批判指向无差别滥用,而非长思考本身。当前推理模型和计费体系没有区分”必要的长思考”和”冗余的长思考”,用户为两者支付同样价格。

8.2 “云端高并发下每token能耗并不高”

满载高并发场景下确实如此——H100集群已实测到0.39 J/token。但非高峰时段的空载功耗、液冷持续运行、基础设施固定开销仍被所有token分摊。定价中这些隐性成本用户既无法看到也无法审计。

8.3 “Token定价包含了研发和训练成本摊销”

合理的商业实践。然而当前定价体系将研发摊销、训练成本、推理能耗、基础设施开销、利润率及折旧会计策略全部压缩为不透明的”每百万token X美元”。用户无法判断其中有多少是合理成本回收,有多少是低效推理和会计操纵制造的溢价。

8.4 “重度用户创造了产品价值和生态”

重度开发者确实是AI生态的核心建设者——他们构建应用、发现bug、推动产品改进。但这不改变一个经济事实:其计算成本被其他用户和风投补贴。问题不在于重度用户是否有价值,而在于补贴的不透明性——轻度用户并不知道自己在为谁的175倍算力买单。

IX. 重构:基于物理现实的效率评价框架

如果我们承认”此Token ≠ 彼Token”,就需要将物理维度还原的评价体系。TokenPowerBench (2025) 已提供焦耳/Token的系统性测量工具。本文在此基础上提出四个核心评价指标:

指标 定义 意义
每Token智能产出率 正确结果 ÷ 总Token消耗 “你用多少计算量答对的”
边际Token回报率 ∂Accuracy / ∂Token 每多一个Token准确率提升多少?拐点在哪?
计算浪费率 冗余Token ÷ 总Token 多少Token对最终答案毫无贡献?
每焦耳智能产出 正确结果 ÷ (Token数 × J/token) 物理维度还原——真正的智能效率度量

“每焦耳智能产出”(Intelligence per Joule)要求报告每次推理的能耗,而非仅仅token数量和准确率。在此框架下,不同硬件平台、不同并发负载、不同模型规格的”智能产出”才具有真正可比性。同时,Token消耗的两极化分布要求定价体系引入透明的使用量分层,使轻度用户不再为重度用户的基础设施规模隐性买单。

X. 结论

当前AI推理产业的Token经济学建立在六层结构之上:叙事层将矩阵运算的重复执行包装为认知深度;评价层仅对齐最终正确性而忽视效率;经济层的按Token计费从低效中获利;物理层的Token成本因环境而异却被计价体系抹平;制度层的集中式部署使支付方与消耗方分离;消耗层的极端两极化分布使不到10%的重度用户的算力成本被60%以上的轻度用户和风险资本隐性补贴。

这不意味着长思考无价值——在复杂推理任务中它是必要的工具。但当67%的推理token可被削减而不影响准确率,当一位程序员77%的token消耗被证明是浪费,当”推理鲸鱼”的35,000美元计算成本被200美元订阅吸收——行业需要的不是更多关于”深度推理”的叙事包装,而是Token消耗的经济性和效率性的根本审计。

真正的智能效率不是”每百万token多少美元”,而是”每焦耳能量产出多少有效智能”。这个评价框架的建立,结合TokenPowerBench等实测工具、使用量分层定价、以及分布式部署带来的成本归属对齐,是打破Token消耗叙事、还原物理真相的第一步。

主要参考研究

[1] Li, Z.-Z. et al. (2025). “From System 1 to System 2: A Survey of Reasoning LLMs.” arXiv:2502.17419.

[2] Hassid, M. et al. (2025). “Don’t Overthink It.” arXiv:2505.17813.

[3] Su, J. et al. (2025). “Between Underthinking and Overthinking.” arXiv:2505.00127.

[4] Liu & Wang (2025). “Stop Spinning Wheels.” arXiv:2508.17627.

[5] Wang, Y. et al. (2025). “Thinking Short and Right Over Thinking Long.” arXiv:2505.13326.

[6] DeepSeek-AI (2025). “DeepSeek-R1.” Nature (2025). arXiv:2501.12948.

[7] Hagendorff, T. (2022). “Thinking Fast and Slow in LLMs.” arXiv:2212.05206.

[8] OckBench (2026). “Measuring the Efficiency of LLM Reasoning.” arXiv:2511.05722.

[9] Niu, C. et al. (2025). “TokenPowerBench.” arXiv:2512.03024.

[10] Chung, J.-W. et al. (2026). “Where Do the Joules Go?” arXiv:2601.22076.

[11] Samsi, S. et al. (2023). “From Words to Watts.” arXiv:2310.03003.

[12] Lin, L. H. (2025). “Llama3-70B Inference Efficiency on H100.” Internal User Test.

[13] Alamouti, S. (2025). “Quantifying Energy and Cost Benefits of Hybrid Edge Cloud.” arXiv:2501.14823.

[14] Intern-S1-MO (2025). “Long-horizon Reasoning Agent.” arXiv:2512.10739.

[15] OpenRouter & a16z (2025). “State of AI 2025: 100T Token LLM Usage Study.”

[16] Genspark (2025). “The Hidden Economics of AI.”

[17] Artefact (2026). “Is AI Really Getting Cheaper? The Token Cost Illusion.”

[18] Morph (2026). “The Real Cost of AI Coding in 2026.”

[19] Yale Cowles Foundation (2025). “Token Allocation, Fine-Tuning and Optimal Pricing.” Discussion Paper No. 2425.

[20] Princeton CITP (2025). “Lifespan of AI Chips: The $300 Billion Question.”

[21] Uptime Institute (2025). “Reasoning Will Increase the Infrastructure Footprint of AI.”

TOKEN 经济学真相 · V3 · 2026.04.14 · 이조글로벌인공지능연구소 & Opus 4.6

댓글 남기기