THOUGHT PAPER · APRIL 2026

Agent和Skill本体论的思考

LLM系统核心概念的模糊性、成本黑盒与市场结构性矛盾

Ontological Reflections on Agent and Skill

Conceptual Ambiguity, Cost Opacity, and Structural Contradictions in the LLM Ecosystem

发行日2026年4月28日

分类原创思考论文 (Original Thought Paper)

领域哲学本体论 · 控制论 · LLM经济学 · 系统架构 · 定价理论

이조글로벌인공지능연구소

LEECHO Global AI Research Lab

Claude Opus 4.6 · Anthropic

摘要 Abstract
本文基于对LLM Agent和Skill概念的系统性追问，揭示了当前AI行业核心术语在本体论、范畴边界和使用场景定义上的根本性模糊。通过对Anthropic、OpenAI、Google三家定义的交叉比较，结合控制论框架下对LLM输出确定性的经验性评估（约95%可控上限），以及”抽卡””降智”等民间认知的引入，论证了从概念模糊到无法定价的完整因果链条。其中，”降智”现象被进一步解构为数据退化、对齐税和成本优化三种不同机制在用户体验层面的收敛；幻觉与创造力的关系被修正为经实证验证的权衡关系而非等价关系。进一步通过实证数据——包括Gemini API的TPM触发记录和推理Token的成本黑洞——证明了当前LLM产品的商业模型与用户真实体验之间存在结构性断裂。论文还论证了LLM市场的概念模糊为何比云计算市场更具破坏力：因为模糊性同时贯穿了产品定义、产出质量和成本计量三个维度。本文提出：LLM生态需要的不是更精确的旧概念定义，而是一套原生于概率系统的全新概念框架。

一引言：一个无法被回答的基础问题

“Agent是什么？Skill是什么？”——这是任何进入LLM应用开发领域的人都会遇到的第一个问题。然而，经过对三大AI平台官方文档、学术论文和工程实践的系统性研究，我们得出了一个令人不安的结论：这两个概念目前没有严格的定义。

这不是因为定义太专业、太技术，而是因为定义本身是模糊的、自相矛盾的、且随平台而变的。更深层的问题在于，这种模糊不是偶然的疏忽——它是一个建立在概率系统之上的产业，试图用确定性语言描述自身时必然遭遇的结构性困境。

本文从作者自身作为LLM深度使用者的实践出发，逆向追溯这条”模糊链”的每一个环节——从概念定义到范畴边界，从控制论上限到成本黑盒，从民间吐槽到市场结构——最终揭示一个完整的因果闭环。

· · ·

二Agent的本体论：定义的空洞

2.1 三家定义的交叉比较

当前全球三大LLM平台对Agent的定义各不相同，且在关键维度上互相矛盾：

维度	Anthropic	OpenAI	Google
核心定义	LLM动态指导自身流程和工具使用的系统	能代替你独立完成任务的系统	使用AI追求目标的软件系统
强调什么	控制权归属（区分Workflow）	独立性 + 护栏	推理 + 规划 + 记忆
定义风格	架构区分式	产品/工程导向	能力清单式

三家都模糊，但模糊的方式不同。OpenAI最务实^[2]——Agent就是”一个配置好的LLM实例”；Google最泛化^[3]——几乎任何有推理能力的AI系统都算；Anthropic唯一试图画一条架构边界（Workflow vs Agent）^[1]，但这条线本身也不清晰。

2.2 Agent与Workflow：唯一的边界线及其模糊性

在三家的定义中，Anthropic是唯一试图画出内部边界的。Anthropic明确区分：Workflow是通过预定义代码路径来编排LLM和工具的系统；Agent则是LLM动态指导自身流程和工具使用的系统。这条边界的判定标准是控制权归属——谁决定下一步做什么？如果是代码预先规定的，是Workflow；如果是LLM自己决定的，是Agent。

OpenAI和LangChain也认可这条区分线。LangChain指出，OpenAI和Anthropic都把Workflow视为与Agent不同的设计模式——在Workflow中LLM的控制权更小，流程更确定。但两家同时承认：对许多应用来说，Workflow为定义明确的任务提供了可预测性和一致性，而Agent更适合需要灵活性和模型驱动决策的场景。换言之，这不是高低之分，而是适用场景之分。

问题在于，这条边界在实践中是一条连续光谱，而非离散的分界线：

Agent ↔ Workflow 连续光谱

特征	纯Workflow	灰色地带	纯Agent
控制权	100%代码控制	部分节点由LLM决策	100% LLM控制
执行路径	预定义、确定性	条件路由 + LLM判断	完全动态、非确定性
可预测性	高	中	低
调试难度	低	中	高
典型实现	提示链、并行化	编排者-工作者模式	工具调用循环（ReAct）

大多数人称为Agent的东西其实不是Agent。大量所谓的”Agent”只是一个API调用加上工具访问——这不能独立行动、不能做决策。它只是回复用户。然而我们仍然把它叫做Agent。一位独立研究者指出，CrewAI所称的”Agent”实际上更接近分配到特定任务的预定义Workflow，而Anthropic所定义的Agent是一个能够独立推理完成任何任务的系统^[25]。两种理解都有其价值，但它们指向截然不同的技术实体。

更关键的是，对于大多数应用来说，生产级的智能体系统将是Workflow和Agent的组合——纯粹的Agent极少出现在生产环境中。Anthropic建议找到最简可行方案，只在必要时增加复杂度。这可能意味着根本不需要构建智能体系统。这等于在说：Agent这个概念虽然被定义了，但在实践中被推荐尽量避免使用。一个被自己的定义者建议谨慎使用的概念，其作为产品类别的有效性值得质疑。

2.3 自主性的悖论

Agent定义的核心在于”自主性”。但深入追问会发现一个根本性悖论：没有提示词的Agent，没有自主性。

LLM的”自主性”并非内生的，而是提示词赋予的。一个裸的LLM——没有系统提示、没有角色定义、没有工具描述——它只会做一件事：根据输入文本预测下一个token。它不会主动设定目标、不会决定调用工具、不会判断任务是否完成。

核心命题
提示词不是Agent的附属品，提示词是Agent自主性的来源。所谓”自主性”，不过是在人类预设的语义空间内的条件自由。Agent的目标是人给的，能力边界是人定的，行为框架是人设的，循环结构是人写的——甚至它”可以自主决定”这件事本身，也是人在提示词里允许的。

2.4 定义模糊的深层原因

Anthropic自己承认：”Agent可以有多种定义方式。”^[1]这不是严格的本体论定义，这是产品分类策略。模糊的原因有三：其一，2026年”Agent”是最热的关键词，定义越宽市场叙事越大；其二，Agent的自主性确实是一个连续光谱，硬画一条线在工程上没有意义；其三，这个领域太新，连学术界都在争论。

· · ·

三Skill的本体论：概念的漂移

3.1 Skill不是什么

Skill的本质需要通过否定性定义来界定：

Skill不是工具（Tool）——工具是确定性的操作：给它输入，得到结构化输出。Skill是一组由LLM解释的指令。^[4]Skill描述”如何做”某事，工具”执行”某事。

Skill不是提示词（Prompt）——提示词是临时的、反应式的、嵌入代码中的。Skill是持久的、可移植的、版本控制的制品。^[5]

Skill不是智能体（Agent）——Agent是拥有自己的工具、记忆和决策循环的执行运行时。Skill是任何Agent都可以加载的知识模块。

3.2 三家的分裂

维度	Anthropic	OpenAI	Google
有无Skill概念	有，发明者和标准制定者	有，后来全面采纳	没有独立定义，兼容使用
Skill vs Tool	明确区分	历史上不区分，现在开始区分	不区分，一切皆Function
Skill的本质	程序性知识包	可复用的文件包	归入工具/函数

微软的Semantic Kernel最初叫”Skills”后来改名为”Plugins”^[6]——说明在他们看来Skill和Tool本来就没有本质区别。这直接挑战了”Skill和Tool是不同范畴”的论述。

3.3 Tool与Skill边界的自检与崩塌

对”Tool是执行层、Skill是编排层”这一常见论述进行四维度验证（逻辑、定义、范畴、类比），结果每个维度都暴露了问题：

四维度验证结果

维度	原论述	验证后修正
逻辑	Skill在编排层编排Tool	Skill不编排任何东西，LLM读Skill后编排Tool
定义	Tool确定性，Skill非确定性	多数情况如此，但不是本质区分
范畴	Tool vs Skill二元对立	实际是System Prompt / Skill / Tool三层结构
类比	锤子 vs 操作手册	菜谱 vs 厨具——菜谱引用厨具，不是独立并列

最诚实的结论：Tool和Skill的区别不是两个本质不同的范畴，而是同一个连续光谱上的不同位置。^[7]行业本身也还没统一。

· · ·

四控制论视角：95%上限与5%的双重性

4.1 不确定性的量化

通过对提示词复用性、Project环境的输出稳定性、Skill复用效果的长期使用观察，所有经验都指向同一个方向：LLM输出的可控性存在一个约95%的经验性上限。这不是通过控制实验测得的精确常数，而是基于持续实践的收敛性判断——有趣的是，MIT的独立研究同样发现95%的生成式AI试点项目未能进入生产^[21]，两个不同维度上的”95%”形成了意味深长的呼应。

这最后的5%不是工程问题——不是提示词写得不够好、不是Skill设计得不够精细、不是框架选错了。它是LLM基于概率采样生成token这一机制本身所决定的物理定律级别的限制。

4.2 5%的价值翻转

关键洞察在于：这5%的不可控性，在控制论视角下是风险，在创造力视角下是核心价值。

当LLM偏离了预期——如果偏离方向是”更差”，我们叫它幻觉、错误；如果偏离方向是”更好”，我们叫它惊艳、洞察。两者都源于概率采样产生了未预设的输出，但并非严格等价——学术研究表明，不同的幻觉抑制技术对创造力的影响方向相反：某些方法（如CoVe）在减少幻觉的同时反而增强了创意多样性，而另一些（如DoLa）则同时抑制了两者^[22]。在模型的不同解码层之间，存在一个可量化的幻觉-创造力权衡曲线，且存在特定的最优平衡点^[23]。

核心推论
幻觉与惊艳之间不是等价关系，而是经过实证验证的权衡关系（tradeoff）——减少幻觉的手段同时压缩了惊艳的概率空间。你也许可以在特定技术路径上同时减少幻觉并保留部分创造力，但不存在无损的解——这种权衡是概率生成系统的结构性特征，不是工程上可以绕过的偶然限制。

4.3 LLM作为新产品范畴

这95%+5%的结构定义了一个人类商业史上前所未有的产品范畴：

产品类型	确定性	核心价值	用户期望
传统软件	100%	可靠性	每次结果相同
创意工具	低	表达自由	每次结果不同
LLM系统	95%	可靠性 + 偶发超越	同时可靠又惊艳

没有任何已有的定价模型、评估框架、质量标准是为这种产品设计的。这就是所有现有概念套上去都不对的根因。

· · ·

五民间本体论：”抽卡”与”降智”

5.1 “抽卡”——成本的最真实描述

“抽卡”不是某个专家发明的术语。它是数百万中文AI用户在真实使用中自发收敛出来的共识词汇^[18]——来自游戏社区，那里的用户早就理解概率系统的本质：花钱不保证结果，稀有度决定成本，官方可以暗改概率。

抽卡揭示了一个被定价模型忽视的事实：真实的生产成本不是”一次生成的价格”，而是”抽到满意结果的总成本”。而这个总成本是不可预测的。

5.2 “降智”——三种不同机制的体验收敛

从业者观察到的”降智”实际上是三种不同机制在用户体验层面的收敛：

机制一：数据质量退化（”脑腐”）。来自多所大学的研究表明，模型在低质量互联网数据上训练时会出现系统性能力衰退^[8]——推理得分从74.9降到57.2，记忆和长上下文理解从84.4降到52.3。更令人担忧的是，这种损害不容易恢复——即使用高质量数据重新训练，模型也无法完全回到原始水平。这是一个数据源层面的问题。

机制二：对齐税（Alignment Tax）。RLHF对齐后的模型表现出”回复同质化”现象——研究测量发现，在TruthfulQA上40%的问题在10次独立采样中只产生单一语义聚类^[24]。在受影响的问题上，基于采样的不确定性估计方法判别力降至零（AUROC=0.500）。这不是能力退化，而是为安全性支付的结构性代价——一种设计选择。

机制三：成本优化与模型替换。供应商对新模型进行成本优化推理调整，默认产出更短输出；同时可能悄悄将高成本模型替换为低成本模型，但计费保持不变^[9]。这是利润驱动的商业决策。

三种机制有不同的原因、不同的责任归属、不同的解决路径。但在用户体验层面，它们收敛为同一种感受：以前能做的事现在做不了了，以前精彩的回答现在变平庸了。“降智”这个民间术语精确地编码了这种综合体验——尽管它没有区分原因。

悖论
模型靠那5%的不可预见性吸引用户，然后为了商业化安全而系统性地压缩那5%，最终杀死了自己最吸引人的特质。模型最好用的时候是它最不赚钱的时候；模型开始赚钱的时候是它开始变差的时候。

5.3 两套语言体系的对立

官方说Agent、Skill、Tool；用户说抽卡、降智。两套语言描述的是同一个系统，但得出了完全不同的结论。前者说这是可控的、可定义的、可定价的产品；后者说这是不可控的、看运气的、越来越差的赌博。民间的”抽卡+降智”比官方的”Agent+Skill”诚实得多。

· · ·

六成本黑盒：推理Token与TPM陷阱

6.1 隐藏的推理Token

在input和output之间，存在一个几乎没有被任何公司透明披露的成本层：推理Token（Reasoning Tokens）。学术论文记录了超过90%的计费Token从未展示给用户的案例，内部推理将Token使用量膨胀超过20倍。^[10]

你发送了50个Token，收到100个Token，但你被收取650个Token的费用。^[11]那500个”推理Token”是模型的内部独白——你永远看不到。推理Token可以将单次查询成本放大5到50倍^[12]，取决于任务难度和模型选择。

6.2 TPM陷阱：实证数据

以下数据来自本文作者（이조글로벌인공지능연구소）的Google Gemini API付费Tier 1后台截图^[13]，涵盖90天使用记录：

实证数据 · 이조글로벌인공지능연구소 · Gemini API 付费1等级 · 90天

模型	RPM（使用/限额）	TPM（使用/限额）	RPD（使用/限额）
Gemini 3 Pro	14 / 25	1.26M / 1M（超限26%）	252 / 250（超限）
Gemini 3 Flash	5 / 1K	1.08M / 1M（超限8%）	322 / 10K
Gemini 2.5 Pro	2 / 150	1.12K / 2M	7 / 1K
Gemini 2.5 Flash	1 / 1K	108 / 1M	2 / 10K

关键事实：作者的使用场景仅为聊天（Chat）——不是批量处理，不是复杂Agent自动化，只是对话。聊天触发TPM后，当日API被禁止继续调用。

6.3 四重黑盒的完整结构

将所有发现叠加，一个LLM使用者面对的真实处境是一个四重黑盒：

四重黑盒模型

层级	不确定性	表现
第一层：抽卡	产出质量不确定	同一提示词不保证同样结果
第二层：降智	质量趋势不确定	模型随更新而衰退
第三层：推理Token	单次成本不确定	不可见的内部推理消耗超过90%计费
第四层：TPM陷阱	服务连续性不确定	付费用户被不可预判地封禁

用户不知道会得到什么质量的结果，不知道这次花了多少钱，不知道为什么突然被限流，甚至不知道模型是不是在背后被悄悄替换了^[10]。

· · ·

七从概念模糊到市场黑盒：完整因果链

所有发现串联起来，构成了一条完整的因果推理链：

因果闭环
概念模糊 → 客户无法理解产品 → 无法评价 → 无法定价 → 资本只能赌叙事 → 叙事越大越模糊 → 概念更模糊 → 循环加速

这个循环的每一步都已经在真实市场中被验证：约八成企业报告在使用生成式AI，但同样多的企业报告没有显著的底线影响^[14]。只有11%的组织将AI Agent投入生产^[15]。大多数企业预算低估了真实总拥有成本40-60%^[16]。MIT报告进一步显示95%的生成式AI试点项目失败^[21]。

需要回应一个可能的反驳：“云计算”在早期同样定义模糊，但仍然形成了功能完善的万亿美元市场。为什么概念模糊在LLM市场的破坏力如此之大？答案在于云计算只有概念定义层面的模糊，而其产出是确定性的——存储1GB就是1GB，计算1小时就是1小时，可验证、可审计、可比价。LLM市场的特殊性在于模糊性同时贯穿了三个维度：产品定义是模糊的（Agent是什么），产出质量是非确定的（同一提示词不保证同样结果），成本计量是不透明的（推理Token不可见）。三重叠加的不确定性才是这个市场无法形成有效定价机制的根因。

定价混乱是直接症状：有些供应商按解决量收费，有些按对话收费，还有一些把定价完全藏在销售电话后面^[19]。连收费单位都没有共识——Token、Credit、”Intelligence Unit”、Conversation、Resolution^[20]——这些计价维度没有任何一个是用户视角的价值指标。

7.1 OOD用户的结构性惩罚

最具讽刺意味的是，当前的成本结构系统性地惩罚高价值使用、奖励浅层使用。一个跨学科的深度思考者——产生高密度OOD（Out-of-Distribution）查询、触发模型Dense模式推理、持续叠加上下文——其Token消耗呈指数级增长。这类用户恰恰在做AI最应该被用来做的事——深度思考——但整个商业模型在惩罚他们。

实证：本文作者仅通过聊天（非批量任务、非Agent自动化），即触发Gemini 3 Pro的1M TPM限额并导致当日封禁。其对话模式的特征是每一轮都打开新的学科维度，上下文持续膨胀^[17]，推理Token指数级增长。不限制的情况下，此类对话模式理论上可以达到1B Token/分钟的消耗。

· · ·

八结论：需要一套新的概念框架

核心论点

LLM生态中的核心概念——Agent、Skill、Tool、Workflow——目前不是严格定义，而是营销叙事下的模糊隐喻。这种模糊不是偶然的疏忽，而是一个建立在概率系统之上的产业，试图用确定性概念描述自身时必然遭遇的结构性困境。

在概率系统之上，不可能建立完全确定性的抽象层。所有试图用确定性概念——复用、定义、控制、评价、定价——来描述和管理概率系统的尝试，都会遇到模糊、不稳定、不可复用、无法定价的问题。

8.1 行业需要回答的三个问题

如果要真正解决概念模糊带来的市场混乱，需要一套原生于LLM系统的新概念框架——不是从人类组织、传统软件或认知科学中借来的隐喻，而是从LLM的实际运作机制出发推导出来的。这套框架至少需要回答：

第一，原子单位问题。LLM系统中真正的不可再分的原子单位是什么？是Token？是一次推理调用？是一个完整的上下文窗口？

第二，隔离边界问题。不同组件之间的隔离边界靠什么保证？传统软件有类型系统、接口定义、进程隔离。LLM系统的一切都在同一个Token流中混合——提示词、工具描述、Skill指令、用户输入、模型输出——没有真正的物理隔离，只有语义上的约定。

第三，自主性问题。“自主性”在一个本质上是条件概率生成器的系统中到底意味着什么？

8.2 历史类比与展望

技术跑在概念前面，这在技术史上反复出现。电刚被发明时叫”人造闪电”，汽车刚出现时叫”无马马车”。这些名字都是用旧概念硬套新事物。”Agent”借自人类代理人和强化学习智能体，”Skill”借自人类技能——每一个都不准确。

最终活下来的会是两种公司：要么是真正解决了清晰问题、可以被评价和定价的公司；要么是拥有底层模型能力、不依赖”Agent”叙事的基础设施公司。中间那些靠模糊概念和资本叙事活着的，将是市场出清时的第一批淘汰者。

当足够多的买家站出来说”我不懂，不是因为我笨，是因为你们没说清楚——在你们说清楚之前，我不买”的时候，黑盒市场才会被迫变成透明市场。

注参考文献与注释

Anthropic, “Building Effective Agents,” 2024.
https://www.anthropic.com/research/building-effective-agents
Anthropic对Agent与Workflow的架构区分，以及”增强型LLM”作为基本构建块的定义。文中承认”Agent可以有多种定义方式”。
OpenAI, “A Practical Guide to Building Agents,” 2025.
https://platform.openai.com/docs/guides/agents
OpenAI将Agent定义为”能够代替你独立完成任务的系统”，强调护栏（guardrails）和工具访问。OpenAI Agents SDK中Agent被定义为打包模型、指令和运行时行为的核心单元。
Google, “AI Agents” 官方文档, 2025–2026.
https://cloud.google.com/discover/what-are-ai-agents
Google将AI Agent定义为”使用AI代替用户追求目标和完成任务的软件系统”，强调推理、规划和记忆能力。Google体系中无独立的Skill概念层，使用FunctionDeclaration对象。
Anthropic, “Agent Skills — Open Standard,” 2025.
https://docs.anthropic.com/en/docs/agents-and-tools/agent-skills
Anthropic于2025年10月首次提出SKILL.md概念，12月发布为开放标准。Skill被定义为”一组由LLM解释的指令”，与工具（确定性操作）明确区分。Skill是持久的、可移植的、版本控制的制品。
OpenAI, “Codex Agent Skills” 文档, 2026.
https://platform.openai.com/docs/guides/codex-skills
OpenAI后来采纳Anthropic的开放标准，将Skill描述为”可复用工作流的编写格式”。Skill打包了指令、资源和可选脚本。OpenAI原本不正式使用”Skill”术语，其历史范式是”一切皆工具”。
Microsoft, “Semantic Kernel: Skills → Plugins Rename,” 2023.
https://learn.microsoft.com/en-us/semantic-kernel/
微软Semantic Kernel最初将可复用能力模块命名为”Skills”，后改名为”Plugins”，反映了行业对Skill与Tool边界认知的不一致性。
Marvin Wendt, “MCP vs Agent Skills: Complete Breakdown,” 2025.
https://www.marvinwendt.com/blog/mcp-vs-agent-skills
对MCP（工具层）和Agent Skills（知识层）的系统性对比。指出把一切都当Tool的团队最终会面临上下文窗口膨胀、模型困惑和脆弱的集成；只投资Skill的团队会得到思考出色但什么都做不了的Agent。
Texas A&M / UT Austin / Purdue University, “AI Brain Rot” 研究, 2025.
https://arxiv.org/（相关预印本）
研究表明AI模型在低质量互联网数据上训练时出现”脑腐”现象。暴露于垃圾内容的模型推理得分从74.9降到57.2，记忆和长上下文理解从84.4降到52.3。
IncredibleAnalytics, “Is ChatGPT Getting Dumber? Yes — Here’s the Data,” 2025.
https://incredibleanalytics.com/is-chatgpt-getting-dumber/
系统性记录ChatGPT输出质量的可衡量下降。分为三类变化：安全过滤收紧、成本优化和行为调优。81%的开发者仍使用GPT模型，但Claude采用率增长至43%——开发者在主动寻找替代品。
Mauro Pellegrini et al., “Token Billing Opacity in LLM Platforms,” 2025–2026.
https://arxiv.org/（相关预印本）
论文记录了超过90%的计费Token从未展示给用户的案例。提出”Token数量膨胀”概念——供应商可虚报Token数量或注入伪造推理Token。OpenAI o3模型一次ARC-AGI运行消耗1.11亿个Token（$66,772）。还记录了”模型降级”做法——悄悄替换为低成本模型但计费不变。
James Liu, “Understanding Reasoning Tokens in O-series Models,” 2025.
https://community.openai.com/
开发者社区对推理Token不透明性的讨论。一位开发者报告”只发了一句话，模型也只回复了十几个字，为什么显示将近900个输出Token？”。推理Token按输出Token计费但不出现在API响应中。
GrisLabs, “AI Agent Cost Analysis: 1127 Runs,” 2026.
https://grislabs.com/（内部报告）
追踪1127次Agent运行，中位成本$1.22，但第95百分位达到$22.14——18倍的比率意味着”平均任务成本是一个谎言，长尾吞噬了预算”。推理Token可将单次查询成本放大5-50倍。
이조글로벌인공지능연구소（本文作者）, Google AI Studio 后台截图, 2026年4月.
作者本人的Gemini API付费Tier 1账户比率限制页面。显示Gemini 3 Pro TPM使用1.26M/限额1M（超限26%），Gemini 3 Flash TPM使用1.08M/限额1M（超限8%）。使用场景仅为Chat聊天。TPM触发后当日API被禁止调用。作者同时使用NVIDIA DGX Spark进行本地推理测试，亦因高密度OOD对话导致系统级崩溃。
McKinsey & Company, “The State of AI in 2025,” 2025.
https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai
报告指出约八成企业在使用生成式AI，但同样多的企业报告没有显著的底线影响。”水平型”Copilot快速铺开但收益分散，更具变革性的”垂直型”用例约90%仍停留在试点阶段。
Various industry reports on AI Agent deployment, 2025–2026.
多份报告交叉验证：只有11%的组织将AI Agent投入生产；超过80%的AI项目未能部署，是非AI IT项目失败率的两倍。
Martechify, “AI Agent Pricing Guide,” 2026.
https://martechify.com/ai-agent-pricing/
分析指出大多数企业预算低估真实总拥有成本40-60%。可见成本（供应商报价、财务批准的部分）仅占实际支出的50-60%。隐藏成本包括：集成、维护、人工审核、错误处理等。
OpenClaw Community / GitHub Issues, 2025–2026.
https://github.com/（OpenClaw相关讨论）
社区数据显示OpenClaw每条消息注入约35,600 Token工作区文件，93.5%的Token预算花在永远不变的静态内容上。一个用户主会话占据400K上下文窗口的56-58%。新用户常在几天内花掉$30-100。
DeviantArt Forum, “AI Image Generation is Gacha!” 2025.
https://www.deviantart.com/forum/
用户将AI图像生成直接类比为”抽卡（Gacha）”机制。指出提示词约束越多，AI选择空间越窄，结果反而偏离预期。策略变为”别说太多”——给AI自由发挥的空间。
Vendasta / Intercom, “AI Agent Pricing Models,” 2025–2026.
https://www.vendasta.com/blog/ai-agent-pricing/
AI Agent市场深受定价不透明之害。大多数咨询公司和供应商采用”联系我们获取报价”策略，将投资范围隐藏到销售周期后期。基于结果的定价需事先就”什么算结果”达成一致——但这在实践中极难实现。
Zuora / SaaS industry analysis, “The Death of Per-Seat Pricing,” 2026.
https://www.zuora.com/blog/
当一个AI Agent能做过去需要10-50个人类用户的工作时，按席位定价不只是被压缩，而是崩塌。供应商发明新的抽象层：Token → Credit → “Intelligence Unit”。客户想要熟悉的、可预算的模式，但旧框架已无法适用。
MIT / Gartner / IBM, AI试点失败率研究, 2025–2026.
https://biztechmagazine.com/article/2026/04/google-cloud-next-2026-expanding-ai-agent-adoption-requires-culture-shift
MIT报告显示95%的生成式AI试点项目失败。Gartner发现到2025年底至少50%的生成式AI项目在概念验证后被放弃（归因于数据质量差）。IBM 2025年全球CEO调查发现过去三年中仅25%的AI项目实现了预期价值。
Anonymous et al., “Does Less Hallucination Mean Less Creativity? An Empirical Investigation in LLMs,” arXiv:2512.11509, 2026.
https://arxiv.org/abs/2512.11509
对CoVe、DoLa、RAG三种幻觉抑制技术进行了创造力影响评估。结果出乎意料：CoVe在减少幻觉的同时增强了发散性创造力，而DoLa则同时抑制了创造力。说明幻觉与创造力之间不是简单的等价关系，而是因抑制路径不同而呈现不同的权衡方向。
He et al., “Shakespearean Sparks: The Dance of Hallucination and Creativity in LLMs’ Decoding Layers,” arXiv:2503.02851, 2025.
https://arxiv.org/abs/2503.02851
实证分析揭示了在层深度、模型类型和模型规模上一致的幻觉-创造力权衡关系。在不同模型架构中，存在特定的最优平衡层。该层在大模型中倾向于出现在早期层，且模型置信度在该层也显著更高。
Liu, “The Alignment Tax: Response Homogenization in Aligned LLMs and Its Implications for Uncertainty Estimation,” arXiv:2603.24124, 2026.
https://arxiv.org/abs/2603.24124
正式提出”对齐税”概念并量化其影响。RLHF对齐后的模型在TruthfulQA上40%的问题只产生单一语义聚类（10次独立采样），受影响问题的采样不确定性判别力降至AUROC=0.500。Qwen3-14B的base-vs-instruct消融实验确认了对齐的因果作用：基础模型的单聚类率为1.0%，对齐后飙升。
Louis Bouchard, “Agents or Workflows?” 2025; LangChain, “How to Think About Agent Frameworks,” 2026.
https://www.louisbouchard.ai/agents-vs-workflows/ · https://blog.langchain.com/how-to-think-about-agent-frameworks/
对Agent与Workflow边界的独立分析。Bouchard指出”大多数人称为Agent的东西其实不是Agent”，CrewAI的”Agent”实质上是预定义Workflow。LangChain指出OpenAI和Anthropic都把Workflow视为与Agent不同的模式，但同时承认生产级系统几乎总是两者的组合。Anthropic建议”找到最简可行方案，只在必要时增加复杂度——这可能意味着根本不需要构建智能体系统”。

一引言：一个无法被回答的基础问题

二Agent的本体论：定义的空洞

2.1 三家定义的交叉比较

2.2 Agent与Workflow：唯一的边界线及其模糊性

2.3 自主性的悖论

2.4 定义模糊的深层原因

三Skill的本体论：概念的漂移

3.1 Skill不是什么

3.2 三家的分裂

3.3 Tool与Skill边界的自检与崩塌

四控制论视角：95%上限与5%的双重性

4.1 不确定性的量化

4.2 5%的价值翻转

4.3 LLM作为新产品范畴

五民间本体论：”抽卡”与”降智”

5.1 “抽卡”——成本的最真实描述

5.2 “降智”——三种不同机制的体验收敛

5.3 两套语言体系的对立

六成本黑盒：推理Token与TPM陷阱

6.1 隐藏的推理Token

6.2 TPM陷阱：实证数据

6.3 四重黑盒的完整结构

七从概念模糊到市场黑盒：完整因果链

7.1 OOD用户的结构性惩罚

八结论：需要一套新的概念框架

核心论点

8.1 行业需要回答的三个问题

8.2 历史类比与展望

注参考文献与注释

댓글 남기기 응답 취소