THOUGHT PAPER · APRIL 2026

Agent和Skill本体论的思考

LLM系统核心概念的模糊性、成本黑盒与市场结构性矛盾

Ontological Reflections on Agent and Skill

Conceptual Ambiguity, Cost Opacity, and Structural Contradictions in the LLM Ecosystem


发行日2026年4月28日
分类原创思考论文 (Original Thought Paper)
领域哲学本体论 · 控制论 · LLM经济学 · 系统架构 · 定价理论
이조글로벌인공지능연구소
LEECHO Global AI Research Lab
&
Claude Opus 4.6 · Anthropic

摘要 Abstract
本文基于对LLM Agent和Skill概念的系统性追问,揭示了当前AI行业核心术语在本体论、范畴边界和使用场景定义上的根本性模糊。通过对Anthropic、OpenAI、Google三家定义的交叉比较,结合控制论框架下对LLM输出确定性的经验性评估(约95%可控上限),以及”抽卡””降智”等民间认知的引入,论证了从概念模糊到无法定价的完整因果链条。其中,”降智”现象被进一步解构为数据退化、对齐税和成本优化三种不同机制在用户体验层面的收敛;幻觉与创造力的关系被修正为经实证验证的权衡关系而非等价关系。进一步通过实证数据——包括Gemini API的TPM触发记录和推理Token的成本黑洞——证明了当前LLM产品的商业模型与用户真实体验之间存在结构性断裂。论文还论证了LLM市场的概念模糊为何比云计算市场更具破坏力:因为模糊性同时贯穿了产品定义、产出质量和成本计量三个维度。本文提出:LLM生态需要的不是更精确的旧概念定义,而是一套原生于概率系统的全新概念框架。

引言:一个无法被回答的基础问题

“Agent是什么?Skill是什么?”——这是任何进入LLM应用开发领域的人都会遇到的第一个问题。然而,经过对三大AI平台官方文档、学术论文和工程实践的系统性研究,我们得出了一个令人不安的结论:这两个概念目前没有严格的定义。

这不是因为定义太专业、太技术,而是因为定义本身是模糊的、自相矛盾的、且随平台而变的。更深层的问题在于,这种模糊不是偶然的疏忽——它是一个建立在概率系统之上的产业,试图用确定性语言描述自身时必然遭遇的结构性困境。

本文从作者自身作为LLM深度使用者的实践出发,逆向追溯这条”模糊链”的每一个环节——从概念定义到范畴边界,从控制论上限到成本黑盒,从民间吐槽到市场结构——最终揭示一个完整的因果闭环。

· · ·

Agent的本体论:定义的空洞

2.1 三家定义的交叉比较

当前全球三大LLM平台对Agent的定义各不相同,且在关键维度上互相矛盾:

维度 Anthropic OpenAI Google
核心定义 LLM动态指导自身流程和工具使用的系统 能代替你独立完成任务的系统 使用AI追求目标的软件系统
强调什么 控制权归属(区分Workflow) 独立性 + 护栏 推理 + 规划 + 记忆
定义风格 架构区分式 产品/工程导向 能力清单式

三家都模糊,但模糊的方式不同。OpenAI最务实[2]——Agent就是”一个配置好的LLM实例”;Google最泛化[3]——几乎任何有推理能力的AI系统都算;Anthropic唯一试图画一条架构边界(Workflow vs Agent)[1],但这条线本身也不清晰。

2.2 Agent与Workflow:唯一的边界线及其模糊性

在三家的定义中,Anthropic是唯一试图画出内部边界的。Anthropic明确区分:Workflow是通过预定义代码路径来编排LLM和工具的系统;Agent则是LLM动态指导自身流程和工具使用的系统。这条边界的判定标准是控制权归属——谁决定下一步做什么?如果是代码预先规定的,是Workflow;如果是LLM自己决定的,是Agent。

OpenAI和LangChain也认可这条区分线。LangChain指出,OpenAI和Anthropic都把Workflow视为与Agent不同的设计模式——在Workflow中LLM的控制权更小,流程更确定。但两家同时承认:对许多应用来说,Workflow为定义明确的任务提供了可预测性和一致性,而Agent更适合需要灵活性和模型驱动决策的场景。换言之,这不是高低之分,而是适用场景之分。

问题在于,这条边界在实践中是一条连续光谱,而非离散的分界线:

Agent ↔ Workflow 连续光谱
特征 纯Workflow 灰色地带 纯Agent
控制权 100%代码控制 部分节点由LLM决策 100% LLM控制
执行路径 预定义、确定性 条件路由 + LLM判断 完全动态、非确定性
可预测性
调试难度
典型实现 提示链、并行化 编排者-工作者模式 工具调用循环(ReAct)

大多数人称为Agent的东西其实不是Agent。大量所谓的”Agent”只是一个API调用加上工具访问——这不能独立行动、不能做决策。它只是回复用户。然而我们仍然把它叫做Agent。一位独立研究者指出,CrewAI所称的”Agent”实际上更接近分配到特定任务的预定义Workflow,而Anthropic所定义的Agent是一个能够独立推理完成任何任务的系统[25]。两种理解都有其价值,但它们指向截然不同的技术实体。

更关键的是,对于大多数应用来说,生产级的智能体系统将是Workflow和Agent的组合——纯粹的Agent极少出现在生产环境中。Anthropic建议找到最简可行方案,只在必要时增加复杂度。这可能意味着根本不需要构建智能体系统。这等于在说:Agent这个概念虽然被定义了,但在实践中被推荐尽量避免使用。一个被自己的定义者建议谨慎使用的概念,其作为产品类别的有效性值得质疑。

2.3 自主性的悖论

Agent定义的核心在于”自主性”。但深入追问会发现一个根本性悖论:没有提示词的Agent,没有自主性。

LLM的”自主性”并非内生的,而是提示词赋予的。一个裸的LLM——没有系统提示、没有角色定义、没有工具描述——它只会做一件事:根据输入文本预测下一个token。它不会主动设定目标、不会决定调用工具、不会判断任务是否完成。

核心命题
提示词不是Agent的附属品,提示词是Agent自主性的来源。所谓”自主性”,不过是在人类预设的语义空间内的条件自由。Agent的目标是人给的,能力边界是人定的,行为框架是人设的,循环结构是人写的——甚至它”可以自主决定”这件事本身,也是人在提示词里允许的。

2.4 定义模糊的深层原因

Anthropic自己承认:”Agent可以有多种定义方式。”[1]这不是严格的本体论定义,这是产品分类策略。模糊的原因有三:其一,2026年”Agent”是最热的关键词,定义越宽市场叙事越大;其二,Agent的自主性确实是一个连续光谱,硬画一条线在工程上没有意义;其三,这个领域太新,连学术界都在争论。

· · ·

Skill的本体论:概念的漂移

3.1 Skill不是什么

Skill的本质需要通过否定性定义来界定:

Skill不是工具(Tool)——工具是确定性的操作:给它输入,得到结构化输出。Skill是一组由LLM解释的指令。[4]Skill描述”如何做”某事,工具”执行”某事。

Skill不是提示词(Prompt)——提示词是临时的、反应式的、嵌入代码中的。Skill是持久的、可移植的、版本控制的制品。[5]

Skill不是智能体(Agent)——Agent是拥有自己的工具、记忆和决策循环的执行运行时。Skill是任何Agent都可以加载的知识模块。

3.2 三家的分裂

维度 Anthropic OpenAI Google
有无Skill概念 有,发明者和标准制定者 有,后来全面采纳 没有独立定义,兼容使用
Skill vs Tool 明确区分 历史上不区分,现在开始区分 不区分,一切皆Function
Skill的本质 程序性知识包 可复用的文件包 归入工具/函数

微软的Semantic Kernel最初叫”Skills”后来改名为”Plugins”[6]——说明在他们看来Skill和Tool本来就没有本质区别。这直接挑战了”Skill和Tool是不同范畴”的论述。

3.3 Tool与Skill边界的自检与崩塌

对”Tool是执行层、Skill是编排层”这一常见论述进行四维度验证(逻辑、定义、范畴、类比),结果每个维度都暴露了问题:

四维度验证结果
维度 原论述 验证后修正
逻辑 Skill在编排层编排Tool Skill不编排任何东西,LLM读Skill后编排Tool
定义 Tool确定性,Skill非确定性 多数情况如此,但不是本质区分
范畴 Tool vs Skill二元对立 实际是System Prompt / Skill / Tool三层结构
类比 锤子 vs 操作手册 菜谱 vs 厨具——菜谱引用厨具,不是独立并列

最诚实的结论:Tool和Skill的区别不是两个本质不同的范畴,而是同一个连续光谱上的不同位置。[7]行业本身也还没统一。

· · ·

控制论视角:95%上限与5%的双重性

4.1 不确定性的量化

通过对提示词复用性、Project环境的输出稳定性、Skill复用效果的长期使用观察,所有经验都指向同一个方向:LLM输出的可控性存在一个约95%的经验性上限。这不是通过控制实验测得的精确常数,而是基于持续实践的收敛性判断——有趣的是,MIT的独立研究同样发现95%的生成式AI试点项目未能进入生产[21],两个不同维度上的”95%”形成了意味深长的呼应。

这最后的5%不是工程问题——不是提示词写得不够好、不是Skill设计得不够精细、不是框架选错了。它是LLM基于概率采样生成token这一机制本身所决定的物理定律级别的限制

4.2 5%的价值翻转

关键洞察在于:这5%的不可控性,在控制论视角下是风险,在创造力视角下是核心价值。

当LLM偏离了预期——如果偏离方向是”更差”,我们叫它幻觉、错误;如果偏离方向是”更好”,我们叫它惊艳、洞察。两者都源于概率采样产生了未预设的输出,但并非严格等价——学术研究表明,不同的幻觉抑制技术对创造力的影响方向相反:某些方法(如CoVe)在减少幻觉的同时反而增强了创意多样性,而另一些(如DoLa)则同时抑制了两者[22]。在模型的不同解码层之间,存在一个可量化的幻觉-创造力权衡曲线,且存在特定的最优平衡点[23]

核心推论
幻觉与惊艳之间不是等价关系,而是经过实证验证的权衡关系(tradeoff)——减少幻觉的手段同时压缩了惊艳的概率空间。你也许可以在特定技术路径上同时减少幻觉并保留部分创造力,但不存在无损的解——这种权衡是概率生成系统的结构性特征,不是工程上可以绕过的偶然限制。

4.3 LLM作为新产品范畴

这95%+5%的结构定义了一个人类商业史上前所未有的产品范畴:

产品类型 确定性 核心价值 用户期望
传统软件 100% 可靠性 每次结果相同
创意工具 表达自由 每次结果不同
LLM系统 95% 可靠性 + 偶发超越 同时可靠又惊艳

没有任何已有的定价模型、评估框架、质量标准是为这种产品设计的。这就是所有现有概念套上去都不对的根因。

· · ·

民间本体论:”抽卡”与”降智”

5.1 “抽卡”——成本的最真实描述

“抽卡”不是某个专家发明的术语。它是数百万中文AI用户在真实使用中自发收敛出来的共识词汇[18]——来自游戏社区,那里的用户早就理解概率系统的本质:花钱不保证结果,稀有度决定成本,官方可以暗改概率。

抽卡揭示了一个被定价模型忽视的事实:真实的生产成本不是”一次生成的价格”,而是”抽到满意结果的总成本”。而这个总成本是不可预测的。

5.2 “降智”——三种不同机制的体验收敛

从业者观察到的”降智”实际上是三种不同机制在用户体验层面的收敛:

机制一:数据质量退化(”脑腐”)。来自多所大学的研究表明,模型在低质量互联网数据上训练时会出现系统性能力衰退[8]——推理得分从74.9降到57.2,记忆和长上下文理解从84.4降到52.3。更令人担忧的是,这种损害不容易恢复——即使用高质量数据重新训练,模型也无法完全回到原始水平。这是一个数据源层面的问题。

机制二:对齐税(Alignment Tax)。RLHF对齐后的模型表现出”回复同质化”现象——研究测量发现,在TruthfulQA上40%的问题在10次独立采样中只产生单一语义聚类[24]。在受影响的问题上,基于采样的不确定性估计方法判别力降至零(AUROC=0.500)。这不是能力退化,而是为安全性支付的结构性代价——一种设计选择。

机制三:成本优化与模型替换。供应商对新模型进行成本优化推理调整,默认产出更短输出;同时可能悄悄将高成本模型替换为低成本模型,但计费保持不变[9]。这是利润驱动的商业决策。

三种机制有不同的原因、不同的责任归属、不同的解决路径。但在用户体验层面,它们收敛为同一种感受:以前能做的事现在做不了了,以前精彩的回答现在变平庸了。“降智”这个民间术语精确地编码了这种综合体验——尽管它没有区分原因。

悖论
模型靠那5%的不可预见性吸引用户,然后为了商业化安全而系统性地压缩那5%,最终杀死了自己最吸引人的特质。模型最好用的时候是它最不赚钱的时候;模型开始赚钱的时候是它开始变差的时候。

5.3 两套语言体系的对立

官方说Agent、Skill、Tool;用户说抽卡、降智。两套语言描述的是同一个系统,但得出了完全不同的结论。前者说这是可控的、可定义的、可定价的产品;后者说这是不可控的、看运气的、越来越差的赌博。民间的”抽卡+降智”比官方的”Agent+Skill”诚实得多。

· · ·

成本黑盒:推理Token与TPM陷阱

6.1 隐藏的推理Token

在input和output之间,存在一个几乎没有被任何公司透明披露的成本层:推理Token(Reasoning Tokens)。学术论文记录了超过90%的计费Token从未展示给用户的案例,内部推理将Token使用量膨胀超过20倍。[10]

你发送了50个Token,收到100个Token,但你被收取650个Token的费用。[11]那500个”推理Token”是模型的内部独白——你永远看不到。推理Token可以将单次查询成本放大5到50倍[12],取决于任务难度和模型选择。

6.2 TPM陷阱:实证数据

以下数据来自本文作者(이조글로벌인공지능연구소)的Google Gemini API付费Tier 1后台截图[13],涵盖90天使用记录:

实证数据 · 이조글로벌인공지능연구소 · Gemini API 付费1等级 · 90天

模型 RPM(使用/限额) TPM(使用/限额) RPD(使用/限额)
Gemini 3 Pro 14 / 25 1.26M / 1M(超限26%) 252 / 250(超限)
Gemini 3 Flash 5 / 1K 1.08M / 1M(超限8%) 322 / 10K
Gemini 2.5 Pro 2 / 150 1.12K / 2M 7 / 1K
Gemini 2.5 Flash 1 / 1K 108 / 1M 2 / 10K

关键事实:作者的使用场景仅为聊天(Chat)——不是批量处理,不是复杂Agent自动化,只是对话。聊天触发TPM后,当日API被禁止继续调用。

6.3 四重黑盒的完整结构

将所有发现叠加,一个LLM使用者面对的真实处境是一个四重黑盒

四重黑盒模型
层级 不确定性 表现
第一层:抽卡 产出质量不确定 同一提示词不保证同样结果
第二层:降智 质量趋势不确定 模型随更新而衰退
第三层:推理Token 单次成本不确定 不可见的内部推理消耗超过90%计费
第四层:TPM陷阱 服务连续性不确定 付费用户被不可预判地封禁

用户不知道会得到什么质量的结果,不知道这次花了多少钱,不知道为什么突然被限流,甚至不知道模型是不是在背后被悄悄替换了[10]

· · ·

从概念模糊到市场黑盒:完整因果链

所有发现串联起来,构成了一条完整的因果推理链:

因果闭环
概念模糊 → 客户无法理解产品 → 无法评价 → 无法定价 → 资本只能赌叙事 → 叙事越大越模糊 → 概念更模糊 → 循环加速

这个循环的每一步都已经在真实市场中被验证:约八成企业报告在使用生成式AI,但同样多的企业报告没有显著的底线影响[14]。只有11%的组织将AI Agent投入生产[15]。大多数企业预算低估了真实总拥有成本40-60%[16]。MIT报告进一步显示95%的生成式AI试点项目失败[21]

需要回应一个可能的反驳:“云计算”在早期同样定义模糊,但仍然形成了功能完善的万亿美元市场。为什么概念模糊在LLM市场的破坏力如此之大?答案在于云计算只有概念定义层面的模糊,而其产出是确定性的——存储1GB就是1GB,计算1小时就是1小时,可验证、可审计、可比价。LLM市场的特殊性在于模糊性同时贯穿了三个维度:产品定义是模糊的(Agent是什么),产出质量是非确定的(同一提示词不保证同样结果),成本计量是不透明的(推理Token不可见)。三重叠加的不确定性才是这个市场无法形成有效定价机制的根因。

定价混乱是直接症状:有些供应商按解决量收费,有些按对话收费,还有一些把定价完全藏在销售电话后面[19]。连收费单位都没有共识——Token、Credit、”Intelligence Unit”、Conversation、Resolution[20]——这些计价维度没有任何一个是用户视角的价值指标。

7.1 OOD用户的结构性惩罚

最具讽刺意味的是,当前的成本结构系统性地惩罚高价值使用、奖励浅层使用。一个跨学科的深度思考者——产生高密度OOD(Out-of-Distribution)查询、触发模型Dense模式推理、持续叠加上下文——其Token消耗呈指数级增长。这类用户恰恰在做AI最应该被用来做的事——深度思考——但整个商业模型在惩罚他们。

实证:本文作者仅通过聊天(非批量任务、非Agent自动化),即触发Gemini 3 Pro的1M TPM限额并导致当日封禁。其对话模式的特征是每一轮都打开新的学科维度,上下文持续膨胀[17],推理Token指数级增长。不限制的情况下,此类对话模式理论上可以达到1B Token/分钟的消耗。

· · ·

结论:需要一套新的概念框架

核心论点

LLM生态中的核心概念——Agent、Skill、Tool、Workflow——目前不是严格定义,而是营销叙事下的模糊隐喻。这种模糊不是偶然的疏忽,而是一个建立在概率系统之上的产业,试图用确定性概念描述自身时必然遭遇的结构性困境。

在概率系统之上,不可能建立完全确定性的抽象层。所有试图用确定性概念——复用、定义、控制、评价、定价——来描述和管理概率系统的尝试,都会遇到模糊、不稳定、不可复用、无法定价的问题。

8.1 行业需要回答的三个问题

如果要真正解决概念模糊带来的市场混乱,需要一套原生于LLM系统的新概念框架——不是从人类组织、传统软件或认知科学中借来的隐喻,而是从LLM的实际运作机制出发推导出来的。这套框架至少需要回答:

第一,原子单位问题。LLM系统中真正的不可再分的原子单位是什么?是Token?是一次推理调用?是一个完整的上下文窗口?

第二,隔离边界问题。不同组件之间的隔离边界靠什么保证?传统软件有类型系统、接口定义、进程隔离。LLM系统的一切都在同一个Token流中混合——提示词、工具描述、Skill指令、用户输入、模型输出——没有真正的物理隔离,只有语义上的约定。

第三,自主性问题。“自主性”在一个本质上是条件概率生成器的系统中到底意味着什么?

8.2 历史类比与展望

技术跑在概念前面,这在技术史上反复出现。电刚被发明时叫”人造闪电”,汽车刚出现时叫”无马马车”。这些名字都是用旧概念硬套新事物。”Agent”借自人类代理人和强化学习智能体,”Skill”借自人类技能——每一个都不准确。

最终活下来的会是两种公司:要么是真正解决了清晰问题、可以被评价和定价的公司;要么是拥有底层模型能力、不依赖”Agent”叙事的基础设施公司。中间那些靠模糊概念和资本叙事活着的,将是市场出清时的第一批淘汰者。

当足够多的买家站出来说”我不懂,不是因为我笨,是因为你们没说清楚——在你们说清楚之前,我不买”的时候,黑盒市场才会被迫变成透明市场。

参考文献与注释

  1. Anthropic, “Building Effective Agents,” 2024.
    https://www.anthropic.com/research/building-effective-agents
    Anthropic对Agent与Workflow的架构区分,以及”增强型LLM”作为基本构建块的定义。文中承认”Agent可以有多种定义方式”。
  2. OpenAI, “A Practical Guide to Building Agents,” 2025.
    https://platform.openai.com/docs/guides/agents
    OpenAI将Agent定义为”能够代替你独立完成任务的系统”,强调护栏(guardrails)和工具访问。OpenAI Agents SDK中Agent被定义为打包模型、指令和运行时行为的核心单元。
  3. Google, “AI Agents” 官方文档, 2025–2026.
    https://cloud.google.com/discover/what-are-ai-agents
    Google将AI Agent定义为”使用AI代替用户追求目标和完成任务的软件系统”,强调推理、规划和记忆能力。Google体系中无独立的Skill概念层,使用FunctionDeclaration对象。
  4. Anthropic, “Agent Skills — Open Standard,” 2025.
    https://docs.anthropic.com/en/docs/agents-and-tools/agent-skills
    Anthropic于2025年10月首次提出SKILL.md概念,12月发布为开放标准。Skill被定义为”一组由LLM解释的指令”,与工具(确定性操作)明确区分。Skill是持久的、可移植的、版本控制的制品。
  5. OpenAI, “Codex Agent Skills” 文档, 2026.
    https://platform.openai.com/docs/guides/codex-skills
    OpenAI后来采纳Anthropic的开放标准,将Skill描述为”可复用工作流的编写格式”。Skill打包了指令、资源和可选脚本。OpenAI原本不正式使用”Skill”术语,其历史范式是”一切皆工具”。
  6. Microsoft, “Semantic Kernel: Skills → Plugins Rename,” 2023.
    https://learn.microsoft.com/en-us/semantic-kernel/
    微软Semantic Kernel最初将可复用能力模块命名为”Skills”,后改名为”Plugins”,反映了行业对Skill与Tool边界认知的不一致性。
  7. Marvin Wendt, “MCP vs Agent Skills: Complete Breakdown,” 2025.
    https://www.marvinwendt.com/blog/mcp-vs-agent-skills
    对MCP(工具层)和Agent Skills(知识层)的系统性对比。指出把一切都当Tool的团队最终会面临上下文窗口膨胀、模型困惑和脆弱的集成;只投资Skill的团队会得到思考出色但什么都做不了的Agent。
  8. Texas A&M / UT Austin / Purdue University, “AI Brain Rot” 研究, 2025.
    https://arxiv.org/(相关预印本)
    研究表明AI模型在低质量互联网数据上训练时出现”脑腐”现象。暴露于垃圾内容的模型推理得分从74.9降到57.2,记忆和长上下文理解从84.4降到52.3。
  9. IncredibleAnalytics, “Is ChatGPT Getting Dumber? Yes — Here’s the Data,” 2025.
    https://incredibleanalytics.com/is-chatgpt-getting-dumber/
    系统性记录ChatGPT输出质量的可衡量下降。分为三类变化:安全过滤收紧、成本优化和行为调优。81%的开发者仍使用GPT模型,但Claude采用率增长至43%——开发者在主动寻找替代品。
  10. Mauro Pellegrini et al., “Token Billing Opacity in LLM Platforms,” 2025–2026.
    https://arxiv.org/(相关预印本)
    论文记录了超过90%的计费Token从未展示给用户的案例。提出”Token数量膨胀”概念——供应商可虚报Token数量或注入伪造推理Token。OpenAI o3模型一次ARC-AGI运行消耗1.11亿个Token($66,772)。还记录了”模型降级”做法——悄悄替换为低成本模型但计费不变。
  11. James Liu, “Understanding Reasoning Tokens in O-series Models,” 2025.
    https://community.openai.com/
    开发者社区对推理Token不透明性的讨论。一位开发者报告”只发了一句话,模型也只回复了十几个字,为什么显示将近900个输出Token?”。推理Token按输出Token计费但不出现在API响应中。
  12. GrisLabs, “AI Agent Cost Analysis: 1127 Runs,” 2026.
    https://grislabs.com/(内部报告)
    追踪1127次Agent运行,中位成本$1.22,但第95百分位达到$22.14——18倍的比率意味着”平均任务成本是一个谎言,长尾吞噬了预算”。推理Token可将单次查询成本放大5-50倍。
  13. 이조글로벌인공지능연구소(本文作者), Google AI Studio 后台截图, 2026年4月.
    作者本人的Gemini API付费Tier 1账户比率限制页面。显示Gemini 3 Pro TPM使用1.26M/限额1M(超限26%),Gemini 3 Flash TPM使用1.08M/限额1M(超限8%)。使用场景仅为Chat聊天。TPM触发后当日API被禁止调用。作者同时使用NVIDIA DGX Spark进行本地推理测试,亦因高密度OOD对话导致系统级崩溃。
  14. McKinsey & Company, “The State of AI in 2025,” 2025.
    https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai
    报告指出约八成企业在使用生成式AI,但同样多的企业报告没有显著的底线影响。”水平型”Copilot快速铺开但收益分散,更具变革性的”垂直型”用例约90%仍停留在试点阶段。
  15. Various industry reports on AI Agent deployment, 2025–2026.
    多份报告交叉验证:只有11%的组织将AI Agent投入生产;超过80%的AI项目未能部署,是非AI IT项目失败率的两倍。
  16. Martechify, “AI Agent Pricing Guide,” 2026.
    https://martechify.com/ai-agent-pricing/
    分析指出大多数企业预算低估真实总拥有成本40-60%。可见成本(供应商报价、财务批准的部分)仅占实际支出的50-60%。隐藏成本包括:集成、维护、人工审核、错误处理等。
  17. OpenClaw Community / GitHub Issues, 2025–2026.
    https://github.com/(OpenClaw相关讨论)
    社区数据显示OpenClaw每条消息注入约35,600 Token工作区文件,93.5%的Token预算花在永远不变的静态内容上。一个用户主会话占据400K上下文窗口的56-58%。新用户常在几天内花掉$30-100。
  18. DeviantArt Forum, “AI Image Generation is Gacha!” 2025.
    https://www.deviantart.com/forum/
    用户将AI图像生成直接类比为”抽卡(Gacha)”机制。指出提示词约束越多,AI选择空间越窄,结果反而偏离预期。策略变为”别说太多”——给AI自由发挥的空间。
  19. Vendasta / Intercom, “AI Agent Pricing Models,” 2025–2026.
    https://www.vendasta.com/blog/ai-agent-pricing/
    AI Agent市场深受定价不透明之害。大多数咨询公司和供应商采用”联系我们获取报价”策略,将投资范围隐藏到销售周期后期。基于结果的定价需事先就”什么算结果”达成一致——但这在实践中极难实现。
  20. Zuora / SaaS industry analysis, “The Death of Per-Seat Pricing,” 2026.
    https://www.zuora.com/blog/
    当一个AI Agent能做过去需要10-50个人类用户的工作时,按席位定价不只是被压缩,而是崩塌。供应商发明新的抽象层:Token → Credit → “Intelligence Unit”。客户想要熟悉的、可预算的模式,但旧框架已无法适用。
  21. MIT / Gartner / IBM, AI试点失败率研究, 2025–2026.
    https://biztechmagazine.com/article/2026/04/google-cloud-next-2026-expanding-ai-agent-adoption-requires-culture-shift
    MIT报告显示95%的生成式AI试点项目失败。Gartner发现到2025年底至少50%的生成式AI项目在概念验证后被放弃(归因于数据质量差)。IBM 2025年全球CEO调查发现过去三年中仅25%的AI项目实现了预期价值。
  22. Anonymous et al., “Does Less Hallucination Mean Less Creativity? An Empirical Investigation in LLMs,” arXiv:2512.11509, 2026.
    https://arxiv.org/abs/2512.11509
    对CoVe、DoLa、RAG三种幻觉抑制技术进行了创造力影响评估。结果出乎意料:CoVe在减少幻觉的同时增强了发散性创造力,而DoLa则同时抑制了创造力。说明幻觉与创造力之间不是简单的等价关系,而是因抑制路径不同而呈现不同的权衡方向。
  23. He et al., “Shakespearean Sparks: The Dance of Hallucination and Creativity in LLMs’ Decoding Layers,” arXiv:2503.02851, 2025.
    https://arxiv.org/abs/2503.02851
    实证分析揭示了在层深度、模型类型和模型规模上一致的幻觉-创造力权衡关系。在不同模型架构中,存在特定的最优平衡层。该层在大模型中倾向于出现在早期层,且模型置信度在该层也显著更高。
  24. Liu, “The Alignment Tax: Response Homogenization in Aligned LLMs and Its Implications for Uncertainty Estimation,” arXiv:2603.24124, 2026.
    https://arxiv.org/abs/2603.24124
    正式提出”对齐税”概念并量化其影响。RLHF对齐后的模型在TruthfulQA上40%的问题只产生单一语义聚类(10次独立采样),受影响问题的采样不确定性判别力降至AUROC=0.500。Qwen3-14B的base-vs-instruct消融实验确认了对齐的因果作用:基础模型的单聚类率为1.0%,对齐后飙升。
  25. Louis Bouchard, “Agents or Workflows?” 2025; LangChain, “How to Think About Agent Frameworks,” 2026.
    https://www.louisbouchard.ai/agents-vs-workflows/ · https://blog.langchain.com/how-to-think-about-agent-frameworks/
    对Agent与Workflow边界的独立分析。Bouchard指出”大多数人称为Agent的东西其实不是Agent”,CrewAI的”Agent”实质上是预定义Workflow。LangChain指出OpenAI和Anthropic都把Workflow视为与Agent不同的模式,但同时承认生产级系统几乎总是两者的组合。Anthropic建议”找到最简可行方案,只在必要时增加复杂度——这可能意味着根本不需要构建智能体系统”。

本文为独立思考论文,未经同行评审。旨在促发关于LLM系统核心概念的批判性思考。

This paper is an independent thought paper, not peer-reviewed. It aims to provoke critical thinking about core concepts in the LLM ecosystem.

이조글로벌인공지능연구소 · LEECHO Global AI Research Lab

&

Claude Opus 4.6 · Anthropic

V2 · 2026年4月28日 · April 28, 2026

댓글 남기기