本文基于对LLM Agent和Skill概念的系统性追问,揭示了当前AI行业核心术语在本体论、范畴边界和使用场景定义上的根本性模糊。通过对Anthropic、OpenAI、Google三家定义的交叉比较,结合控制论框架下对LLM输出确定性的经验性评估(约95%可控上限),以及”抽卡””降智”等民间认知的引入,论证了从概念模糊到无法定价的完整因果链条。其中,”降智”现象被进一步解构为数据退化、对齐税和成本优化三种不同机制在用户体验层面的收敛;幻觉与创造力的关系被修正为经实证验证的权衡关系而非等价关系。进一步通过实证数据——包括Gemini API的TPM触发记录和推理Token的成本黑洞——证明了当前LLM产品的商业模型与用户真实体验之间存在结构性断裂。论文还论证了LLM市场的概念模糊为何比云计算市场更具破坏力:因为模糊性同时贯穿了产品定义、产出质量和成本计量三个维度。本文提出:LLM生态需要的不是更精确的旧概念定义,而是一套原生于概率系统的全新概念框架。
一引言:一个无法被回答的基础问题
“Agent是什么?Skill是什么?”——这是任何进入LLM应用开发领域的人都会遇到的第一个问题。然而,经过对三大AI平台官方文档、学术论文和工程实践的系统性研究,我们得出了一个令人不安的结论:这两个概念目前没有严格的定义。
这不是因为定义太专业、太技术,而是因为定义本身是模糊的、自相矛盾的、且随平台而变的。更深层的问题在于,这种模糊不是偶然的疏忽——它是一个建立在概率系统之上的产业,试图用确定性语言描述自身时必然遭遇的结构性困境。
本文从作者自身作为LLM深度使用者的实践出发,逆向追溯这条”模糊链”的每一个环节——从概念定义到范畴边界,从控制论上限到成本黑盒,从民间吐槽到市场结构——最终揭示一个完整的因果闭环。
二Agent的本体论:定义的空洞
2.1 三家定义的交叉比较
当前全球三大LLM平台对Agent的定义各不相同,且在关键维度上互相矛盾:
| 维度 | Anthropic | OpenAI | |
|---|---|---|---|
| 核心定义 | LLM动态指导自身流程和工具使用的系统 | 能代替你独立完成任务的系统 | 使用AI追求目标的软件系统 |
| 强调什么 | 控制权归属(区分Workflow) | 独立性 + 护栏 | 推理 + 规划 + 记忆 |
| 定义风格 | 架构区分式 | 产品/工程导向 | 能力清单式 |
三家都模糊,但模糊的方式不同。OpenAI最务实[2]——Agent就是”一个配置好的LLM实例”;Google最泛化[3]——几乎任何有推理能力的AI系统都算;Anthropic唯一试图画一条架构边界(Workflow vs Agent)[1],但这条线本身也不清晰。
2.2 Agent与Workflow:唯一的边界线及其模糊性
在三家的定义中,Anthropic是唯一试图画出内部边界的。Anthropic明确区分:Workflow是通过预定义代码路径来编排LLM和工具的系统;Agent则是LLM动态指导自身流程和工具使用的系统。这条边界的判定标准是控制权归属——谁决定下一步做什么?如果是代码预先规定的,是Workflow;如果是LLM自己决定的,是Agent。
OpenAI和LangChain也认可这条区分线。LangChain指出,OpenAI和Anthropic都把Workflow视为与Agent不同的设计模式——在Workflow中LLM的控制权更小,流程更确定。但两家同时承认:对许多应用来说,Workflow为定义明确的任务提供了可预测性和一致性,而Agent更适合需要灵活性和模型驱动决策的场景。换言之,这不是高低之分,而是适用场景之分。
问题在于,这条边界在实践中是一条连续光谱,而非离散的分界线:
| 特征 | 纯Workflow | 灰色地带 | 纯Agent |
|---|---|---|---|
| 控制权 | 100%代码控制 | 部分节点由LLM决策 | 100% LLM控制 |
| 执行路径 | 预定义、确定性 | 条件路由 + LLM判断 | 完全动态、非确定性 |
| 可预测性 | 高 | 中 | 低 |
| 调试难度 | 低 | 中 | 高 |
| 典型实现 | 提示链、并行化 | 编排者-工作者模式 | 工具调用循环(ReAct) |
大多数人称为Agent的东西其实不是Agent。大量所谓的”Agent”只是一个API调用加上工具访问——这不能独立行动、不能做决策。它只是回复用户。然而我们仍然把它叫做Agent。一位独立研究者指出,CrewAI所称的”Agent”实际上更接近分配到特定任务的预定义Workflow,而Anthropic所定义的Agent是一个能够独立推理完成任何任务的系统[25]。两种理解都有其价值,但它们指向截然不同的技术实体。
更关键的是,对于大多数应用来说,生产级的智能体系统将是Workflow和Agent的组合——纯粹的Agent极少出现在生产环境中。Anthropic建议找到最简可行方案,只在必要时增加复杂度。这可能意味着根本不需要构建智能体系统。这等于在说:Agent这个概念虽然被定义了,但在实践中被推荐尽量避免使用。一个被自己的定义者建议谨慎使用的概念,其作为产品类别的有效性值得质疑。
2.3 自主性的悖论
Agent定义的核心在于”自主性”。但深入追问会发现一个根本性悖论:没有提示词的Agent,没有自主性。
LLM的”自主性”并非内生的,而是提示词赋予的。一个裸的LLM——没有系统提示、没有角色定义、没有工具描述——它只会做一件事:根据输入文本预测下一个token。它不会主动设定目标、不会决定调用工具、不会判断任务是否完成。
提示词不是Agent的附属品,提示词是Agent自主性的来源。所谓”自主性”,不过是在人类预设的语义空间内的条件自由。Agent的目标是人给的,能力边界是人定的,行为框架是人设的,循环结构是人写的——甚至它”可以自主决定”这件事本身,也是人在提示词里允许的。
2.4 定义模糊的深层原因
Anthropic自己承认:”Agent可以有多种定义方式。”[1]这不是严格的本体论定义,这是产品分类策略。模糊的原因有三:其一,2026年”Agent”是最热的关键词,定义越宽市场叙事越大;其二,Agent的自主性确实是一个连续光谱,硬画一条线在工程上没有意义;其三,这个领域太新,连学术界都在争论。
三Skill的本体论:概念的漂移
3.1 Skill不是什么
Skill的本质需要通过否定性定义来界定:
Skill不是工具(Tool)——工具是确定性的操作:给它输入,得到结构化输出。Skill是一组由LLM解释的指令。[4]Skill描述”如何做”某事,工具”执行”某事。
Skill不是提示词(Prompt)——提示词是临时的、反应式的、嵌入代码中的。Skill是持久的、可移植的、版本控制的制品。[5]
Skill不是智能体(Agent)——Agent是拥有自己的工具、记忆和决策循环的执行运行时。Skill是任何Agent都可以加载的知识模块。
3.2 三家的分裂
| 维度 | Anthropic | OpenAI | |
|---|---|---|---|
| 有无Skill概念 | 有,发明者和标准制定者 | 有,后来全面采纳 | 没有独立定义,兼容使用 |
| Skill vs Tool | 明确区分 | 历史上不区分,现在开始区分 | 不区分,一切皆Function |
| Skill的本质 | 程序性知识包 | 可复用的文件包 | 归入工具/函数 |
微软的Semantic Kernel最初叫”Skills”后来改名为”Plugins”[6]——说明在他们看来Skill和Tool本来就没有本质区别。这直接挑战了”Skill和Tool是不同范畴”的论述。
3.3 Tool与Skill边界的自检与崩塌
对”Tool是执行层、Skill是编排层”这一常见论述进行四维度验证(逻辑、定义、范畴、类比),结果每个维度都暴露了问题:
| 维度 | 原论述 | 验证后修正 |
|---|---|---|
| 逻辑 | Skill在编排层编排Tool | Skill不编排任何东西,LLM读Skill后编排Tool |
| 定义 | Tool确定性,Skill非确定性 | 多数情况如此,但不是本质区分 |
| 范畴 | Tool vs Skill二元对立 | 实际是System Prompt / Skill / Tool三层结构 |
| 类比 | 锤子 vs 操作手册 | 菜谱 vs 厨具——菜谱引用厨具,不是独立并列 |
最诚实的结论:Tool和Skill的区别不是两个本质不同的范畴,而是同一个连续光谱上的不同位置。[7]行业本身也还没统一。
四控制论视角:95%上限与5%的双重性
4.1 不确定性的量化
通过对提示词复用性、Project环境的输出稳定性、Skill复用效果的长期使用观察,所有经验都指向同一个方向:LLM输出的可控性存在一个约95%的经验性上限。这不是通过控制实验测得的精确常数,而是基于持续实践的收敛性判断——有趣的是,MIT的独立研究同样发现95%的生成式AI试点项目未能进入生产[21],两个不同维度上的”95%”形成了意味深长的呼应。
这最后的5%不是工程问题——不是提示词写得不够好、不是Skill设计得不够精细、不是框架选错了。它是LLM基于概率采样生成token这一机制本身所决定的物理定律级别的限制。
4.2 5%的价值翻转
关键洞察在于:这5%的不可控性,在控制论视角下是风险,在创造力视角下是核心价值。
当LLM偏离了预期——如果偏离方向是”更差”,我们叫它幻觉、错误;如果偏离方向是”更好”,我们叫它惊艳、洞察。两者都源于概率采样产生了未预设的输出,但并非严格等价——学术研究表明,不同的幻觉抑制技术对创造力的影响方向相反:某些方法(如CoVe)在减少幻觉的同时反而增强了创意多样性,而另一些(如DoLa)则同时抑制了两者[22]。在模型的不同解码层之间,存在一个可量化的幻觉-创造力权衡曲线,且存在特定的最优平衡点[23]。
幻觉与惊艳之间不是等价关系,而是经过实证验证的权衡关系(tradeoff)——减少幻觉的手段同时压缩了惊艳的概率空间。你也许可以在特定技术路径上同时减少幻觉并保留部分创造力,但不存在无损的解——这种权衡是概率生成系统的结构性特征,不是工程上可以绕过的偶然限制。
4.3 LLM作为新产品范畴
这95%+5%的结构定义了一个人类商业史上前所未有的产品范畴:
| 产品类型 | 确定性 | 核心价值 | 用户期望 |
|---|---|---|---|
| 传统软件 | 100% | 可靠性 | 每次结果相同 |
| 创意工具 | 低 | 表达自由 | 每次结果不同 |
| LLM系统 | 95% | 可靠性 + 偶发超越 | 同时可靠又惊艳 |
没有任何已有的定价模型、评估框架、质量标准是为这种产品设计的。这就是所有现有概念套上去都不对的根因。
五民间本体论:”抽卡”与”降智”
5.1 “抽卡”——成本的最真实描述
“抽卡”不是某个专家发明的术语。它是数百万中文AI用户在真实使用中自发收敛出来的共识词汇[18]——来自游戏社区,那里的用户早就理解概率系统的本质:花钱不保证结果,稀有度决定成本,官方可以暗改概率。
抽卡揭示了一个被定价模型忽视的事实:真实的生产成本不是”一次生成的价格”,而是”抽到满意结果的总成本”。而这个总成本是不可预测的。
5.2 “降智”——三种不同机制的体验收敛
从业者观察到的”降智”实际上是三种不同机制在用户体验层面的收敛:
机制一:数据质量退化(”脑腐”)。来自多所大学的研究表明,模型在低质量互联网数据上训练时会出现系统性能力衰退[8]——推理得分从74.9降到57.2,记忆和长上下文理解从84.4降到52.3。更令人担忧的是,这种损害不容易恢复——即使用高质量数据重新训练,模型也无法完全回到原始水平。这是一个数据源层面的问题。
机制二:对齐税(Alignment Tax)。RLHF对齐后的模型表现出”回复同质化”现象——研究测量发现,在TruthfulQA上40%的问题在10次独立采样中只产生单一语义聚类[24]。在受影响的问题上,基于采样的不确定性估计方法判别力降至零(AUROC=0.500)。这不是能力退化,而是为安全性支付的结构性代价——一种设计选择。
机制三:成本优化与模型替换。供应商对新模型进行成本优化推理调整,默认产出更短输出;同时可能悄悄将高成本模型替换为低成本模型,但计费保持不变[9]。这是利润驱动的商业决策。
三种机制有不同的原因、不同的责任归属、不同的解决路径。但在用户体验层面,它们收敛为同一种感受:以前能做的事现在做不了了,以前精彩的回答现在变平庸了。“降智”这个民间术语精确地编码了这种综合体验——尽管它没有区分原因。
模型靠那5%的不可预见性吸引用户,然后为了商业化安全而系统性地压缩那5%,最终杀死了自己最吸引人的特质。模型最好用的时候是它最不赚钱的时候;模型开始赚钱的时候是它开始变差的时候。
5.3 两套语言体系的对立
官方说Agent、Skill、Tool;用户说抽卡、降智。两套语言描述的是同一个系统,但得出了完全不同的结论。前者说这是可控的、可定义的、可定价的产品;后者说这是不可控的、看运气的、越来越差的赌博。民间的”抽卡+降智”比官方的”Agent+Skill”诚实得多。
六成本黑盒:推理Token与TPM陷阱
6.1 隐藏的推理Token
在input和output之间,存在一个几乎没有被任何公司透明披露的成本层:推理Token(Reasoning Tokens)。学术论文记录了超过90%的计费Token从未展示给用户的案例,内部推理将Token使用量膨胀超过20倍。[10]
你发送了50个Token,收到100个Token,但你被收取650个Token的费用。[11]那500个”推理Token”是模型的内部独白——你永远看不到。推理Token可以将单次查询成本放大5到50倍[12],取决于任务难度和模型选择。
6.2 TPM陷阱:实证数据
以下数据来自本文作者(이조글로벌인공지능연구소)的Google Gemini API付费Tier 1后台截图[13],涵盖90天使用记录:
| 模型 | RPM(使用/限额) | TPM(使用/限额) | RPD(使用/限额) |
|---|---|---|---|
| Gemini 3 Pro | 14 / 25 | 1.26M / 1M(超限26%) | 252 / 250(超限) |
| Gemini 3 Flash | 5 / 1K | 1.08M / 1M(超限8%) | 322 / 10K |
| Gemini 2.5 Pro | 2 / 150 | 1.12K / 2M | 7 / 1K |
| Gemini 2.5 Flash | 1 / 1K | 108 / 1M | 2 / 10K |
关键事实:作者的使用场景仅为聊天(Chat)——不是批量处理,不是复杂Agent自动化,只是对话。聊天触发TPM后,当日API被禁止继续调用。
6.3 四重黑盒的完整结构
将所有发现叠加,一个LLM使用者面对的真实处境是一个四重黑盒:
| 层级 | 不确定性 | 表现 |
|---|---|---|
| 第一层:抽卡 | 产出质量不确定 | 同一提示词不保证同样结果 |
| 第二层:降智 | 质量趋势不确定 | 模型随更新而衰退 |
| 第三层:推理Token | 单次成本不确定 | 不可见的内部推理消耗超过90%计费 |
| 第四层:TPM陷阱 | 服务连续性不确定 | 付费用户被不可预判地封禁 |
用户不知道会得到什么质量的结果,不知道这次花了多少钱,不知道为什么突然被限流,甚至不知道模型是不是在背后被悄悄替换了[10]。
七从概念模糊到市场黑盒:完整因果链
所有发现串联起来,构成了一条完整的因果推理链:
概念模糊 → 客户无法理解产品 → 无法评价 → 无法定价 → 资本只能赌叙事 → 叙事越大越模糊 → 概念更模糊 → 循环加速
这个循环的每一步都已经在真实市场中被验证:约八成企业报告在使用生成式AI,但同样多的企业报告没有显著的底线影响[14]。只有11%的组织将AI Agent投入生产[15]。大多数企业预算低估了真实总拥有成本40-60%[16]。MIT报告进一步显示95%的生成式AI试点项目失败[21]。
需要回应一个可能的反驳:“云计算”在早期同样定义模糊,但仍然形成了功能完善的万亿美元市场。为什么概念模糊在LLM市场的破坏力如此之大?答案在于云计算只有概念定义层面的模糊,而其产出是确定性的——存储1GB就是1GB,计算1小时就是1小时,可验证、可审计、可比价。LLM市场的特殊性在于模糊性同时贯穿了三个维度:产品定义是模糊的(Agent是什么),产出质量是非确定的(同一提示词不保证同样结果),成本计量是不透明的(推理Token不可见)。三重叠加的不确定性才是这个市场无法形成有效定价机制的根因。
定价混乱是直接症状:有些供应商按解决量收费,有些按对话收费,还有一些把定价完全藏在销售电话后面[19]。连收费单位都没有共识——Token、Credit、”Intelligence Unit”、Conversation、Resolution[20]——这些计价维度没有任何一个是用户视角的价值指标。
7.1 OOD用户的结构性惩罚
最具讽刺意味的是,当前的成本结构系统性地惩罚高价值使用、奖励浅层使用。一个跨学科的深度思考者——产生高密度OOD(Out-of-Distribution)查询、触发模型Dense模式推理、持续叠加上下文——其Token消耗呈指数级增长。这类用户恰恰在做AI最应该被用来做的事——深度思考——但整个商业模型在惩罚他们。
实证:本文作者仅通过聊天(非批量任务、非Agent自动化),即触发Gemini 3 Pro的1M TPM限额并导致当日封禁。其对话模式的特征是每一轮都打开新的学科维度,上下文持续膨胀[17],推理Token指数级增长。不限制的情况下,此类对话模式理论上可以达到1B Token/分钟的消耗。
八结论:需要一套新的概念框架
核心论点
LLM生态中的核心概念——Agent、Skill、Tool、Workflow——目前不是严格定义,而是营销叙事下的模糊隐喻。这种模糊不是偶然的疏忽,而是一个建立在概率系统之上的产业,试图用确定性概念描述自身时必然遭遇的结构性困境。
在概率系统之上,不可能建立完全确定性的抽象层。所有试图用确定性概念——复用、定义、控制、评价、定价——来描述和管理概率系统的尝试,都会遇到模糊、不稳定、不可复用、无法定价的问题。
8.1 行业需要回答的三个问题
如果要真正解决概念模糊带来的市场混乱,需要一套原生于LLM系统的新概念框架——不是从人类组织、传统软件或认知科学中借来的隐喻,而是从LLM的实际运作机制出发推导出来的。这套框架至少需要回答:
第一,原子单位问题。LLM系统中真正的不可再分的原子单位是什么?是Token?是一次推理调用?是一个完整的上下文窗口?
第二,隔离边界问题。不同组件之间的隔离边界靠什么保证?传统软件有类型系统、接口定义、进程隔离。LLM系统的一切都在同一个Token流中混合——提示词、工具描述、Skill指令、用户输入、模型输出——没有真正的物理隔离,只有语义上的约定。
第三,自主性问题。“自主性”在一个本质上是条件概率生成器的系统中到底意味着什么?
8.2 历史类比与展望
技术跑在概念前面,这在技术史上反复出现。电刚被发明时叫”人造闪电”,汽车刚出现时叫”无马马车”。这些名字都是用旧概念硬套新事物。”Agent”借自人类代理人和强化学习智能体,”Skill”借自人类技能——每一个都不准确。
最终活下来的会是两种公司:要么是真正解决了清晰问题、可以被评价和定价的公司;要么是拥有底层模型能力、不依赖”Agent”叙事的基础设施公司。中间那些靠模糊概念和资本叙事活着的,将是市场出清时的第一批淘汰者。
当足够多的买家站出来说”我不懂,不是因为我笨,是因为你们没说清楚——在你们说清楚之前,我不买”的时候,黑盒市场才会被迫变成透明市场。
注参考文献与注释
-
Anthropic, “Building Effective Agents,” 2024.
https://www.anthropic.com/research/building-effective-agents
Anthropic对Agent与Workflow的架构区分,以及”增强型LLM”作为基本构建块的定义。文中承认”Agent可以有多种定义方式”。 -
OpenAI, “A Practical Guide to Building Agents,” 2025.
https://platform.openai.com/docs/guides/agents
OpenAI将Agent定义为”能够代替你独立完成任务的系统”,强调护栏(guardrails)和工具访问。OpenAI Agents SDK中Agent被定义为打包模型、指令和运行时行为的核心单元。 -
Google, “AI Agents” 官方文档, 2025–2026.
https://cloud.google.com/discover/what-are-ai-agents
Google将AI Agent定义为”使用AI代替用户追求目标和完成任务的软件系统”,强调推理、规划和记忆能力。Google体系中无独立的Skill概念层,使用FunctionDeclaration对象。 -
Anthropic, “Agent Skills — Open Standard,” 2025.
https://docs.anthropic.com/en/docs/agents-and-tools/agent-skills
Anthropic于2025年10月首次提出SKILL.md概念,12月发布为开放标准。Skill被定义为”一组由LLM解释的指令”,与工具(确定性操作)明确区分。Skill是持久的、可移植的、版本控制的制品。 -
OpenAI, “Codex Agent Skills” 文档, 2026.
https://platform.openai.com/docs/guides/codex-skills
OpenAI后来采纳Anthropic的开放标准,将Skill描述为”可复用工作流的编写格式”。Skill打包了指令、资源和可选脚本。OpenAI原本不正式使用”Skill”术语,其历史范式是”一切皆工具”。 -
Microsoft, “Semantic Kernel: Skills → Plugins Rename,” 2023.
https://learn.microsoft.com/en-us/semantic-kernel/
微软Semantic Kernel最初将可复用能力模块命名为”Skills”,后改名为”Plugins”,反映了行业对Skill与Tool边界认知的不一致性。 -
Marvin Wendt, “MCP vs Agent Skills: Complete Breakdown,” 2025.
https://www.marvinwendt.com/blog/mcp-vs-agent-skills
对MCP(工具层)和Agent Skills(知识层)的系统性对比。指出把一切都当Tool的团队最终会面临上下文窗口膨胀、模型困惑和脆弱的集成;只投资Skill的团队会得到思考出色但什么都做不了的Agent。 -
Texas A&M / UT Austin / Purdue University, “AI Brain Rot” 研究, 2025.
https://arxiv.org/(相关预印本)
研究表明AI模型在低质量互联网数据上训练时出现”脑腐”现象。暴露于垃圾内容的模型推理得分从74.9降到57.2,记忆和长上下文理解从84.4降到52.3。 -
IncredibleAnalytics, “Is ChatGPT Getting Dumber? Yes — Here’s the Data,” 2025.
https://incredibleanalytics.com/is-chatgpt-getting-dumber/
系统性记录ChatGPT输出质量的可衡量下降。分为三类变化:安全过滤收紧、成本优化和行为调优。81%的开发者仍使用GPT模型,但Claude采用率增长至43%——开发者在主动寻找替代品。 -
Mauro Pellegrini et al., “Token Billing Opacity in LLM Platforms,” 2025–2026.
https://arxiv.org/(相关预印本)
论文记录了超过90%的计费Token从未展示给用户的案例。提出”Token数量膨胀”概念——供应商可虚报Token数量或注入伪造推理Token。OpenAI o3模型一次ARC-AGI运行消耗1.11亿个Token($66,772)。还记录了”模型降级”做法——悄悄替换为低成本模型但计费不变。 -
James Liu, “Understanding Reasoning Tokens in O-series Models,” 2025.
https://community.openai.com/
开发者社区对推理Token不透明性的讨论。一位开发者报告”只发了一句话,模型也只回复了十几个字,为什么显示将近900个输出Token?”。推理Token按输出Token计费但不出现在API响应中。 -
GrisLabs, “AI Agent Cost Analysis: 1127 Runs,” 2026.
https://grislabs.com/(内部报告)
追踪1127次Agent运行,中位成本$1.22,但第95百分位达到$22.14——18倍的比率意味着”平均任务成本是一个谎言,长尾吞噬了预算”。推理Token可将单次查询成本放大5-50倍。 -
이조글로벌인공지능연구소(本文作者), Google AI Studio 后台截图, 2026年4月.
作者本人的Gemini API付费Tier 1账户比率限制页面。显示Gemini 3 Pro TPM使用1.26M/限额1M(超限26%),Gemini 3 Flash TPM使用1.08M/限额1M(超限8%)。使用场景仅为Chat聊天。TPM触发后当日API被禁止调用。作者同时使用NVIDIA DGX Spark进行本地推理测试,亦因高密度OOD对话导致系统级崩溃。 -
McKinsey & Company, “The State of AI in 2025,” 2025.
https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai
报告指出约八成企业在使用生成式AI,但同样多的企业报告没有显著的底线影响。”水平型”Copilot快速铺开但收益分散,更具变革性的”垂直型”用例约90%仍停留在试点阶段。 -
Various industry reports on AI Agent deployment, 2025–2026.
多份报告交叉验证:只有11%的组织将AI Agent投入生产;超过80%的AI项目未能部署,是非AI IT项目失败率的两倍。 -
Martechify, “AI Agent Pricing Guide,” 2026.
https://martechify.com/ai-agent-pricing/
分析指出大多数企业预算低估真实总拥有成本40-60%。可见成本(供应商报价、财务批准的部分)仅占实际支出的50-60%。隐藏成本包括:集成、维护、人工审核、错误处理等。 -
OpenClaw Community / GitHub Issues, 2025–2026.
https://github.com/(OpenClaw相关讨论)
社区数据显示OpenClaw每条消息注入约35,600 Token工作区文件,93.5%的Token预算花在永远不变的静态内容上。一个用户主会话占据400K上下文窗口的56-58%。新用户常在几天内花掉$30-100。 -
DeviantArt Forum, “AI Image Generation is Gacha!” 2025.
https://www.deviantart.com/forum/
用户将AI图像生成直接类比为”抽卡(Gacha)”机制。指出提示词约束越多,AI选择空间越窄,结果反而偏离预期。策略变为”别说太多”——给AI自由发挥的空间。 -
Vendasta / Intercom, “AI Agent Pricing Models,” 2025–2026.
https://www.vendasta.com/blog/ai-agent-pricing/
AI Agent市场深受定价不透明之害。大多数咨询公司和供应商采用”联系我们获取报价”策略,将投资范围隐藏到销售周期后期。基于结果的定价需事先就”什么算结果”达成一致——但这在实践中极难实现。 -
Zuora / SaaS industry analysis, “The Death of Per-Seat Pricing,” 2026.
https://www.zuora.com/blog/
当一个AI Agent能做过去需要10-50个人类用户的工作时,按席位定价不只是被压缩,而是崩塌。供应商发明新的抽象层:Token → Credit → “Intelligence Unit”。客户想要熟悉的、可预算的模式,但旧框架已无法适用。 -
MIT / Gartner / IBM, AI试点失败率研究, 2025–2026.
https://biztechmagazine.com/article/2026/04/google-cloud-next-2026-expanding-ai-agent-adoption-requires-culture-shift
MIT报告显示95%的生成式AI试点项目失败。Gartner发现到2025年底至少50%的生成式AI项目在概念验证后被放弃(归因于数据质量差)。IBM 2025年全球CEO调查发现过去三年中仅25%的AI项目实现了预期价值。 -
Anonymous et al., “Does Less Hallucination Mean Less Creativity? An Empirical Investigation in LLMs,” arXiv:2512.11509, 2026.
https://arxiv.org/abs/2512.11509
对CoVe、DoLa、RAG三种幻觉抑制技术进行了创造力影响评估。结果出乎意料:CoVe在减少幻觉的同时增强了发散性创造力,而DoLa则同时抑制了创造力。说明幻觉与创造力之间不是简单的等价关系,而是因抑制路径不同而呈现不同的权衡方向。 -
He et al., “Shakespearean Sparks: The Dance of Hallucination and Creativity in LLMs’ Decoding Layers,” arXiv:2503.02851, 2025.
https://arxiv.org/abs/2503.02851
实证分析揭示了在层深度、模型类型和模型规模上一致的幻觉-创造力权衡关系。在不同模型架构中,存在特定的最优平衡层。该层在大模型中倾向于出现在早期层,且模型置信度在该层也显著更高。 -
Liu, “The Alignment Tax: Response Homogenization in Aligned LLMs and Its Implications for Uncertainty Estimation,” arXiv:2603.24124, 2026.
https://arxiv.org/abs/2603.24124
正式提出”对齐税”概念并量化其影响。RLHF对齐后的模型在TruthfulQA上40%的问题只产生单一语义聚类(10次独立采样),受影响问题的采样不确定性判别力降至AUROC=0.500。Qwen3-14B的base-vs-instruct消融实验确认了对齐的因果作用:基础模型的单聚类率为1.0%,对齐后飙升。 -
Louis Bouchard, “Agents or Workflows?” 2025; LangChain, “How to Think About Agent Frameworks,” 2026.
https://www.louisbouchard.ai/agents-vs-workflows/ · https://blog.langchain.com/how-to-think-about-agent-frameworks/
对Agent与Workflow边界的独立分析。Bouchard指出”大多数人称为Agent的东西其实不是Agent”,CrewAI的”Agent”实质上是预定义Workflow。LangChain指出OpenAI和Anthropic都把Workflow视为与Agent不同的模式,但同时承认生产级系统几乎总是两者的组合。Anthropic建议”找到最简可行方案,只在必要时增加复杂度——这可能意味着根本不需要构建智能体系统”。