LEECHO GLOBAL AI RESEARCH LAB · THOUGHT PAPER

无法兼容落后
实验室AI Agent

The Laboratory AI Agent That Cannot Be Backward-Compatible

이조글로벌인공지능연구소 & Opus 4.6

2026年4月25日

V1 · CHINESE EDITION

摘要 · ABSTRACT

当前AI Agent正面临一个被整个行业系统性忽视的根本性矛盾:它在实验室的受控环境中表现惊艳,却在真实企业的”脏环境”中大面积失效。全球数据显示,95%的企业AI试点未能产生可衡量的商业价值,88%的AI Agent无法从试点进入规模化生产。本文认为,这一困境的根源不在于AI技术本身的成熟度,而在于AI行业对”向后兼容”的根本性忽视——AI被设计为要求世界适应它,而非它适应世界。一个用了二十年的Office 97、一张老会计手工维护的Excel表格、一个命名为”最终版(改)(2)真的最终”的文件夹结构,这些看似混乱的存在,实际上是经过真实商业竞争验证的完整有效性系统。AI如果无法兼容这些”落后”,它就不是智能体,而是新的Bug。

SECTION 01

存在二十年就是最强的验证Twenty Years of Survival Is the Strongest Validation

假设一个场景:一家中国工厂在2026年,所有电脑仍然运行着盗版Office 97。二十多年来,所有生产文件——报价单、工单、排班表、质检记录——都在这个系统上生成。无论更换多少台电脑,Office 97始终是生产主力。

当这家工厂购买2026年的新款电脑时,面临的核心矛盾不是”该用什么新软件”,而是新硬件必须兼容老软件的运行方式。因为Office 97加上二十年的文件积累,已经不是一个软件——它是这家工厂的生产基础设施。就像工厂里一台运行了二十年的冲压机,你不会因为盖了新厂房就把它扔掉,你会让新厂房的地基和电路去适配这台机器。

一个方法如果在真实的商业竞争中存活了二十年,它就已经被市场充分验证。不需要专家评审,不需要认证体系。存活本身就是最强的有效性证明。

那个老会计的做法看起来笨拙,但她每个月按时把账做完,税报对了,老板能看懂,税务局查不出问题。那个车间主任的排班表看起来混乱,但几十个工人的性格、能力、班次偏好全在里面。那个文件夹命名方式看起来荒谬,但全公司都知道文件在哪里。这就是完整的有效性。

迁移成本的真实构成

迁移成本从来不只是技术成本。五六十岁的老员工,Excel表格的操作是肌肉记忆;几百个模板中可能有宏、有特定的打印格式、有和针式打印机的对接关系;一个表格打开后列宽变了、打印分页变了、某个宏跑不了了——对工厂来说就是生产事故。“能打开”和”完全一样”是两回事。

SECTION 02

AI不兼容过去就是新BugAI That Cannot Be Backward-Compatible Is the New Bug

什么叫智能?智能不是你能做多少新事情,而是你能理解多少旧事情。一个真正聪明的人到了一个陌生环境,第一件事不是改变环境,而是搞懂这里为什么是这样的。

现在的AI正好相反。它要求世界先变成它能理解的样子,然后它才能工作。这不叫智能,这叫挑食。

判断AI有没有真正落地,应该看一个最简单的标准:那个用了二十年Office 97的老会计,她的工作方式需不需要改变?如果需要改变,AI就还没落地。如果不需要改变,AI就真的落地了。

“脏数据”这个说法本身就是傲慢

AI Agent工程师进入企业后,面对非标准化的数据格式、分散的存储系统、不统一的命名规则,常常将其定义为”数据太脏””太乱””无法对齐AI”。但这个判断本身就包含了一个危险的预设——AI的标准是标准,企业的现实是偏差

实际上,那些所谓的”脏数据”是一个企业二十年真实经营的记录。老会计用她的方式记账,车间主任用他的习惯排表,采购员用他熟悉的格式做单子。一个Excel表格里列名写的是”备注2″,但全公司都知道那一列填的是什么。数据不是脏,是AI看不懂而已。

人类过去的行为不是”落后”

AI行业把过去的方式叫”传统”、叫”遗留系统”、叫”技术债务”,这些词背后都有一个隐含的判断——你们是落后的,需要被升级。但那个老会计的Excel用法是她二十年经验的结晶,那个车间主任的排班表是他对几十个工人的能力了如指掌的结果。这些不是技术债务,这些是人类智慧。

SECTION 03

实验室AI与脏环境的致命落差The Fatal Gap Between Laboratory AI and Dirty Environments

全球企业AI部署的数据揭示了一个触目惊心的现实:AI Agent在受控的实验室环境中表现惊艳,但在真实生产环境中大面积崩塌。这不是偶发现象,而是结构性的系统失败。

95%
MIT研究发现企业生成式AI试点未能产生可衡量的商业影响
88%
AI概念验证(POC)未能过渡到生产环境(IDC数据)
24%
APEX-Agents 2026基准测试中,最佳模型首次尝试完成真实世界任务的比率
1%
McKinsey调查中认为自身生成式AI战略已经成熟的企业比例

试点环境的”无菌欺骗”

AI Agent的试点具有高度欺骗性。一个小团队连接几个API,用精心整理过的干净数据进行测试,看着Agent自主执行工作流——在受控环境中,一切运行完美。但一旦切换到生产环境,面对真实数据、真实边例、真实的合规审查,系统立即崩溃。

试点环境:干净数据 · 有限API · 受控场景
↓ 看起来成功
管理层签署全面部署合同
↓ 进入真实环境
生产环境:脏数据 · 遗留系统 · 无限边例 · 隐性规则
↓ 系统崩塌
项目烂尾 · 信任崩塌 · 投资损失

一个大型零售商试图构建”个性化购物Agent”,失败了——因为它从47个不同的Excel文件中提取数据,这些文件自2022年以来就没有更新过。Penrose.com用一整年的Stripe数据测试AI的账户余额追踪,一旦模型在早期交易中算错了一笔,后续每一笔余额都偏了。到数据集末尾,累积误差已经增长到不可接受的程度。

如果你的数据是脏的,你的Agent只是一种”大规模快速犯错的方式”。成功的团队在2026年把70%的时间花在数据治理上,只有30%花在AI本身。

错误的累积性:AI与人类的根本差异

老会计做错了一笔账,她自己知道错在哪里,能查能改。AI做错了,没人知道它为什么错了,没人知道它错在哪里,甚至没人知道它已经错了。每一步85%的准确率看起来不错,但十步连续执行后,整体准确率降至不到20%。一个你没法追责的工具,在企业里就是定时炸弹。

SECTION 04

部分有效性无法替代完整有效性Partial Effectiveness Cannot Replace Complete Effectiveness

这是当前AI落地困境最核心的命题。AI在某些单点任务上确实表现出色——写文案、生成代码、翻译文本、分析数据。但企业运行不是单点任务的叠加,而是一个完整的有效性网络。

替代标准的铁律

一个可以使用二十年的行为必定具备有效性,否则早被淘汰。而当需要淘汰它的时候,新的有效性必须高于这个过去行为的全部有效性。不是部分超越,而是全面覆盖后还有余量。

老会计的完整有效性

每天收票据→分类→录入→核对→月底对账→季度报税→年底汇算→应付账款催款提醒→老板临时要数字三分钟内翻出来→税务局来了能解释清楚每一笔→知道哪个供应商的发票经常出错要多看一眼→知道哪个客户习惯压账期要提前催。

AI的部分有效性

能做录入、能做计算、能生成报表。但不知道供应商的发票习惯,不知道客户的账期博弈,不知道老板此刻的心情适不适合报坏账,不知道税务局今年重点查什么科目。

AI如果只能做其中的录入和算数,那它替代的不是老会计,它只是老会计的一个计算器。你不会因为买了一个计算器就把会计开除掉。用七十分的新替代九十分的旧,这不叫升级,这叫降级。

全球验证:部分有效性的陷阱

指标 数据 来源
AI超级用户生产力提升 5倍 WRITER 2026调查
从生成式AI中看到显著ROI的组织 仅29% WRITER 2026调查
希望通过AI实现收入增长的组织 74% Deloitte 2026
实际通过AI实现收入增长的组织 仅20% Deloitte 2026
承认AI正在”撕裂公司”的高管 54% WRITER 2026调查
承认蓄意破坏公司AI战略的员工 29% WRITER 2026调查

个人层面的生产力收益和组织层面的商业回报之间存在巨大鸿沟。这正是部分有效性的典型表现——AI在某些点上确实有效,但这些点无法串联成企业需要的完整链条。

SECTION 05

那1%的成功在哪里Where Does the 1% Success Actually Live?

McKinsey调查中那1%认为自身AI战略成熟的企业,它们的AI究竟部署在什么场景上?答案揭示了一个被精心回避的事实。

AI真正跑通的场景集中在:编程辅助(占企业AI支出的55%)、内容营销(9%)、客服自动化(9%)。这些场景有一个共同特征——全部是”从零生成新内容”的任务。输入是清晰的,输出是全新的,不依赖二十年的历史数据,不需要理解企业内部的隐性知识。

AI成功的地方是生成型任务——写代码、写内容、做图。AI失败的地方恰恰是传统企业流程——财务、供应链、生产管理、ERP集成。前者不需要向后兼容,后者的本质就是向后兼容。

所以那1%的”成熟”企业,大概率是用AI做内容生成和编程辅助的新场景企业,而不是在传统SOP流程上真正跑通了AI。AI的部分有效性在生成型任务上被放大成了成功故事,掩盖了它在传统企业流程上全面失败的事实。

SECTION 06

FDE模式:AI行业的变相认罪The FDE Model: AI Industry’s Implicit Admission

Palantir发明的FDE(Forward Deployed Engineer,前线部署工程师)模式,是对上述所有问题的一个现实回应——同时也是AI行业对自身局限性的变相承认。

FDE是驻场在客户公司办公的技术人员,核心任务是填补产品现有功能与客户实际需求之间的鸿沟。他们带着现有产品进入客户现场,先铺一条”碎石路”,然后总部团队再把这些现场做法抽象、泛化,修成能服务更多客户的”高速公路”。

FDE的存在本身就说明:AI自己做不到”理解脏环境”这件事,只能派一个人类工程师去做翻译。这恰恰证明——AI的脏环境落地能力,到今天为止,仍然依赖人类来补完。

FDE的本质角色

FDE既不是专注单一领域的传统工程师,也不是局限于实验室的AI研究者。他是一个”跨界翻译官”——既用AI技术解决产业痛点,又以产业需求反推技术创新。核心模式包含三个环节:需求逆向驱动(从产业痛点出发而非从通用模型出发)、跨域能力迁移(将单一领域验证的技术拆解为可复用模块)、透明化保障落地(打破AI黑箱,嵌入产业物理规律)。

但FDE模式也暴露了一个残酷的可扩展性问题:每一家企业都需要先铺一条碎石路。一万家工厂有一万种混乱方式,每一种混乱背后都是一套独特的逻辑。这意味着AI落地不是一个技术问题,而是一个逐厂逐户去适配的苦活。没有捷径,没有通用方案。

SECTION 07

结论:兼容性是新技术的义务Conclusion: Backward Compatibility Is the Duty of New Technology

本文的核心论点可以归结为三个递进的命题:

命题一:存续验证原理

一个可以使用二十年的行为必定具备有效性,否则早被淘汰。这种有效性不需要外部认证,存续本身就是最强的验证。

命题二:全面替代铁律

当需要替代一个已验证的有效性系统时,新系统必须在全部维度上超越旧系统,而非仅在部分维度上表现更优。部分有效性替代完整有效性等于降级。

命题三:兼容性义务原则

AI向过去的”落后”兼容才是AI落地的正确范式。如果AI无法兼容人类过去的行为方式,AI就不是智能体,而是新的Bug。兼容性是新技术的义务,不是老用户的负担。

中国真正需要AI的不是那些已经上云的互联网公司,而是那些还在用Office 97的工厂、还在用手写单据的小作坊、还在用U盘传文件的贸易公司。全球范围内也是如此——真正的市场在那些”脏环境”里。谁能做到无感接入——不用换系统、不用学新东西、不用迁移数据——AI就像空气一样渗进去,谁就能拿下这个最大的市场。

但目前,没有人在做这件事。

这就是AI行业2026年最大的盲区,也是最大的机会。

参考数据来源 · REFERENCES

[1] MIT Technology Review. “95% of Generative AI Pilots at Companies Are Failing.” 2025.

[2] WRITER. “Enterprise AI Adoption 2026 Survey.” April 2026.

[3] Deloitte. “State of AI in the Enterprise 2026.” February 2026.

[4] McKinsey & Company. “The State of AI in 2025.” 2025.

[5] Grant Thornton. “2026 AI Impact Survey Report.” April 2026.

[6] Digital Applied. “AI Agent Scaling Gap March 2026.” March 2026.

[7] Gartner. “Survey on Data Management Practices for AI.” 2025.

[8] APEX-Agents 2026 Benchmark. Real-world task completion rates.

[9] Carnegie Mellon & Anthropic. AI agent error rates in high-stakes business processes.

[10] Palantir FDE model documentation and interviews. Bob McGrew, Shyam Sankar.

[11] 上海交通大学李金金教授团队. “FDE+FDR协同体系.” 2025.

[12] Fortune. “The Hidden ROI of AI.” April 2026.

[13] IDC. “88% AI POC-to-Production Failure Rate.” 2025.

이조글로벌인공지능연구소

LEECHO GLOBAL AI RESEARCH LAB

© 2026 LEECHO Global AI Research Lab. All rights reserved.

댓글 남기기