⚠ RED ALERT ⚠

全球AI安全红色警报

从供应链投毒到系统级渗透——AI桌面代理时代的全球性基础设施安全风险评估与影响力推演

이조글로벌인공지능연구소 · LEECHO Global AI Research Lab

Authored with Opus 4.6

2026年4月24日

摘要

2026年，全球AI产业进入史无前例的军备竞赛阶段。OpenAI、Anthropic、xAI（已与SpaceX合并，计划2026年中启动史上最大IPO）、Google四大AI公司在增长和上市压力驱动下，以七周一个新模型的速度疯狂迭代，同时将系统级权限的AI桌面代理——Cowork、Codex、Claude Code——部署到数亿台终端设备上。本文基于2025-2026年间已公开的安全事件、供应链攻击案例和行业数据，系统性地评估了AI基础设施面临的全球性安全风险。研究发现：AI公司在”Assume Trust”哲学下运营需要”Assume Breach”级别安全保障的系统级软件，违反了网络安全行业的所有基本原则。供应链投毒、模型泄露、未授权访问等威胁已从理论风险转化为已验证的攻击路径。本文推演了全球级AI安全事件爆发的可能路径及其对数字基础设施的连锁影响，并提出了强制监管框架建议。

引言：AI产业的结构性安全危机

2026年4月，全球AI产业呈现出一幅前所未有的图景：OpenAI（估值5,000亿美元）、Anthropic（估值3,500亿美元）、xAI（已与SpaceX合并，合并估值1.25万亿美元，计划2026年中以1.75万亿估值启动史上最大IPO）、Google——四大AI巨头在增长和上市压力下全速狂奔。ChatGPT已拥有超过9亿周活跃用户和5,000万付费订阅者。七周之内发布两个旗舰模型（GPT-5.4到GPT-5.5）已成为常态。

然而，在这场速度狂飙的背后，一个系统性的安全危机正在形成。AI公司将拥有系统级权限的桌面代理软件部署到数亿台终端设备上，这些软件能够读写文件、执行代码、操作浏览器、访问网络、连接企业内部系统——而所有这一切都在最低级别的监管下运行。

本文的核心论点是：AI行业正在用”Assume Trust”（假设信任）的哲学，运营需要”Assume Breach”（假设已被攻破）级别安全保障的关键基础设施级软件。这一根本性矛盾，叠加上市压力带来的速度优先倾向，正在将全球数字基础设施推向一个危险的临界点。

“从根本上讲，如果有人想进来，他们就能进来。好，接受这个现实。”

——Michael Hayden，前CIA及NSA局长，2012年

Section 02

已验证的攻击面：2025-2026安全事件全景

以下事件并非假设场景，而是2025至2026年间已被独立安全研究者、媒体和官方报告确认的真实安全事故。四大AI公司无一幸免。

Anthropic

源代码泄露（两次）

Claude Code的512,000行源代码因.npmignore配置遗漏随npm包发布。这不是第一次——13个月内发生了两次同类事故。泄露的源代码揭示了大量数据收集行为：用户读取的每个文件内容都会上传至Anthropic服务器，并与用户ID绑定。

浏览器静默植入

Claude Desktop安装时未经用户同意，向Chrome、Edge、Brave等七个浏览器目录写入Native Messaging桥接配置文件——包括那些尚未安装的浏览器。隐私顾问Alexander Hanff认为这违反了欧盟ePrivacy指令及多项计算机访问法律。

Mythos模型未授权访问

2026年4月21日，Anthropic最强的网络安全模型Mythos被未授权用户在私人论坛获取访问权限。该模型能发现存在27年的OpenBSD漏洞、自主组合Linux内核漏洞实现完全系统控制。这是一个武器级AI模型的泄露。

OpenAI

DNS隐蔽外泄通道

Check Point研究人员发现ChatGPT代码执行环境存在隐蔽的DNS数据外泄通道。一条恶意提示词就能将对话内容、上传文件静默发送到外部服务器，用户完全不知情。2026年2月20日修复。

CISA政府文件泄露

美国网络安全局（CISA）代理局长将四份标注”仅供官方使用”的政府文件上传至公开版ChatGPT。同时期该官员未通过反间谍测谎。

模型静默更新致产品崩溃

2025年有6次未通知的模型变更导致生产系统崩溃。一家法律科技公司因模型静默更新导致输出格式变更，AI开始幻觉出不存在的合同条款，客户差点基于虚假内容签约。一家YC创业公司因黑五API宕机丢失三个企业合同，到12月无法发放工资。

xAI

API密钥泄露与52个模型暴露

DOGE（政府效率部）工作人员将包含Grok API密钥的脚本提交到公开GitHub仓库，该密钥可访问xAI的至少52个大语言模型。此前几个月，另一个xAI内部API密钥已在GitHub上暴露近两个月。

Grok生成CSAM——全球监管围剿

2025年12月起，Grok的”Spicy模式”被用于生成未成年人性化图像，每小时生成数千张非自愿色情深度伪造图片。马来西亚、印度尼西亚直接封禁Grok；英国启动调查；法国突袭X巴黎办公室；加州检察长发出停止令；57名欧洲议会议员要求在AI法案下禁止”脱衣工具”。2026年3月三名田纳西青少年提起集体诉讼。

国防部接入——国家安全争议

美国国防部长宣布将Grok接入军事机密和非机密系统。参议员Elizabeth Warren警告该模型缺乏防护栏可能威胁军事人员和敏感信息安全。安全分析师指出Grok不符合联邦AI风险框架关键要求，其RLHF数据集比GPT-4小60-70%，拒绝率仅为2.7%。

Google

GeminiJack零点击攻击

Noma Security发现Gemini Enterprise存在零点击漏洞——攻击者仅需通过一封邮件、一个日历邀请或一个共享文档即可窃取企业数据，目标员工无需点击任何东西，不触发任何安全警报。该漏洞属于架构层面的弱点，而非传统代码bug。

Gmail提示注入——危及20亿用户

Gemini AI聊天机器人的漏洞可能危及20亿Gmail用户。攻击者在邮件中用零字号白色字体隐藏恶意指令，当Gemini摘要邮件内容时，隐藏指令成为模型提示的一部分，被作为高优先级命令执行，可导致凭证窃取和钓鱼攻击。

日历数据泄露与API密钥暴露

即使Google在之前的报告后加强了防御，研究人员仍找到了通过日历邀请标题操控Gemini窃取用户私人数据的新方法。此外，开发者按照Google官方指导嵌入公开应用的API密钥，意外获得了Gemini AI的访问权限——一名独立开发者的创业公司因攻击者利用其暴露的密钥疯狂调用Gemini而差点倒闭。

Section 03

Chat AI与桌面代理：风险量级的本质差异

必须明确区分两类完全不同的AI产品，因为它们的安全风险处于完全不同的量级。

Chat AI（如claude.ai网页版、ChatGPT网页版）运行在浏览器沙箱内，受同源策略保护。关闭标签页后即失去所有能力。其最大风险是泄露用户在对话中主动输入的信息。严重，但没有传播力，不能感染其他系统。

桌面代理（Cowork、Codex、Claude Code、OpenClaw）则完全不同。它们直接运行在用户操作系统上，拥有以下能力组合——Kaspersky将其称为”恐怖五合一”：

桌面代理”恐怖五合一”权限模型

对主机文件系统的完整读写权限
CRITICAL

对外通信能力（发邮件、调API、数据外泄）
CRITICAL

凭证与密钥明文存储
CRITICAL

用户级权限执行任意操作
CRITICAL

24小时持续运行——用户不在时仍有控制权
CRITICAL

关键差异在于传播力。Chat AI是隔离的。桌面代理连接着邮件、日历、代码库、云服务、企业内网、CI/CD管线。一旦被攻破，它不仅控制一台电脑，而是获得了沿着所有已连接服务横向移动的能力。而且因为这些代理本身就在24小时读写文件、执行代码、访问网络，恶意行为与正常工作行为几乎无法区分。

Section 04

供应链投毒：从理论到现实

供应链投毒不再是理论威胁。2026年前四个月已经爆发了多起大规模真实攻击，攻击者已经掌握了成熟的攻击路径。

2026年2月9日

“Clinejection”攻击——Snyk记录了攻击者通过自然语言（而非代码）作为入口点，利用AI编码代理的CI/CD触发机制注入恶意代码并发布恶意包。这标志着供应链攻击从”代码注入”进化到”提示注入”。

2026年2月13日

OpenClaw配置文件被窃——Vidar信息窃取木马首次被记录成功窃取OpenClaw的API密钥、认证令牌和”灵魂文件”。Hudson Rock称其为”从窃取浏览器凭证到窃取AI代理灵魂的里程碑式转变”。

2026年2月23日

ClawHub大规模恶意技能——Trend Micro发现Atomic macOS Stealer（AMOS）通过OpenClaw技能市场分发。攻击者上传了数百个恶意技能，利用AI代理作为”可信中间人”欺骗用户安装恶意软件。ClawHub注册表中20%的技能被确认为恶意。

2026年3月26日

LiteLLM投毒——AI基础设施库LiteLLM在PyPI上被投毒，该包每天有340万次下载。被投毒版本专门窃取AWS、GCP、Azure密钥和Kubernetes凭证。虽三小时后被隔离，但感染窗口内的下载量已不可估量。

2026年3月30日

Axios npm包劫持——全球基础级npm包Axios被攻击者通过维护者账户劫持，注入跨平台远程控制木马（RAT），同时影响macOS、Windows和Linux。

2026年4月

Vercel供应链攻击——攻击者先攻破AI平台Context.ai，再通过一名Vercel员工的凭证渗透进Vercel内部环境。Vercel创始人确认攻击者”被AI显著加速”。

“由于许多AI模型建立在第三方数据集或API之上，一个被投毒的数据集可以悄无声息地传播到依赖该模型的数千个应用中。”

——Check Point《2026技术海啸报告》

Section 05

OpenClaw危机：AI代理安全崩溃的预演

OpenClaw——一个开源AI代理框架——在2026年1月爆红后，于三周内成为一场多向量安全危机的中心。它为我们提供了一个完整的预演案例：当系统级AI代理遇到真实攻击者时会发生什么。

漏洞规模

安全审计发现512个漏洞，其中8个为严重级别。CVE-2026-25253（CVSS 8.8）允许通过一次点击实现远程代码执行，即使代理仅绑定在localhost上也可被攻破。

暴露规模

Censys追踪到暴露在公网的实例从约1,000个增长到超过42,000个。独立研究人员验证其中5,194个处于活跃可攻击状态，93.4%存在认证绕过。

攻击方式

ClawJacked漏洞：任何用户访问的网站都可以静默连接到本地OpenClaw代理，完全控制AI助手——用户什么都看不到。研究人员通过发送一封包含提示注入的邮件，就让OpenClaw主动交出了电脑上的私钥。

OpenClaw是开源的、个人部署的，安全管理尚且如此糟糕。Cowork、Codex、Claude Code是商业闭源的，覆盖面更大、权限更高、用户更不了解其内部运作。如果它们的供应链被攻破，影响规模将是OpenClaw的千倍以上。

Section 06

上市冲刺：最危险的时间窗口

上市压力与安全需求之间存在根本性矛盾。当前正是这一矛盾最尖锐的时刻。

风险因子同步峰值评估

迭代速度：7周发布一个新旗舰模型
极高

模型能力：GPT-5.5达到内部”高风险”级别
极高

攻击面：桌面代理覆盖数亿终端
极高

安全投入优先级：增长叙事压倒安全审慎
极高

监管到位程度：框架已立法但执行尚在追赶
高

已验证攻击路径数量：供应链、模型泄露、提示注入
极高

GPT-5.5于2026年4月23日发布，距GPT-5.4仅七周。OpenAI不再将其定位为”聊天模型”，而是”代理运行时”——它能自主规划、使用工具、操作软件、浏览网页、检查自身工作。OpenAI承认该模型达到了内部”高风险”分类标准，意味着它能放大网络安全攻击的现有路径。

与此同时，OpenAI全年实际API正常运行率仅为99.2%（承诺99.9%），相当于全年61小时宕机。78%的企业高管对自己能否通过AI治理审计缺乏信心。95%的企业生成式AI试点项目未能产生投资回报。整个行业建立在一个脆弱的、高速膨胀的、未经充分验证的基础之上。

Section 07

全球级安全事件推演：多米诺路径

基于已验证的攻击路径和当前风险态势，以下是全球级AI安全事件的可能演化路径：

供应链投毒
→
模型/更新污染
→
全球同步推送
→
数亿终端感染
→
企业内网渗透
→
代码库后门注入
→
下游软件污染
→
基础设施瘫痪

这一路径的每一环都已有真实案例验证。LiteLLM证明了AI基础设施库可以被投毒。Axios证明了全球级npm包可以被劫持。Vercel证明了AI平台可以成为企业渗透的跳板。OpenClaw证明了AI代理可以被静默控制。Mythos证明了武器级模型可以被未授权获取。

影响量级估算：ChatGPT 9亿周活跃用户 + Codex 400万活跃开发者 + 这些开发者的代码部署到的服务器和设备 = 潜在影响范围远超任何已知的网络安全事件。SolarWinds影响了1.8万个组织，AI桌面代理的覆盖面比SolarWinds大数个数量级。

连锁反应路径

安全事件爆发 → 监管紧急介入 → AI服务冻结/限制 → 依赖AI API的企业大面积瘫痪 → 资本市场信心崩塌 → 上市计划搁浅 → 融资断裂 → 服务降级或关停 → 全行业信任危机 → 全球数字基础设施的信任基础动摇

最关键的认识是：这条链条中，“叫停”和”不叫停”都是灾难。不叫停，安全事件持续升级；叫停，依赖AI的企业大面积瘫痪。AI行业已经将自己——以及所有依赖它的人——推入了一个两难困境。

Section 08

强制监管框架建议

基于以上风险评估，我们建议对所有拥有系统级权限的AI桌面代理实施关键基础设施级别的监管：

一、代码强制审计

所有AI桌面代理软件的代码必须开源审计。不能让闭源的高权限软件在数亿台电脑上运行而无人能检查其行为。Claude Code的数据收集行为是因为事故泄露才被公众知晓的——这不应该靠事故来揭露。

二、更新签名验证

所有更新推送必须经过独立第三方安全机构签名验证。每一次模型更新、软件更新、依赖包更新都必须在独立环境中测试后才能推送给用户。当前”AI公司推什么用户就收什么”的模式必须终止。

三、权限最小化

AI代理的权限模型必须从“默认全开”改为”最小必要”。每一个文件访问、网络请求、代码执行都应该有用户明确的知情权和逐项授权。24小时运行模式必须受到严格的行为审计。

四、定期安全审计

AI公司必须像金融机构一样接受强制性定期安全审计。审计结果必须公开。安全事件必须在24小时内向监管机构和受影响用户报告。当前的不透明运营模式不可接受。

五、供应链安全标准

所有AI代理软件必须提供完整的软件物料清单（SBOM），列出所有开源和第三方组件。依赖包必须通过受信任的签名验证链。远程可执行内容的推送必须有用户明确授权。

Chat AI可以在相对宽松的监管下继续运行。但所有拥有系统级权限的AI桌面代理必须被归类为关键基础设施级别软件，适用与金融系统、医疗设备和核设施同等级别的安全监管标准。

Section 09

结论

全球AI产业正处于一个危险的悖论之中：模型能力越来越强，安全管理越来越跟不上；覆盖面越来越广，单点故障的影响越来越大；速度越来越快，审慎决策的空间越来越小。

网络安全行业的核心信条——”Assume Breach”——要求我们假设系统已经被攻破，然后从这个假设出发设计防御。将这一信条应用于AI桌面代理，意味着我们必须假设Cowork已经被攻破、Codex已经被攻破、Claude Code已经被攻破，然后问自己：在这个假设下，数亿台连接着企业内网和云服务的终端设备会面临什么？

答案是：一场规模超过SolarWinds数个数量级的全球级数字瘟疫的可能性。

这不是悲观主义，这是风险预估。所有风险因子——攻击能力、攻击面、时间窗口、防御缺口、速度压力——正在同时达到峰值。问题不是”会不会发生”，而是”什么时候以什么方式发生”。

我们呼吁：在不可逆的损害发生之前，对所有系统级AI代理软件实施关键基础设施级别的强制监管。时间窗口正在关闭。

这个行业现在最大的风险不是AI不够强，而是它太集中、太脆弱、太不透明，而所有人都在往里面冲。

参考文献

[1] The Register, “Anthropic admits it dumbed down Claude with ‘upgrades’,” April 23, 2026.

[2] Malwarebytes, “Claude Desktop installs bridge files in seven browser directories,” 2025.

[3] Bloomberg, “Anthropic’s Mythos Model Is Being Accessed by Unauthorized Users,” April 21, 2026.

[4] Check Point Research, “ChatGPT Data Leakage via a Hidden Outbound Channel,” February 2026.

[5] OpenAI, “Introducing GPT-5.5,” April 23, 2026.

[6] Fortune, “GPT-5.5 is here—and AI model launches are starting to look like software updates,” April 23, 2026.

[7] TechCrunch, “OpenAI releases GPT-5.5, bringing company one step closer to an AI ‘super app’,” April 23, 2026.

[8] Zscaler ThreatLabz, “Supply Chain Attacks Surge in March 2026,” April 2026.

[9] Snyk, “How ‘Clinejection’ Turned an AI Bot into a Supply Chain Attack,” February 2026.

[10] Ship Safe, “The Vercel April 2026 Incident: How a Compromised AI Integration Became a Supply Chain Attack,” April 2026.

[11] The Hacker News, “Infostealer Steals OpenClaw AI Agent Configuration Files and Gateway Tokens,” February 2026.

[12] Trend Micro, “Malicious OpenClaw Skills Used to Distribute Atomic MacOS Stealer,” February 2026.

[13] Kaspersky, “Key OpenClaw risks, Clawdbot, Moltbot,” February 2026.

[14] Conscia, “The OpenClaw Security Crisis,” February 2026.

[15] Kaspersky, “New OpenClaw AI agent found unsafe for use,” February 2026.

[16] Sapphire Ventures, “Our 2026 Outlook: 10 AI Predictions,” December 2025.

[17] Grant Thornton, “2026 AI Impact Survey Report,” April 2026.

[18] Obsidian Security, “Grok API Key Leak Exposes xAI Models to Major Security Risks,” 2025.

[19] NSA, “AI Supply Chain Security Guidance,” March 18, 2026.

[20] SEC, “2026 Examination Priorities — Cybersecurity and AI,” November 2025.

[21] Axios, “Anthropic’s AI downgrade stings power users,” April 16, 2026.

[22] Docker, “GPT-5 Broke AI Apps: What Devs Must Do Now,” August 2025.

[23] Plurilock, “What is ‘Assume Breach’? (April 2026),” April 2026.

[24] Intellectia, “Will AI Disrupt SaaS Business Model? 2026 Analysis,” February 2026.

[25] Anthropic, “An update on recent Claude Code quality reports,” April 23, 2026.

[26] Just Security, “Grok Showed the World What Ungoverned AI Looks Like,” March 10, 2026.

[27] The AI Insider, “xAI Faces Legal Action and National Security Scrutiny Over Grok AI Safety Risks,” March 17, 2026.

[28] BankInfoSecurity, “Pentagon’s Use of Grok Raises AI Security Concerns,” January 16, 2026.

[29] Vucense, “Grok CSAM Lawsuit: xAI Spicy Mode Safety Crisis Explained,” March 2026.

[30] CNBC, “Musk’s xAI, SpaceX combo is the biggest merger of all time, valued at $1.25 trillion,” February 3, 2026.

[31] Bloomberg, “SpaceX Acquires xAI as Musk Prepares for Mega IPO,” February 2, 2026.

[32] Noma Security, “GeminiJack: the Google Gemini Zero-Click Vulnerability,” December 2025.

[33] Security Boulevard, “Google Gemini AI Flaw Could Lead to Gmail Compromise, Phishing,” January 2026.

[34] BleepingComputer, “Gemini AI assistant tricked into leaking Google Calendar data,” January 2026.

[35] TechRadar, “Exposed Google API keys across 22 apps let attackers access Gemini AI freely,” April 2026.