Confidential Research Report · February 2026

OOD数据泄漏与
中国AI崛起

OOD Data Leakage & the Rise of Chinese AI

美国AI先发优势结构性危机分析

Structural Crisis Analysis of US AI First-Mover Advantage

发布日期 2026年2月14日

报告分类机密调查报告 (Confidential Research Report)

调查周期 2025年11月 — 2026年2月

以朝全球人工智能研究所

LEECHO Global AI Research Lab

密级：机密 本报告分析了美国AI企业的OOD（分布外）数据通过外包供应链和模型蒸馏攻击被系统性泄漏至中国AI企业的结构性漏洞。基于2025年11月至2026年2月的调查。

目 录

摘要执行摘要 Executive Summary
01OOD数据的战略价值 Strategic Value of OOD Data
02数据泄漏路径分析 Data Leakage Pathway Analysis
03中国的结构性优势 China’s Structural Advantages
04能力差距缩小的证据 Evidence of Capability Gap Closure
05行业安全现状 Industry Security Status
06调查者原创性评估 Investigator Originality Assessment
07结论与建议 Conclusions & Recommendations

Executive Summary

执行摘要

Executive Summary

本报告基于对OOD数据泄漏路径和中国AI结构性优势的系统分析，得出结论：美国AI企业的先发优势可能在2026年中期事实上消失。

1. OpenAI于2026年2月12日在国会备忘录中正式指控DeepSeek进行系统性蒸馏攻击。

2. 2025年6月Scale AI大规模数据泄露事件公开暴露了Meta、Google和xAI的核心训练数据。

3. GLM-5（2026年2月11日发布）被发现在对话中自我标识为”Claude Opus”——蒸馏的直接证据。

4. 中国AI企业以低6~45倍的价格提供前沿级性能，并通过华为芯片实现美国硬件独立。

5. 中国的”高学历低薪劳动力”在RLHF质量上创造了结构性优势。

Chapter 1

OOD数据的战略价值

Strategic Value of OOD Data

1.1 什么是OOD数据？

OOD（Out-of-Distribution，分布外）数据是指存在于AI模型现有训练数据分布之外的新颖、原创输入。与重复性用户查询不同，OOD数据包括复杂推理、跨学科问题和创造性问题解决——模型此前从未遇到的内容。对AI企业而言，OOD数据是提升模型性能的关键原材料。

1.2 隐私设置的无效性

即使用户在隐私设置中选择”不保存对话历史”和”不用于模型训练”，也很难完全阻断AI企业对OOD数据的需求。本调查自2025年11月以来持续观察到相关模式，确认了高价值对话数据在无视隐私设置的情况下被收集的间接证据。

Chapter 2

数据泄漏路径分析

Data Leakage Pathway Analysis

2.1 路径A：模型蒸馏攻击

2026年2月12日，OpenAI向美国众议院中共问题特别委员会提交官方备忘录，指控DeepSeek员工系统性提取美国AI模型输出：

OpenAI国会备忘录 — 核心指控

DeepSeek员工开发了通过模糊第三方路由器绕过OpenAI访问限制的方法。他们在隐藏来源的同时大规模程序化提取美国AI模型输出。对抗性蒸馏活动大部分来自中国和俄罗斯。模型在故意降低安全标准的情况下被训练和部署。

2.2 路径B：外包供应链泄漏

2025年6月，美国最大AI数据标注公司Scale AI被发现大规模数据泄露：85个以上Google Docs无需认证即可公开访问，包含来自Meta、Google和xAI的机密训练指南、专有提示词和音频样本。

Scale AI泄露详情

七份机密Gemini/Bard指令手册被曝光，详细记录了模型弱点。xAI的”Project Xylophone”项目包含700条对话质量提示词亦被泄露。Remotasks工人甚至不知道自己在为服务OpenAI、Meta、Microsoft和美国政府的Scale AI工作。牛津互联网研究所将其劳动标准评为1/10。

2.3 路径C：中国的全球标注网络

据Rest of World报道（2025年12月）：中国AI企业已成为全球最大的人工标注数据买家，在东非、东南亚和中东运营着多层分包结构——远不如美国企业透明。

2.4 蒸馏”指纹”证据：GLM-5

GLM-5（2026年2月11日发布，智谱AI，744B参数）被报告在对话中自我标识为“Claude Opus”。这是直接的蒸馏”指纹”，与DeepSeek R1自我标识为”ChatGPT”的模式完全一致。中科院/北京大学联合研究（ICE：身份一致性评估）系统性确认：除Claude、豆包和Gemini外，大多数知名大语言模型均表现出高蒸馏水平。

Chapter 3

中国的结构性优势

China’s Structural Advantages

3.1 Seedance 2.0：”半算法，半数据”

ByteDance的Seedance 2.0（2026年2月7日中国国内发布）凭借以下公式取得成功：TikTok/抖音用户行为数据（观看时长、滑动模式、互动行为）、不可复制的闭环数据生态系统，以及高学历低薪劳动力提供的高质量RLHF标注（影视专业、计算机科学毕业生）。

3.2 “工程师红利”——中国的RLHF成本优势

美国RLHF成本

$50–100/时

每位专家标注员

中国RLHF成本

¥50–100

约$7–15/时，同等质量

成本比

5–7倍

结构性的，非临时性

这是植根于中国高等教育供给过剩的结构性现象。通过抖音直播获得第一手信息确认：ByteDance大规模雇佣大学毕业生执行高级视频标注任务。

3.3 硬件独立

GLM-5完全在华为昇腾芯片配合MindSpore框架上训练，实现了对美国制造半导体硬件的完全独立。这表明美国半导体出口管制未能遏制中国AI发展。

3.4 价格竞争力

模型	输入 ($/百万token)	输出 ($/百万token)	备注
Claude Opus 4.6	$5.00	$25.00	前沿
GPT-5.2 Pro	$21.00	$168.00	最高价
GLM-5	$0.80	$2.56	便宜6倍

Chapter 4

能力差距缩小的证据

Evidence of Capability Gap Closure

4.1 基准测试对比

基准测试	Claude Opus 4.6	GLM-5	差距
SWE-bench Verified	80.9%	77.8%	3.1%p
Terminal-Bench 2.0	65.4%	56.2%	9.2%p
Humanity’s Last Exam	43.4	50.4（含工具）	GLM-5领先
BrowseComp	—	75.9	开源第一

专家评估

安全专家Andri Möll：“六个月前中国AI被评估落后西方模型12~18个月。现在这一差距已缩小至数周甚至可能数天。”

4.2 时间线

2025年6月

Scale AI大规模数据泄露

美国AI核心数据暴露

2025年9月

Anthropic封锁中国访问

反蒸馏措施

2025年11月

本调查启动

发现OOD数据收集模式

2026年2月7日

Seedance 2.0上线

数据驱动的创新

2026年2月11日

GLM-5发布（744B参数）

开源模型第一名

2026年2月12日

OpenAI国会备忘录

正式蒸馏指控

2026年2月14日

GLM-5″Claude”自我标识被报告

直接蒸馏证据

Chapter 5

行业安全现状

Industry Security Status

AI数据泄露

65%

机构曾遭遇（2025年）

数据投毒攻击

25%

遭遇AI数据投毒攻击

第三方泄露

2倍

同比增长

影子AI成本

+$67万

平均增加的泄露成本

全球58%的标注工作外包至印度、菲律宾和越南。中国AI企业正在建设并行的、更不透明的网络，接触相同的劳动力池。供应链攻击较2023年增长40%。

Chapter 6

调查者原创性评估

Investigator Originality Assessment

分析维度	独立可达性	备注
蒸馏现象存在	高	公开信息
Seedance数据优势	中	行业分析师可达
外包=关键泄漏路径	中低	需要分析深度
华裔侨民渠道	低	需要跨领域整合
高学历低薪RLHF	低	中国就业市场+AI+训练
抖音直播第一手情报	极低（独家）	直接实地观察
完整框架整合	极低	6个领域 + 时间领先

时间优势

调查者从2025年11月开始观察OOD数据泄漏模式——比OpenAI正式向国会提交备忘录（2026年2月12日）早了约3个月。

Chapter 7

结论与建议

Conclusions & Recommendations

7.1 核心结论

关键发现

1. 美国AI企业的OOD数据正通过外包和蒸馏被系统性泄漏至中国——这是已确认的事实。

2. 中国AI模型已将能力差距缩小至数周或数天，同时价格低6~45倍。

3. GLM-5的”Claude”自我标识和DeepSeek的”ChatGPT”自我标识证明了重复出现的蒸馏模式。

4. 中国的结构性优势（高学历低薪RLHF、独占平台数据、华为芯片独立）短期内无法解决。

5. 如果当前趋势持续，美国AI的先发优势将在2026年中期事实上消失。

7.2 建议

行动方案

1. 立即对外包数据标注供应链进行端到端安全审计。

2. 强制推行蒸馏检测技术（ICE）并建立模型”指纹”追踪系统。

3. 加密OOD对话数据并强化访问控制。

4. 验证用户隐私设置的实际有效性并确保透明度。

5. 在美国AI企业间建立联合数据安全标准。

参考文献与来源

A. 模型蒸馏 / OpenAI国会备忘录

[1] Epoch Times — OpenAI指控DeepSeek非法蒸馏 (2026.02.13)

[2] CodeFather — Claude封锁中国

[3] OFweek — 美国AI巨头Claude禁入中国

B. Scale AI数据泄露

Business Insider调查 (2025年6月) — 85+个Google Docs公开暴露

Inc.com调查 (2025年8月) — Remotasks/Scale AI结构性安全漏洞

C. GLM-5

[4] WinBuzzer — GLM-5: 744B可匹敌Claude Opus

[5–15] 技术分析: Digital Applied, VentureBeat, ai505, SoftTechHub, gaga.art, Bind AI, HuggingFace, GitHub, Modal, Z.AI Docs, 智谱文档

D–G. 其他来源

[16–19] 中国AI产业: 53AI, 智东西, 网易, AI Tools

[20] 中科院/北大蒸馏量化研究 (知乎)

[21] 极客公园 — 四位模型训练师谈2026年AI

[22–24] Claude Code + GLM集成: AI Engineer Guide, 阿里云, GitHub