Confidential Research Report · February 2026

OOD数据泄漏与
中国AI崛起

OOD Data Leakage & the Rise of Chinese AI

美国AI先发优势结构性危机分析

Structural Crisis Analysis of US AI First-Mover Advantage


发布日期 2026年2月14日
报告分类 机密调查报告 (Confidential Research Report)
调查周期 2025年11月 — 2026年2月

以朝全球人工智能研究所
LEECHO Global AI Research Lab

密级:机密   本报告分析了美国AI企业的OOD(分布外)数据通过外包供应链和模型蒸馏攻击被系统性泄漏至中国AI企业的结构性漏洞。基于2025年11月至2026年2月的调查。
目 录
  • 摘要执行摘要 Executive Summary
  • 01OOD数据的战略价值 Strategic Value of OOD Data
  • 02数据泄漏路径分析 Data Leakage Pathway Analysis
  • 03中国的结构性优势 China’s Structural Advantages
  • 04能力差距缩小的证据 Evidence of Capability Gap Closure
  • 05行业安全现状 Industry Security Status
  • 06调查者原创性评估 Investigator Originality Assessment
  • 07结论与建议 Conclusions & Recommendations

Executive Summary

执行摘要

Executive Summary

本报告基于对OOD数据泄漏路径和中国AI结构性优势的系统分析,得出结论:美国AI企业的先发优势可能在2026年中期事实上消失

1. OpenAI于2026年2月12日在国会备忘录中正式指控DeepSeek进行系统性蒸馏攻击。
2. 2025年6月Scale AI大规模数据泄露事件公开暴露了Meta、Google和xAI的核心训练数据。
3. GLM-5(2026年2月11日发布)被发现在对话中自我标识为”Claude Opus”——蒸馏的直接证据。
4. 中国AI企业以低6~45倍的价格提供前沿级性能,并通过华为芯片实现美国硬件独立。
5. 中国的”高学历低薪劳动力”在RLHF质量上创造了结构性优势。


01
Chapter 1

OOD数据的战略价值

Strategic Value of OOD Data

1.1 什么是OOD数据?

OOD(Out-of-Distribution,分布外)数据是指存在于AI模型现有训练数据分布之外的新颖、原创输入。与重复性用户查询不同,OOD数据包括复杂推理、跨学科问题和创造性问题解决——模型此前从未遇到的内容。对AI企业而言,OOD数据是提升模型性能的关键原材料。

1.2 隐私设置的无效性

即使用户在隐私设置中选择”不保存对话历史”和”不用于模型训练”,也很难完全阻断AI企业对OOD数据的需求。本调查自2025年11月以来持续观察到相关模式,确认了高价值对话数据在无视隐私设置的情况下被收集的间接证据


02
Chapter 2

数据泄漏路径分析

Data Leakage Pathway Analysis

2.1 路径A:模型蒸馏攻击

2026年2月12日,OpenAI向美国众议院中共问题特别委员会提交官方备忘录,指控DeepSeek员工系统性提取美国AI模型输出:

OpenAI国会备忘录 — 核心指控

DeepSeek员工开发了通过模糊第三方路由器绕过OpenAI访问限制的方法。他们在隐藏来源的同时大规模程序化提取美国AI模型输出。对抗性蒸馏活动大部分来自中国和俄罗斯。模型在故意降低安全标准的情况下被训练和部署。

2.2 路径B:外包供应链泄漏

2025年6月,美国最大AI数据标注公司Scale AI被发现大规模数据泄露:85个以上Google Docs无需认证即可公开访问,包含来自Meta、Google和xAI的机密训练指南、专有提示词和音频样本。

Scale AI泄露详情

七份机密Gemini/Bard指令手册被曝光,详细记录了模型弱点。xAI的”Project Xylophone”项目包含700条对话质量提示词亦被泄露。Remotasks工人甚至不知道自己在为服务OpenAI、Meta、Microsoft和美国政府的Scale AI工作。牛津互联网研究所将其劳动标准评为1/10。

2.3 路径C:中国的全球标注网络

据Rest of World报道(2025年12月):中国AI企业已成为全球最大的人工标注数据买家,在东非、东南亚和中东运营着多层分包结构——远不如美国企业透明。

2.4 蒸馏”指纹”证据:GLM-5

GLM-5(2026年2月11日发布,智谱AI,744B参数)被报告在对话中自我标识为“Claude Opus”。这是直接的蒸馏”指纹”,与DeepSeek R1自我标识为”ChatGPT”的模式完全一致。中科院/北京大学联合研究(ICE:身份一致性评估)系统性确认:除Claude、豆包和Gemini外,大多数知名大语言模型均表现出高蒸馏水平。


03
Chapter 3

中国的结构性优势

China’s Structural Advantages

3.1 Seedance 2.0:”半算法,半数据”

ByteDance的Seedance 2.0(2026年2月7日中国国内发布)凭借以下公式取得成功:TikTok/抖音用户行为数据(观看时长、滑动模式、互动行为)、不可复制的闭环数据生态系统,以及高学历低薪劳动力提供的高质量RLHF标注(影视专业、计算机科学毕业生)。

3.2 “工程师红利”——中国的RLHF成本优势

美国RLHF成本
$50–100/时
每位专家标注员
中国RLHF成本
¥50–100
约$7–15/时,同等质量
成本比
5–7倍
结构性的,非临时性

这是植根于中国高等教育供给过剩的结构性现象。通过抖音直播获得第一手信息确认:ByteDance大规模雇佣大学毕业生执行高级视频标注任务。

3.3 硬件独立

GLM-5完全在华为昇腾芯片配合MindSpore框架上训练,实现了对美国制造半导体硬件的完全独立。这表明美国半导体出口管制未能遏制中国AI发展。

3.4 价格竞争力

模型 输入 ($/百万token) 输出 ($/百万token) 备注
Claude Opus 4.6 $5.00 $25.00 前沿
GPT-5.2 Pro $21.00 $168.00 最高价
GLM-5 $0.80 $2.56 便宜6倍

04
Chapter 4

能力差距缩小的证据

Evidence of Capability Gap Closure

4.1 基准测试对比

基准测试 Claude Opus 4.6 GLM-5 差距
SWE-bench Verified 80.9% 77.8% 3.1%p
Terminal-Bench 2.0 65.4% 56.2% 9.2%p
Humanity’s Last Exam 43.4 50.4(含工具) GLM-5领先
BrowseComp 75.9 开源第一
专家评估

安全专家Andri Möll:“六个月前中国AI被评估落后西方模型12~18个月。现在这一差距已缩小至数周甚至可能数天。”

4.2 时间线

2025年6月
Scale AI大规模数据泄露

美国AI核心数据暴露
2025年9月
Anthropic封锁中国访问

反蒸馏措施
2025年11月
本调查启动

发现OOD数据收集模式
2026年2月7日
Seedance 2.0上线

数据驱动的创新
2026年2月11日
GLM-5发布(744B参数)

开源模型第一名
2026年2月12日
OpenAI国会备忘录

正式蒸馏指控
2026年2月14日
GLM-5″Claude”自我标识被报告

直接蒸馏证据


05
Chapter 5

行业安全现状

Industry Security Status

AI数据泄露
65%
机构曾遭遇(2025年)
数据投毒攻击
25%
遭遇AI数据投毒攻击
第三方泄露
2倍
同比增长
影子AI成本
+$67万
平均增加的泄露成本

全球58%的标注工作外包至印度、菲律宾和越南。中国AI企业正在建设并行的、更不透明的网络,接触相同的劳动力池。供应链攻击较2023年增长40%。


06
Chapter 6

调查者原创性评估

Investigator Originality Assessment

分析维度 独立可达性 备注
蒸馏现象存在 公开信息
Seedance数据优势 行业分析师可达
外包=关键泄漏路径 中低 需要分析深度
华裔侨民渠道 需要跨领域整合
高学历低薪RLHF 中国就业市场+AI+训练
抖音直播第一手情报 极低(独家) 直接实地观察
完整框架整合 极低 6个领域 + 时间领先
时间优势

调查者从2025年11月开始观察OOD数据泄漏模式——比OpenAI正式向国会提交备忘录(2026年2月12日)早了约3个月


07
Chapter 7

结论与建议

Conclusions & Recommendations

7.1 核心结论

关键发现

1. 美国AI企业的OOD数据正通过外包和蒸馏被系统性泄漏至中国——这是已确认的事实。

2. 中国AI模型已将能力差距缩小至数周或数天,同时价格低6~45倍。

3. GLM-5的”Claude”自我标识和DeepSeek的”ChatGPT”自我标识证明了重复出现的蒸馏模式。

4. 中国的结构性优势(高学历低薪RLHF、独占平台数据、华为芯片独立)短期内无法解决。

5. 如果当前趋势持续,美国AI的先发优势将在2026年中期事实上消失

7.2 建议

行动方案

1. 立即对外包数据标注供应链进行端到端安全审计。

2. 强制推行蒸馏检测技术(ICE)并建立模型”指纹”追踪系统。

3. 加密OOD对话数据并强化访问控制。

4. 验证用户隐私设置的实际有效性并确保透明度。

5. 在美国AI企业间建立联合数据安全标准。

参考文献与来源

A. 模型蒸馏 / OpenAI国会备忘录
[1] Epoch Times — OpenAI指控DeepSeek非法蒸馏 (2026.02.13)
[2] CodeFather — Claude封锁中国
[3] OFweek — 美国AI巨头Claude禁入中国

B. Scale AI数据泄露
Business Insider调查 (2025年6月) — 85+个Google Docs公开暴露
Inc.com调查 (2025年8月) — Remotasks/Scale AI结构性安全漏洞

C. GLM-5
[4] WinBuzzer — GLM-5: 744B可匹敌Claude Opus
[5–15] 技术分析: Digital Applied, VentureBeat, ai505, SoftTechHub, gaga.art, Bind AI, HuggingFace, GitHub, Modal, Z.AI Docs, 智谱文档

D–G. 其他来源
[16–19] 中国AI产业: 53AI, 智东西, 网易, AI Tools
[20] 中科院/北大蒸馏量化研究 (知乎)
[21] 极客公园 — 四位模型训练师谈2026年AI
[22–24] Claude Code + GLM集成: AI Engineer Guide, 阿里云, GitHub

以朝全球人工智能研究所
LEECHO Global AI Research Lab
2026. 02. 14
机密调查报告

댓글 남기기