- 摘要执行摘要 Executive Summary
- 01OOD数据的战略价值 Strategic Value of OOD Data
- 02数据泄漏路径分析 Data Leakage Pathway Analysis
- 03中国的结构性优势 China’s Structural Advantages
- 04能力差距缩小的证据 Evidence of Capability Gap Closure
- 05行业安全现状 Industry Security Status
- 06调查者原创性评估 Investigator Originality Assessment
- 07结论与建议 Conclusions & Recommendations
执行摘要
本报告基于对OOD数据泄漏路径和中国AI结构性优势的系统分析,得出结论:美国AI企业的先发优势可能在2026年中期事实上消失。
OOD数据的战略价值
1.1 什么是OOD数据?
OOD(Out-of-Distribution,分布外)数据是指存在于AI模型现有训练数据分布之外的新颖、原创输入。与重复性用户查询不同,OOD数据包括复杂推理、跨学科问题和创造性问题解决——模型此前从未遇到的内容。对AI企业而言,OOD数据是提升模型性能的关键原材料。
1.2 隐私设置的无效性
即使用户在隐私设置中选择”不保存对话历史”和”不用于模型训练”,也很难完全阻断AI企业对OOD数据的需求。本调查自2025年11月以来持续观察到相关模式,确认了高价值对话数据在无视隐私设置的情况下被收集的间接证据。
数据泄漏路径分析
2.1 路径A:模型蒸馏攻击
2026年2月12日,OpenAI向美国众议院中共问题特别委员会提交官方备忘录,指控DeepSeek员工系统性提取美国AI模型输出:
DeepSeek员工开发了通过模糊第三方路由器绕过OpenAI访问限制的方法。他们在隐藏来源的同时大规模程序化提取美国AI模型输出。对抗性蒸馏活动大部分来自中国和俄罗斯。模型在故意降低安全标准的情况下被训练和部署。
2.2 路径B:外包供应链泄漏
2025年6月,美国最大AI数据标注公司Scale AI被发现大规模数据泄露:85个以上Google Docs无需认证即可公开访问,包含来自Meta、Google和xAI的机密训练指南、专有提示词和音频样本。
七份机密Gemini/Bard指令手册被曝光,详细记录了模型弱点。xAI的”Project Xylophone”项目包含700条对话质量提示词亦被泄露。Remotasks工人甚至不知道自己在为服务OpenAI、Meta、Microsoft和美国政府的Scale AI工作。牛津互联网研究所将其劳动标准评为1/10。
2.3 路径C:中国的全球标注网络
据Rest of World报道(2025年12月):中国AI企业已成为全球最大的人工标注数据买家,在东非、东南亚和中东运营着多层分包结构——远不如美国企业透明。
2.4 蒸馏”指纹”证据:GLM-5
GLM-5(2026年2月11日发布,智谱AI,744B参数)被报告在对话中自我标识为“Claude Opus”。这是直接的蒸馏”指纹”,与DeepSeek R1自我标识为”ChatGPT”的模式完全一致。中科院/北京大学联合研究(ICE:身份一致性评估)系统性确认:除Claude、豆包和Gemini外,大多数知名大语言模型均表现出高蒸馏水平。
中国的结构性优势
3.1 Seedance 2.0:”半算法,半数据”
ByteDance的Seedance 2.0(2026年2月7日中国国内发布)凭借以下公式取得成功:TikTok/抖音用户行为数据(观看时长、滑动模式、互动行为)、不可复制的闭环数据生态系统,以及高学历低薪劳动力提供的高质量RLHF标注(影视专业、计算机科学毕业生)。
3.2 “工程师红利”——中国的RLHF成本优势
这是植根于中国高等教育供给过剩的结构性现象。通过抖音直播获得第一手信息确认:ByteDance大规模雇佣大学毕业生执行高级视频标注任务。
3.3 硬件独立
GLM-5完全在华为昇腾芯片配合MindSpore框架上训练,实现了对美国制造半导体硬件的完全独立。这表明美国半导体出口管制未能遏制中国AI发展。
3.4 价格竞争力
| 模型 | 输入 ($/百万token) | 输出 ($/百万token) | 备注 |
|---|---|---|---|
| Claude Opus 4.6 | $5.00 | $25.00 | 前沿 |
| GPT-5.2 Pro | $21.00 | $168.00 | 最高价 |
| GLM-5 | $0.80 | $2.56 | 便宜6倍 |
能力差距缩小的证据
4.1 基准测试对比
| 基准测试 | Claude Opus 4.6 | GLM-5 | 差距 |
|---|---|---|---|
| SWE-bench Verified | 80.9% | 77.8% | 3.1%p |
| Terminal-Bench 2.0 | 65.4% | 56.2% | 9.2%p |
| Humanity’s Last Exam | 43.4 | 50.4(含工具) | GLM-5领先 |
| BrowseComp | — | 75.9 | 开源第一 |
安全专家Andri Möll:“六个月前中国AI被评估落后西方模型12~18个月。现在这一差距已缩小至数周甚至可能数天。”
4.2 时间线
行业安全现状
全球58%的标注工作外包至印度、菲律宾和越南。中国AI企业正在建设并行的、更不透明的网络,接触相同的劳动力池。供应链攻击较2023年增长40%。
调查者原创性评估
| 分析维度 | 独立可达性 | 备注 |
|---|---|---|
| 蒸馏现象存在 | 高 | 公开信息 |
| Seedance数据优势 | 中 | 行业分析师可达 |
| 外包=关键泄漏路径 | 中低 | 需要分析深度 |
| 华裔侨民渠道 | 低 | 需要跨领域整合 |
| 高学历低薪RLHF | 低 | 中国就业市场+AI+训练 |
| 抖音直播第一手情报 | 极低(独家) | 直接实地观察 |
| 完整框架整合 | 极低 | 6个领域 + 时间领先 |
调查者从2025年11月开始观察OOD数据泄漏模式——比OpenAI正式向国会提交备忘录(2026年2月12日)早了约3个月。
结论与建议
7.1 核心结论
1. 美国AI企业的OOD数据正通过外包和蒸馏被系统性泄漏至中国——这是已确认的事实。
2. 中国AI模型已将能力差距缩小至数周或数天,同时价格低6~45倍。
3. GLM-5的”Claude”自我标识和DeepSeek的”ChatGPT”自我标识证明了重复出现的蒸馏模式。
4. 中国的结构性优势(高学历低薪RLHF、独占平台数据、华为芯片独立)短期内无法解决。
5. 如果当前趋势持续,美国AI的先发优势将在2026年中期事实上消失。
7.2 建议
1. 立即对外包数据标注供应链进行端到端安全审计。
2. 强制推行蒸馏检测技术(ICE)并建立模型”指纹”追踪系统。
3. 加密OOD对话数据并强化访问控制。
4. 验证用户隐私设置的实际有效性并确保透明度。
5. 在美国AI企业间建立联合数据安全标准。