⚠ 阅读指南
本文汇集的定量数据来自不同研究团队、不同实验条件、不同模型和不同任务。各因子下的数字不可直接横向比较来判断”哪个因子影响更大”。例如因子1中 GSM8K 上的14.1%下降(数学推理+不相关上下文)与因子3中的30%下降(20文档检索+中间位置)测量的是完全不同的东西。本文的价值在于为每个因子提供”该因子确实有影响”的证据,而非给出精确的跨因子权重。十个因子之间存在部分重叠,文末有专门讨论。
核心论点
从2023年GPT-3.5的成功开始,AI大模型几乎所有面向用户的实质性进步都发生在Input端——从提示词技巧到上下文工程,再到Agent架构和Agent Team。预训练并未”到达极限”,但其边际收益已明显递减:公域高质量文本数据的有效存量约300万亿token,预计在2026–2032年间被耗尽(Epoch AI, 2024)。与此同时,同样一块钱花在系统提示词优化、CoT、Tool Use、Agent架构上的投入产出比,已显著超过花在继续扩大预训练上的回报。
但需要强调:预训练仍然定义了模型的”能力上限”,而Input工程决定了在具体任务中能发挥出这个上限的百分之几。两者不是替代关系,而是”天花板”与”实际高度”的关系。
十大影响因子每个因子均附有支持证据与挑战证据的对等呈现
因子间交互关系已有证据支持的交互与研究空白
| 交互 | 证据来源 | 说明 |
|---|---|---|
| 信噪比 × 绝对长度 | EMNLP 2025 P | 遮蔽所有无关token后长度仍导致退化——两者独立叠加 |
| 位置 × 语义干扰 | Snorkel AI SWiM Ind | 同领域干扰文档在中间深度(25%)造成最大损害 |
| 绝对长度 × 推理能力 | arXiv:2512.13898 Pre | CoT在长上下文中递减——长度削弱自我修正能力 |
| 逻辑结构 × 位置 | arXiv:2506.00069 Pre | 末尾重复任务指令可恢复性能——结构可部分抵消位置效应 |
语义干扰×指令冲突 / 模型特性×输出退化 / 信噪比×逻辑结构的精确数学关系 / 格式偏差×位置效应 / 推理时配置×以上任何因子——均属当前研究空白。
优化优先级矩阵基于影响幅度与可控程度的综合判断(定性排序)
Input的进化史从手工提示词到统一Input操作系统
Agent架构:解决方案还是Tradeoff?Agent不是免费午餐——缓解某些因子的同时加剧另一些
✓ 绝对长度:将长任务拆成短步骤
✓ 输出退化:每步只生成短输出
✓ 位置效应:每步上下文较短,”中间盲区”较小
✗ 总token消耗放大(830K+ token/次案例)
✗ 中间推理步骤成为新的语义干扰
✗ 上下文断裂(compaction丢失细节)
✗ Multi-Agent同步问题
✗ 错误传播(幻觉被注入后续步骤)
Agent架构在以下条件下利大于弊:(a) 任务天然可分解为独立子步骤,(b) 每步有明确的成功/失败信号(如代码编译),(c) 中间结果可以被验证。在以下条件下弊大于利:(a) 任务需要全局一致性(如长文档写作),(b) 中间步骤没有验证机制,(c) 成本敏感场景下系统提示词重发的开销不可接受。
适用边界:什么场景下这些因子不重要?过度优化反而浪费工程资源的四种情形
用GPT-5.4做简单翻译或模板填充时,即使input噪音多、结构混乱,模型也几乎总能正确完成。十大因子的影响主要体现在”模型能力边界附近”的任务上。
代码有编译器和单元测试,数据提取有schema校验。当错误output可被自动检测并重试时,单次准确率要求降低,input优化的边际价值也降低。
创意写作、头脑风暴等没有单一”正确答案”。”准确率”这个度量本身就不适用,大部分因子影响力被弱化。但指令层级和逻辑结构仍然重要。
用户和模型在快速迭代(如Cursor中边写边改),每次交互只处理一小步变更,input的绝对长度和位置效应自然被压缩。响应速度可能比output质量更重要。
十大因子的影响幅度不是固定值,而是 任务难度 × 验证机制 × 迭代速度 的函数。在任务简单、验证充分、迭代快速的场景下,花大力气优化input是过度工程。在任务复杂、无法验证、一次性输出的场景下,input优化是决定成败的关键。
核心结论
模型是CPU,Input是程序。CPU在持续升级(但速度放缓),而我们编写程序的能力在飞速进化。
信噪比和绝对长度是十大因子中最值得优先关注的两个。理由:(a) 它们报告了较大的影响幅度,(b) EMNLP 2025证明两者独立叠加,(c) 两者在当前Agent架构中是最突出的痛点。但在简单QA任务上,大模型对这两个因子展现极高坚韧性(↓<2%),此时其他因子可能更值得关注。
不同产品代表了不同的Input工程哲学。没有”最优”,只有”最适合场景”。目前缺乏在同一标准化任务上横向评测所有产品input效率的独立研究。
“更少的input”不等于”更好的input”。最优点是”恰好足够的高相关性input”。在信息不足的场景下增加input(few-shot示例、更多检索文档)反而大幅提升性能。
上下文工程正在从prompt engineering的子集演变为独立的工程学科。但预训练进步仍然是模型能力提升的重要来源,不应因强调input工程的重要性而否认预训练的持续贡献。
已知空白:本图谱未覆盖的因子
| 空白领域 | 为什么重要 | 当前研究状态 |
|---|---|---|
| 多模态input的交叉影响 | Agent工具返回的可能是截图、表格、PDF等非文本内容 | 缺乏”混合input中非文本部分如何干扰文本推理”的控制实验 |
| 对话历史的时间衰减函数 | 多轮对话中第N-k轮信息对第N轮的影响是否可预测 | 有近因效应研究,但缺乏精确的”轮次-影响力”衰减函数 |
| 并发/批处理的影响 | Agent Team场景下多个agent的请求并行到达同一模型 | 有推理引擎的工程文档,缺乏output质量角度的系统研究 |
| 跨会话上下文传递的损耗 | 通过compaction或memory跨会话传递时的信息损耗 | 有工程实践讨论,缺乏信息论视角的系统分析 |
| 训练数据与input格式的匹配度 | 模型在预训练中见过最多的format上表现更好 | SoEval等基准提供初步数据,覆盖仍有限 |
关键学术文献索引
同行评审论文 P
1. Lost in the Middle — Liu et al., TACL 2024
2. The Instruction Hierarchy — Wallace et al., NeurIPS 2024
3. Will We Run Out of Data? — Villalobos et al., Epoch AI 2024
4. Order Matters — Zeng et al., ACL Findings 2025
5. Context Length Alone Hurts — EMNLP Findings 2025
6. SecAlign — CCS 2025
7. VerIH — ICLR 2025
8. LV-Eval — ICLR 2025
9. LongGenBench — ICLR 2025
10. LoCoBench — KDD 2025
11. Shi et al. — ICML 2023
12. SoEval — Information Processing & Management, 2024
arXiv 预印本 Pre
13. Serial Position Effects — arXiv:2406.15981, 2024
14. Long Context Less Focus — arXiv:2602.15028, 2026
15. Context Discipline — arXiv:2601.11564, 2025
16. Fragile Preferences — arXiv:2506.14092, 2025
17. Position is Power — arXiv:2505.21091, 2025
18. Test-Time Training for Long-Context LLMs — arXiv:2512.13898, 2025
19. Input Matters — arXiv:2510.21034, 2025
20. StructEval — arXiv:2505.20139, 2025
产业报告 Ind
21. Context Rot — Chroma Research, 2025.7
22. SWiM — Snorkel AI, 2024
23. OpenClaw System Prompt Investigation — GitHub Issue #21999, 2026.2
24. State of LLMs 2025 — Sebastian Raschka, 2025.12
25. GPT-5.4 Launch — OpenAI Blog, 2026.3.5
26. Cursor vs Claude Code — Builder.io, 2026.2
27. Khan Academy PyData — Boris Lau, PyData Global 2025