LLM INPUT FACTOR ATLAS · V4

决定LLM模型Output的
十大Input因子深度分析

基于 2023–2026 年学术研究与产业实践的系统性整理。模型是 CPU，Input 是程序——CPU 在持续升级（但速度放缓），而我们编写程序的能力在飞速进化。

      12篇同行评审论文 [P]

      8篇arXiv预印本 [Pre]

      7份产业报告 [Ind]

⚠ 阅读指南

本文汇集的定量数据来自不同研究团队、不同实验条件、不同模型和不同任务。各因子下的数字不可直接横向比较来判断”哪个因子影响更大”。例如因子1中 GSM8K 上的14.1%下降（数学推理+不相关上下文）与因子3中的30%下降（20文档检索+中间位置）测量的是完全不同的东西。本文的价值在于为每个因子提供”该因子确实有影响”的证据，而非给出精确的跨因子权重。十个因子之间存在部分重叠，文末有专门讨论。

核心论点

从2023年GPT-3.5的成功开始，AI大模型几乎所有面向用户的实质性进步都发生在Input端——从提示词技巧到上下文工程，再到Agent架构和Agent Team。预训练并未”到达极限”，但其边际收益已明显递减：公域高质量文本数据的有效存量约300万亿token，预计在2026–2032年间被耗尽（Epoch AI, 2024）。与此同时，同样一块钱花在系统提示词优化、CoT、Tool Use、Agent架构上的投入产出比，已显著超过花在继续扩大预训练上的回报。

但需要强调：预训练仍然定义了模型的”能力上限”，而Input工程决定了在具体任务中能发挥出这个上限的百分之几。两者不是替代关系，而是”天花板”与”实际高度”的关系。

第一部分

十大影响因子每个因子均附有支持证据与挑战证据的对等呈现

因子 01
信噪比（Signal-to-Noise Ratio）

Input中与当前任务直接相关的token占总token的比例。

支持证据

来源	发现	影响幅度	条件
Shi et al., 2023 P	不相关信息导致性能下降	GSM8K: 78.7%→64.6%（↓14.1%）	数学推理，注入无关段落
Chroma Context Rot, 2025 Ind	18模型随输入增长退化	11/12模型在32K时降至基线50%以下	非词汇匹配检索任务
LLMLingua-2 P	压缩input 2–5倍	质量损失有限，部分场景准确率反升	多种NLP基准

挑战证据

来源	发现	影响幅度	条件
Few-shot学习综合	增加input（示例）反而大幅提升性能	zero→few-shot可提升30%+	多种NLP任务
Context Discipline, 2025 Pre	大模型对噪音上下文”出人意料地坚韧”	70B准确率仅微降（98.5%→98%）	简单事实问答，15K词噪音

核心洞察

最优点不是”最少input”，而是”恰好足够的高相关性input”。信噪比的优化方向是提高”信号”而非单纯压缩”噪音”。

因子 02
逻辑结构（Logical Structure）

Input中各部分之间的层级关系、分类方式和组织形式。

来源	发现	条件
Zeng et al., ACL 2025 P	约束从难到易排列时性能更好	多约束指令遵从任务
Khan Academy / PyData 2025 Ind	字典键排列顺序影响输出质量	教育AI助手生产环境
Input Matters Pre	输入结构（JSON/表格/自然语言）影响摘要准确性	NBA比赛摘要，p<0.05

核心洞察

结构化的价值取决于任务类型。对指令遵从类任务，好的结构帮助很大；对开放检索类任务，过度结构化可能反而干扰。

因子 03
位置效应（Positional Effects）

同一段信息在Input中不同位置时，对模型行为的影响差异。

来源	发现	影响幅度
Liu et al., TACL 2024 P	U形注意力曲线	中间位置性能下降 >30%
Snorkel AI SWiM Ind	25%文档深度处性能最差	跨8个长上下文模型验证
Fragile Preferences, 2025 Pre	位置偏差在Claude 4 Sonnet上持续存在	跨温度设置一致
arXiv:2506.00069 Pre	末尾重复任务指令可恢复性能	恢复至接近短上下文基线

核心洞察

位置效应的严重程度高度依赖任务复杂度。简单事实检索中可能微乎其微，但复杂推理和多跳问答中影响巨大。一刀切的结论是错误的。

因子 04
绝对长度效应（Absolute Length Tax）

即使信噪比100%，Input的绝对token长度本身也降低性能。

来源	发现	影响幅度
EMNLP 2025 P	完美检索+遮蔽无关token后仍退化	13.9%–85%（因任务而异）
Chroma Context Rot Ind	GPT-4o退化	99.3%→69.7%（↓30%，至32K）
LoCoBench, Salesforce Pre	所有模型在1M token下显著退化	软件工程跨文件推理

核心洞察

“长上下文 = 坏”是错误的简化；”长上下文有隐性税 + 税率因场景而异”更准确。简单QA上大模型几乎不受影响（<2%），但复杂推理任务上所有模型都显著退化。

因子 05
语义干扰（Semantic Distractor Interference）

主题相似但事实无关的内容，产生超出简单噪音的额外干扰。

来源	发现
Chroma Context Rot Ind	语义干扰项的退化超过长度单独造成的退化；在幻觉回复中频率最高
LV-Eval P	混淆事实下性能大幅退化

因子 06
指令层级冲突（Instruction Hierarchy Conflict）

系统提示词、用户消息、工具返回等不同层级指令间的优先级冲突。

来源	发现	影响幅度
Wallace et al., NeurIPS 2024 P	训练LLM选择性忽略低优先级指令	鲁棒性大幅提升，含未见攻击类型
VerIH, ICLR 2025 P	指令层级解析作为推理任务	指令遵从+20%，攻击成功率-20%
SecAlign, CCS 2025 P	偏好优化防御prompt injection	攻击成功率降至<10%

因子 07
模型特性差异（Model-Specific Behavior）

不同模型在相同Input下的失败模式截然不同。

模型	长上下文失败模式
Claude 系列	保守拒绝回答（abstention）
GPT 系列	干扰项下幻觉率更高
Qwen2.5-14B	1K→32K: 43.87→20.53（↓53%）
Llama-3.1-70B	简单QA极其坚韧（98.5%→98%）

因子 08
输出自身累积退化（Output Self-Degradation）

模型在生成长输出时，已生成的文本成为后续生成的Input，导致后段质量逐步下降。

来源	发现
LongGenBench P ICLR 2025	所有模型在长输出中展现下降曲线
Ref-Long Pre	人类引用归因 >90% ExAcc，最佳LLM <30%

因子 09
格式偏差（Format Bias）

模型对不同数据格式（JSON、YAML、Markdown等）的处理能力因训练数据分布而异，独立于逻辑结构因子。

来源	发现
SoEval基准 P	模型在JSON上的格式遵从率显著高于YAML——源于训练数据中JSON更普遍
StructEval Pre	跨13种结构化输出类型评测，不同格式的错误模式差异显著

实践意义

设计系统提示词和工具schema时，优先使用JSON格式（训练数据中最丰富），避免YAML用于关键输出。序列化库的字段排列顺序可能影响输出质量。

因子 10
推理时配置参数（Inference-Time Configuration）

Temperature、top-p、reasoning effort等推理时参数严格来说也是”Input”的一部分，但通常不被纳入prompt engineering讨论。

来源	发现
Fragile Preferences Pre	温度变化下位置偏差依然稳健
GPT-5.4模型文档 Ind	支持low/medium/high/xhigh四级reasoning effort，直接影响输出质量

实践意义

推理时配置往往是最低成本的优化杠杆——零token成本，但可以显著影响输出的确定性和一致性。

第二部分

因子间交互关系已有证据支持的交互与研究空白

交互	证据来源	说明
信噪比 × 绝对长度	EMNLP 2025 P	遮蔽所有无关token后长度仍导致退化——两者独立叠加
位置 × 语义干扰	Snorkel AI SWiM Ind	同领域干扰文档在中间深度（25%）造成最大损害
绝对长度 × 推理能力	arXiv:2512.13898 Pre	CoT在长上下文中递减——长度削弱自我修正能力
逻辑结构 × 位置	arXiv:2506.00069 Pre	末尾重复任务指令可恢复性能——结构可部分抵消位置效应

尚未有充分实验证据的交互

语义干扰×指令冲突 / 模型特性×输出退化 / 信噪比×逻辑结构的精确数学关系 / 格式偏差×位置效应 / 推理时配置×以上任何因子——均属当前研究空白。

第三部分

优化优先级矩阵基于影响幅度与可控程度的综合判断（定性排序）

优先级
因子
可控
推荐动作

★★★★★
信噪比
高
按需加载，动态裁剪，语义压缩

★★★★★
绝对长度
中高
Agent拆分短步骤，compaction，token预算管理

★★★★
位置编排
高
关键指令首尾放置，末尾重复约束

★★★★
语义干扰
中
Agent Team隔离上下文，清理旧工具结果

★★★
逻辑结构
高
约束从难到易排列，XML/标签标注边界

★★★
指令层级
中高
NEVER/ALWAYS强约束，明确来源信任层级

★★★
格式偏差
高
优先使用JSON，注意序列化顺序

★★
推理时配置
极高
确定性任务低温度，复杂推理高effort

★★
模型特性
低
根据任务匹配模型

★★
输出退化
低
多步短输出，后验检查

第四部分

Input的进化史从手工提示词到统一Input操作系统

2022–2023

手工提示词

人类手写一段话 → Input措辞决定output质量。ChatGPT发布。

2023

CoT / Few-shot

Input中加入推理示例 → Input结构引导推理过程。Google CoT论文。

2023–2024

RAG

动态检索知识注入 → Input时效性和相关性决定准确率。

2024

系统提示词

持久化的开发者指令 → Input分层影响行为一致性。

2024–2025

上下文工程

系统化管理”工作记忆” → Karpathy定义Context Engineering。

2024–2025

Agent + Tool Use

程序化生成多轮Input → Input可自动生产和迭代。

2025

Skill / SOP / MCP

结构化专业知识包 + 标准化外部数据接入 → Input模块化、按需加载。

2025–2026

Agent Team

多Agent互相生成Input → Input生产可分工协作。

2026

统一Input操作系统

完整Input生产系统 → 整合为自动化框架。GPT-5.4 tool search减少47% token。

第五部分

Agent架构：解决方案还是Tradeoff？Agent不是免费午餐——缓解某些因子的同时加剧另一些

Agent 缓解的问题

✓ 绝对长度：将长任务拆成短步骤
✓ 输出退化：每步只生成短输出
✓ 位置效应：每步上下文较短，”中间盲区”较小

Agent 引入的新问题

✗ 总token消耗放大（830K+ token/次案例）
✗ 中间推理步骤成为新的语义干扰
✗ 上下文断裂（compaction丢失细节）
✗ Multi-Agent同步问题
✗ 错误传播（幻觉被注入后续步骤）

判断框架

Agent架构在以下条件下利大于弊：(a) 任务天然可分解为独立子步骤，(b) 每步有明确的成功/失败信号（如代码编译），(c) 中间结果可以被验证。在以下条件下弊大于利：(a) 任务需要全局一致性（如长文档写作），(b) 中间步骤没有验证机制，(c) 成本敏感场景下系统提示词重发的开销不可接受。

第六部分

适用边界：什么场景下这些因子不重要？过度优化反而浪费工程资源的四种情形

场景 1：模型能力远超任务难度

用GPT-5.4做简单翻译或模板填充时，即使input噪音多、结构混乱，模型也几乎总能正确完成。十大因子的影响主要体现在”模型能力边界附近”的任务上。

场景 2：Output有外部验证机制

代码有编译器和单元测试，数据提取有schema校验。当错误output可被自动检测并重试时，单次准确率要求降低，input优化的边际价值也降低。

场景 3：任务本身是开放性的

创意写作、头脑风暴等没有单一”正确答案”。”准确率”这个度量本身就不适用，大部分因子影响力被弱化。但指令层级和逻辑结构仍然重要。

场景 4：交互式迭代工作流

用户和模型在快速迭代（如Cursor中边写边改），每次交互只处理一小步变更，input的绝对长度和位置效应自然被压缩。响应速度可能比output质量更重要。

总结

十大因子的影响幅度不是固定值，而是任务难度 × 验证机制 × 迭代速度的函数。在任务简单、验证充分、迭代快速的场景下，花大力气优化input是过度工程。在任务复杂、无法验证、一次性输出的场景下，input优化是决定成败的关键。

第七部分

核心结论

结论 1

模型是CPU，Input是程序。CPU在持续升级（但速度放缓），而我们编写程序的能力在飞速进化。

结论 2

信噪比和绝对长度是十大因子中最值得优先关注的两个。理由：(a) 它们报告了较大的影响幅度，(b) EMNLP 2025证明两者独立叠加，(c) 两者在当前Agent架构中是最突出的痛点。但在简单QA任务上，大模型对这两个因子展现极高坚韧性（↓<2%），此时其他因子可能更值得关注。

结论 3

不同产品代表了不同的Input工程哲学。没有”最优”，只有”最适合场景”。目前缺乏在同一标准化任务上横向评测所有产品input效率的独立研究。

结论 4

“更少的input”不等于”更好的input”。最优点是”恰好足够的高相关性input”。在信息不足的场景下增加input（few-shot示例、更多检索文档）反而大幅提升性能。

结论 5

上下文工程正在从prompt engineering的子集演变为独立的工程学科。但预训练进步仍然是模型能力提升的重要来源，不应因强调input工程的重要性而否认预训练的持续贡献。

第八部分

已知空白：本图谱未覆盖的因子

空白领域	为什么重要	当前研究状态
多模态input的交叉影响	Agent工具返回的可能是截图、表格、PDF等非文本内容	缺乏”混合input中非文本部分如何干扰文本推理”的控制实验
对话历史的时间衰减函数	多轮对话中第N-k轮信息对第N轮的影响是否可预测	有近因效应研究，但缺乏精确的”轮次-影响力”衰减函数
并发/批处理的影响	Agent Team场景下多个agent的请求并行到达同一模型	有推理引擎的工程文档，缺乏output质量角度的系统研究
跨会话上下文传递的损耗	通过compaction或memory跨会话传递时的信息损耗	有工程实践讨论，缺乏信息论视角的系统分析
训练数据与input格式的匹配度	模型在预训练中见过最多的format上表现更好	SoEval等基准提供初步数据，覆盖仍有限

附录

关键学术文献索引

同行评审论文 P

1. Lost in the Middle — Liu et al., TACL 2024
2. The Instruction Hierarchy — Wallace et al., NeurIPS 2024
3. Will We Run Out of Data? — Villalobos et al., Epoch AI 2024
4. Order Matters — Zeng et al., ACL Findings 2025
5. Context Length Alone Hurts — EMNLP Findings 2025
6. SecAlign — CCS 2025
7. VerIH — ICLR 2025
8. LV-Eval — ICLR 2025
9. LongGenBench — ICLR 2025
10. LoCoBench — KDD 2025
11. Shi et al. — ICML 2023
12. SoEval — Information Processing & Management, 2024

arXiv 预印本 Pre

13. Serial Position Effects — arXiv:2406.15981, 2024
14. Long Context Less Focus — arXiv:2602.15028, 2026
15. Context Discipline — arXiv:2601.11564, 2025
16. Fragile Preferences — arXiv:2506.14092, 2025
17. Position is Power — arXiv:2505.21091, 2025
18. Test-Time Training for Long-Context LLMs — arXiv:2512.13898, 2025
19. Input Matters — arXiv:2510.21034, 2025
20. StructEval — arXiv:2505.20139, 2025

产业报告 Ind

21. Context Rot — Chroma Research, 2025.7
22. SWiM — Snorkel AI, 2024
23. OpenClaw System Prompt Investigation — GitHub Issue #21999, 2026.2
24. State of LLMs 2025 — Sebastian Raschka, 2025.12
25. GPT-5.4 Launch — OpenAI Blog, 2026.3.5
26. Cursor vs Claude Code — Builder.io, 2026.2
27. Khan Academy PyData — Boris Lau, PyData Global 2025