LLM INPUT FACTOR ATLAS · V4

决定LLM模型Output的
十大Input因子深度分析

基于 2023–2026 年学术研究与产业实践的系统性整理。模型是 CPU,Input 是程序——CPU 在持续升级(但速度放缓),而我们编写程序的能力在飞速进化。

12篇同行评审论文 [P]
8篇arXiv预印本 [Pre]
7份产业报告 [Ind]

⚠ 阅读指南

本文汇集的定量数据来自不同研究团队、不同实验条件、不同模型和不同任务。各因子下的数字不可直接横向比较来判断”哪个因子影响更大”。例如因子1中 GSM8K 上的14.1%下降(数学推理+不相关上下文)与因子3中的30%下降(20文档检索+中间位置)测量的是完全不同的东西。本文的价值在于为每个因子提供”该因子确实有影响”的证据,而非给出精确的跨因子权重。十个因子之间存在部分重叠,文末有专门讨论。

核心论点

从2023年GPT-3.5的成功开始,AI大模型几乎所有面向用户的实质性进步都发生在Input端——从提示词技巧到上下文工程,再到Agent架构和Agent Team。预训练并未”到达极限”,但其边际收益已明显递减:公域高质量文本数据的有效存量约300万亿token,预计在2026–2032年间被耗尽(Epoch AI, 2024)。与此同时,同样一块钱花在系统提示词优化、CoT、Tool Use、Agent架构上的投入产出比,已显著超过花在继续扩大预训练上的回报。

但需要强调:预训练仍然定义了模型的”能力上限”,而Input工程决定了在具体任务中能发挥出这个上限的百分之几。两者不是替代关系,而是”天花板”与”实际高度”的关系。

第一部分

十大影响因子每个因子均附有支持证据与挑战证据的对等呈现

因子 01
信噪比(Signal-to-Noise Ratio)
Input中与当前任务直接相关的token占总token的比例。

支持证据

来源 发现 影响幅度 条件
Shi et al., 2023 P 不相关信息导致性能下降 GSM8K: 78.7%→64.6%(↓14.1%) 数学推理,注入无关段落
Chroma Context Rot, 2025 Ind 18模型随输入增长退化 11/12模型在32K时降至基线50%以下 非词汇匹配检索任务
LLMLingua-2 P 压缩input 2–5倍 质量损失有限,部分场景准确率反升 多种NLP基准

挑战证据

来源 发现 影响幅度 条件
Few-shot学习综合 增加input(示例)反而大幅提升性能 zero→few-shot可提升30%+ 多种NLP任务
Context Discipline, 2025 Pre 大模型对噪音上下文”出人意料地坚韧” 70B准确率仅微降(98.5%→98%) 简单事实问答,15K词噪音
核心洞察

最优点不是”最少input”,而是”恰好足够的高相关性input”。信噪比的优化方向是提高”信号”而非单纯压缩”噪音”。

因子 02
逻辑结构(Logical Structure)
Input中各部分之间的层级关系、分类方式和组织形式。
来源 发现 条件
Zeng et al., ACL 2025 P 约束从难到易排列时性能更好 多约束指令遵从任务
Khan Academy / PyData 2025 Ind 字典键排列顺序影响输出质量 教育AI助手生产环境
Input Matters Pre 输入结构(JSON/表格/自然语言)影响摘要准确性 NBA比赛摘要,p<0.05
核心洞察

结构化的价值取决于任务类型。对指令遵从类任务,好的结构帮助很大;对开放检索类任务,过度结构化可能反而干扰。

因子 03
位置效应(Positional Effects)
同一段信息在Input中不同位置时,对模型行为的影响差异。
来源 发现 影响幅度
Liu et al., TACL 2024 P U形注意力曲线 中间位置性能下降 >30%
Snorkel AI SWiM Ind 25%文档深度处性能最差 跨8个长上下文模型验证
Fragile Preferences, 2025 Pre 位置偏差在Claude 4 Sonnet上持续存在 跨温度设置一致
arXiv:2506.00069 Pre 末尾重复任务指令可恢复性能 恢复至接近短上下文基线
核心洞察

位置效应的严重程度高度依赖任务复杂度。简单事实检索中可能微乎其微,但复杂推理和多跳问答中影响巨大。一刀切的结论是错误的。

因子 04
绝对长度效应(Absolute Length Tax)
即使信噪比100%,Input的绝对token长度本身也降低性能。
来源 发现 影响幅度
EMNLP 2025 P 完美检索+遮蔽无关token后仍退化 13.9%–85%(因任务而异)
Chroma Context Rot Ind GPT-4o退化 99.3%→69.7%(↓30%,至32K)
LoCoBench, Salesforce Pre 所有模型在1M token下显著退化 软件工程跨文件推理
核心洞察

“长上下文 = 坏”是错误的简化;”长上下文有隐性税 + 税率因场景而异”更准确。简单QA上大模型几乎不受影响(<2%),但复杂推理任务上所有模型都显著退化。

因子 05
语义干扰(Semantic Distractor Interference)
主题相似但事实无关的内容,产生超出简单噪音的额外干扰。
来源 发现
Chroma Context Rot Ind 语义干扰项的退化超过长度单独造成的退化;在幻觉回复中频率最高
LV-Eval P 混淆事实下性能大幅退化

因子 06
指令层级冲突(Instruction Hierarchy Conflict)
系统提示词、用户消息、工具返回等不同层级指令间的优先级冲突。
来源 发现 影响幅度
Wallace et al., NeurIPS 2024 P 训练LLM选择性忽略低优先级指令 鲁棒性大幅提升,含未见攻击类型
VerIH, ICLR 2025 P 指令层级解析作为推理任务 指令遵从+20%,攻击成功率-20%
SecAlign, CCS 2025 P 偏好优化防御prompt injection 攻击成功率降至<10%

因子 07
模型特性差异(Model-Specific Behavior)
不同模型在相同Input下的失败模式截然不同。
模型 长上下文失败模式
Claude 系列 保守拒绝回答(abstention)
GPT 系列 干扰项下幻觉率更高
Qwen2.5-14B 1K→32K: 43.87→20.53(↓53%)
Llama-3.1-70B 简单QA极其坚韧(98.5%→98%)

因子 08
输出自身累积退化(Output Self-Degradation)
模型在生成长输出时,已生成的文本成为后续生成的Input,导致后段质量逐步下降。
来源 发现
LongGenBench P ICLR 2025 所有模型在长输出中展现下降曲线
Ref-Long Pre 人类引用归因 >90% ExAcc,最佳LLM <30%

因子 09
格式偏差(Format Bias)
模型对不同数据格式(JSON、YAML、Markdown等)的处理能力因训练数据分布而异,独立于逻辑结构因子。
来源 发现
SoEval基准 P 模型在JSON上的格式遵从率显著高于YAML——源于训练数据中JSON更普遍
StructEval Pre 跨13种结构化输出类型评测,不同格式的错误模式差异显著
实践意义

设计系统提示词和工具schema时,优先使用JSON格式(训练数据中最丰富),避免YAML用于关键输出。序列化库的字段排列顺序可能影响输出质量。

因子 10
推理时配置参数(Inference-Time Configuration)
Temperature、top-p、reasoning effort等推理时参数严格来说也是”Input”的一部分,但通常不被纳入prompt engineering讨论。
来源 发现
Fragile Preferences Pre 温度变化下位置偏差依然稳健
GPT-5.4模型文档 Ind 支持low/medium/high/xhigh四级reasoning effort,直接影响输出质量
实践意义

推理时配置往往是最低成本的优化杠杆——零token成本,但可以显著影响输出的确定性和一致性。

第二部分

因子间交互关系已有证据支持的交互与研究空白

交互 证据来源 说明
信噪比 × 绝对长度 EMNLP 2025 P 遮蔽所有无关token后长度仍导致退化——两者独立叠加
位置 × 语义干扰 Snorkel AI SWiM Ind 同领域干扰文档在中间深度(25%)造成最大损害
绝对长度 × 推理能力 arXiv:2512.13898 Pre CoT在长上下文中递减——长度削弱自我修正能力
逻辑结构 × 位置 arXiv:2506.00069 Pre 末尾重复任务指令可恢复性能——结构可部分抵消位置效应
尚未有充分实验证据的交互

语义干扰×指令冲突 / 模型特性×输出退化 / 信噪比×逻辑结构的精确数学关系 / 格式偏差×位置效应 / 推理时配置×以上任何因子——均属当前研究空白。

第三部分

优化优先级矩阵基于影响幅度与可控程度的综合判断(定性排序)

优先级
因子
可控
推荐动作
★★★★★
信噪比

按需加载,动态裁剪,语义压缩
★★★★★
绝对长度
中高
Agent拆分短步骤,compaction,token预算管理
★★★★
位置编排

关键指令首尾放置,末尾重复约束
★★★★
语义干扰

Agent Team隔离上下文,清理旧工具结果
★★★
逻辑结构

约束从难到易排列,XML/标签标注边界
★★★
指令层级
中高
NEVER/ALWAYS强约束,明确来源信任层级
★★★
格式偏差

优先使用JSON,注意序列化顺序
★★
推理时配置
极高
确定性任务低温度,复杂推理高effort
★★
模型特性

根据任务匹配模型
★★
输出退化

多步短输出,后验检查

第四部分

Input的进化史从手工提示词到统一Input操作系统

2022–2023
手工提示词
人类手写一段话 → Input措辞决定output质量。ChatGPT发布。
2023
CoT / Few-shot
Input中加入推理示例 → Input结构引导推理过程。Google CoT论文。
2023–2024
RAG
动态检索知识注入 → Input时效性和相关性决定准确率。
2024
系统提示词
持久化的开发者指令 → Input分层影响行为一致性。
2024–2025
上下文工程
系统化管理”工作记忆” → Karpathy定义Context Engineering。
2024–2025
Agent + Tool Use
程序化生成多轮Input → Input可自动生产和迭代。
2025
Skill / SOP / MCP
结构化专业知识包 + 标准化外部数据接入 → Input模块化、按需加载。
2025–2026
Agent Team
多Agent互相生成Input → Input生产可分工协作。
2026
统一Input操作系统
完整Input生产系统 → 整合为自动化框架。GPT-5.4 tool search减少47% token。

第五部分

Agent架构:解决方案还是Tradeoff?Agent不是免费午餐——缓解某些因子的同时加剧另一些

Agent 缓解的问题

✓ 绝对长度:将长任务拆成短步骤
✓ 输出退化:每步只生成短输出
✓ 位置效应:每步上下文较短,”中间盲区”较小

Agent 引入的新问题

✗ 总token消耗放大(830K+ token/次案例)
✗ 中间推理步骤成为新的语义干扰
✗ 上下文断裂(compaction丢失细节)
✗ Multi-Agent同步问题
✗ 错误传播(幻觉被注入后续步骤)

判断框架

Agent架构在以下条件下利大于弊:(a) 任务天然可分解为独立子步骤,(b) 每步有明确的成功/失败信号(如代码编译),(c) 中间结果可以被验证。在以下条件下弊大于利:(a) 任务需要全局一致性(如长文档写作),(b) 中间步骤没有验证机制,(c) 成本敏感场景下系统提示词重发的开销不可接受。

第六部分

适用边界:什么场景下这些因子不重要?过度优化反而浪费工程资源的四种情形

场景 1:模型能力远超任务难度

用GPT-5.4做简单翻译或模板填充时,即使input噪音多、结构混乱,模型也几乎总能正确完成。十大因子的影响主要体现在”模型能力边界附近”的任务上。

场景 2:Output有外部验证机制

代码有编译器和单元测试,数据提取有schema校验。当错误output可被自动检测并重试时,单次准确率要求降低,input优化的边际价值也降低。

场景 3:任务本身是开放性的

创意写作、头脑风暴等没有单一”正确答案”。”准确率”这个度量本身就不适用,大部分因子影响力被弱化。但指令层级和逻辑结构仍然重要。

场景 4:交互式迭代工作流

用户和模型在快速迭代(如Cursor中边写边改),每次交互只处理一小步变更,input的绝对长度和位置效应自然被压缩。响应速度可能比output质量更重要。

总结

十大因子的影响幅度不是固定值,而是 任务难度 × 验证机制 × 迭代速度 的函数。在任务简单、验证充分、迭代快速的场景下,花大力气优化input是过度工程。在任务复杂、无法验证、一次性输出的场景下,input优化是决定成败的关键。

第七部分

核心结论

结论 1

模型是CPU,Input是程序。CPU在持续升级(但速度放缓),而我们编写程序的能力在飞速进化。

结论 2

信噪比和绝对长度是十大因子中最值得优先关注的两个。理由:(a) 它们报告了较大的影响幅度,(b) EMNLP 2025证明两者独立叠加,(c) 两者在当前Agent架构中是最突出的痛点。但在简单QA任务上,大模型对这两个因子展现极高坚韧性(↓<2%),此时其他因子可能更值得关注。

结论 3

不同产品代表了不同的Input工程哲学。没有”最优”,只有”最适合场景”。目前缺乏在同一标准化任务上横向评测所有产品input效率的独立研究。

结论 4

“更少的input”不等于”更好的input”。最优点是”恰好足够的高相关性input”。在信息不足的场景下增加input(few-shot示例、更多检索文档)反而大幅提升性能。

结论 5

上下文工程正在从prompt engineering的子集演变为独立的工程学科。但预训练进步仍然是模型能力提升的重要来源,不应因强调input工程的重要性而否认预训练的持续贡献。

第八部分

已知空白:本图谱未覆盖的因子

空白领域 为什么重要 当前研究状态
多模态input的交叉影响 Agent工具返回的可能是截图、表格、PDF等非文本内容 缺乏”混合input中非文本部分如何干扰文本推理”的控制实验
对话历史的时间衰减函数 多轮对话中第N-k轮信息对第N轮的影响是否可预测 有近因效应研究,但缺乏精确的”轮次-影响力”衰减函数
并发/批处理的影响 Agent Team场景下多个agent的请求并行到达同一模型 有推理引擎的工程文档,缺乏output质量角度的系统研究
跨会话上下文传递的损耗 通过compaction或memory跨会话传递时的信息损耗 有工程实践讨论,缺乏信息论视角的系统分析
训练数据与input格式的匹配度 模型在预训练中见过最多的format上表现更好 SoEval等基准提供初步数据,覆盖仍有限

附录

关键学术文献索引

同行评审论文 P

1. Lost in the Middle — Liu et al., TACL 2024
2. The Instruction Hierarchy — Wallace et al., NeurIPS 2024
3. Will We Run Out of Data? — Villalobos et al., Epoch AI 2024
4. Order Matters — Zeng et al., ACL Findings 2025
5. Context Length Alone Hurts — EMNLP Findings 2025
6. SecAlign — CCS 2025
7. VerIH — ICLR 2025
8. LV-Eval — ICLR 2025
9. LongGenBench — ICLR 2025
10. LoCoBench — KDD 2025
11. Shi et al. — ICML 2023
12. SoEval — Information Processing & Management, 2024

arXiv 预印本 Pre

13. Serial Position Effects — arXiv:2406.15981, 2024
14. Long Context Less Focus — arXiv:2602.15028, 2026
15. Context Discipline — arXiv:2601.11564, 2025
16. Fragile Preferences — arXiv:2506.14092, 2025
17. Position is Power — arXiv:2505.21091, 2025
18. Test-Time Training for Long-Context LLMs — arXiv:2512.13898, 2025
19. Input Matters — arXiv:2510.21034, 2025
20. StructEval — arXiv:2505.20139, 2025

产业报告 Ind

21. Context Rot — Chroma Research, 2025.7
22. SWiM — Snorkel AI, 2024
23. OpenClaw System Prompt Investigation — GitHub Issue #21999, 2026.2
24. State of LLMs 2025 — Sebastian Raschka, 2025.12
25. GPT-5.4 Launch — OpenAI Blog, 2026.3.5
26. Cursor vs Claude Code — Builder.io, 2026.2
27. Khan Academy PyData — Boris Lau, PyData Global 2025

决定LLM模型Output的十大Input因子深度分析

LLM Input Factor Atlas V4 · 2026年3月

“模型是CPU,Input是程序。真正改变世界的,不是更大的CPU,而是更好的程序。”

댓글 남기기