⚠ 읽기 안내
본 문서에 수집된 정량 데이터는 서로 다른 연구팀, 실험 조건, 모델, 과제에서 수집되었습니다. 각 요인의 수치를 직접 횡단 비교하여 “어떤 요인의 영향이 더 큰가”를 판단해서는 안 됩니다. 예를 들어 요인 1의 GSM8K 14.1% 하락(수학 추론 + 무관 컨텍스트)과 요인 3의 30% 하락(20개 문서 검색 + 중간 위치)은 완전히 다른 것을 측정합니다. 본 문서의 가치는 각 요인에 대해 “해당 요인이 실제로 영향을 미친다”는 증거를 제공하는 것이지, 정확한 교차 요인 가중치를 제시하는 것이 아닙니다.
핵심 논점
2023년 GPT-3.5의 성공 이후, AI 대형 모델의 사용자 대상 실질적 진보는 거의 모두 Input 측에서 발생했다 — 프롬프트 기법에서 컨텍스트 엔지니어링, 나아가 Agent 아키텍처와 Agent Team까지. 사전훈련이 “한계에 도달”한 것은 아니지만, 한계 수익은 명확히 체감하고 있다: 공개 도메인 고품질 텍스트 데이터의 유효 재고는 약 300조 토큰으로, 2026–2032년 사이에 소진될 것으로 예상된다(Epoch AI, 2024). 동시에, 시스템 프롬프트 최적화, CoT, Tool Use, Agent 아키텍처에 동일한 1달러를 투자했을 때의 투자 대비 수익률이 사전훈련 확대에 투자하는 것보다 이미 유의미하게 높아졌다.
단, 강조해야 할 점: 사전훈련은 여전히 모델의 “능력 상한”을 정의하며, Input 엔지니어링은 특정 과제에서 그 상한의 몇 퍼센트를 발휘할 수 있는지를 결정한다. 양자는 대체 관계가 아니라, “천장”과 “실제 높이”의 관계이다.
10대 영향 요인각 요인에 대해 지지 증거와 반대 증거를 균형 있게 제시
요인 간 상호작용 관계증거가 뒷받침하는 상호작용과 연구 공백
| 상호작용 | 증거 출처 | 설명 |
|---|---|---|
| 신호 대 잡음비 × 절대 길이 | EMNLP 2025 P | 모든 무관 토큰을 마스킹한 후에도 길이가 퇴화를 유발 — 양자 독립적으로 중첩 |
| 위치 × 의미적 교란 | Snorkel AI SWiM Ind | 동일 분야 교란 문서가 중간 깊이(25%)에서 최대 피해 |
| 절대 길이 × 추론 능력 | arXiv:2512.13898 Pre | CoT가 긴 컨텍스트에서 체감 — 길이가 자기 수정 능력을 약화 |
| 논리 구조 × 위치 | arXiv:2506.00069 Pre | 말미에 과제 지시 반복으로 성능 회복 — 구조가 위치 효과를 부분적으로 상쇄 |
의미적 교란 × 지시 충돌 / 모델 특성 × 출력 퇴화 / 신호 대 잡음비 × 논리 구조의 정확한 수학적 관계 / 형식 편향 × 위치 효과 / 추론 시 구성 × 상기 모든 요인 — 모두 현재 연구 공백에 해당.
최적화 우선순위 매트릭스영향 폭과 제어 가능성에 기반한 종합 판단(정성적 순위)
Input의 진화사수작업 프롬프트에서 통합 Input 운영체제까지
Agent 아키텍처: 해결책인가 Tradeoff인가?Agent는 공짜 점심이 아니다 — 일부 요인을 완화하면서 다른 요인을 악화시킨다
✓ 절대 길이: 긴 과제를 짧은 단계로 분할
✓ 출력 퇴화: 각 단계에서 짧은 출력만 생성
✓ 위치 효과: 각 단계의 컨텍스트가 짧아 “중간 사각지대” 축소
✗ 총 토큰 소비 증폭(830K+ 토큰/회 사례)
✗ 중간 추론 단계가 새로운 의미적 교란이 됨
✗ 컨텍스트 단절(compaction으로 세부사항 손실)
✗ Multi-Agent 동기화 문제
✗ 오류 전파(환각이 후속 단계에 “사실”로 주입)
Agent 아키텍처는 다음 조건에서 이점이 더 크다: (a) 과제가 자연스럽게 독립적 하위 단계로 분해 가능, (b) 각 단계에 명확한 성공/실패 신호가 있음(예: 코드 컴파일), (c) 중간 결과를 검증할 수 있음. 다음 조건에서는 단점이 더 크다: (a) 과제가 전체적 일관성을 요구(예: 장문서 작성), (b) 중간 단계에 검증 메커니즘이 없음, (c) 비용 민감 시나리오에서 시스템 프롬프트 재전송 비용이 감당 불가.
적용 경계: 어떤 시나리오에서 이 요인들이 중요하지 않은가?과잉 최적화가 오히려 엔지니어링 자원을 낭비하는 네 가지 경우
GPT-5.4로 단순 번역이나 템플릿 채우기를 할 때, Input에 잡음이 많고 구조가 혼란스러워도 모델은 거의 항상 올바르게 완수한다. 10대 요인의 영향은 주로 “모델 능력 경계 부근”의 과제에서 나타난다.
코드에는 컴파일러와 단위 테스트가, 데이터 추출에는 스키마 검증이 있다. 잘못된 output을 자동 감지하고 재시도할 수 있을 때, 단회 정확도 요구가 낮아지며 input 최적화의 한계 가치도 낮아진다.
창작 글쓰기, 브레인스토밍 등 단일 “정답”이 없다. “정확도”라는 측정 자체가 적용 불가하며, 대부분의 요인 영향력이 약화된다. 단, 지시 계층과 논리 구조는 여전히 중요 — “사실적 정확성”이 아닌 “사용자 의도 준수 여부”에 영향을 미치므로.
사용자와 모델이 빠르게 반복할 때(예: Cursor에서 작성하며 수정), 매 상호작용이 작은 변경만 처리하므로 input의 절대 길이와 위치 효과가 자연스럽게 압축된다. 응답 속도가 output 품질보다 중요할 수 있다.
10대 요인의 영향 폭은 고정값이 아니라 과제 난이도 × 검증 메커니즘 × 반복 속도의 함수이다. 과제가 단순하고, 검증이 충분하며, 반복이 빠른 시나리오에서 input 최적화에 큰 노력을 기울이는 것은 과잉 엔지니어링이다. 과제가 복잡하고, 검증이 불가하며, 일회성 출력인 시나리오에서 input 최적화는 성패를 결정하는 핵심이다.
핵심 결론
모델은 CPU이고, Input은 프로그램이다. CPU는 계속 업그레이드되지만(속도는 둔화), 프로그램을 작성하는 우리의 능력은 비약적으로 진화하고 있다.
신호 대 잡음비와 절대 길이가 10대 요인 중 가장 우선적으로 주목할 만한 두 요인이다. 이유: (a) 각각의 실험 조건에서 상대적으로 큰 영향 폭을 보고, (b) EMNLP 2025가 양자의 독립적 중첩을 증명, (c) 양자가 현재 Agent 아키텍처에서 가장 두드러진 페인 포인트. 단, 단순 QA 과제에서 대형 모델은 이 두 요인에 대해 극히 높은 견고성을 보이므로(↓<2%), 그때는 다른 요인이 더 주목할 가치가 있을 수 있다.
서로 다른 제품은 서로 다른 Input 엔지니어링 철학을 대표한다. “최적”은 없고, “시나리오에 가장 적합한 것”만 있다.
“더 적은 Input”이 “더 나은 Input”을 의미하지 않는다. 최적점은 “딱 충분한 고관련성 Input”이다. 정보가 부족한 시나리오에서 Input을 추가하면(few-shot 예시, 더 많은 검색 문서) 오히려 성능이 대폭 향상된다.
컨텍스트 엔지니어링이 prompt engineering의 부분집합에서 독립적 공학 분야로 진화하고 있다. 단, 사전훈련의 진보(GPT-4→GPT-5 시리즈의 도약)는 여전히 모델 능력 향상의 중요한 원천이며, input 엔지니어링의 중요성을 강조한다고 해서 사전훈련의 지속적 기여를 부정해서는 안 된다.
알려진 공백: 본 도감이 다루지 못한 요인
| 공백 영역 | 왜 중요한가 | 현재 연구 상태 |
|---|---|---|
| 멀티모달 Input의 교차 영향 | Agent 도구가 반환하는 것이 스크린샷, 테이블, PDF 등 비텍스트 콘텐츠일 수 있음 | “혼합 Input에서 비텍스트 부분이 텍스트 추론을 어떻게 방해하는가”에 대한 통제 실험 부재 |
| 대화 이력의 시간 감쇠 함수 | 다회차 대화에서 N-k번째 회차 정보가 N번째 회차에 미치는 영향의 예측 가능한 감쇠 곡선 존재 여부 | 근인 효과 연구는 있으나, 정확한 “회차-영향력” 감쇠 함수는 미확립 |
| 동시성/배치 처리의 영향 | Agent Team 시나리오에서 다수 agent의 요청이 동일 모델에 병렬 도달 | 추론 엔진의 엔지니어링 문서는 있으나 output 품질 관점의 체계적 연구 부재 |
| 교차 세션 컨텍스트 전달 손실 | compaction이나 memory를 통한 교차 세션 전달 시 정보 압축 과정의 손실 정량화 | 엔지니어링 실무 논의는 있으나 정보이론 관점의 체계적 분석 부재 |
| 훈련 데이터와 Input 형식의 매칭도 | 모델이 사전훈련에서 가장 많이 본 형식에서 더 좋은 성능 | SoEval 등 벤치마크가 초기 데이터 제공, 그러나 커버리지 여전히 제한적 |
주요 학술 문헌 색인
동료 심사 논문 P
1. Lost in the Middle — Liu et al., TACL 2024
2. The Instruction Hierarchy — Wallace et al., NeurIPS 2024
3. Will We Run Out of Data? — Villalobos et al., Epoch AI 2024
4. Order Matters — Zeng et al., ACL Findings 2025
5. Context Length Alone Hurts — EMNLP Findings 2025
6. SecAlign — CCS 2025
7. VerIH — ICLR 2025
8. LV-Eval — ICLR 2025
9. LongGenBench — ICLR 2025
10. LoCoBench — KDD 2025
11. Shi et al. — ICML 2023
12. SoEval — Information Processing & Management, 2024
arXiv 프리프린트 Pre
13. Serial Position Effects — arXiv:2406.15981, 2024
14. Long Context Less Focus — arXiv:2602.15028, 2026
15. Context Discipline — arXiv:2601.11564, 2025
16. Fragile Preferences — arXiv:2506.14092, 2025
17. Position is Power — arXiv:2505.21091, 2025
18. Test-Time Training for Long-Context LLMs — arXiv:2512.13898, 2025
19. Input Matters — arXiv:2510.21034, 2025
20. StructEval — arXiv:2505.20139, 2025
산업 보고서 Ind
21. Context Rot — Chroma Research, 2025.7
22. SWiM — Snorkel AI, 2024
23. OpenClaw System Prompt Investigation — GitHub Issue #21999, 2026.2
24. State of LLMs 2025 — Sebastian Raschka, 2025.12
25. GPT-5.4 Launch — OpenAI Blog, 2026.3.5
26. Cursor vs Claude Code — Builder.io, 2026.2
27. Khan Academy PyData — Boris Lau, PyData Global 2025