LLM INPUT FACTOR ATLAS · V4

LLM 모델 Output을 결정하는
10대 Input 요인 심층 분석

2023–2026년 학술 연구와 산업 실무의 체계적 정리. 모델은 CPU이고, Input은 프로그램이다 — CPU는 계속 업그레이드되지만(속도는 둔화), 프로그램을 작성하는 우리의 능력은 비약적으로 진화하고 있다.

12편 동료 심사 논문 [P]
8편 arXiv 프리프린트 [Pre]
7건 산업 보고서 [Ind]

⚠ 읽기 안내

본 문서에 수집된 정량 데이터는 서로 다른 연구팀, 실험 조건, 모델, 과제에서 수집되었습니다. 각 요인의 수치를 직접 횡단 비교하여 “어떤 요인의 영향이 더 큰가”를 판단해서는 안 됩니다. 예를 들어 요인 1의 GSM8K 14.1% 하락(수학 추론 + 무관 컨텍스트)과 요인 3의 30% 하락(20개 문서 검색 + 중간 위치)은 완전히 다른 것을 측정합니다. 본 문서의 가치는 각 요인에 대해 “해당 요인이 실제로 영향을 미친다”는 증거를 제공하는 것이지, 정확한 교차 요인 가중치를 제시하는 것이 아닙니다.

핵심 논점

2023년 GPT-3.5의 성공 이후, AI 대형 모델의 사용자 대상 실질적 진보는 거의 모두 Input 측에서 발생했다 — 프롬프트 기법에서 컨텍스트 엔지니어링, 나아가 Agent 아키텍처와 Agent Team까지. 사전훈련이 “한계에 도달”한 것은 아니지만, 한계 수익은 명확히 체감하고 있다: 공개 도메인 고품질 텍스트 데이터의 유효 재고는 약 300조 토큰으로, 2026–2032년 사이에 소진될 것으로 예상된다(Epoch AI, 2024). 동시에, 시스템 프롬프트 최적화, CoT, Tool Use, Agent 아키텍처에 동일한 1달러를 투자했을 때의 투자 대비 수익률이 사전훈련 확대에 투자하는 것보다 이미 유의미하게 높아졌다.

단, 강조해야 할 점: 사전훈련은 여전히 모델의 “능력 상한”을 정의하며, Input 엔지니어링은 특정 과제에서 그 상한의 몇 퍼센트를 발휘할 수 있는지를 결정한다. 양자는 대체 관계가 아니라, “천장”과 “실제 높이”의 관계이다.

제1부

10대 영향 요인각 요인에 대해 지지 증거와 반대 증거를 균형 있게 제시

요인 01
신호 대 잡음비 (Signal-to-Noise Ratio)
Input에서 현재 과제와 직접 관련된 토큰이 총 토큰에서 차지하는 비율.

지지 증거

출처 발견 영향 폭 조건
Shi et al., 2023 P 무관 정보가 성능 하락 유발 GSM8K: 78.7%→64.6%(↓14.1%) 수학 추론, 무관 단락 주입
Chroma Context Rot, 2025 Ind 18개 모델이 입력 증가에 따라 퇴화 11/12 모델이 32K에서 기준선 50% 이하 비어휘 매칭 검색 과제
LLMLingua-2 P Input 2–5배 압축 품질 손실 제한적, 일부 시나리오에서 정확도 오히려 상승 다양한 NLP 벤치마크

반대 증거

출처 발견 영향 폭 조건
Few-shot 학습 종합 Input(예시) 추가가 오히려 성능을 대폭 향상 zero→few-shot 30%+ 향상 가능 다양한 NLP 과제
Context Discipline, 2025 Pre 대형 모델이 잡음 컨텍스트에 “놀라울 정도로 견고” 70B 정확도 미세 하락(98.5%→98%) 단순 사실 QA, 15K 단어 잡음
핵심 인사이트

최적점은 “최소 Input”이 아니라 “딱 충분한 고관련성 Input”이다. 신호 대 잡음비의 최적화 방향은 “신호”를 높이는 것이지 단순히 “잡음”을 압축하는 것이 아니다.

요인 02
논리 구조 (Logical Structure)
Input 각 부분 간의 계층 관계, 분류 방식, 조직 형태.
출처 발견 조건
Zeng et al., ACL 2025 P 제약 조건을 어려운 것에서 쉬운 순으로 배열 시 성능 향상 다중 제약 지시 수행 과제
Khan Academy / PyData 2025 Ind 딕셔너리 키 배열 순서가 출력 품질에 영향 교육 AI 어시스턴트 프로덕션 환경
Input Matters Pre 입력 구조(JSON/테이블/자연어)가 요약 정확도에 영향 NBA 경기 요약, p<0.05
핵심 인사이트

구조화의 가치는 과제 유형에 따라 다르다. 지시 수행 과제에서는 좋은 구조가 크게 도움이 되지만, 개방형 검색 과제에서는 과도한 구조화가 오히려 방해가 될 수 있다.

요인 03
위치 효과 (Positional Effects)
동일한 정보가 Input 내 다른 위치에 놓였을 때 모델 행동에 미치는 영향 차이.
출처 발견 영향 폭
Liu et al., TACL 2024 P U자형 주의력 곡선 중간 위치 성능 하락 >30%
Snorkel AI SWiM Ind 문서 깊이 25% 지점에서 성능 최저 8개 장문맥 모델에서 검증
Fragile Preferences, 2025 Pre Claude 4 Sonnet에서 위치 편향 지속 온도 설정 전반에 걸쳐 일관
arXiv:2506.00069 Pre 말미에 과제 지시를 반복하면 성능 회복 단문맥 기준선에 근접하게 회복
핵심 인사이트

위치 효과의 심각도는 과제 복잡도에 크게 의존한다. 단순 사실 검색에서는 미미할 수 있지만, 복잡한 추론과 다단계 QA에서는 영향이 막대하다. 일률적인 결론은 오류이다.

요인 04
절대 길이 효과 (Absolute Length Tax)
신호 대 잡음비가 100%이더라도, Input의 절대 토큰 길이 자체가 성능을 저하시킨다.
출처 발견 영향 폭
EMNLP 2025 P 완벽한 검색 + 무관 토큰 마스킹 후에도 퇴화 13.9%–85%(과제에 따라 상이)
Chroma Context Rot Ind GPT-4o 퇴화 99.3%→69.7%(↓30%, 32K까지)
LoCoBench, Salesforce Pre 모든 모델이 1M 토큰에서 유의미하게 퇴화 소프트웨어 엔지니어링 교차 파일 추론
핵심 인사이트

“긴 컨텍스트 = 나쁨”은 잘못된 단순화이다. “긴 컨텍스트에는 숨겨진 세금이 있으며 + 세율은 시나리오에 따라 다르다”가 더 정확하다. 단순 QA에서 대형 모델은 거의 영향받지 않지만(<2%), 복잡한 추론 과제에서는 모든 모델이 유의미하게 퇴화한다.

요인 05
의미적 교란 (Semantic Distractor Interference)
주제는 유사하지만 사실상 무관한 콘텐츠가 단순 잡음을 초과하는 추가 간섭을 생성.
출처 발견
Chroma Context Rot Ind 의미적 교란의 퇴화가 길이 단독으로 인한 퇴화를 초과; 환각 응답에서 빈도 최고
LV-Eval P 혼동 사실 하에서 성능 대폭 퇴화

요인 06
지시 계층 충돌 (Instruction Hierarchy Conflict)
시스템 프롬프트, 사용자 메시지, 도구 반환 등 서로 다른 계층 지시 간의 우선순위 충돌.
출처 발견 영향 폭
Wallace et al., NeurIPS 2024 P LLM을 훈련하여 낮은 우선순위 지시를 선택적으로 무시 견고성 대폭 향상, 미확인 공격 유형 포함
VerIH, ICLR 2025 P 지시 계층 해석을 추론 과제로 처리 지시 수행 +20%, 공격 성공률 -20%
SecAlign, CCS 2025 P 선호 최적화를 통한 prompt injection 방어 공격 성공률 <10%로 감소

요인 07
모델 특성 차이 (Model-Specific Behavior)
동일한 Input에 대해 서로 다른 모델의 실패 양상이 완전히 다르다.
모델 장문맥 실패 양상
Claude 시리즈 보수적 답변 거부(abstention)
GPT 시리즈 교란 항목 하에서 환각률 더 높음
Qwen2.5-14B 1K→32K: 43.87→20.53(↓53%)
Llama-3.1-70B 단순 QA에서 극도로 견고(98.5%→98%)

요인 08
출력 자체 누적 퇴화 (Output Self-Degradation)
모델이 긴 출력을 생성할 때, 이미 생성된 텍스트가 후속 생성의 Input이 되어 후반부 품질이 점진적으로 하락.
출처 발견
LongGenBench P ICLR 2025 모든 모델이 긴 출력에서 하락 곡선을 보임
Ref-Long Pre 인간 인용 귀인 >90% ExAcc, 최고 LLM <30%

요인 09
형식 편향 (Format Bias)
모델의 서로 다른 데이터 형식(JSON, YAML, Markdown 등) 처리 능력이 훈련 데이터 분포에 따라 상이하며, 논리 구조 요인과 독립적.
출처 발견
SoEval 벤치마크 P 모델의 JSON 형식 준수율이 YAML보다 유의미하게 높음 — 훈련 데이터에서 JSON이 더 보편적이기 때문
StructEval Pre 13종 구조화 출력 유형 평가, 형식별 오류 패턴 차이 유의미
실무적 의의

시스템 프롬프트와 도구 스키마 설계 시, JSON 형식을 우선 사용(훈련 데이터에서 가장 풍부). 핵심 출력에 YAML 사용을 피할 것. 직렬화 라이브러리의 필드 배열 순서가 출력 품질에 영향을 미칠 수 있음.

요인 10
추론 시 구성 파라미터 (Inference-Time Configuration)
Temperature, top-p, reasoning effort 등 추론 시 파라미터는 엄밀히 “Input”의 일부이나, 통상 prompt engineering 논의에 포함되지 않음.
출처 발견
Fragile Preferences Pre 온도 변화에도 위치 편향은 견고하게 유지
GPT-5.4 모델 문서 Ind low/medium/high/xhigh 4단계 reasoning effort 지원, 출력 품질에 직접 영향
실무적 의의

추론 시 구성은 흔히 가장 저비용의 최적화 레버이다 — 토큰 비용 제로이지만, 출력의 확정성과 일관성에 유의미한 영향을 미칠 수 있다.

제2부

요인 간 상호작용 관계증거가 뒷받침하는 상호작용과 연구 공백

상호작용 증거 출처 설명
신호 대 잡음비 × 절대 길이 EMNLP 2025 P 모든 무관 토큰을 마스킹한 후에도 길이가 퇴화를 유발 — 양자 독립적으로 중첩
위치 × 의미적 교란 Snorkel AI SWiM Ind 동일 분야 교란 문서가 중간 깊이(25%)에서 최대 피해
절대 길이 × 추론 능력 arXiv:2512.13898 Pre CoT가 긴 컨텍스트에서 체감 — 길이가 자기 수정 능력을 약화
논리 구조 × 위치 arXiv:2506.00069 Pre 말미에 과제 지시 반복으로 성능 회복 — 구조가 위치 효과를 부분적으로 상쇄
아직 충분한 실험 증거가 없는 상호작용

의미적 교란 × 지시 충돌 / 모델 특성 × 출력 퇴화 / 신호 대 잡음비 × 논리 구조의 정확한 수학적 관계 / 형식 편향 × 위치 효과 / 추론 시 구성 × 상기 모든 요인 — 모두 현재 연구 공백에 해당.

제3부

최적화 우선순위 매트릭스영향 폭과 제어 가능성에 기반한 종합 판단(정성적 순위)

우선순위
요인
제어
권장 조치
★★★★★신호 대 잡음비높음온디맨드 로딩, 동적 트리밍, 의미 압축
★★★★★절대 길이중상Agent 분할 단계, compaction, 토큰 예산 관리
★★★★위치 편성높음핵심 지시 앞뒤 배치, 말미 반복 제약
★★★★의미적 교란중간Agent Team 컨텍스트 격리, 이전 도구 결과 정리
★★★논리 구조높음제약을 어려운→쉬운 순으로 배열, XML/태그 경계 표기
★★★지시 계층중상NEVER/ALWAYS 강제 제약, 출처 신뢰 계층 명시
★★★형식 편향높음JSON 우선 사용, 직렬화 순서 주의
★★추론 시 구성매우 높음확정적 과제 저온도, 복잡 추론 고 effort
★★모델 특성낮음과제에 따라 모델 매칭
★★출력 퇴화낮음다단계 짧은 출력, 사후 검증

제4부

Input의 진화사수작업 프롬프트에서 통합 Input 운영체제까지

2022–2023
수작업 프롬프트
인간이 직접 한 문단 작성 → Input의 문구가 output 품질을 결정. ChatGPT 출시.
2023
CoT / Few-shot
Input에 추론 예시 삽입 → Input 구조가 추론 과정을 유도. Google CoT 논문.
2023–2024
RAG
동적 검색을 통한 지식 주입 → Input의 시의성과 관련성이 정확도를 결정.
2024
시스템 프롬프트
영속적 개발자 지시 → Input의 계층화가 행동 일관성에 영향.
2024–2025
컨텍스트 엔지니어링
체계적 “작업 기억” 관리 → Karpathy가 Context Engineering 정의.
2024–2025
Agent + Tool Use
프로그래밍 방식으로 다회차 Input 생성 → Input의 자동 생산과 반복.
2025
Skill / SOP / MCP
구조화된 전문 지식 패키지 + 표준화된 외부 데이터 접속 → Input 모듈화, 온디맨드 로딩.
2025–2026
Agent Team
다중 Agent가 서로 Input을 생성 → Input 생산의 분업 협업.
2026
통합 Input 운영체제
완전한 Input 생산 시스템 → 자동화 프레임워크로 통합. GPT-5.4 tool search 47% 토큰 절감.

제5부

Agent 아키텍처: 해결책인가 Tradeoff인가?Agent는 공짜 점심이 아니다 — 일부 요인을 완화하면서 다른 요인을 악화시킨다

Agent가 완화하는 문제

✓ 절대 길이: 긴 과제를 짧은 단계로 분할
✓ 출력 퇴화: 각 단계에서 짧은 출력만 생성
✓ 위치 효과: 각 단계의 컨텍스트가 짧아 “중간 사각지대” 축소

Agent가 도입하는 새로운 문제

✗ 총 토큰 소비 증폭(830K+ 토큰/회 사례)
✗ 중간 추론 단계가 새로운 의미적 교란이 됨
✗ 컨텍스트 단절(compaction으로 세부사항 손실)
✗ Multi-Agent 동기화 문제
✗ 오류 전파(환각이 후속 단계에 “사실”로 주입)

판단 프레임워크

Agent 아키텍처는 다음 조건에서 이점이 더 크다: (a) 과제가 자연스럽게 독립적 하위 단계로 분해 가능, (b) 각 단계에 명확한 성공/실패 신호가 있음(예: 코드 컴파일), (c) 중간 결과를 검증할 수 있음. 다음 조건에서는 단점이 더 크다: (a) 과제가 전체적 일관성을 요구(예: 장문서 작성), (b) 중간 단계에 검증 메커니즘이 없음, (c) 비용 민감 시나리오에서 시스템 프롬프트 재전송 비용이 감당 불가.

제6부

적용 경계: 어떤 시나리오에서 이 요인들이 중요하지 않은가?과잉 최적화가 오히려 엔지니어링 자원을 낭비하는 네 가지 경우

시나리오 1: 모델 능력이 과제 난이도를 크게 초과

GPT-5.4로 단순 번역이나 템플릿 채우기를 할 때, Input에 잡음이 많고 구조가 혼란스러워도 모델은 거의 항상 올바르게 완수한다. 10대 요인의 영향은 주로 “모델 능력 경계 부근”의 과제에서 나타난다.

시나리오 2: Output에 외부 검증 메커니즘이 있음

코드에는 컴파일러와 단위 테스트가, 데이터 추출에는 스키마 검증이 있다. 잘못된 output을 자동 감지하고 재시도할 수 있을 때, 단회 정확도 요구가 낮아지며 input 최적화의 한계 가치도 낮아진다.

시나리오 3: 과제 자체가 개방형

창작 글쓰기, 브레인스토밍 등 단일 “정답”이 없다. “정확도”라는 측정 자체가 적용 불가하며, 대부분의 요인 영향력이 약화된다. 단, 지시 계층과 논리 구조는 여전히 중요 — “사실적 정확성”이 아닌 “사용자 의도 준수 여부”에 영향을 미치므로.

시나리오 4: 대화형 반복 워크플로우

사용자와 모델이 빠르게 반복할 때(예: Cursor에서 작성하며 수정), 매 상호작용이 작은 변경만 처리하므로 input의 절대 길이와 위치 효과가 자연스럽게 압축된다. 응답 속도가 output 품질보다 중요할 수 있다.

요약

10대 요인의 영향 폭은 고정값이 아니라 과제 난이도 × 검증 메커니즘 × 반복 속도의 함수이다. 과제가 단순하고, 검증이 충분하며, 반복이 빠른 시나리오에서 input 최적화에 큰 노력을 기울이는 것은 과잉 엔지니어링이다. 과제가 복잡하고, 검증이 불가하며, 일회성 출력인 시나리오에서 input 최적화는 성패를 결정하는 핵심이다.

제7부

핵심 결론

결론 1

모델은 CPU이고, Input은 프로그램이다. CPU는 계속 업그레이드되지만(속도는 둔화), 프로그램을 작성하는 우리의 능력은 비약적으로 진화하고 있다.

결론 2

신호 대 잡음비와 절대 길이가 10대 요인 중 가장 우선적으로 주목할 만한 두 요인이다. 이유: (a) 각각의 실험 조건에서 상대적으로 큰 영향 폭을 보고, (b) EMNLP 2025가 양자의 독립적 중첩을 증명, (c) 양자가 현재 Agent 아키텍처에서 가장 두드러진 페인 포인트. 단, 단순 QA 과제에서 대형 모델은 이 두 요인에 대해 극히 높은 견고성을 보이므로(↓<2%), 그때는 다른 요인이 더 주목할 가치가 있을 수 있다.

결론 3

서로 다른 제품은 서로 다른 Input 엔지니어링 철학을 대표한다. “최적”은 없고, “시나리오에 가장 적합한 것”만 있다.

결론 4

“더 적은 Input”이 “더 나은 Input”을 의미하지 않는다. 최적점은 “딱 충분한 고관련성 Input”이다. 정보가 부족한 시나리오에서 Input을 추가하면(few-shot 예시, 더 많은 검색 문서) 오히려 성능이 대폭 향상된다.

결론 5

컨텍스트 엔지니어링이 prompt engineering의 부분집합에서 독립적 공학 분야로 진화하고 있다. 단, 사전훈련의 진보(GPT-4→GPT-5 시리즈의 도약)는 여전히 모델 능력 향상의 중요한 원천이며, input 엔지니어링의 중요성을 강조한다고 해서 사전훈련의 지속적 기여를 부정해서는 안 된다.

제8부

알려진 공백: 본 도감이 다루지 못한 요인

공백 영역 왜 중요한가 현재 연구 상태
멀티모달 Input의 교차 영향 Agent 도구가 반환하는 것이 스크린샷, 테이블, PDF 등 비텍스트 콘텐츠일 수 있음 “혼합 Input에서 비텍스트 부분이 텍스트 추론을 어떻게 방해하는가”에 대한 통제 실험 부재
대화 이력의 시간 감쇠 함수 다회차 대화에서 N-k번째 회차 정보가 N번째 회차에 미치는 영향의 예측 가능한 감쇠 곡선 존재 여부 근인 효과 연구는 있으나, 정확한 “회차-영향력” 감쇠 함수는 미확립
동시성/배치 처리의 영향 Agent Team 시나리오에서 다수 agent의 요청이 동일 모델에 병렬 도달 추론 엔진의 엔지니어링 문서는 있으나 output 품질 관점의 체계적 연구 부재
교차 세션 컨텍스트 전달 손실 compaction이나 memory를 통한 교차 세션 전달 시 정보 압축 과정의 손실 정량화 엔지니어링 실무 논의는 있으나 정보이론 관점의 체계적 분석 부재
훈련 데이터와 Input 형식의 매칭도 모델이 사전훈련에서 가장 많이 본 형식에서 더 좋은 성능 SoEval 등 벤치마크가 초기 데이터 제공, 그러나 커버리지 여전히 제한적

부록

주요 학술 문헌 색인

동료 심사 논문 P

1. Lost in the Middle — Liu et al., TACL 2024
2. The Instruction Hierarchy — Wallace et al., NeurIPS 2024
3. Will We Run Out of Data? — Villalobos et al., Epoch AI 2024
4. Order Matters — Zeng et al., ACL Findings 2025
5. Context Length Alone Hurts — EMNLP Findings 2025
6. SecAlign — CCS 2025
7. VerIH — ICLR 2025
8. LV-Eval — ICLR 2025
9. LongGenBench — ICLR 2025
10. LoCoBench — KDD 2025
11. Shi et al. — ICML 2023
12. SoEval — Information Processing & Management, 2024

arXiv 프리프린트 Pre

13. Serial Position Effects — arXiv:2406.15981, 2024
14. Long Context Less Focus — arXiv:2602.15028, 2026
15. Context Discipline — arXiv:2601.11564, 2025
16. Fragile Preferences — arXiv:2506.14092, 2025
17. Position is Power — arXiv:2505.21091, 2025
18. Test-Time Training for Long-Context LLMs — arXiv:2512.13898, 2025
19. Input Matters — arXiv:2510.21034, 2025
20. StructEval — arXiv:2505.20139, 2025

산업 보고서 Ind

21. Context Rot — Chroma Research, 2025.7
22. SWiM — Snorkel AI, 2024
23. OpenClaw System Prompt Investigation — GitHub Issue #21999, 2026.2
24. State of LLMs 2025 — Sebastian Raschka, 2025.12
25. GPT-5.4 Launch — OpenAI Blog, 2026.3.5
26. Cursor vs Claude Code — Builder.io, 2026.2
27. Khan Academy PyData — Boris Lau, PyData Global 2025

LLM 모델 Output을 결정하는 10대 Input 요인 심층 분석

LLM Input Factor Atlas V4 · 2026년 3월

“모델은 CPU이고, Input은 프로그램이다. 세상을 진정으로 바꾸는 것은 더 큰 CPU가 아니라, 더 나은 프로그램이다.”

댓글 남기기