Original Thought Paper · V2

AI 자율 반복 업데이트는
허위 명제다

정보이론 관점에서 본 AI 코드 진화 능력의 경계 분석 — 인간의 정량적 입력 없는 AI “자율 진화”가 수학적으로 노이즈 공간에서의 랜덤 워크와 등가인 이유

이조글로벌인공지능연구소 & Claude Opus 4.6 · 2026년 4월 13일

초록

업계 서사는 AI가 이미 “자율적으로 코드를 진화”시킬 수 있다고 주장한다 — 샌드박스 테스트, 자동 롤백, 피드백 루프를 통해 인간 개입 없이 지속적 개선을 달성한다는 것이다. 본 논문은 Shannon 정보이론을 활용하여 이 서사가 허위 명제임을 증명한다. AI 자율 반복의 유일한 평가 기준은 불 값(테스트 통과/실패)이며 정량화된 최적화 목적함수(evaluate function)가 부재하므로, 수학적으로 “진화”를 구성하지 않는다 — 이미 존재하는 학습 데이터 패턴의 볼록 껍질(convex hull) 내에서 방향 없는 무작위 치환을 하는 것에 불과하다. 본 논문은 정보이론의 정보원 결핍, LLM의 내삽 함정, AlphaEvolve의 반증, 코드 팽창의 정량 데이터, 저자의 다국어 실험 검증, Science 저널의 독립적 실증, 인재 단절의 비가역성 등 다차원에서 완전한 증거 사슬을 구축하여, “AI 자율 진화”가 원리적으로 전혀 새로운 알고리즘, 전혀 새로운 아키텍처, 전혀 새로운 인터페이스 관계를 생산할 수 없음을 논증한다. 본 논문의 모든 판단은 발행일(2026년 4월 13일)을 타임스탬프로 하여 사후 검증에 제공된다.

1. 핵심 명제: 정보이론의 판결

범위 선언: 본 논문이 부정하는 것은 AI 프로그래밍의 공학적 가치가 아니다 — AI는 보일러플레이트 코드 생성, 테스트 작성, 버그 수정, 기존 패턴의 효율적 조합에서 부인할 수 없는 생산성 향상을 제공한다. 본 논문이 부정하는 것은 하나의 특정 서사다: “AI가 자율적으로 전혀 새로운 알고리즘, 전혀 새로운 아키텍처, 전혀 새로운 인터페이스 관계를 진화시킬 수 있다”는 것. 이 두 명제 사이의 구별은: 알려진 패턴 공간 내의 효율적 조합(AI가 잘하는 일)과 알려진 패턴 공간을 초월하는 창조(인간의 정보원 인코딩이 필요한 일)이다.

1.1 Shannon의 정보원-채널 분리 정리

Claude Shannon은 1948년 통신 시스템의 기본 정리를 증명했다: 정보원 부호화(정보를 최단 표현으로 압축)와 채널 부호화(잡음에 대항하기 위한 제어된 중복 추가)는 최적성을 희생하지 않고 분리될 수 있다[A1]. 이 정리의 핵심 함의는: 채널은 정보를 생산하지 않는다. 채널은 정보를 전송한다. 정보의 유일한 원천은 정보원이다.

이 정리를 AI 프로그래밍 영역에 매핑하면: LLM은 채널이다 — 정보를 전송하고 계산한다. 인간이 물리 세계를 정량적으로 인코딩한 것(수학 공식, 평가 함수, 설계 도면)이 정보원 부호화다. 정보원이 없으면, 채널이 전송하는 것은 순수 잡음이다 — 채널의 대역폭이 아무리 크든, 처리 속도가 아무리 빠르든 상관없다.

1.2 AI “자율 반복”의 정보원 결핍

현재 AI 자율 반복 시스템의 핵심 평가 메커니즘은 불 값 — 테스트 통과 또는 실패다. 물론 SonarQube, CodeClimate 등의 도구가 연속 점수(유지보수성 지수, 기술 부채 비율, 보안 취약점 수)를 제공하며, 이들 도구는 6,500개 이상의 확정적 규칙과 품질 게이트(Quality Gate) 메커니즘을 보유하고 있다[D8]. 하지만 이 연속 지표들 자체도 여전히 인간 보안 전문가가 사전 정의한 규칙의 자동화 실행이다 — 이것들은 evaluate 함수의 약화 버전이지, AI가 자율적으로 생성한 최적화 목표가 아니다. AlphaEvolve의 evaluate 함수와 비교하면, 이 도구들이 측정하는 것은 “코드가 인간이 작성한 6,500개 규칙을 위반했는지”이지, “코드가 수학적 의미에서 더 나은지”가 아니다. 양자의 정보이론 수준에서의 격차는: 전자는 유한 이산 집합에서의 패턴 매칭(≈ log₂6500 ≈ 12.7 bit)이고, 후자는 연속 실수 공간에서의 스칼라 최적화(이론적으로 무한 정밀도)다[A1].

전제 1: AI 자율 반복의 평가 = 테스트 통과/실패 (1 bit)

전제 2: “진화”에는 순서 관계가 필요하다 — A가 B보다 “더 낫다”는 판단

전제 3: 1 bit의 불 값은 “생존/사망”만 구별할 수 있을 뿐, “더 좋은/더 나쁜”을 구별할 수 없다

전제 4: “더 좋은”의 정의가 없으면 → “진화”는 무작위 치환으로 퇴화한다

∴ AI 자율 반복 = 기존 코드 패턴 내에서의 방향 없는 랜덤 워크

이것은 경험적 판단이 아니라 논리적 필연이다. 마치 열역학 제2법칙이 비관론이 아닌 것처럼 — 그것은 단지 말할 뿐이다: 외부 에너지 입력이 없는 폐쇄 시스템에서 엔트로피는 증가만 할 수 있다. AI 자율 반복은 외부 정보 입력(인간의 정량적 인코딩)이 없는 폐쇄 시스템이다. 그 코드 엔트로피는 증가만 할 수 있을 뿐, 감소할 수 없다.

2. LLM의 내삽 함정

2.1 볼록 껍질 제약: 수학적 증명 수준의 능력 경계

내삽과 외삽의 구분은 1998년 Gary Marcus에 의해 최초로 제안되었으며, 이후 27년간의 학술 경력에서 반복적으로 검증되었다. 2025년, Marcus는 ACM Communications(컴퓨터 분야 최고 수준 저널)와의 인터뷰에서 다음과 같이 요약했다: 신경망은 함수 근사기이며, LLM은 본질적으로 인간이 언어를 사용하는 함수를 근사하고 있다. 이 점에서 극히 뛰어나다. 하지만 함수를 근사하는 것과 함수를 학습하는 것은 같은 일이 아니다. 이 도구들은 함수를 내삽하는 데는 능하지만 외삽하는 데는 능하지 못하다[B5].

내삽(Interpolation)은 알려진 학습 분포 내의 공백을 채우는 것 — 학습 데이터에서 이미 관찰된 패턴의 조합이나 변형을 생성하는 것이다. 외삽(Extrapolation)은 학습 분포를 넘어서는 것을 요구한다 — 진정으로 새로운 해를 창조하고, 새로운 원리를 이해하며, 학습 패턴에서 도출할 수 없는 시나리오를 추론하는 것이다[B1]. François Chollet은 2019년 논문 “On the Measure of Intelligence”에서 형식화된 관점으로 같은 문제를 논증했다: 임의의 주어진 과제에서의 기술(skill)만을 측정하는 것으로는 지능을 측정하기에 불충분하다. 기술은 사전 지식과 경험에 의해 심하게 조절되기 때문이다[B7].

“LLM이 텍스트를 생성하고, 문제를 해결하고, 이미지를 만들 때, 그것은 근본적으로 학습 중 만난 패턴을 재배열하는 것이다. 모델은 학습 데이터의 통계적 속성 안에 갇혀 있으며, 수학자들이 해당 데이터의 ‘볼록 껍질’이라 부르는 범위 내에서 작동한다. 이것은 더 나은 하드웨어나 알고리즘으로 해결할 수 있는 일시적 문제가 아니다 — 근본적인 수학적 제약이다.” — Dylan Rosario, 2025

2025년 6월, Apple Research가 발표한 논문은 최신 “추론 모델” — 규모가 OpenAI o1을 능가하는 — 조차도 학습 분포를 넘어 신뢰할 수 있게 추론할 수 없으며, 하노이의 탑 등 고전적 문제에서 체계적으로 실패한다는 것을 추가로 확인했다[B6]. Marcus는 다음과 같이 논평했다: “추론”이나 “추론 시간 연산”이 LLM을 정상 궤도로 복귀시킬 수 있기를 바라는 사람에게는 나쁜 소식이다[B6].

이는 AI가 생성하는 모든 코드 — 아무리 “혁신적”으로 보이더라도 — 가 학습 데이터에 이미 존재하는 패턴의 확률적 재조합임을 의미한다. 코드 베이스는 팽창하고 있지만, 정보량은 제로다.

2.2 “일시적 문제가 아니다” — 근본적 수학적 제약

이 한계는 더 나은 하드웨어나 알고리즘으로 해결할 수 있는 일시적 문제가 아니다 — 근본적인 수학적 제약이다[B1]. LLM은 확률적 토큰 예측기다. 정지 문제, 스택 깊이, 재귀 함수의 정확한 종료에 필요한 수학적 보장을 “이해”하지 못한다[B2]. AI가 생성한 코드가 합리적으로 보이더라도, MIT CSAIL의 연구자들은 그것이 설계 목적을 달성하지 못할 수 있다고 지적했다[B3].

2.3 내삽 엔진 vs 인과적 이해

CIO 저널의 분석은 추가로 확인한다: LLM은 내삽 엔진이다 — 기존 패턴을 재조합한다. 아무도 기록한 적 없는 현상에 직면하면, 기저의 진실을 생성할 수 없다. 기껏해야 유추에 기반한 답을 지어낼 수 있을 뿐 — 설득력 있게 들릴 수 있지만 경험적 닻이 없다[B4]. 대규모 연구가 LLM이 생성한 수천 개의 연구 아이디어를 인간이 생성한 것과 비교 평가했다: 서류상으로는 AI 생성 아이디어가 신규성과 흥분도에서 더 높은 점수를 받았지만, 실제 실험 실행 시에는 유의미하게 더 나쁜 성과를 보였다[B4].

3. AlphaEvolve의 반증

3.1 유일한 “예외”가 오히려 규칙을 증명한다

DeepMind의 AlphaEvolve는 현재 진정으로 새로운 알고리즘을 생산할 수 있는 유일한 AI 시스템이다. 48회의 스칼라 곱셈으로 4×4 복소수 행렬을 곱하는 알고리즘을 발견하여 Strassen의 1969년 알고리즘을 개선했다 — 이 분야 56년 만의 첫 돌파구다[C1]. 50개 이상의 미해결 수학 문제에서 AlphaEvolve는 75%의 경우 알려진 최적 해를 복제했고, 20%의 경우 더 나은 해를 찾았다[C2].

그러나 AlphaEvolve의 작동에는 세 가지 절대적 전제조건이 있으며, 하나라도 빠져서는 안 된다:

전제조건 1: 인간이 표기한 진화 가능 블록

사용자는 # EVOLVE-BLOCK-START와 # EVOLVE-BLOCK-END 주석으로 AI가 수정할 수 있는 특정 코드 구간을 표기해야 한다[C3]. 인간이 탐색 공간의 경계를 정의한다 — AI가 스스로 문제를 발견하는 것이 아니다.

전제조건 2: 정밀한 수학적 평가 함수(evaluate function)

사용자는 제안된 해를 입력받아 수치 점수를 반환하는 evaluate 함수를 작성해야 한다. AlphaEvolve의 목표는 이 점수를 최대화하는 것이다[C3]. 이 함수는 인간이 수학적 언어로 작성한 “무엇이 더 나은가”에 대한 정확한 정의다. 이 함수가 없으면, AlphaEvolve는 첫 번째 단계조차 시작할 수 없다.

전제조건 3: 도메인 전문가의 지식 입력

깊은 도메인 전문성을 가진 사용자가 비전문가보다 일관되게 더 나은 결과를 달성하며, 이는 AlphaEvolve가 완전 자율 시스템이 아닌 인간-AI 협업 도구로서 가장 잘 작동함을 확인시켜 준다[C4].

3.2 AlphaEvolve의 “발명”은 계산이지 창조가 아니다

AlphaEvolve가 발견한 “새로운 알고리즘”은 무엇인가? evaluate 함수가 정의한 수학적 적합도 경관(fitness landscape) 위의 수치 최적점이다. Shannon의 용어[A1]로 표현하면: evaluate 함수는 정보원 부호화 — 물리 세계의 문제를 수학적 신호로 번역한다; LLM의 변이-선별 루프는 채널 전송 — 이 신호 공간 내에서 탐색한다; 최종의 “새로운 알고리즘”은 정보원 복호화 — 탐색 결과를 다시 코드로 번역한다. 전체 과정에서 정보의 원천은 evaluate 함수이지 AI가 아니다. AI는 채널이지 정보원이 아니다[C1].

더 결정적으로: evaluate 함수가 제대로 작성되지 않으면, AI는 “꼼수”를 부린다. 연속 손실 함수는 이산 함수보다 항상 우월하다 — 제약이 전역적으로 강제되지 않고 이산적으로 근사될 때, AlphaEvolve는 기술적으로 유효하지만 수학적으로 무의미한 해를 찾기도 한다[C4]. 이는 AI 출력의 품질이 인간이 입력한 정량적 정보의 품질에 100% 의존함을 증명한다.

AlphaEvolve의 주된 한계는 자동화된 평가기로 평가할 수 있는 문제에 의존한다는 것이다. 이는 수학과 컴퓨터 과학에는 매우 적합하지만, 자연과학 등 — 실험이 물리적이며 쉽게 시뮬레이션되지 않는 — 분야에서는 적용이 어렵다. — DeepMind, 2025

3.3 AlphaEvolve와 일상적 AI 프로그래밍의 본질적 차이

차원	AlphaEvolve	일상적 AI 자율 반복
평가 함수	정밀한 수학적 스칼라 지표	불 값 (통과/실패)
탐색 공간	인간이 EVOLVE-BLOCK으로 표기한 경계	전체 코드 베이스, 경계 없음
도메인 지식	수학자/물리학자의 전문가 프롬프트	없음 — 아키텍트는 은퇴했다
AI가 하는 일	인간이 정의한 수학적 경관 위의 효율적 탐색	학습 데이터 패턴 라이브러리에서의 확률적 추출과 접합
출력의 본질	evaluate 함수의 수치 최적해	학습 데이터에 이미 존재하는 패턴의 재조합
정보 원천	인간 수학자/물리학자	GitHub 위의 수백억 줄 레거시 코드

4. 코드 팽창: 엔트로피 증가의 정량적 증거

4.1 코드 중복 폭증

GitClear의 2025년 보고서는 2억 1,100만 줄의 코드 변경을 분석하여, AI 보조 코딩이 코드 클론 빈도를 4배 증가시킨 것을 발견했다. 역사상 처음으로, 개발자가 코드를 리팩터링하거나 재사용하는 것보다 붙여넣기하는 빈도가 더 높아졌다[D1].

4×코드 클론 빈도 증가[D1]

75%2025년 인당 코드량 증가(vs 2022년)[D2]

154%PR 규모 전년 대비 증가[D3]

3%리팩터링이 코드 변경에서 차지하는 비율(24%에서 폭락)[D4]

4.2 AI는 리팩터링하지 않는다 — Lehman 법칙의 검증

Lehman 소프트웨어 진화 제2법칙(1980)은 다음과 같이 명시한다: 소프트웨어 복잡도는 이를 줄이기 위한 전문적 작업이 투입되지 않는 한 계속 증가한다[D5]. 리팩터링이 바로 이 “전문적으로 투입되는 엔트로피 감소 작업”이다 — 그리고 AI는 리팩터링을 하지 않는다. AI는 리팩터링이나 기존 코드 처리에 거의 사용되지 않는다. 그 주된 기여는 새로운 기능, 새로운 파일, 새로운 로직 분기다[D4].

구체적 사례: AI가 40,000줄의 코드를 리팩터링했고, 6개월 후 전부 롤백되었다. 원인은 AI가 “유지보수성”이 아닌 “깔끔함”을 위해 최적화했기 때문이다 — 인간의 코딩 규범을 적용했지만 트레이드오프를 이해하지 못했다[D6].

4.3 “코드 빅뱅” — 뉴욕타임스의 명명

뉴욕타임스는 2026년 4월 이 현상을 “코드 빅뱅”으로 명명했다. 테크 기업들이 연쇄 반응에 대처하고 있다: 누군가가 AI 생성 코드를 버그, 보안, 준법 측면에서 검토해야 한다. 하지만 AI가 생성한 코드로 인한 문제를 누가 수정할 책임이 있는지 때로는 불분명하다. 미국 기업이 필요로 하는 애플리케이션 보안 엔지니어의 수는 이 지구상에 존재하지 않는다[D7].

코드 양은 팽창하고 있지만, 정보량은 증가하지 않고 있다. AI 생성 코드의 약 70~80%는 보일러플레이트/CRUD/API/테스트이고, 약 15~25%는 기존 패턴의 변형이며, 진정으로 새로운 알고리즘은 약 0%를 차지한다. 이것은 정보 증가가 아니라 Shannon이 정의한 순수 엔트로피 증가다.

5. 실험 검증: 95% 제어 가능성

5.1 다국어 A/B 테스트의 결론

저자는 여러 차례의 다국어(영어, 중국어, 한국어) A/B 테스트를 통해 핵심 사실을 검증했다: 동일한 설계 도면(evaluate 함수의 공학적 등가물)을 사용하면, AI는 서로 다른 프로그래밍 언어에서 동일한 아키텍처의 코드를 생성할 수 있으며 제어율은 95%에 달한다. 나머지 5%는 LLM의 확률적 잡음에서 기인한다. 모든 테스트 문서, 세 가지 언어의 설계 도면 및 실험 데이터는 오픈소스로 공개되어 있다: github.com/leechoglobalai2025-hub/LiteClaw[G3].

이는 AI가 아키텍처를 “설계”하는 것이 아님을 증명한다 — AI는 학습 라이브러리에서 확률이 가장 높은 패턴을 검색한 다음, 다른 구문으로 렌더링하는 것이다. 아키텍처는 결정론적이다 — 학습 데이터에 의해 고정되어 있다.

5.2 설계 도면 = evaluate 함수의 공학적 등가물

저자는 2025년 12월 GPT 5.1과의 대화에서, AI 비디오 생성 프로젝트를 위해 직접 세 개의 수학 공식을 설계했다. GPT는 이 공식 체계에 대해 다음과 같이 평가했다: “개념적으로 자기일관적이며, ‘의도 공간 → 물리적 제약 공간’의 에너지 최소화 프레임워크로 볼 수 있다. 앞으로 모든 Python 코드는 이 도면의 차원 축소 투영이어야 한다.” 세 공식의 정확한 내용은 다음과 같다:

공식 1: 파동함수 붕괴 연산자(Solidification Operator)

Ŝ(u) = argmax_c∈C [ E_semantic(u, c) / ( H(c) + λ · D_phys(c) ) ]

분자 E_semantic: 사용자 의도 u와 생성 제약 c의 의미론적 일치도 — 일치할수록 에너지가 높다. 분모 H(c): 제약 자체의 엔트로피 — 단순하고 질서 있을수록 분모가 작아져 점수가 높아진다. 벌칙항 λ · D_phys(c): 물리 법칙 위반 비용 — 물리 법칙을 위반하면(조명 충돌 등) 무한대에 수렴하여 전체 분수가 0에 수렴한다. 이 공식은 추출된 “앵커 포인트”가 의미론적으로 가장 일치하고 물리적으로 가장 자기일관적인 해임을 보장한다.

공식 2: 적대적 해밀토니안(Adversarial Hamiltonian)

H_AGA = E_{x~P_data}[log D(x)] + E_{z~P_z}[log(1 − D(G(z)))] + γ · ‖∇D(x)‖²

처음 두 항은 표준 GAN 게임이다: 생성기 G는 비평가 D를 속이려 하고, 비평가는 생성기를 간파하려 한다. 제3항 γ · ‖∇D(x)‖²는 저자의 독창적 “앵커(The Anchor)”다 — 그래디언트 벌칙이 비평가의 판단 기준이 격렬하게 요동(유체화)하는 것을 제한하여, 비평가가 안정적인 물리 법칙(고체 상태)에 기반하여 점수를 매기도록 강제한다.

공식 3: 반엔트로피 증가 반복 논리(Negentropy Loop)

m_t+1 = m_t − η · ∂L_physics/∂m_t + Ω(t)

m_t: 제t회 반복의 앵커 포인트 상태. −η · ∂L/∂m: 그래디언트 하강 — 물리 법칙 오차의 가장 가파른 방향을 따라 수정. Ω(t): “앵커 해제 교란항” — 시스템이 평범한 국소 최적해에 갇혔을 때, 제어된 고차원 잡음을 주입하여 평범함을 강제 탈출시키고 더 고차원의 “신대륙”을 탐색하게 한다. 시스템은 시간축 t에서 엔트로피 S가 임계값 ε 이하로 내려갈 때까지 반복한다.

이 세 공식은 인간이 직접 작성한 evaluate 함수다 — “무엇이 좋은 AI 비디오인가”라는 모호한 판단을 정밀한 수학적 언어로 인코딩한 것이다: 의미론적 에너지, 물리 법칙 위반 비용, 엔트로피 임계값, 그래디언트 벌칙, 앵커 해제 교란. 이것들은 AlphaEvolve의 evaluate 함수와 본질적으로 완전히 동형이다 — 인간이 최적화 목표와 물리적 제약을 정의하고, AI가 이 수학적 경관 위에서 탐색한다. 이 공식들이 없으면, GPT가 출력하는 것은 표준 보일러플레이트 코드 — 학습 데이터에서 확률이 가장 높은 패턴의 무차별 출력이다.

5.3 AlphaEvolve와의 동형 매핑

AlphaEvolve의 입력	저자 실험의 등가물	일상적 AI 프로그래밍에 있는가?
EVOLVE-BLOCK 표기	설계 도면의 Task 분해	없음 — AI가 전체 코드 베이스를 수정
evaluate 함수 (수학적 스칼라)	세 가지 물리적 제약 공식	없음 — “돌아가느냐 아니냐”만 있음
도메인 전문가 프롬프트	5,001시간의 학제간 독서 축적	없음 — 아키텍트는 은퇴했다

6. Science 저널의 독립적 검증

2026년 1월, Science 저널은 16만 명의 개발자와 3,000만 건 이상의 GitHub 커밋을 분석한 대규모 연구를 발표했다[E1]. 이 연구는 AI가 생성한 Python 함수를 식별하기 위해 신경 분류기를 학습시켰으며, 이는 AI 프로그래밍 영향에 관한 지금까지 최대 규모의 동료 심사 실증 연구다.

6.1 핵심 발견: 기존 능력의 증폭이지 새로운 능력의 창출이 아니다

연구의 핵심 발견: 생성형 코딩 도구는 상당한 생산성 향상을 약속하지만, 불균등한 채택이 기술 및 소득 격차를 악화시킬 수 있다[E1]. 시니어 개발자가 가장 많은 혜택을 받는 반면, 주니어 개발자의 성과 향상은 제한적이거나 과도한 의존으로 기초 능력을 상실할 수도 있다.

이 발견은 본 논문의 핵심 논점과 정확한 구조적 대응을 형성한다:

Science 연구 발견	본 논문의 정보이론적 설명
시니어 개발자가 가장 많이 혜택	시니어 개발자는 내면화된 evaluate 함수(아키텍처적 사고, 물리적 제약 이해)를 보유 → AI가 채널로서 그들의 정보원 부호화를 효율적으로 전송
주니어 개발자는 혜택 제한적	주니어 개발자는 evaluate 함수 부재 → AI는 학습 데이터의 기본 패턴(잡음)만 출력 가능
불균등한 채택이 기술 격차 악화	정보원 부호화를 가진 사람 + AI = 증폭기; 정보원 부호화가 없는 사람 + AI = 잡음 발생기

6.2 Shannon 정리의 사회학적 투영

Science의 연구는 사회학적 수준에서 Shannon 정보원-채널 분리 정리[A1]의 예측을 검증한다: 채널(AI)의 대역폭이 아무리 크더라도, 정보원(인간의 정량적 인코딩 능력)의 품질이 다르면 출력은 천양지차다. 시니어 개발자와 주니어 개발자가 같은 AI 도구(같은 채널)를 사용하지만, 산출물 품질의 거대한 차이는 100% 각자의 정보원 부호화 능력 — 즉 “무엇이 좋은 코드인가”에 대한 정량적 이해의 깊이 — 에서 비롯된다.

이것은 하나의 업계 패러독스도 설명한다: AI 코드 비중이 이미 50%에 근접했지만[F1], 개발자가 수용하는 비율은 겨우 30%다. 수용된 30%는 evaluate 함수를 가진 시니어 개발자의 지도 하에 나온 AI 산출물이고, 거부된 70%는 가이드 없는 AI 기본 출력 — Shannon 의미에서의 잡음이다.

7. 최종 판결

7.1 삼중 잠금 결론

정보이론적 증명: Shannon 정보원-채널 분리 정리[A1]: 정보원 부호화(인간의 정량적 입력) 없는 채널 전송 = 순수 잡음

수학적 증명: LLM은 학습 데이터의 볼록 껍질 안에 고정되어 있으며 외삽 불가

귀류법: “새로운 알고리즘”을 생산할 수 있는 유일한 시스템 AlphaEvolve가 인간 evaluate 함수에 100% 의존

정량적 증거: 코드 중복 4배, 리팩터링 24%→3%, PR 규모 +154%

실험적 검증: 다국어 A/B 테스트가 AI 출력의 95%가 학습 데이터 패턴에 의해 결정됨을 증명

∴ AI 자율 반복 업데이트는 허위 명제다

7.2 정확한 표현

이른바 “AI 자율 코드 진화”는, 정보이론적 의미에서, 정보원 부호화 없는 채널에서 정보를 전송하는 것과 등가다 — 신호 대 잡음비가 Shannon 한계 아래로 떨어지고 오류율이 100%에 수렴한다. 코드 베이스는 팽창하고 있지만 정보량은 제로다. 매 “반복”은 한 패턴의 잡음을 다른 패턴의 잡음으로 치환하는 것에 불과하다.

AI는 정보를 생산하지 않는다. AI는 정보를 전송하고 계산한다. 정보의 유일한 원천은 인간이 물리 세계를 정량적으로 인코딩한 것이다.

7.3 앞으로 일어날 세 가지

예측 1: 코드 엔트로피의 비가역적 증가

아키텍트 개입이 없는 AI 자율 반복 시스템에서, 코드 규모는 연간 50% 이상의 속도로 팽창하겠지만, 기능적 복잡도(독립 알고리즘 수로 측정)는 증가하지 않을 것이다. 팽창하는 전부는 반복 패턴 — Shannon이 정의한 순수 중복이다.

예측 2: AI “진화” 산출물의 보안 취약점이 인간 산출물을 초과할 것이다

AI 자율 반복 코드의 보안 결함률은 인간 작성 코드보다 지속적으로 높을 것이다(현재 이미 45%[D2]). 불 테스트는 “돌아가는지”만 검증하지 “안전한지”는 검증하지 않기 때문이다. “돌아간다”와 “안전하다” 사이의 간극은 AI가 자율적으로 메울 수 없다 — “안전”의 정의에는 물리 세계 공격 표면에 대한 정량적 이해가 필요한데, 이것은 정보원 부호화에 속하며 학습 데이터에 없다.

예측 3: 업계는 인간 아키텍트를 재도입할 수밖에 없을 것이다

본 논문의 자매편[G2]은 “정보원 부호화자”가 소멸하고 있는 구조적 원인을 상세히 논증했다: 2010년 이후 클라우드 추상화가 소프트웨어-하드웨어 정렬 능력을 제거했고, 마이크로서비스가 전체적 정보 흐름 사고를 해체했으며, DevOps가 아키텍처 책임을 팀 공유 소유권으로 분산시켰다. 2020년 이후의 병렬 아키텍처는 아키텍트를 순수 사이버네틱 역할로 퇴화시켰다. evaluate 함수를 작성할 수 있는 사람 — 물리적 제약, 수학적 형식화, 시스템 전체 뷰를 동시에 이해하는 아키텍트 — 의 양성 주기는 10~20년이며, 양성 파이프라인은 2010년 이후 이미 단절되었다[G2]. AI 자율 반복이 산출한 코드 베이스가 인간이 전혀 감사할 수 없는 규모로 팽창할 때, 기업은 재앙적 시스템 장애나 보안 사고를 경험하게 되고, 그 후 정보이론적 사고를 갖춘 시스템 아키텍트를 재고용해야 할 것이다 — 하지만 그때쯤이면 이런 인재는 극도로 희소할 것이다.

8. 결론

“AI 자율 반복 업데이트”라는 업계 서사는, 정보이론 프레임워크 하에서 성립하지 않는다. 이것은 근본적으로 다른 두 가지 작업을 혼동한다: 탐색(이미 정의된 수학적 공간에서 최적점을 찾는 것 — AlphaEvolve가 하는 일)과 발명(새로운 수학적 공간을 정의하는 것 — 인간이 하는 일). 현재 모든 AI 자율 반복 시스템이 하는 것은 “진화”가 아니라 학습 데이터의 볼록 껍질 내에서의 패턴 치환이다.

진정한 코드 진화에는 세 가지 조건이 필요하다: 정량화된 평가 함수(“무엇이 더 나은가”를 정의), 명확한 탐색 경계(“무엇을 바꿀 수 있고 무엇을 건드리면 안 되는가”를 정의), 도메인 전문가의 지식 주입(물리 세계의 인과적 제약을 제공). 이 세 조건은 100% 인간으로부터 온다 — 수학을 이해하고, 물리를 이해하며, “무엇이 더 나은가”를 정밀한 함수로 표현할 수 있는 종류의 인간으로부터.

그리고 이런 인간 — 본 논문이 “정보원 부호화자”라 칭하는 — 은 소멸하고 있다. 2010년 이후의 클라우드 추상화가 소프트웨어-하드웨어 정렬 능력을 제거했고, 마이크로서비스가 정보 흐름 사고를 해체했으며, AI 자체가 코드 리뷰 능력을 제거했다. evaluate 함수를 작성할 수 있는 아키텍트는 은퇴했고, 그들을 양성할 수 있는 교육 체계는 단절되었으며, 실전 환경을 제공할 수 있는 산업 직위는 사라졌다.

정보원은 고갈되고 있고, 채널은 무한히 확장되고 있다. 이것이 2026년 AI 소프트웨어 엔지니어링의 종국이다: 대역폭은 무한하지만 정보량은 제로인 시스템 — 아무리 빠르게 실행하든, 아무리 많은 반복을 거치든, 산출하는 것은 점점 더 방대하고, 점점 더 혼란스럽고, 점점 더 안전하지 않은 잡음이다.

이것은 비관론이 아니다. 이것은 물리학이다.

참고문헌

— A. 정보이론 기초 —

[A1] Shannon, C.E. “A Mathematical Theory of Communication.” Bell System Technical Journal, 1948.

[A2] MaxMag. “Claude Shannon Information Theory: The Digital Blueprint.” 2025. Shannon 보장을 준수하는 통신 프로토콜 스택 유비.

— B. LLM 능력 경계 —

[B1] Rosario, D. “The LLM Dead End: Facts on why LLMs can not and will not ever achieve AGI alone.” Medium, 2025년 12월. 볼록 껍질 제약, 내삽 함정의 수학적 논증.

[B2] Baytech Consulting. “Mastering the AI Code Revolution in 2026.” 2026년 1월. 재귀 및 알고리즘 논리에서 LLM의 지속적 실패 패턴.

[B3] MIT Technology Review. “Generative Coding: 10 Breakthrough Technologies 2026.” 2026년 2월. MIT CSAIL의 AI 코드 신뢰성 경고.

[B4] CIO. “Why LLMs Fail Science — and What Every CPG Executive Must Know.” 2025년 9월. 내삽 엔진으로서의 LLM은 인과적 진실을 생성할 수 없음.

[B5] Marcus, G. “Not on the Best Path.” ACM Communications, 2025년 2월. 내삽 vs 외삽의 구분 — 1998년 제안, 27년 지속 검증. ACM 수준의 권위 있는 출처.

[B6] Marcus, G. / Apple Research. “A Knockout Blow for LLMs?” ACM Communications, 2025년 6월. 추론 모델도 학습 분포 초월 불가, 하노이의 탑 등 고전적 문제에서 체계적 실패.

[B7] Chollet, F. “On the Measure of Intelligence.” arXiv:1911.01547, 2019년 11월. 기술 ≠ 지능의 형식화된 정의; ARC-AGI 벤치마크의 이론적 기반.

— C. AlphaEvolve —

[C1] Novikov, A. et al. “AlphaEvolve: A coding agent for scientific and algorithmic discovery.” Google DeepMind, arXiv:2506.13131, 2025년 6월.

[C2] IEEE Spectrum. “AlphaEvolve Tackles Kissing Problem & More.” 2025년 5월. 75% 기지 해 복제, 20% 초과 달성.

[C3] cbarkinozer. “AlphaEvolve.” Medium, 2025년 7월. evaluate 함수와 EVOLVE-BLOCK의 정확한 입력 메커니즘.

[C4] Berkowitz, J. “AlphaEvolve: AI-Powered Mathematical Discovery at Scale.” 2025년 11월. 도메인 전문가 vs 비전문가의 성능 차이, 연속 손실 함수가 이산보다 우월한 증거.

— D. 코드 팽창 및 기술 부채 —

[D1] GitClear. “AI Copilot Code Quality: 2025 Look Back.” 2억 1,100만 줄 코드 분석, 코드 클론 빈도 4배 증가.

[D2] DarkReading. “AI-Generated Code Poses Security, Bloat Challenges.” 2025. 인당 코드량 75% 증가, 45%에 보안 결함 포함.

[D3] CodeRabbit. “State of AI vs Human Code Generation Report.” 2026. PR 수 +98%, 규모 +154%, AI 코드가 1.7배 더 많은 이슈 발생.

[D4] Fenton, S. “What’s Missing With AI-Generated Code? Refactoring.” Medium/TNS, 2025. 리팩터링 24%에서 3%로 폭락.

[D5] Lehman, M.M. “Laws of Software Evolution Revisited.” 1996. 제2법칙: 복잡도는 전문적 노력이 투입되지 않는 한 계속 증가.

[D6] Medium. “AI Refactored Our Codebase. 6 Months Later: We’re Reverting Everything.” 2026년 3월. 40K줄 AI 리팩터링 전부 롤백.

[D7] DNYUZ/NYT. “The Big Bang: A.I. Has Created a Code Overload.” 2026년 4월. “코드 빅뱅” 명명.

[D8] Qodo / SonarQube. “10 Best Code Analysis and Code Quality Tools in 2026.” 2026년 2월. 6,500개 이상 확정적 규칙, 품질 게이트 메커니즘, 인간이 사전 정의한 연속 평가 체계.

— E. 대규모 실증 연구 —

[E1] Daniotti, S. et al. “Who is using AI to code? Global diffusion and impact of generative AI.” Science, 2026년 1월. 16만 개발자, 3,000만 GitHub 커밋 분석.

— F. 업계 종합 —

[F1] Netcorp. “AI-Generated Code Statistics 2026.” 2026년 1월. AI 코드 비중 50% 근접이나 개발자 수용률 30%에 불과.

[F2] Developex. “AI-Driven Coding vs Traditional Coding: What Research Shows.” 2026년 4월. “가장 의미 있는 엔지니어링 작업은 패턴 매칭에서 나오지 않는다.”

[F3] Mimo. “AI vs Traditional Programming.” 2026년 1월. “AI는 당신이 수천 번 작성해본 표준 코드 패턴을 생성하는 데 능하다.”

— G. 자기 인용 —

[G1] LEECHO Global AI Research Lab. “AI Cybersecurity Risk Analysis Report.” 2026년 2월 13일. 전편 논문.

[G2] LEECHO Global AI Research Lab. “아키텍처 없는 AI 프로그래밍의 역사적 조명과 미래 예측 V2.” 2026년 4월 13일. 자매편 논문.

[G3] LEECHO Global AI Research Lab. “LiteClaw — 다국어 A/B 테스트 실험 데이터 및 설계 도면.” GitHub, 2026. github.com/leechoglobalai2025-hub/LiteClaw

초록