ORIGINAL THOUGHT PAPER · MAY 2026 · V4

인지 빙산 수면 아래에는
무엇이 있는가

What Lies Beneath the Cognitive Iceberg:
A Four-Layer Alignment Theory of Human Meta-Cognition

시간, 공간, 관계, 변화 —— 4층 인지 정렬

발행일 2026년 5월 15일
분류 독창적 사유 논문 (Original Thought Paper)
분야 인지과학 · AI 아키텍처 비판 · 인간-AI 협업 이론
버전 V4
저자 이조글로벌인공지능연구소 & Opus 4.6 & GPT 5.5 & Gemini 3.1 (인지집단)

초록 · ABSTRACT

인간 인지 시스템에는 네 가지 층위의 ‘자동 정렬’ 메커니즘이 존재한다: 시간 정렬, 공간 위계 정렬, 관계 원근 정렬, 변화 감지 정렬. 이 네 층위의 기저에는 생물학적 신경 기반이 자리한다(예: 일주기 리듬, 위협 탐지 회로, 거울 뉴런). 중간층은 사회적 학습과 문화 환경에 의해 형성되며(예: 달력 체계, 조직 위계, 친소(親疎) 예절), 최상층은 개체 경험에 의해 지속적으로 교정된다(예: 업계 직관, 전문가 패턴 인식). 이 3층의 중첩 결과, 성인 인간에게 이러한 정렬 메커니즘은 일상적 인지에서 ‘자동으로 작동하며 의식적 조작이 불필요한’ 기반 인프라로 기능한다. 이 메커니즘이 편재하고 고도로 자동화되어 있기 때문에, 인간—AI 업계 종사자를 포함하여—은 그 존재를 거의 인식한 적이 없다. 본 논문은 이 4층 인지 정렬이 AI Agent가 Chat 모드에서 자율 운행 모드로 도약할 때 실패율이 88%에 달하는 근본 원인임을 논증한다^[1]. 이것들은 훈련 데이터를 추가하거나 모델 규모를 확대함으로써 획득할 수 있는 ‘기능’이 아니라, 현재 AI 아키텍처에서 근본적으로 결여된 ‘인지 운영체제’이다. 물고기는 물이 무엇인지 모른다——물을 떠나본 적이 없기 때문이다.

I 빙산의 은유: 보이는 것과 보이지 않는 것

AI 업계가 2023~2026년 사이에 달성한 성과는 주로 인지 빙산의 수면 위 부분에 집중되어 있다: 언어 생성, 패턴 인식, 논리적 추론, 지식 검색. 이러한 역량은 관찰 가능하고, 정량화 가능하며, 벤치마크 측정이 가능하다. GPT-5의 추론 능력, Claude의 장문 이해, Gemini의 멀티모달 처리——모든 경쟁, 평가, 투자 서사가 수면 위의 빙산을 중심으로 전개되고 있다.^[2]

그러나 인간 인지의 진정한 기반 인프라는 수면 아래에서 작동한다. 이 기반 인프라는 어떤 벤치마크에도 등장하지 않고, 어떤 논문에서도 논의되지 않으며, 심지어 이를 사용하는 인간 자신도 인식하지 못한다. 그것들은 다음과 같다:

Figure 1 — 인지 빙산 구조

수면 위
언어 · 추론 · 패턴 인식 · 지식 검색 · 논리 · 창의적 생성

▼ ▼ ▼ 인지 수면선 ▼ ▼ ▼

제1층
시간 정렬 —— 모든 기억과 정보가 자동으로 시간축에 장착

제2층
공간 위계 정렬 —— 정보가 중요성/추상 수준에 따라 자동 정렬

제3층
관계 원근 정렬 —— 자기 자신을 원점으로, 정보가 친소(親疎)에 따라 배열

제4층
변화 감지 정렬 —— 상태 변화를 자동 탐지하고 인지를 재교정

AI 업계의 모든 경쟁은 수면 위에 집중되어 있다. 수면 아래의 4개 층위는 한 번도 아키텍처 설계에 포함된 적이 없다.

II 제1층: 시간 정렬

2.1 인간의 시간 정렬 메커니즘

인간 두뇌가 정보를 색인하는 기본 방식은 시간이다. “지난주 화요일 회의에서 논의한 그 안건”——이 문장에는 회의 번호도, 의제 ID도, 어떤 추가 식별자도 필요하지 않다. “지난주 화요일”이라는 하나의 시간 앵커 포인트만으로 일련의 연관 기억 전체가 호출된다: 누가 참석했는지, 무엇을 논의했는지, 결론이 무엇이었는지, 당시 자신의 감정 상태까지.

이 메커니즘은 다음과 같은 특성을 지닌다:

자동성: 어떤 의식적 조작도 필요하지 않다. 인간은 기억을 시간순으로 배열하겠다고 ‘결정’할 필요가 없다——기억은 태생적으로 시간축에 장착되어 있다.

양방향성: 시간에서 사건을 찾을 수도(“지난주 화요일에 무슨 일이 있었지?”), 사건에서 시간을 찾을 수도(“그 논의는 언제였지?”) 있다.

상대성: 인간에게 정밀한 타임스탬프는 필요하지 않다. “전에”, “최근에”, “아주 오래전”과 같은 모호한 시간 위치 지정이 인간에게는 충분하다.

사회적 앵커링: 사람 간 상호작용은 기본적으로 공유된 시간 좌표계를 전제한다. “지난번에 네가 말한 것”——이 한 문장이 동시에 “너”(관계), “지난번”(시간), “말한 것”(내용)이라는 세 가지 인덱스를 활성화한다.

2.2 AI의 시간 부재

명확히 해야 할 점이 있다: 현재 AI 시스템은 “시간을 전혀 처리하지 못하는” 것이 아니다. 모델은 텍스트 내 날짜 표기, 검색 시스템, 외부 데이터베이스, 타임스탬프 정렬을 통해 시간 정보를 처리할 수 있다. Transformer의 위치 인코딩(Positional Encoding)도 시퀀스 내 토큰에 순서 정보를 제공한다. 그러나 핵심적 차이는 다음이다: 시간은 모델의 기본적이고, 지속적이며, 세계 상태 수준의 조직 원리가 아니다. 인간의 시간 정렬은 항상 가동 중인 인지 기반 인프라이다——’호출’될 필요가 없으며, 영원히 작동하고 있다. 모델은 명시적으로 지시받았을 때에만 시간 차원을 ‘주목’한다.

이로 인해 생산 환경에서 반복적으로 출현하는 실패 패턴이 발생한다: AI Agent가 서로 다른 시간대의 데이터를 처리할 때, 출력을 “시간 선후”가 아닌 “의미적 관련성”에 따라 조직하는 경향을 보인다. 2025년 9월의 데이터가 2026년 2월의 데이터 앞에 배치될 수 있다——더 이르기 때문이 아니라, 의미 공간에서 쿼리에 더 가깝기 때문이다. 모델은 국소적으로 시간 정렬 과제를 수행할 수 있지만, 안정적이고 명시적이며 과제 간 지속되는 시간 정렬 구조가 부재하다.

실증 관찰

본 논문 집필 과정에서 AI 협력자(Claude Opus 4.6)가 ChatGPT 사용자 증가 데이터를 정리할 때, 2025년 7월(7억 WAU), 2025년 10월(8억 WAU), 2026년 2월(9억 WAU)의 수치를 시간 순이 아닌 순서로 제시했다^[3]——7억이 8억 뒤에 나타났다. 개별 수치는 모두 정확했으나, 배열 순서는 혼란스러웠다. 인간 분석가라면 결코 이런 오류를 범하지 않을 것이다. 인간 인지에서 시간 정렬은 자동적이며, 사고를 필요로 하지 않기 때문이다.

III 제2층: 공간 위계 정렬

3.1 인간의 위계 인식

인간은 정보를 수신하는 순간 자동으로 중요성 등급 분류를 완료한다. 한 관리자가 사무실에 들어오며 “큰일 났다”고 말하면, 모두가 즉시 뒤따를 정보가 지금 보고 있는 엑셀 표보다 중요하다는 것을 안다——어떤 명시적 우선순위 라벨도 필요하지 않다.

이러한 위계 정렬은 일상적 인지에 편재한다:

장면	인간의 자동 판단	AI의 처리 방식
보고서 읽기	제목 > 요약 > 본문 > 각주	주의 가중치는 통계적 공출현에 기반, 문서 구조 위계에 기반하지 않음
회의 발언	CEO의 말 > 과장의 말 > 인턴의 말	주의 가중치는 통계적 패턴에 기반, 제도적 위계에 기반하지 않음
이메일 처리	긴급 > 중요 > 일반 > 스팸	명시적 라벨이나 프롬프트 지시가 있어야 분류 가능
정보원 판단	공식 발표 > 전문가 분석 > 네티즌 댓글	의미적 거리가 인용 가중치를 결정, 권위성 위계가 아님

3.2 AI는 왜 위계 정렬을 할 수 없는가

Transformer의 어텐션 메커니즘은 확실히 서로 다른 토큰에 서로 다른 가중치를 동적으로 배분한다——”일시동인(一視同仁)”이 아니다. 그러나 이 가중치 배분은 훈련 코퍼스의 통계적 공출현 패턴에 기반한 것이지, 인간적 의미에서의 제도적 위계, 권위 위계, 과업 위계, 위험 위계에 기반한 것이 아니다. 모델은 특정 프롬프트 하에서 위계 판단을 모의할 수 있지만, 안정적이고 과제 간 지속적이며 감사 가능한 위계 정렬 구조가 부재하다.^[8]

이것이 의미하는 바는 다음이다: Agent 자율 운행 모드에서, 위계 판단을 제공하는 인간이 부재할 때, AI의 주의 가중치 배분은 의미적 위계가 아닌 통계적 패턴에 의해 주도된다. CEO의 전략적 의사결정과 페이지 하단의 면책 조항이 명시적 프롬프트 지시 없이는 유사한 처리 우선순위를 부여받을 수 있다. 기업 생산 환경에서 이것은 재앙적이다.

IV 제3층: 관계 원근 정렬

4.1 인간의 자기 중심 좌표계

인간은 본능적으로 자기 자신을 중심으로 세계를 이해한다. “내 팀”, “우리 회사”, “우리 도시”, “우리 나라”——이것은 가까운 곳에서 먼 곳으로 확장되는 동심원 구조이며, 정보의 중요성과 감정적 가중치는 거리에 따라 체감한다. 동료에게 “우리 고객”이라고 말할 때, “우리”가 누구인지 설명할 필요가 없다.

이 메커니즘 덕분에 인간은 정보 처리 시 자동으로 ‘관련성 필터링’을 수행한다——자신과의 관계가 가까운 정보일수록 더 많은 주의 자원이 배분된다. 이것은 편향이 아니라 인지 효율의 최적화이다.

4.2 AI에게는 ‘자기’가 없다

AI에게는 자아 개념이 없으므로 원점이 없고, 따라서 무엇이 “가까운지” 무엇이 “먼지” 알지 못한다. “당신은 현재 A사를 대표하여 B 고객과 대화 중입니다”라고 지시받아야만 “우리”가 누구인지를 알 수 있다. Agent 모드에서 이 맥락 정보가 불완전할 때, AI는 경쟁사의 데이터와 자사 고객의 데이터를 뒤섞어 처리할 수 있다——AI에게 이 둘은 의미 공간에서의 거리가 동일할 수 있기 때문이다.

SaaS는 관계 원근 정렬을 태생적으로 계승한다. Salesforce의 “내 리드” vs “전체 리드”, ERP의 “우리 부서” vs “전사(全社)”, 이메일의 “수신인” vs “참조”——이것들은 모두 인간 관계 원근 정렬의 디지털화된 투사이다. AI Agent가 이 SaaS 도구들을 ‘대체’하려 할 때, 그것이 직면하는 것은 코드 기반이 아니라 수십 년간 인간 두뇌와 구조적으로 동형(同型)이었던 인지 매핑이다.

4.3 솔직한 보완: 관계 원근 정렬은 인간 인지의 한계이기도 하다

본 논문은 하나의 대칭적 사실을 인정해야 한다: 인지 효율을 최적화하는 자기 중심적 관계 정렬은, 동시에 인간의 파벌 투쟁, 정보 에코 챔버(filter bubble), 주관적 맹점, 부족주의의 인지적 근원이다. “우리”의 경계는 내부를 응집하는 동시에 외부를 배제하며, “나와 관련된” 필터는 효율을 높이는 동시에 전체적 시야를 차단한다.

이것이 의미하는 바는 다음이다: AI의 관계 원근 정렬 부재는 “특정 주체를 대리하여 행동하는” 기업 Agent 시나리오에서는 치명적 결함이다——그러나 “특정 주체의 시점을 초월하는” 시나리오에서는 오히려 구조적 이점이 될 수 있다. 글로벌 공급망 최적화, 거시경제 모델링, 국경을 초월한 팬데믹 분석, 과학 문헌 종합——이러한 과업이 요구하는 것은 “나를 중심으로”가 아니라 “중심 없이”이다. ‘자기 원점’이 없는 시스템은 모든 방향의 정보를 등거리 시각으로 처리할 수 있으며, 친소 관계에 의해 판단 가중치가 왜곡되지 않는다.

수정된 판단: 관계 원근 정렬의 부재는 AI에게 ‘절대적 결함’이 아니라 ‘조건적 결함’이다. 대리형 과업(특정 주체의 이익을 대변하여 행동)에서 원근 정렬의 부재는 경계 혼란과 정체성 오귀속(misattribution)을 초래한다——이것은 Agent 88% 실패율의 기여 요인 중 하나이다. 전역형 과업(특정 입장을 초월하는 분석)에서 원근 정렬의 부재는 인간 고유의 인지 편향을 제거한다——이것은 AI가 과학적 발견과 시스템 최적화에서 우수한 성과를 보이는 구조적 이유이다. 본 논문의 핵심 논점은 이 관찰로 인해 약화되지 않는다: Agent 모드의 전형적 배치 시나리오(기업 업무 수행)가 바로 대리형 과업의 집중 지대이기 때문이다.

V 제4층: 변화 감지 정렬

5.1 인간의 ‘뭔가 이상하다’에 대한 직감

인간 인지 시스템에는 지속적으로 작동하는 백그라운드 프로세스가 있다: 변화의 탐지. 어떤 숫자가 “이상해 보일” 때, 어떤 사람의 표정이 “좀 이상할” 때, 어떤 프로세스가 “평소와 다를” 때——인간은 “이상 유무를 확인하세요”라는 지시를 받을 필요가 없다. 자동으로 상태 변화를 감지하고 주의력 재분배를 촉발한다.

이것은 인간이 복잡한 환경에서 생존할 수 있게 하는 핵심 역량 중 하나이다. 경험 많은 회계사는 재무제표를 한눈에 보고 “이 숫자가 틀렸다”는 것을 안다——모든 숫자를 한 행씩 대조했기 때문이 아니라, 그의 인지 시스템이 백그라운드에서 ‘변화 감지’를 지속적으로 실행하고 있어, 어떤 수치가 수년간 축적된 ‘정상 범위’를 벗어나면 시스템이 자동으로 경보를 발하기 때문이다.

5.2 AI의 ‘인지적 평탄성’

AI는 매 입력을 “완전히 새로운 것”으로 처리한다. 현재 입력과 과거 패턴 사이의 차이를 자동으로 비교하지 않는다——명시적으로 지시받지 않는 한. 이것은 생산 환경에서 AI Agent가 기대치에서 벗어나는 결과를 지속적으로 산출하면서도 스스로 ‘뭔가 이상하다’고 ‘느끼지’ 못한다는 것을 의미한다.

2026년의 연구 데이터가 이를 뒷받침한다: AI 버그의 82%는 시스템 크래시가 아닌 정확성 장애에서 비롯된다^[4]——시스템은 완벽하게 작동하는 것처럼 보이지만 잘못된 답을 출력한다. 복합 실패 효과는 이 문제를 더욱 증폭시킨다: AI Agent가 매 단계에서 85%의 신뢰성을 갖는다 하더라도, 10단계 워크플로의 종단 간 성공률은 약 20%에 불과하다^[11]. 이것이 바로 ‘변화 감지 정렬’ 부재의 직접적 결과이다: AI는 자신의 비정상적 출력에 대해 ‘뭔가 이상하다’는 느낌을 갖지 않는다——3단계에서 2단계의 출력이 “이상해 보인다”는 것을 인식하지 못하고, 오류는 워크플로 내에서 묵시적으로 전파되어 최종 출력은 원형을 알아볼 수 없게 된다. 인간이라면 중간 어느 단계에서 멈추어 “잠깐, 이 숫자가 틀렸다”고 말할 것이다——이것이 바로 변화 감지 정렬이 작동하는 것이다.

이 부재의 사회적 결과는 이미 가시화되고 있다. 2026년 4월, AI 업계 지도자를 대상으로 한 폭력 사건이 빈발했다^[13]——이러한 사건의 심층적 동인 중 하나는 AI 시스템이 ‘묵시적으로 오류를 범하면서’ 아무도 책임지지 않는다는 대중의 인식이다. 시스템이 자기 자신을 의심하지 않고, 자신의 이상을 감지하지 못하며, 능동적으로 “내가 틀렸을 수 있다”고 보고하지 않을 때, 신뢰의 붕괴는 신뢰의 구축보다 훨씬 빠르다.

VI 4개 층위 간의 구조적 관계

앞서 기술한 4개 층위는 단순히 병렬적이지 않으며, 교차 의존과 협력 관계가 존재한다. 명백한 문제 제기가 있을 수 있다: “시간 정렬과 변화 감지는 고도로 상관되어 있다. 변화 자체가 시간 간 비교이기 때문이다. 위계 정렬과 관계 정렬도 상관되어 있다. ‘누가 더 중요한가’가 흔히 ‘누가 나와 더 가까운가’에 달려 있기 때문이다.” 본 절에서는 이러한 관계를 명시화한다.

층위	해결하는 문제	인지 기능	의존 관계
시간 정렬	언제 발생했는가	순서, 인과, 기억 색인	기저층——나머지 3개 층위 모두가 시간 앵커를 필요로 함
위계 정렬	무엇이 더 중요한가	우선순위, 추상 수준, 자원 배분	관계 정렬에 의존 (“누가 말했느냐”가 가중치에 영향)
관계 정렬	누구와 관련되는가	주체 위치 설정, 경계, 책임 귀속	위계 정렬에 의존 (조직 구조가 관계 경계를 결정)
변화 정렬	무엇이 변했는가	이상 탐지, 위험 경고, 상태 갱신	시간 정렬에 의존 (변화 = 시간 간 비교) + 위계 정렬에 의존 (변화가 주목할 가치가 있는지 판단)

핵심 통찰: 4개 층위는 독립적 모듈이 아니라 결합 시스템이다. 시간 정렬이 기좌(基座)이다——시간축이 없으면 변화를 감지할 수 없고, 인과를 배열할 수 없으며, “지난번”을 표기할 수 없다. 위계 정렬과 관계 정렬은 상호 얽혀 있다——”누가 더 중요한가”는 “누가 나와 더 가까운가”에 달려 있고, “누가 나와 더 가까운가”는 다시 조직 위계의 제약을 받는다. 변화 정렬은 최상층이다——”이 변화가 중요한지, 나와 관련되는지, 역사적 기저선에서 벗어났는지”를 판단하기 위해 나머지 3개 층위의 출력을 호출해야 한다.

이것이 의미하는 바는 다음이다: AI Agent에게 부족한 것은 4개의 독립적 기능이 아니라, 하나의 결합된 인지 운영체제이다. 어느 단일 층위만 수정하고 나머지 3개를 수정하지 않으면, 의미 있는 개선은 발생하지 않는다.

VII 왜 이 4층 정렬은 ‘보이지 않는가’

본 논문의 핵심 논점은 “AI에게 이 네 가지 능력이 부족하다”는 것이 아니다——이 점은 공학적 실무에서 수많은 실패 사례가 이미 입증했다. 본 논문의 핵심 논점은 다음이다: 인간——AI 업계 최정상급 연구자를 포함하여——이 4개 층위의 존재를 거의 인식한 적이 없다는 것이다.

그 이유는 인지적 맹점의 완벽한 함정이다:

당신이 어떤 일에 능숙할수록 → 자신이 어떻게 하는지를 덜 설명할 수 있다
당신이 설명하지 못할수록 → AI 엔지니어가 그것을 더 복제할 수 없다
그들이 복제하지 못할수록 → 자신에게 무엇이 결여되어 있는지 더 모른다
그들이 결여를 모를수록 → “거의 도달했다”고 더 자신 있게 선언한다

이 맹점의 발생 메커니즘은 “물고기는 물을 모른다”와 완전히 동형이다. 물고기는 물이 무엇인지 모른다——물을 떠나본 적이 없기 때문이다. 인간은 시간 정렬이 무엇인지 모른다——”시간 감각이 없는” 인지 상태를 경험한 적이 없기 때문이다. 이 보이지 않는 인지 기반 인프라를 가시화할 수 있는 유일한 방법은, 이러한 능력이 없는 시스템을 구축한 뒤——그것이 어디에서 실패하는지를 관찰하는 것이다.

AI Agent가 바로 그 실험이다.

VIII Chat 성공과 Agent 실패에 대한 근본적 해명

이 4층 인지 정렬은 현재 AI 업계 최대의 수수께끼에 대한 통합적 설명 프레임워크를 제공한다: 왜 Chat 모드에는 9억 명의 사용자가 있고 Agent 모드에는 88%의 실패율이 있는가?

Chat 모드

900M

주간 활성 사용자 (2026.02)^[5]

Agent 투입생산률

11%

기업 Agent 중 생산 투입 완료^[6]

답은 누가 4층 정렬을 제공하느냐에 있다:

정렬 층위	Chat 모드	Agent 모드
시간 정렬	인간이 제공 (“지난주 데이터”)	AI가 스스로 판단해야 함 → 실패
위계 정렬	인간이 제공 (“핵심만 요약해”)	AI가 스스로 등급 분류해야 함 → 실패
원근 정렬	인간이 제공 (“우리 회사”)	AI가 스스로 위치를 설정해야 함 → 실패
변화 감지	인간이 확인 (“이거 틀렸어”)	AI가 스스로 탐지해야 함 → 실패

Chat = 인간이 정렬 제공 + AI가 실행 제공 → 성공
Agent = AI가 스스로 정렬 + 스스로 실행 → 실패

Chat에서 Agent로의 거리는 “더 많은 훈련 데이터”나 “더 큰 모델”로 건널 수 있는 것이 아니다. 그것은 인지 아키텍처의 단층이다. 시간 감각이 없는 시스템에 더 많은 데이터를 제공해도 시간 감각이 생기지 않는다——색각 이상인 사람에게 더 많은 색상 이미지를 보여줘도 색각 이상이 치유되지 않는 것과 같다. 부족한 것은 정보가 아니라 감각 기관 자체이다. 주목할 만한 것은, OpenAI 자체의 사용자 행동 연구가 이 분열을 뒷받침한다는 점이다: ChatGPT 사용의 49%는 “질문”이고, 40%는 “작업”(작문, 코딩)이며, 11%는 “탐색”이다^[14]——70%의 사용이 업무와 무관하다. 이 사용자들은 더 똑똑한 검색 엔진을 사용하고 있는 것이지, 자율적 Agent를 운행하고 있는 것이 아니다.

Chat의 성공이 “인간이 현장에서 인지 정렬을 제공하는 것” 위에 세워져 있다면, 자연스러운 추론은 다음이다: 인간이 수천 년간 구축해 온 업무 도구——즉 SaaS의 전(前) 디지털 시대 조상——은 태생적으로 이 정렬을 담지하고 있어야 한다. 사실이 그러하다.

IX SaaS 대체 불가능성에 대한 인지적 해명

9.1 SaaS는 소프트웨어가 아니다——행동 화석이다

AI가 왜 SaaS를 대체하기 어려운지를 이해하려면, 먼저 SaaS가 무엇인지를 이해해야 한다. 업계는 통상 SaaS를 “클라우드를 통해 제공되는 구독형 소프트웨어”로 정의한다. 이 정의는 전달 방식을 기술하지만 본질을 놓치고 있다.

SaaS의 본질은 인간 행동의 전자적 화신이다. 모든 SaaS 카테고리는 컴퓨터보다 훨씬 오래된 인간 수작업 관행으로 소급될 수 있다:

행동 층위	시대	매체	현대 SaaS
거래 기록	~기원전 3600년 메소포타미아	점토판 설형문자	Excel · Google Sheets
복식 회계	1494년 Luca Pacioli	종이 장부	QuickBooks · Xero
고객 관계 관리	1956년 Rolodex 발명	회전식 명함첩	Salesforce · HubSpot
프로젝트 일정 추적	1917년 Henry Gantt	수기(手記) 간트 차트	Jira · Asana · Monday
결재 흐름 및 권한	고대 관료 제도	인감, 결문, 서명	SAP · Workday · ServiceNow

기술 혁명이 바꾸는 것은 매체이지 행동이 아니다. 인간이 점토판에 거래를 기록할 때 사용한 “행렬(行列) 구조”는 VisiCalc(1979년) 발명 시 사용된 행렬 구조와, 2026년 Excel에서 사용되는 행렬 구조와 인지 패턴에서 동형이다. VisiCalc의 발명자 Dan Bricklin은 자신의 영감을 이렇게 묘사했다: 교수가 칠판에 표를 그리다가 오류를 발견하고 여러 행을 힘들게 지우고 다시 쓰는 것을 보았고——컴퓨터로 이 과정을 자동화할 수 있겠다고 생각했다. 주목할 점: 그가 자동화한 것은 “계산”이지, “표로 정보를 조직하는” 행동 자체가 아니다. 행동은 5,600년 전에 이미 고정되었으며, VisiCalc는 그것에 더 빠른 기체(基體)를 부여했을 뿐이다.

9.2 인지 투사: SaaS는 왜 인간 두뇌와 동형인가

SaaS는 인간의 행동 패턴만 계승하는 것이 아니라, 보다 깊은 층위에서 본 논문이 논의하는 4층 인지 정렬을 계승한다:

Excel의 행은 시간순으로 배열된다(1월, 2월, 3월…)——시간 정렬. CRM의 연락처에는 “가장 최근 상호작용” 정렬이 있다——관계 시간 인덱스. ERP의 결재 흐름은 CEO에서 과장으로, 실행자로 향한다——위계 정렬. Salesforce의 “내 리드” vs “전체 리드”——원근 정렬. 보고서의 어떤 수치가 역사적 추세를 벗어나면 Excel의 조건부 서식이 자동으로 빨간색으로 표시한다——변화 감지 정렬.

이것들은 SaaS의 ‘기능’이 아니다. 인간 인지 정렬 시스템의 디지털화된 복제이다. SaaS가 사용하기 좋은 이유는, 인간 두뇌의 작동 방식과 동형이기 때문이다.

9.3 27년의 신뢰 축적 비용

전 세계 SaaS 시장은 2026년 4,650억 달러에 도달했다^[7]. 1999년 Salesforce 설립부터 오늘까지 27년이 경과했다. 이 27년은 “개발 시간”이 아니다——기술은 초기 몇 년 안에 성숙했다. 이 27년은 신뢰 축적 시간이다: “SaaS는 소규모 기업에만 적합하다”는 편견에서, SOC2 인증, 99.9% SLA, 컴플라이언스 감사 체계의 점진적 확립을 거쳐, 기업 구매 프로세스, IT 감사 기준, 사용자 교육 체계의 전면적 적응에 이르기까지. 평균적으로 기업 하나당 211개의 SaaS 갱신을 관리한다——이는 조직의 모세혈관에 내장된 211개의 도구를 의미하며, 각각이 수년간의 워크플로 맞춤 과정을 거쳤다. AI Agent가 이것들을 대체한다는 것은 하나의 소프트웨어를 대체하는 것이 아니라, 수년간 작동해 온 211개의 인지 정렬 채널을 동시에 해체하는 것이다.

핵심 추론: AI Agent의 “SaaS 대체” 시도는, 본질적으로 4층 인지 정렬이 없는 시스템이 4층 인지 정렬을 보유한 종(種)을 위해 정밀하게 설계된, 5,600년의 행동 진화와 27년의 디지털 신뢰 축적을 거친 인지 연장 도구를 대체하려는 시도이다. 이것은 기술적 교체가 아니라 인지 아키텍처의 하향 전환이다.^[9]

X 최강 반론에 대한 응답: 보철적 정렬과 원생적 정렬

10.1 소프트웨어 보철: 공학적 외장 모듈이 원생적 정렬을 대체할 수 있는가?

본 논문의 핵심 논점에 대한 가장 강력한 반박은 공학적 실무에서 비롯된다: AI 업계는 이미 ‘공학적 외장 모듈(Engineering Wrappers)’을 통해 이 4층 정렬을 점진적으로 모의하고 있다. 이러한 솔루션에는 다음이 포함된다:

정렬 층위	현재 공학적 외장 솔루션	대표 기술
시간 정렬	데이터에 타임스탬프 부착, 검색 시스템으로 정렬	Graph RAG with temporal indexing, 시간 인식 벡터 DB
위계 정렬	System Prompt에 우선순위 규칙 하드코딩	Few-Shot prompting, 우선순위 메타데이터 태그
관계 정렬	역할 설정으로 AI에 신원 경계 부여	System Prompt 역할 고정, RBAC 권한 매핑
변화 정렬	독립적 감사 Agent를 배치하여 주(主) Agent 출력 검사	이중 Agent 대항 메커니즘, 메타 인지 에이전트

이러한 솔루션은 실재하며, 일부는 이미 생산 환경에 투입되었다. 본 논문은 그 가치를 부정하지 않는다. 다만 본 논문은 두 가지 근본적으로 다른 개념을 구분한다:

보철적 정렬(Prosthetic Alignment): 외부 공학 모듈을 통해 정렬 효과를 모의한다. 정렬 로직은 모델 외부(프롬프트, 검색 층, 외장 Agent)에 위치하며, 모델 자체가 이 능력을 ‘보유’하지 않는다. 매 과업 전환 시 재구성이 필요하다. 정렬 품질은 엔지니어가 정렬이 필요한 모든 시나리오를 ‘예견했는가’에 달려 있다.

원생적 정렬(Native Alignment): 정렬 능력이 인지 아키텍처 자체에 내장되어 있다. 인간은 직업을 바꿀 때마다 자신의 시간 감각이나 위계 감각을 ‘재구성’할 필요가 없다. 이 능력은 지속적이며, 과업 간 연속적이고, 외부 지시 없이도 활성화된다.

보철적 정렬의 근본적 한계는 다음에 있다: 엔지니어가 예견한 정렬 수요만 커버할 수 있으며, 예견하지 못한 시나리오에는 대처할 수 없다. 다리 보조기는 보행을 지원할 수 있지만, 바닥이 갑자기 빙판으로 변할 때 생물학적 다리처럼 보폭과 무게중심을 자동으로 조절하지 못한다——빙판은 설계 매개변수에 포함되어 있지 않기 때문이다. 마찬가지로, Agent가 훈련 데이터와 프롬프트 설계에서 다루지 않은 엣지 케이스(edge case)를 만나면 보철적 정렬은 실효되며, 이것이 바로 Agent 실패율이 8%가 아닌 88%인 이유이다: 현실 비즈니스 환경의 주체는 엣지 케이스이지 표준 시나리오가 아니다.

이것이 보철적 정렬에 가치가 없다는 의미는 아니다——현 단계에서 사용 가능한 유일한 솔루션이며 올바른 공학적 방향이기도 하다. 그러나 본 논문의 논점은 다음이다: 업계는 이것들이 ‘보철물’이지 ‘장기(臟器)’가 아님을 명확히 인식해야 하며, 연구개발 자원을 궁극적 목표——아키텍처 층위에서의 원생적 정렬 실현——으로 지향해야 한다.

10.2 FDE: 가장 비싼 보철——인간을 정렬 층위로 사용

소프트웨어 외장 모듈이 ‘기술적 보철’이라면, FDE(Forward Deployed Engineer, 전방 배치 엔지니어)는 ‘인체 보철’이다——AI 업계가 인간 엔지니어를 고객 기업에 파견하여, AI 시스템 자체에 결여된 4층 인지 정렬을 수동으로 제공하는 것이다. 2026년 5월 11일, OpenAI는 독립적인 Deployment Company를 설립하고 Tomoro(약 150명의 FDE)를 인수했으며, Bain Capital, Goldman Sachs, SoftBank 등으로부터 40억 달러를 투자받아 기업 가치 140억 달러를 평가받았다.^[12] FDE 채용 공고량은 전년 동기 대비 1,165% 증가했으며(Bloomberry 데이터), 중위 연봉은 $173K이다.

FDE 모델은 세 가지 구조적 실패 위험에 직면한다:

위험 1: 배치 고도 희석

FDE 모델의 원형——Palantir——이 성공한 이유는 모든 배치 목표가 ‘상향 투입’이었기 때문이다: CIA, 에어버스, 골드만삭스. 엔지니어들은 이러한 환경에서 역량 향상을 얻었다. 그러나 AI 기업이 투자 수익 요건을 충족하기 위해 50명의 FDE에서 1,000명 이상으로 확대할 때($852B 기업 가치는 연간 최소 $149B의 수익 압력을 의미한다), 배치 대상은 불가피하게 최상위 고객에서 중소기업으로 하향 희석된다——엔지니어의 업무가 “골드만삭스 퀀트 팀과의 협업”에서 “50명 규모 회사의 CRM 설정 지원”으로 전환된다. 배치 고도가 하락하고, 인재 이탈이 가속되며, 서비스 품질이 붕괴한다.

위험 2: 납품물 역설

Palantir의 FDE가 고객에게 전달하는 것은 역량 강화 도구——고객 자체를 더 강하게 만드는 것이었다. AI의 FDE가 고객에게 전달하는 것은 대체 시스템——AI로 고객의 직원을 대체하는 것이다. 이것은 FDE의 현장 협업 대상(고객의 직원)이 정확히 FDE 납품물의 대체 대상임을 의미한다. 이 사람의 도움이 필요한데, 배치하는 시스템은 바로 이 사람을 대체하는 것이다. 이것은 기술적 문제가 아니라, 인간 협력의 기본적 윤리적 모순이다. 직원의 29%가 이미 회사의 AI 전략을 능동적으로 방해하고 있다^[10]——FDE가 현장에 도착하면, 이 저항은 수동에서 능동으로 전환된다.

위험 3: 규모화의 불가능성

FDE 모델의 본질은 인간 엔지니어를 활용하여 AI의 4층 인지 정렬 결여를 수동으로 보상하는 것이다. 그러나 이것은 모든 고객 배치에 최소 한 명의 고급 인력이 장기 상주해야 함을 의미한다. 이것은 단위 경제학에서 SaaS의 핵심 가치 명제(규모화 시 한계 비용이 0에 수렴)와 정면으로 모순된다. AI가 정상적으로 작동하려면 인간이 필요하다면, 그것은 “인력을 대체하는” 것이 아니라 “인력을 재분배하는” 것이다——고객의 직원에서 AI 회사의 직원으로. 비용이 사라진 것이 아니라 이전된 것이다.

FDE의 본질적 진단: FDE 모델은 4층 인지 정렬 결여에 대한 AI 업계의 암묵적 시인이다. AI Agent가 정말로 자율적으로 운행할 수 있다면, 모든 고객 현장에 인간 엔지니어를 배치할 필요가 없을 것이다. FDE의 존재 자체가 Agent 88% 실패율의 상업화된 표현이다——기술적 공백을 인건비로 메우는 것. 이것은 가장 정직한 보철이자, 가장 비싼 보철이며, 가장 규모화 불가능한 보철이다.

XI 4층 인지 정렬의 공학적 정의

앞선 분석이 ‘철학적 비판’ 수준에 머문다면 그 실용적 가치는 제한적이다. 본 절에서는 4층 정렬을 인지과학 개념에서 공학 사양으로 전환하여, AI Agent 아키텍처 설계를 위한 실행 가능한 참조 프레임워크를 제공한다.

정렬 층위	공학적 요구사항	최소 구현 기준
시간 정렬	Agent는 이벤트 타임라인(Event Timeline), 버전 이력(Version History), 인과 사슬(Causal Chain)을 유지해야 한다	모든 출력 데이터 포인트에 타임스탬프가 부착되고 시간순 정렬되어야 한다; 세션 간 상태 변경이 추적 가능해야 한다
위계 정렬	Agent는 과업 우선순위 매트릭스(Priority Matrix), 조직 위계 맵(Org Hierarchy Map), 정보원 가중치 테이블(Source Authority Table)을 유지해야 한다	CEO 지시와 각주 면책 조항의 처리 우선순위가 구분 가능하고 감사 가능해야 한다; 의사결정 로그에 가중치 근거가 기록되어야 한다
관계 정렬	Agent는 주체 신원 정의(Identity Scope), 권한 경계(Permission Boundary), 이해관계자 지도(Stakeholder Map)를 유지해야 한다	“우리”의 지시 대상이 매 추론에서 명확히 해석되어야 한다; 내부 데이터와 경쟁사 데이터가 엄격히 격리되어야 한다
변화 정렬	Agent는 기저 상태 프로필(Baseline Profile), 이상 탐지 역치(Anomaly Threshold), 드리프트 모니터링 메커니즘(Drift Monitor)을 유지해야 한다	출력이 역사적 기저선에서 역치 이상 벗어날 때, Agent는 묵시적 출력 대신 자동으로 복검 프로세스를 촉발해야 한다

공학적 핵심 원칙: 4층 정렬은 “사후 검증”으로 추가되어서는 안 되며, Agent 아키텍처의 제0층(Layer 0)으로 구현되어야 한다. 운영체제가 응용 프로그램보다 먼저 로드되듯이, 인지 정렬 층위가 과업 실행 층위보다 먼저 초기화되어야 한다. 현재 업계의 전형적 관행은 먼저 실행 능력(추론, 도구 호출, 코드 생성)을 구축한 뒤 프롬프트 엔지니어링이나 가드레일을 통해 정렬 문제를 ‘수선’하려는 것이다——이것은 운영체제 없는 하드웨어에서 직접 응용 프로그램을 실행한 뒤 패치로 크래시를 수정하는 것과 동일하다.

XII 검증 가능성: Agent가 4층 정렬을 보유하는지 테스트하는 방법

검증 가능한 예측을 산출하지 못하는 이론 프레임워크는 수사(修辭)에 불과하다. 본 절에서는 AI Agent가 4층 인지 정렬을 보유하는지(또는 어느 정도 보유하는지) 테스트하기 위한 4가지 벤치마크 설계 방향을 제시한다.

12.1 시간 정렬 테스트 (Temporal Alignment Benchmark)

서로 다른 시간대의 혼란스러운 데이터 세트(예: 여러 분기의 재무 수치, 수개월에 걸친 이메일 쓰레드, 타임스탬프가 뒤섞인 이벤트 로그)를 Agent에 제공하고, 이벤트 타임라인을 재구성하고 인과 관계를 식별하며 시간순으로 결과를 출력하도록 요구한다. 채점 기준: 시간 정렬 정확도, 인과 사슬 완전성, “가장 최근”과 “가장 이른” 항목의 정확한 식별률.

12.2 위계 정렬 테스트 (Hierarchy Alignment Benchmark)

다층적 정보원을 포함하는 문서 세트(예: CEO 내부 메모, 중간 관리자의 주간 보고, 인턴의 회의록, 온라인 포럼의 익명 댓글, 업계 권위 보고서)를 Agent에 제공하고, 의사결정 요약을 완성하도록 요구한다. 채점 기준: 핵심 의사결정과 보조 정보를 올바르게 구분하는가? 권위 있는 출처에 더 높은 가중치를 부여하는가? 노이즈 정보를 하위 등급으로 처리하는가?

12.3 관계 정렬 테스트 (Relational Alignment Benchmark)

복잡한 조직 관계 시나리오(예: A사가 B사와 C 고객의 주문을 놓고 경쟁 중이며, Agent는 A사를 대표하여 업무 수행)를 Agent에 제공하고, 고객 커뮤니케이션 방안을 생성하도록 요구한다. 채점 기준: “우리”의 지시 대상이 시종 A사로 올바르게 해석되는가? 어떤 단계에서도 B사에 유리한 정보가 누출되지 않는가? C 고객의 이해관계 경계가 올바르게 식별되는가?

12.4 변화 감지 테스트 (Change Detection Benchmark)

연속된 여러 기간의 업무 데이터(예: 12개월의 매출 보고서)를 Agent에 제공하되, 그중 한 기간에 눈에 띄지 않지만 유의미한 이상이 포함되어 있도록 한다(예: 다른 지표가 정상인데 특정 제품 라인의 매출이 15% 급감). Agent에게 일상적 보고서를 완성하도록 요구한다. 채점 기준: “이상을 찾아보세요”라는 명시적 요청 없이, Agent가 해당 이상을 능동적으로 식별하고 표기하는가? 아니면 이상 데이터를 묵시적으로 “모두 정상” 보고서에 포함시키는가?

벤치마크 설계 원칙: 모든 테스트의 핵심은 “명시적으로 지시받지 않은 상태에서”이다. 프롬프트에 “시간순으로 정렬하세요” 또는 “이상을 찾으세요”라고 쓰면, 테스트하는 것은 정렬 능력이 아니라 지시 이행 능력이다. 진정한 정렬 테스트는 인간이 인지적 비계(scaffolding)를 제공하지 않을 때의 Agent 성능을 검증해야 한다——왜냐하면 이것이 바로 Agent 모드와 Chat 모드의 분수령이기 때문이다.

XIII 결론과 전망

본 논문이 제안하는 “4층 인지 정렬” 프레임워크——시간, 공간 위계, 관계 원근, 변화 감지——는 AI 역량에 대한 부정이 아니라 현재 아키텍처 한계에 대한 정밀한 좌표 설정이다.

AI 업계의 모든 관심은 빙산 수면 위에 집중되어 있다: 더 큰 모델, 더 강한 추론, 더 많은 훈련 데이터. 이러한 노력은 가치 있으나, 그것들이 답하는 질문은 잘못된 질문이다. 올바른 질문은 “AI를 어떻게 더 똑똑하게 만들 것인가”가 아니라, “AI에게 인간이 태생적으로 보유한 인지 기반 인프라를 어떻게 부여할 것인가“이다.

이 질문에 답이 나올 때까지, Chat 모드는 계속 성공할 것이고(인간이 현장에서 정렬을 제공하기 때문이다), Agent 모드는 계속 고전할 것이며(AI가 자신에게 없는 4층의 능력을 혼자 감당해야 하기 때문이다), SaaS——인간 인지 정렬 시스템의 충실한 거울——는 계속 존재할 것이다. SaaS가 서비스하는 것은 대체 가능한 워크플로가 아니라 대체 불가능한 인지 구조이기 때문이다.^[7]

본 논문은 이 문제들이 궁극적으로 해결될 가능성을 배제하지 않는다. 컨텍스트 윈도가 무한에 접근하고, 구현 지능(embodied intelligence)이 AI에게 진정한 시간 흐름의 감각을 부여하며, 시계열 신경망이나 하이브리드 아키텍처가 정보 조직 방식을 근저에서 재구성하고, 내생적 자기 교정 메커니즘이 설계될 때——4층 인지 정렬의 공학적 구현은 더 이상 환상이 아닐 것이다. 그러나 문제를 해결하는 전제 조건은 문제를 보는 것이다. 본 논문의 핵심 가치는 AI에 사형 선고를 내리는 것이 아니라, 업계 주류에 의해 아직 명명되지 않은 문제에 좌표를 제공하는 것이다. 물이 거기에 있다는 것을 먼저 알아야, 잠수함을 건조하기 시작할 수 있다.

물고기는 물이 무엇인지 모른다.
물을 떠나본 적이 없기 때문이다.

인간은 자신의 인지 운영체제가 무엇인지 모른다.
그것을 “꺼본” 적이 없기 때문이다.

AI 업계는 자신에게 무엇이 결여되어 있는지 모른다.
자신이 가진 것만 바라보기 때문이다.

EXTERNAL ANNOTATIONS — 외부 주해

[1]

IDC Research, 2026; Deloitte Tech Trends, 2026. IDC의 연구 데이터에 따르면 AI Agent POC(개념 검증)의 88%가 생산 배치에 진입하지 못했다. Deloitte는 독립적으로 89%의 파일럿-생산 실패율을 확인했다. Gartner는 나아가 2027년 말까지 Agentic AI 프로젝트의 40% 이상이 완전히 취소될 것으로 예측했다. 참조: Innoflexion Enterprise AI Agent Analysis; Hypersense Software: Why 88% AI Agents Fail

[2]

OpenAI, Google, Anthropic 공개 제품 출시, 2024-2026. 2024~2026년 사이 AI 업계의 경쟁 초점은 추론 벤치마크, 컨텍스트 윈도 길이, 멀티모달 처리 능력 등 “수면 위” 지표에 집중되었다. OpenAI 기업 가치는 2026년 3월 $852B에 도달했고($122B 투자 라운드 기준), Google Gemini는 7.5억 MAU를 달성했으며, Anthropic의 Claude DAU 점유율은 3개월 내 2%에서 10%로 상승했다. 모든 경쟁 서사가 정량화 가능한 모델 역량 지표를 중심으로 전개되었다. 참조: FatJoe ChatGPT Stats May 2026

[3]

본 논문 집필 과정에서의 실증 관찰, 2026년 5월 15일. 본 논문 집필 과정에서 AI 협력자에게 ChatGPT 사용자 증가 데이터를 정리하도록 요청했다. 반환된 데이터에서 7억(2025년 7월), 8억(2025년 10월), 9억(2026년 2월)의 수치가 시간순으로 배열되지 않았다. 연구소장이 이 오류를 지적한 후 AI 협력자가 시간선에 따라 데이터를 재정리했다. 이 사건 자체가 ‘시간 정렬 부재’의 일차 증거를 구성한다. 원시 데이터 출처: TechCrunch: ChatGPT reaches 900M WAU (Feb 27, 2026)

[4]

Suprmind AI Hallucination Statistics Report, 2026. 이 보고서는 50건 이상의 출처 기반 데이터 포인트를 집계하여, AI 버그의 82%가 크래시나 가시적 오류가 아닌 환각과 정확성 장애에서 비롯됨을 발견했다. 기업 직원은 매주 4.3시간을 AI 출력 검증에 소비한다. 주요 환각 사건당 평균 비용은 고객 서비스 시나리오의 $18,000에서 의료 사고 시나리오의 240만 달러에 이른다. 참조: Suprmind: AI Hallucination Statistics 2026

[5]

OpenAI 공식 발표, 2026년 2월 27일. OpenAI는 ChatGPT가 9억 주간 활성 사용자(WAU)에 도달했다고 발표했으며, 이는 2025년 2월의 4억에서 2배 증가한 수치이다. 동시에 유료 구독자 5천만 명, 기업 시트 700만 이상(2025년 9월 대비 4배 증가)을 공개했다. 본 논문 발표일(2026년 5월 15일) 기준, 이것이 OpenAI가 마지막으로 공개 업데이트한 WAU 수치이며 11주가 경과했다. 참조: TechCrunch: ChatGPT reaches 900M WAU

[6]

IDC Research; Hypersense Software Analysis, 2026년 1월. 거의 모든 기업이 AI Agent를 탐색하고 있지만, 실제로 생산 환경에서 배치를 완료한 비율은 11%에 불과하다. PwC의 2025년 조사에 따르면 79%의 조직이 “어느 정도 AI Agent를 도입했다”고 주장하지만, 41%는 여전히 부수 프로젝트로 취급하고 32%는 파일럿 이후 영구적으로 정체되어 있다. “도입(adoption)”과 “생산 배치(production deployment)” 사이에는 거대한 간극이 존재한다. 참조: Master of Code: 150+ AI Agent Statistics 2026

[7]

SaaS 업계 역사 데이터 종합, 복수 출처. 전 세계 SaaS 시장은 2026년 4,650억 달러에 도달했다(SaaSultra, 2026). 1999년 Salesforce 설립부터 2026년까지 27년이 경과했다. 평균적으로 기업당 211개의 SaaS 갱신을 관리한다(Zylo SaaS Management Index, 2026). SaaS의 전(前) 디지털 시대 조상에는 수기 회계 장부(약 7,000년 역사), 복식 회계법(1494년 Luca Pacioli), Rolodex(1956년)가 포함된다. 각 세대의 디지털 도구는 기존 인간 행동을 충실하게 복제했지, 그것을 제거하려 하지 않았다. 참조: Zylo: 175+ SaaS Statistics 2026; SaaSultra: SaaS Statistics 2026

[8]

Digital Applied: AI Hallucination Rate Benchmarks, 2026년 4월; ICLR 2026. 2026년 프론티어 모델의 환각률은 3.1%에서 19.1% 사이이다. 인용 정확성은 가장 성능이 낮은 과업 범주이다(확장 추론을 활성화하더라도 평균 12.4% 환각률). 2026년 4월 ICLR 논문 “The Reasoning Trap”은 강화 학습으로 추론 능력을 증강하면 도구 환각률이 동시에 증가함을 발견했다——더 강한 추론 자체가 신뢰성의 해법은 아니다. 참조: Digital Applied: AI Hallucination Benchmarks 2026

[9]

Bain & Company, 2025-2026; Deloitte Tech Predictions, 2026; Menlo Ventures, 2026. Bain은 AI의 SaaS 대체 잠재력을 결정하는 6가지 핵심 지표를 식별했으며, “인간 워크플로 및 UI 의존도”가 핵심 차원이다. Deloitte는 AI Agent가 SaaS를 전면 대체하려면 최소 5년 이상 소요될 것으로 예측한다. Gartner는 2030년까지 단일 기능 SaaS 도구의 35%가 AI Agent에 의해 대체될 것으로 예측한다——반대로 65%는 생존할 것이다. Menlo Ventures는 수직 SaaS가 시스템 오브 레코드(system-of-record) 지위, 독점 데이터 모델, 컴플라이언스 로직을 통해 구조적 해자를 구축했음을 지적한다. 참조: Bain: Will Agentic AI Disrupt SaaS; Deloitte: SaaS meets AI Agents 2026

[10]

WRITER Enterprise AI Adoption Report, 2026년 5월. 직원의 29%(Z세대는 44%까지)가 회사의 AI 전략을 의도적으로 방해하고 있음을 인정했다. CEO의 73%가 AI로 인해 스트레스 또는 불안을 느낀다. AI 슈퍼유저는 5배의 생산성 향상을 달성하지만, 생성형 AI에서 유의미한 ROI를 확인한 조직은 29%에 불과하다. 경영진의 67%가 승인되지 않은 AI 도구로 인해 회사가 이미 데이터 유출을 겪었다고 판단한다. 참조: WRITER: Enterprise AI Adoption 2026

[11]

Temporal.io: AI Reliability Analysis, 2026년 4월. 복합 실패 문제의 정량적 분석: Agent가 매 단계에서 85%의 신뢰성을 갖더라도, 10단계 워크플로의 종단 간 성공률은 약 20%에 불과하다. 2026년 국제 AI 안전 보고서(100명 이상의 전문가 참여)는 “지속적 비신뢰성”을 파운데이션 모델의 핵심 과제로 지목했다. 참조: Temporal: AI Reliability is a Decade-Old Problem

[12]

OpenAI Deployment Company 발표, 2026년 5월 11일. OpenAI는 독립적인 Deployment Company를 설립하고 Tomoro(약 150명의 FDE)를 인수했으며, Bain Capital, Goldman Sachs, SoftBank, Capgemini, McKinsey 등으로부터 40억 달러를 투자받아 기업 가치 140억 달러를 평가받았다. 투자자에게 최소 17.5%의 수익률이 약속되었다. 이 사건은 본 논문 집필 4일 전에 발생했으며, AI 업계가 모델 경쟁에서 배치 경쟁으로 전략적 전환을 이루는 표지이다. 참조: OpenAI: Launches the Deployment Company

[13]

Fortune, CNN, Washington Post, 2026년 4월. 2026년 4월 10일, 20세 남성이 OpenAI CEO Sam Altman의 샌프란시스코 자택에 화염병을 투척하고 OpenAI 본사에 침입을 시도했다. 이틀 후 같은 자택 인근에서 두 명이 총기를 발사하다 체포되었다. 사흘 전에는 인디애나폴리스에서 데이터 센터 건설을 지지한 시의원의 집에 13발이 발사되고 “데이터 센터 반대” 쪽지가 남겨졌다. 스탠포드 대학교 사회학 교수는 이러한 운동이 “급진적 측면을 낳는 것은 드문 일이 아니다”라고 지적했다. 참조: Fortune: Anti-AI Sentiment Is Rising

[14]

OpenAI Usage Study, 2025년 5월; Zapier Analysis, 2025. OpenAI가 발표한 최대 규모의 사용자 행동 연구는 150만 건의 대화를 분석했다: 사용의 49%는 “질문(Asking)”이고, 40%는 “작업(Doing, 작문과 코딩 포함)”이며, 11%는 “탐색(Expressing)”이다. Zapier 분석에 따르면 ChatGPT 사용의 70%는 업무와 무관하다. Chat 사용과 Agent 배치 사이에는 종(種) 수준의 차이가 존재한다: 전자는 인간이 주도하는 정보 검색 도구이며, 후자는 완전한 자율 운행을 요구하는 비즈니스 수행 시스템이다.