Thought Paper · V3 · May 2026

Markdown vs HTML

멀티모달 AI 시대의 정보 포맷 아키텍처론

An Architectural Theory of Information Formats in the Age of Multimodal AI

발행일 2026년 5월 12일

분류 Original Thought Paper

분야 정보 이론 · AI 아키텍처 · 멀티모달 · 토큰 경제학

버전 V3

이조글로벌인공지능연구소

LEECHO Global AI Research Lab

Claude Opus 4.6 · Anthropic

요약 Abstract

2026년 5월, Anthropic 엔지니어 Thariq Shihipar는 《The Unreasonable Effectiveness of HTML》이라는 글을 발표하여, HTML이 Markdown을 대체하여 AI의 기본 출력 포맷이 되어야 한다고 주장했고, 이는 업계 전반에 걸친 광범위한 논쟁을 촉발했다. 본 논문은 AI 발전의 타임라인 — 과거, 현재, 미래 — 에 따라 Markdown과 HTML 두 기술 경로에 대한 아키텍처 분석을 수행하며, 양자 사이에 대체 관계는 존재하지 않고 멀티모달 AI 유기체 내에서 서로 다른 기능 계층에 봉사하는 상호 보완적 구성요소임을 논증한다. 본 논문은 겉보기에 대립하는 두 대표 인물 — Markdown을 옹호하는 Andrej Karpathy와 HTML을 추종하는 Thariq Shihipar — 이 실제로는 동일한 다층 아키텍처의 서로 다른 단면을 각각 기술하고 있음을 발견했다: 전자는 저장 계층의 대변인이고 후자는 실행 계층의 대변인이다. 본 논문은 세 가지 핵심 명제를 제시한다: (1) Markdown은 LLM 텍스트 예측 핵심의 네이티브 캐리어이며 대체 불가능하다; (2) HTML은 멀티모달 상호작용의 필연적 경로이며 불가결하다; (3) 음성은 멀티모달 발전의 미래 주도적 상호작용 방식이다. 이 셋은 ‘상호작용 계층 · 저장 계층 · 실행 계층’의 완전한 아키텍처를 구성하며, 그 정렬(alignment)이 곧 멀티모달 AI 능력의 창발(emergence)이다.

핵심어:
MarkdownHTML멀티모달 AI토큰 경제정보 엔트로피추론 토큰음성 상호작용수학적 형식화

Section I

서론: 재정의가 필요한 논쟁 A Debate That Needs Reframing

2026년 5월 8일, Anthropic의 Claude Code 엔지니어링 책임자 Thariq Shihipar가 소셜 미디어를 폭발시킨 장문의 글을 발표했다^[1]. 16시간 만에 440만 이상의 조회수, 8,200개의 좋아요, 15,700개의 북마크를 기록했다^[2]. 핵심 주장은 이것이었다: AI의 기본 출력 포맷으로서 Markdown의 시대는 끝나야 하며, HTML이 더 우수한 선택이다. 거의 동시에 OpenAI 공동 창립 멤버 Andrej Karpathy의 CLAUDE.md 파일은 GitHub에서 60,000개 이상의 스타를 획득하며^[3], 순수 Markdown으로 완전한 AI 지식 관리 패러다임을 구축했다^[4].

업계는 이를 ‘포맷 전쟁’으로 프레이밍했다. 그러나 본 논문은 이것이 ‘누가 누구를 대체하느냐’의 전쟁이 아니라, 타임라인을 통해 이해해야 하는 진화 과정임을 논증할 것이다 — Markdown의 지배적 위치는 LLM의 텍스트 예측 핵심에서 비롯되고, HTML의 부상은 멀티모달 상호작용의 수요에 대응하며, 음성은 미래 인간-AI 상호작용의 주요 통로가 될 것이다. 셋은 타임라인에서 순차적으로 등장하고, 아키텍처 내에서 각자의 자리를 찾는다.

Part I

과거: Markdown 시대의 확립

2022 – 2023

Section II

LLM의 텍스트 예측 핵심과 Markdown의 필연성 The Text Prediction Core and the Inevitability of Markdown

대규모 언어 모델의 모든 능력은 하나의 기본 메커니즘 위에 구축되어 있다: 다음 토큰 예측(next-token prediction). GPT-1에서 GPT-4까지, Claude에서 Gemini까지, 모든 LLM의 사전학습 목표는 주어진 앞 문맥(context)에서 다음 토큰을 예측하는 것이다. 이 메커니즘이 LLM의 ‘모국어’를 결정한다 — 생성하는 콘텐츠는 필연적으로 학습 코퍼스의 분포적 특성을 띤다.

그리고 학습 코퍼스의 포맷화된 텍스트 분포는 Markdown에 압도적으로 편향되어 있다^[18]. GitHub의 README.md, arXiv의 LaTeX 논문, Stack Overflow의 기술 Q&A, 개발자 문서 — 인터넷상 최고 품질의 구조화된 텍스트는 거의 전부 Markdown 또는 그 친척 포맷으로 존재한다. Markdown은 LLM의 ‘모국어’다 — LLM이 생성하는 Markdown은 다른 어떤 포맷보다 깔끔하고 일관성이 높다^[9]. 이는 재학습을 통해 바꿀 수 있는 것이 아니다 — 인터넷 자체의 콘텐츠 분포를 반영하기 때문이다^[18].

2022년 11월 ChatGPT가 출시될 때, GPT-3.5는 기본적으로 Markdown 구문으로 텍스트를 출력했다^[17]. 이는 OpenAI의 설계 선택이 아니라 학습 데이터의 자연스러운 결과였다. Karpathy는 나중에 교과서의 구조를 AI 학습의 세 단계에 비유했다: “내용 설명은 사전학습, 풀이 예시는 지도형 미세조정, 연습 문제는 강화학습 환경”^[5] — 그리고 이 모든 것의 매체가 Markdown이다.

2026년 4월, Karpathy는 이 비전을 극한까지 밀어붙였다. 그가 발표한 “LLM Wiki”는 제로코드 아키텍처 패턴으로, LLM이 능동적으로 Markdown 파일을 편찬·유지·상호연결하여 자가치유형 지식 베이스를 구축하는 것이었다^[29]. 해당 게시물은 48시간 만에 1,600만 조회수를 기록했다. 그의 위키는 단일 연구 분야에서 약 100편의 문서, 40만 단어로 성장했으며 — 수동 편집은 거의 없었다^[30]. VentureBeat는 Markdown을 “가장 LLM 친화적이고 컴팩트한 데이터 포맷”이라고 칭했다^[29]. Karpathy 자신의 프레임워크는 3계층이다: 원시 자료(불변의 사실 출처) → Wiki(LLM이 유지하는 Markdown 지식 계층) → Schema(CLAUDE.md를 운영 계약으로)^[31]. 이는 본 논문이 제안하는 3층 아키텍처와 구조적 동형성을 가진다.

더욱 핵심적인 것은 Karpathy가 2026년의 중심 질문을 재정의한 것이다: “흥미로운 질문은 더 이상 ‘모델을 어떻게 더 똑똑하게 만드는가’가 아니라 ‘모델이 접근할 수 있는 정보를 어떻게 구조화하는가’이다”^[29]. Markdown의 가치는 포맷의 심미성이 아니라 정보 구조화의 최적 매체라는 데 있다.

LLM의 핵심은 텍스트 예측이다. 텍스트 예측의 학습 데이터는 Markdown이 지배적 분포를 차지한다. 따라서 Markdown은 교체 가능한 ‘출력 포맷’이 아니라 LLM 인지 구조의 기저 인코딩이다. LLM의 출력 포맷 선호를 바꾸는 것은 인터넷의 콘텐츠 분포를 바꾸는 것과 같다 — 실행상 불가능하다.

Section III

정보 밀도와 수학적 네이티브성: Markdown의 이중 해자(Double Moat) Information Density and Math Nativeness: Markdown’s Double Moat

2022–2023년 초기 LLM 시대에 컨텍스트 윈도우는 극히 제한적이었다(GPT-3.5는 4,096–8,192 토큰에 불과^[8]). 모든 토큰이 귀중했다. 이 제약 하에서 Markdown의 정보 압축 우위는 결정적이었다.

토큰 압축비

3×

동일 콘텐츠 HTML vs Markdown^[8]

전체 문서 절감

40%

Markdown vs HTML 토큰 소비^[9]

테이블 정확도

60.7%

Markdown vs HTML 53.6%^[9]

그러나 정보 밀도는 Markdown의 첫 번째 해자(moat)에 불과하다. 두 번째는 더 깊다: 수학 공식의 생태계 네이티브성이다. 엄밀히 말해 Markdown 핵심 규격(CommonMark)은 수학 구문을 포함하지 않는다. 그러나 LaTeX 확장( $...$ 및 $$...$$)을 통해 Markdown 생태계 — GitHub Flavored Markdown, Obsidian, Typora, Notion — 는 수학 공식 지원을 사실상 표준(de facto standard)으로 발전시켰다. $E=mc^2$ 는 5개의 문자로 물리 법칙 하나를 표현한다; HTML은 MathJax/KaTeX 라이브러리를 임포트하고 장황한 MathML 태그를 사용해야 한다. 2025년 개발자 문서 조사에 따르면, 기술 문서의 35%가 수학 공식을 포함하고 있으며^[10] — 이 비율은 가속적으로 상승 중이다.

이 단계에서 HTML을 AI 출력 포맷으로 사용하는 것은 경제적으로 불가능하고 기술적으로 불필요했다. Markdown의 지배적 위치는 LLM의 학습 데이터 분포, 토큰 경제적 제약, 수학 생태계 친화력이라는 3중 요인의 필연적 결과였다.

Part II

현재: HTML의 부상과 포맷 논쟁

2024 – 2026

Section IV

AI 출력 포맷으로서 HTML의 부상 The Rise of HTML as AI Output Format

2024년은 전환의 해였다. 두 가지 사건이 동시에 발생했다: 토큰 가격 폭락과 AI 상호작용 인터페이스의 패러다임 전환이다.

가격 측면에서, GPT-4o mini가 2024년 7월에 ‘충분히 좋은’ AI 추론 비용을 100만 토큰당 1달러 미만으로 끌어내렸다^[14] — GPT-4가 100만 토큰당 30달러로 출시된 지 불과 16개월 만이었다. 토큰의 경제적 제약이 대폭 완화되어, HTML이 3배 더 소비하는 토큰은 더 이상 치명적 비용이 아니었다.

인터페이스 측면에서, Anthropic은 2024년 6월 20일 Claude Artifacts를 출시했다^[21] — AI 업계 최초로 HTML을 상호작용 가능한 출력 인터페이스로 렌더링한 것이다. 사용자는 대화 옆 사이드 패널에서 HTML 콘텐츠를 실시간으로 보고, 상호작용하고, 반복 수정할 수 있었다. 이는 단순히 채팅 창에 코드를 출력하는 것이 아니라 완전히 새로운 AI 전달 패러다임을 창출한 것이다. 출시 이후 사용자들은 5억 개 이상의 Artifacts를 생성했다.

경쟁 플랫폼이 신속히 뒤따랐다: OpenAI의 Canvas(2024년 10월), Microsoft의 Copilot Pages(2024년 9월), Google의 Gemini Canvas(2025년 3월)^[21]. HTML은 “AI가 이론적으로 생성할 수 있지만 별 쓸모가 없는 포맷”에서 “전용 렌더링 컨테이너를 갖춘 상호작용 가능 출력 포맷”으로 변모했다.

이것은 AI 출력 포맷으로서 HTML의 역사적 돌파구였다 — Markdown을 대체한 것이 아니라 Markdown이 결코 커버하지 못한 차원, 즉 시각적 상호작용을 열어젖힌 것이다.

Section V

토큰 경제의 빙산 구조 The Iceberg Structure of Token Economics

그런데 HTML 출력이 경제적으로 실현 가능해진 바로 그 시기에, 토큰 경제는 더 깊은 층위에서 구조적 변혁을 겪고 있었다 — 추론 토큰의 탄생이다.

2024년 9월, OpenAI는 o1 모델에서 보이지 않는 ‘추론 토큰’을 도입했다 — 모델의 내부 사고 과정을 나타내는 토큰으로, 출력 요금으로 과금되지만 최종 응답에는 나타나지 않는다^[13]. 이것은 전체 토큰 경제의 구조적 단층선이었다: 사용자가 보는 토큰이 더 이상 소비되는 토큰과 같지 않다.

o3에 대한 한 번의 쿼리가 500개의 가시적 출력 토큰을 생성하지만, 실제로는 뒤에서 2,000~5,000개의 추론 토큰을 소비할 수 있다^[14]. 추론 토큰은 단일 쿼리 비용을 5~50배로 늘릴 수 있다^[15]. 사용자는 “50단어 입력→200단어 응답”을 보지만, 실제 발생한 것은 “50단어 입력 + 5,000단어 내부 추론 + 200단어 응답”이다.

시기	토큰 구조	사용자 가시 비율	사용자 체감
2022.11 – 2024.06	입력 + 출력 = 전체	100%	보이는 대로 지불, 투명함
2024.07 (가격 폭락)	입력 + 출력	100%	“AI가 싸졌다!”
2024.09 (o1 출시)	입력 + 추론(숨김) + 출력	~30%	“왜 다시 비싸진 거지?”
2025 (추론 표준화)	입력 + 시스템 + 히스토리 + 추론 + 출력	~5%	“분명 더 강해졌는데, 왜 더 싸지지 않지?”
2026 (에이전트 시대)	입력(1%) + 숨김 계층(95%) + 출력(4%)	~5%	“간단한 작업 하나에 이렇게 많이?”

그림 1: 토큰 가시성의 역사적 진화 — 단가는 280배 하락했으나^[24], 사용자 체감은 점점 더 비싸짐

추적된 한 Claude 세션에서, 사용자의 14토큰 질문은 1번째 턴에서 $0.0018, 260번째 턴에서 약 $2.41이 들었다 — 순전히 대화 히스토리 증가로 인해 비용이 1,339배 증가한 것이다. 사용자 자신의 입력 토큰은 전체 처리 토큰의 약 1.3%에 불과했다^[16].

이 구조적 변화는 포맷 논쟁의 전제를 근본적으로 바꾼다. 추론 토큰이 총 비용의 95% 이상을 차지할 때, 출력 측에서 HTML 대신 Markdown을 선택하여 절약하는 40%의 토큰 차이는 총 청구서에서 반올림 오차에 불과하다. Anthropic 자체 데이터에 따르면 ‘컴퓨터 및 수학’ 유형 작업이 API에서 14% 증가한 반면 채팅 인터페이스에서 18% 감소했다^[23] — 도구적 사용이 대화형 상호작용을 대체하고 있으며, 포맷 선택의 기준은 ‘토큰 절약’에서 ‘정보 밀도 극대화’와 ‘기능 적합성’으로 이동했다.

Section VI

동일 아키텍처의 두 계층 대변인 Two Advocates for Different Layers of the Same Architecture

기술 진화의 타임라인과 토큰 경제의 구조적 변화를 이해한 후, ‘포맷 전쟁’보다 더 정확한 패턴이 부상한다: Karpathy와 Thariq는 대립하는 두 진영이 아니라 동일한 다층 아키텍처의 두 계층 대변인이다 — 하나는 저장 계층을, 다른 하나는 실행 계층을 기술하고 있다.

6.1 Karpathy: 저장 계층의 대변인

Andrej Karpathy — OpenAI 공동 창립 멤버, 전 Tesla AI 디렉터. 그의 LLM Wiki는 Markdown을 AI의 지식 관리 계층으로 정의한다: LLM이 능동적으로 Markdown 파일을 편찬·유지·상호연결하여 자가치유형 지식 베이스를 구축하는 것이다^[4]^[29]. 그에게 Markdown은 AI의 기억 매체 — 정보의 영속화, 구조화, 검색 가능한 매체이다.

그러나 Karpathy 본인은 ‘HTML 반대파’가 아니다. 2025년 연말 회고에서 그는 명확히 지적했다: “텍스트는 컴퓨터(그리고 LLM)의 네이티브 데이터 표현이지만, 인간이 선호하는 형식은 아니다. 사람들은 시각적이고 공간적인 방식으로 정보를 소비하는 것을 좋아한다. LLM은 우리가 선호하는 형식으로 우리와 소통해야 한다 — 이미지, 인포그래픽, 슬라이드, 화이트보드, 애니메이션, 웹 앱 등.”^[32] 그는 Markdown과 이모지가 이 트렌드의 ‘초기 버전’일 뿐이라고 인정했다 — 텍스트의 시각적 ‘꾸밈(dressing up)’이라는 것이다.

6.2 Thariq: 실행 계층의 대변인

Thariq Shihipar의 직업적 배경은 그가 왜 실행 계층에 집중하는지를 보여준다: 토론토 대학교 졸업, Rocket Insights에서 제품 개발^[6], YC 지원 비디오 게임 회사를 설립하여 5년간 운영, MIT Media Lab 대학원 — 약 1년 전 Anthropic에 합류^[7]. 그의 20가지 HTML 예시 — 코드 리뷰 패널, 데이터 시각화, 인터랙티브 비교 — 는 모두 인간 소비자 측 경험 최적화이며, Karpathy가 말한 “LLM은 우리가 선호하는 형식으로 우리와 소통해야 한다”에 정확히 대응한다.

차원	Karpathy (저장 계층 대변인)	Thariq (실행 계층 대변인)
주목하는 계층	AI 내부의 지식 관리와 영속화	AI의 인간에 대한 전달과 상호작용
핵심 질문	“모델이 접근할 수 있는 정보를 어떻게 구조화하는가”	“인간이 AI 출력을 어떻게 더 잘 소비할 수 있는가”
직업적 배경	AI/ML 연구, 사전학습, 딥러닝	웹 제품, 게임, SaaS
상대 계층에 대한 태도	“LLM은 시각적 형식으로 인간과 소통해야 한다”고 인정^[32]	“독자가 모델이면 Markdown을 쓰라”고 인정^[8]
본질적 역할	인프라 계층 — AI가 더 잘 사고하게 함	애플리케이션 계층 — 인간이 더 잘 수신하게 함

그림 2: 두 대표 인물은 대립하는 두 진영이 아니라 동일 아키텍처의 두 계층 대변인이다 — 양자의 관점은 각각 상대 계층을 인정할 때 이미 암묵적으로 정렬되어 있다

이 발견은 전체 논쟁의 성격을 바꾼다. 이것은 ‘Markdown 파 vs HTML 파’의 포맷 전쟁이 아니다 — 두 사람이 동일한 건물의 서로 다른 층에 서서 각자가 보는 풍경을 기술하는 것이다. Karpathy가 보는 것은 기초(지식이 어떻게 구조적으로 저장되는가)이고, Thariq가 보는 것은 외벽(지식이 어떻게 인간에 의해 소비되는가)이다. 두 계층을 겹쳐 놓으면 보이는 것이 바로 본 논문이 제안하는 다층 아키텍처다. 주의할 점은, 이 관찰이 두 대표적 인물의 공개 발언에 기반하며, 더 큰 범위의 표본 검증은 향후 작업의 방향이라는 것이다.

Section VII

AI의 엔트로피 감소 본질과 출력 형식화 추세 AI as Entropy Reduction and the Trend Toward Formalization

현재 포맷 논쟁의 배후에서 더 깊은 구조적 힘이 작동하고 있다: AI는 본질적으로 엔트로피 감소 기계다 — 고엔트로피 인간 언어 입력을 받아 그 안의 구조(인과 관계, 제약 조건, 변수 의존성)를 추출한 후 저엔트로피 구조화 정보를 출력한다. 엔트로피 기반 학습 프레임워크 ENTRA는 LLM 추론에서 중복 콘텐츠를 억제함으로써 출력 길이를 37%–53% 줄이면서 정확도가 오히려 향상됨을 증명했다^[22].

그렇다면 엔트로피 감소의 방향은 어디를 가리키는가? 형식화 가능한 지식 영역에서 답은 수학 공식이다. F=ma — 세 기호가 뉴턴 역학의 전체 운동 법칙을 압축한다. E=mc² — 다섯 기호가 질량과 에너지를 통일한다. 수학 공식은 이 유형의 지식에 대한 정보 밀도의 상한이다.

lim_t→∞ H(AI output)_formalizable = H(math)

형식화 가능한 지식 영역에서, AI 출력의 정보 엔트로피는 수학적 표현의 정보 엔트로피를 향해 수렴한다

이 추세는 AI의 ‘주관적 선택’이 아니라 구조적 필연이다. OpenAI는 AI 환각(hallucination)이 수학적으로 불가피함을 증명했다^[11]. 자연어 출력은 구조적으로 검증할 수 없지만, 형식화된 수학적 표현은 정리 증명기(Lean 등)에 의해 기계적으로 검증할 수 있다^[12]. 2026년 초 “First Proof” 챌린지에서 AI는 1주일 만에 연구 수준 수학 문제의 절반 이상을 자율적으로 해결했다^[26]. 점점 더 많은 AI 사용자가 도구적 니즈를 가지고 있다 — 그들이 원하는 것은 대화가 아니라 검증 가능한 결과다.

AI가 주관적으로 형식화 방향으로 나아가려는 것이 아니라, AI의 구조가 필연적으로 형식화 방향으로 활주(滑走)하는 것이다. AI 출력이 점점 더 수학화될 때, Markdown + LaTeX의 수학 생태계 네이티브성은 장기적 구조적 우위의 원천이 된다. 그러나 동시에 지적해야 할 점이 있다: 법률, 윤리, 미학, 서사 등 영역의 지식은 수학적 형식화에 저항하며, 이 영역에서는 구조화된 자연어(Markdown)가 여전히 최적의 매체다.

Part III

미래: 음성 상호작용과 멀티모달 아키텍처

2026 →

Section VIII

음성: 미래의 필연적 주도 상호작용 방식 Voice: The Inevitable Dominant Mode of Human-AI Interaction

시선을 포맷 계층에서 상호작용 계층으로 올리면, 더 큰 패러다임 전환이 진행 중임을 알 수 있다: 텍스트가 음성에 자리를 내주며 인간-AI 상호작용의 주요 통로가 되고 있다.

2026년까지 글로벌 AI 음성 비서 시장은 500억 달러를 초과할 것으로 예상되며, 개발자의 87.5%가 적극적으로 음성 에이전트를 구축하고 있다^[19]. 음성은 인류의 가장 오래된 인터페이스다 — 문자나 타이핑보다 훨씬 앞선다^[20]. 인간의 말하기 속도는 약 150단어/분이고 타이핑 속도는 약 40단어/분이다. 키보드는 부차적 입력 방식이 되어 가고 있다^[20]. Karpathy 본인도 다음과 같이 지적했다: “사람들은 실제로 텍스트를 읽는 것을 좋아하지 않는다 — 느리고 힘들다”^[32].

이는 Markdown vs HTML 논쟁 — 본질적으로 두 가지 텍스트 마크업 언어 사이의 논쟁 — 이 더 큰 트렌드에 의해 초월되고 있음을 의미한다. 인간이 음성으로 AI와 상호작용할 때, Markdown도 HTML도 쓰지 않는다. 두 포맷 모두 ‘백엔드 구현’ 위치로 물러난다 — 오늘날 아무도 브라우저 내부가 바이너리를 쓰는지 16진수를 쓰는지 신경 쓰지 않는 것처럼.

한 가지 지적해야 할 것은, 음성이 가까운 미래의 주도 상호작용 방식이지만 반드시 궁극적 상호작용 방식은 아니라는 점이다. 2026년 초 기준으로 Neuralink는 최소 21명의 환자에게 뇌-컴퓨터 인터페이스(BCI) 장치를 이식했으며^[33], BCI 기술은 실험실에서 소비자 전자 제품으로 전환 중이다. 더 먼 미래의 상호작용 패러다임은 음성을 초월하여 인간 인지와 AI를 직접 연결할 수 있다. 그러나 예측 가능한 미래(2026–2035)에서 음성은 가장 현실적이고 가장 대규모의 주도적 상호작용 채널이다.

전체 논쟁이 “AI가 인간에게 보여주기 위해 어떤 포맷으로 출력해야 하는가”에 관한 것이라면, 음성 시대의 답은: 말해서 들려주어라. 포맷 논쟁은 어느 것이 더 나은지를 다투는 것이 아니라, 퇴조하고 있는 질문을 논쟁하고 있는 것이다.

Section IX

음성 데이터의 비압축성과 멀티모달 정렬 The Incompressibility of Voice Data and Multimodal Alignment

음성은 텍스트의 비효율적 버전이 아니다. 그것은 독립적인 정보 차원이다.

“괜찮아”라는 말은 차분한 어조에서는 안심을, 무미건조한 어조에서는 비꼼을, 날카롭고 고양된 어조에서는 좌절을 전달한다 — 이러한 구분은 음향 정보 없이는 획득할 수 없다. 신경과학 증거에 따르면, 억양 운율(prosody)은 감정 해독의 핵심 채널이다^[25].

음성이 텍스트로 전사(轉寫)될 때 감정, 망설임, 속도 변화, 호흡 멈춤 — 모두 평평한 문자 기호로 압축된다. 이는 음성 신호가 멀티모달 AI 학습에 대체 불가능한 가치를 가짐을 의미한다: 텍스트 전사만 보존하고 원본 음성을 폐기하면, 모델은 “억양 하강 + 멈춤 = 주저하는 동의 ≠ 확고한 동의”라는 교차모달(cross-modal) 관계를 결코 학습할 수 없다.

멀티모달 AI의 핵심 아키텍처가 이를 확인해준다. 알리바바의 Qwen2.5-Omni는 추론과 표현을 두 컴포넌트로 분리한다 — ‘사고자(Thinker)’가 텍스트 도메인에서 모든 입력 모달리티를 처리하여 추론을 생성하고, ‘발화자(Talker)’가 추론 결과를 실시간 스트리밍 오디오로 변환한다^[27]. 텍스트 관계 구조가 추론의 앵커 포인트이고, 다른 모달리티가 이 앵커에 정렬(align)된다 — 그러나 정렬의 전제는 다른 모달리티의 원시 데이터가 보존되어야 한다는 것이다. 데이터 보존 없는 상호작용은 순수한 소비 행위다 — AI 진화에 필요한 자산을 생산하지 않는다.

Section X

Markdown의 천장과 HTML의 멀티모달 역할 Markdown’s Ceiling and HTML’s Multimodal Role

멀티모달 맥락에서 Markdown은 구조적 천장을 가진다: 오디오와 비디오를 담을 수 없다. Markdown의 네이티브 능력 경계는 순수 텍스트 + 이미지 참조 링크다. .md 파일에 음성 클립을 삽입하려면 유일한 방법은 인라인 HTML 태그로 회귀하는 것이다 — 이는 바로 양자의 계층 관계를 예시한다.

반면 HTML은 태생적으로 멀티모달 컨테이너다 — <audio>, <video>, <canvas>, <svg>, <script> — 전부 네이티브로 지원한다. 멀티모달 AI의 세계에서, HTML은 텍스트, 오디오, 비디오, 이미지, 상호작용을 동시에 담을 수 있는 유일한 웹 마크업 언어다.

AI가 순수 텍스트 세계에 머물러 있다면, 영원히 프로그래머와 연구자의 도구에 불과할 것이다. 소비자 대중 시장에 침투하려면 AI는 멀티모달이 되어야 하며 — 웹에서 멀티모달의 컨테이너는 오직 HTML이다. 이것은 HTML이 Markdown을 ‘대체’하는 것이 아니라, HTML이 Markdown이 도달할 수 없는 차원을 커버하는 것이다. 동시에 지적해야 할 점은, 모바일 네이티브 앱(React Native, Flutter, SwiftUI)에서 HTML이 유일한 선택지는 아니라는 것이다 — 그러나 웹 생태계에서는 대체 불가능하다.

HTML의 대체 불가능성은 또 다른 차원에서도 드러난다: Progressive Web App(PWA)의 기반이라는 점이다. PWA는 HTML/CSS/JavaScript 위에 구축되며, 설치 가능성, 오프라인 사용, 푸시 알림이라는 세 가지 핵심 능력을 갖추고 있다^[34]. PWA는 검색 엔진에 의해 인덱싱될 수 있고, 웹 접근성(Accessibility) 표준을 더 쉽게 준수할 수 있으며, 이는 2026년 글로벌 우선 과제로 부상했다. 이는 HTML이 멀티모달 콘텐츠를 담을 수 있을 뿐 아니라, AI의 산출물을 설치 가능한 오프라인 앱으로 만들고, 검색 엔진에 의해 발견 가능하게 하며, 접근성 표준을 준수하게 할 수 있음을 의미한다 — 이 능력들은 Markdown에 완전히 부재한다.

이로써, 두 포맷의 포지셔닝이 마침내 명확해진다:

Markdown = 텍스트 및 문자 학습 정보의 매체 = LLM 텍스트 예측 핵심

HTML = 멀티모달 학습 및 상호작용 정보의 매체 = 멀티모달 인지 & 소비자 도달

양자의 정렬 = 멀티모달 AI 능력의 창발

그림 3: Markdown과 HTML은 경쟁 관계가 아니라 멀티모달 AI의 두 정렬 파이프라인이다

Section XI

3층 아키텍처: 상호작용 · 저장 · 실행 Three-Layer Architecture: Interaction · Storage · Execution

과거(Markdown의 LLM 네이티브성), 현재(HTML의 멀티모달 상호작용 부상, 토큰 경제의 빙산화), 미래(음성 상호작용의 필연적 주도)라는 세 시간 차원의 분석을 종합하여, 본 논문은 멀티모달 AI 시대의 정보 포맷 3층 아키텍처를 제안한다:

상호작용 계층: 음성

인간과 AI 사이의 주요 통로 — 인간의 가장 자연스러운 정보 입출력 방식 — 미래의 필연적 주도 상호작용 형식

↕

저장 계층: Markdown + LaTeX + 원시 멀티모달 데이터 (오디오/이미지/비디오)

텍스트 골격(논리/공식/추론 체인) + 멀티모달 원시 신호(감정/억양/시각) — 대체 불가능한 영속화 계층

↕

실행 계층: HTML

멀티모달 컨테이너 및 작업 전달 인터페이스 — 텍스트+오디오+비디오+이미지+상호작용 — 소비자 도달의 필연적 경로

↻

학습 환류: 모든 데이터가 차세대 모델 학습으로 피드백

음성 신호 → 멀티모달 정렬 | 구조화 텍스트 → LLM 사전학습 | 상호작용 행동 → RLHF | 공식/코드 → 추론 능력

각 계층은 자신의 기능적 위치에 가장 적합한 포맷을 사용하며, 하나의 포맷이 모든 계층을 지배하게 하지 않는다. 음성은 상호작용 효율을 최적화하고(인간 입력 대역폭 극대화), Markdown은 정보 영속성을 최적화하며(압축 밀도, 수학 네이티브성, 검색 가능성, 버전 관리), HTML은 전달 경험을 최적화한다(멀티모달 렌더링, 시각화, 상호작용).

또한 모든 계층의 데이터 — 음성의 감정 신호, Markdown의 구조화 텍스트, HTML의 사용자 상호작용 행동 — 는 모두 보존되어 모델 학습으로 환류되어야 한다. 데이터 보존 없는 상호작용은 순수한 소비 행위다. AI의 진화는 모든 계층의 데이터 자산의 지속적 축적에 의존한다.

Section XII

반론과 응답 Counterarguments and Responses

12.1 “Markdown은 본질적으로 HTML로 컴파일된다”

사실이다. John Gruber가 Markdown을 만들 때 명시적으로 “text-to-HTML conversion tool”로 정의했다. 기술적 관점에서 Markdown은 HTML의 약어다. 그러나 이것이 본 논문의 논점을 훼손하지는 않는다 — 어셈블리 언어가 기계어로 컴파일되지만 우리는 여전히 양자의 사용 계층을 구분하는 것과 같다. Markdown과 HTML은 데이터 생명주기의 서로 다른 단계에 봉사한다: 하나는 작성과 저장을 최적화하고, 다른 하나는 렌더링과 소비를 최적화한다. 컴파일 관계가 기능적 등가를 의미하지는 않는다.

12.2 “JSON이야말로 AI 구조화 출력의 진정한 매체”

에이전트 간(Agent-to-Agent) 통신에서 JSON(그리고 YAML, Protocol Buffers 등)은 확실히 더 적합한 포맷이다 — Markdown과 HTML 모두보다 더 정밀하고 기계 파싱이 더 용이하다. 본 논문의 논의는 인간이 읽고/쓸 수 있는 정보 포맷에 초점을 맞추고 있다. 완전한 AI 데이터 생태계에서 JSON은 기계 간 통신 계층에, Markdown은 인간이 읽을 수 있는 저장 계층에, HTML은 인간이 상호작용할 수 있는 렌더링 계층에 봉사한다 — 셋은 서로 다른 통신 인터페이스에서 작동한다.

12.3 “수학적 형식화가 모든 지식에 적용되는 것은 아니다”

전적으로 동의한다. Section VII에서 이미 이 논점을 수정했다: AI 출력이 수학적 표현을 향해 수렴한다는 판단은 ‘형식화 가능한 지식 영역’에만 적용된다. 법적 논증, 윤리적 추론, 문학적 서사, 외교적 협상 등 영역의 지식은 수학적 형식화에 저항하며, 구조화된 자연어가 여전히 최적의 매체다. 이는 오히려 Markdown의 장기적 가치를 강화한다 — Markdown은 공식(LaTeX 확장을 통해)도 담을 수 있고, 형식화할 수 없는 구조화 텍스트도 담을 수 있다.

12.4 “Markdown의 수학 지원은 네이티브가 아니다”

엄밀히 말해 정확하다. CommonMark 규격은 수학 구문을 포함하지 않으며, $...$ 는 제3자 렌더러가 파싱하는 LaTeX 구문이다. 그러나 사실상 표준(de facto standard)의 힘은 공식 규격에 뒤지지 않는다. GitHub, Obsidian, Typora, Notion, VS Code 모두 수학 렌더링을 네이티브로 지원한다. 기술 문서의 35%가 수학 공식을 포함할 때, 이 생태계 우위는 실질적인 경쟁 해자를 구성한다.

Section XIII

결론: 정렬이 곧 창발이다 Conclusion: Alignment Is Emergence

본 논문은 과거, 현재, 미래 세 시간 차원의 분석을 통해 다음과 같은 결론에 도달한다:

과거 (2022–2023): LLM의 텍스트 예측 핵심이 Markdown이 AI의 네이티브 포맷이 되는 것을 결정했다. 학습 데이터 분포, 토큰 경제적 제약, 수학 생태계 친화력이라는 3중 요인이 Markdown의 지배적 위치를 필연으로 만들었다.

현재 (2024–2026): 토큰 가격 폭락이 경제적 제약을 완화하고, Claude Artifacts가 HTML 인터랙티브 출력 패러다임을 개척했으나, 추론 토큰의 탄생과 팽창이 출력 측 포맷 비용 차이를 미미하게 만들었다. 겉보기에 대립하는 두 대표 인물 — Karpathy와 Thariq — 은 실제로는 동일한 다층 아키텍처의 서로 다른 단면을 기술하고 있었다: 전자는 저장 계층의 대변인이고 후자는 실행 계층의 대변인이다. Karpathy 본인은 2025년 연말 회고에서 “LLM은 시각적 형식으로 인간과 소통해야 한다”고 명확히 인정했다 — 양자의 관점은 각자가 상대 계층을 인정할 때 이미 암묵적으로 정렬되어 있었다. 동시에 AI의 엔트로피 감소 본질이 출력을 수학적 형식화 방향으로 추동하고 있다.

미래 (2026→): 음성이 인간-AI 상호작용의 주요 통로가 되며, Markdown과 HTML 모두 백엔드 구현 계층으로 물러난다. 그러나 Markdown은 LLM의 텍스트 예측 핵심, 정보 압축 밀도, 수학 생태계 네이티브성으로 인해 대체 불가능하고; HTML은 멀티모달 컨테이너 능력과 소비자 상호작용 도달력으로 인해 불가결하다. 음성 신호의 비압축성은 원시 멀티모달 데이터가 텍스트 전사만이 아니라 반드시 보존되어야 함을 요구한다.

LLM의 핵심은 텍스트 예측이다 — 따라서 Markdown은 대체 불가능하다.

AI는 소비자 시장에 침투하기 위해 멀티모달 확장이 필요하다 — 따라서 HTML은 불가결하다.

음성은 인간의 가장 자연스러운 인터페이스다 — 따라서 미래 상호작용을 주도할 것이다.

Markdown은 AI의 좌뇌다 — 논리, 추론, 공식. HTML은 AI의 우뇌다 — 인지, 멀티모달, 소비자 도달. 음성은 AI의 입과 귀다. 셋은 경쟁 관계가 아니라 하나의 완전한 멀티모달 AI 유기체의 서로 다른 기관이다. Karpathy와 Thariq는 싸우고 있는 것이 아니다 — 그들은 동일한 건물의 서로 다른 층에 서서 각자가 보는 풍경을 기술하고 있다. 정렬이 곧 창발이다.

참고문헌 References

Shihipar, T. “Using Claude Code: The Unreasonable Effectiveness of HTML.” X/Twitter, May 8, 2026.
Pillitteri, P. “HTML vs Markdown in Claude Code: Why Anthropic’s Thariq Changed the Default.” pasqualepillitteri.it, May 2026.
Liu, Y. “The 4 Lines Every CLAUDE.md Needs.” Level Up Coding / Medium, April 2026.
MindStudio. “What Is the Karpathy LLM Wiki Pattern?” mindstudio.ai, April 2026.
Zannarbor, F. “Andrej Karpathy on Books & LLMs.” Substack, October 2025.
Crunchbase. “Thariq Shihipar — Founder and CEO @ One More Multiverse.” crunchbase.com.
Shihipar, T. Personal website and Vibe Code Camp interview. thariq.io; davidguttman.github.io, 2026.
RentierDigital. “HTML vs Markdown for AI Agent Output.” rentierdigital.xyz, May 2026. web2md.org data.
Unmarkdown. “The AI Output Problem: Why Every AI Tool Writes in Markdown.” unmarkdown.com, February 2026.
Markdown Visualizer. “Math & LaTeX in Markdown — Complete Guide.” markdownvisualizer.com, March 2026.
Computerworld. “OpenAI Admits AI Hallucinations Are Mathematically Inevitable.” February 2026.
Yang, K. et al. “Formal Mathematical Reasoning: A New Frontier in AI.” arXiv:2412.16075, December 2024.
Ibbaka. “Pricing Thought: OpenAI Will Price Reasoning Tokens in o1.” ibbaka.com, September 2024.
PriceWorld. “ChatGPT vs Claude vs Gemini: What Every AI Subscription Actually Costs in 2026.” March 2026.
EG3. “What Are AI Reasoning Tokens and Their Hidden Costs.” eg3.com, April 2026.
IntuitionLabs. “Token Optimization and Cost Management for ChatGPT & Claude.” intuitionlabs.ai, May 2026.
OpenAI. “GPT models use a syntax called Markdown.” GPT documentation, November 2022.
The Last Fingerprint. “How Markdown Training Shapes LLM Prose.” arXiv:2603.27006, 2026.
AssemblyAI. “Voice AI in 2026.” assemblyai.com, February 2026. “87.5% of builders actively building voice agents.”
ViitorCloud. “Best UI/UX Trends for AI-Powered Applications in 2026.” April 2026; Mistral AI, “Voxtral,” 2026.
AI Wiki. “Claude Artifacts.” aiwiki.ai, May 2026. “Launched June 20, 2024. 500M+ Artifacts created.”
ENTRA. “Entropy-Based Redundancy Avoidance in LLM Reasoning.” arXiv:2601.07123, 2026.
GetPanto. “Anthropic AI Statistics 2026.” getpanto.ai, May 2026.
Horecny, J. “The AI Price Collapse Is Real.” Medium, March 2026. Stanford AI Index 2025 data.
PMC. “Bridging Text and Speech for Emotion Understanding.” December 2025.
Quanta Magazine. “The AI Revolution in Math Has Arrived.” April 2026.
Sopyla, K. “Speech-to-Speech Models in 2026.” ai.ksopyla.com, February 2026. Qwen2.5-Omni architecture.
Willison, S. “Using Claude Code: The Unreasonable Effectiveness of HTML.” simonwillison.net, May 8, 2026.
VentureBeat. “Karpathy shares ‘LLM Knowledge Base’ architecture that bypasses RAG with an evolving markdown library maintained by AI.” venturebeat.com, April 3, 2026. “Markdown — the most LLM-friendly and compact data format.”
Codersera. “Karpathy’s LLM Knowledge Base: Build an AI Second Brain.” codersera.com, April 6, 2026. 100 articles, 400K words, zero manual editing.
AI Critique. “Andrej Karpathy’s latest concept ‘LLM Wiki’ and the future of enterprise knowledge.” aicritique.org, May 8, 2026. Three-layer architecture: raw sources → wiki → schema.
Karpathy, A. “2025 LLM Year in Review.” karpathy.bearblog.dev, December 2025. “Text is the raw/favored data representation for computers (and LLMs), but it is not the favored format for people.”
The Week. “Neuralink and beyond: How BCIs are rewriting the future of human-technology interaction.” theweek.in, May 10, 2026. “As of early 2026, Neuralink has implanted devices in at least 21 patients.”
WebPiki. “PWA in 2026: Are Progressive Web Apps Still Worth It?” webpiki.com, February 2026. PWA: HTML/CSS/JS foundation, installable, offline-capable, push notifications.