Thought Paper · V3 · May 2026

Markdown vs HTML

多模态AI时代的信息格式架构论

An Architectural Theory of Information Formats in the Age of Multimodal AI


发行日 2026年5月12日
分类 Original Thought Paper
领域 信息论 · AI架构 · 多模态 · Token经济学
版本 V3
이조글로벌인공지능연구소
LEECHO Global AI Research Lab
&
Claude Opus 4.6 · Anthropic

摘要 Abstract

2026年5月,Anthropic工程师Thariq Shihipar发表《The Unreasonable Effectiveness of HTML》一文,主张HTML应取代Markdown成为AI的默认输出格式,引发行业广泛争论。本文按照AI发展的时间线——过去、现在、未来——对Markdown与HTML两种技术路线进行架构分析,论证两者之间不存在替代关系,而是多模态AI有机体中服务于不同功能层的互补组件。论文发现,看似对立的两位代表人物——坚持Markdown的Andrej Karpathy与推崇HTML的Thariq Shihipar——实际上各自在描述同一个多层架构的不同切面:前者是存储层的代言人,后者是执行层的代言人。论文提出三个核心命题:(一)Markdown是LLM文字预测核心的原生载体,不可替代;(二)HTML是多模态交互的必然路径,不可或缺;(三)语音是多模态发展的未来主导交互方式。三者构成”交互层·存储层·执行层”的完整架构,其对齐即为多模态AI能力的涌现。

关键词:
MarkdownHTML多模态AIToken经济信息熵推理Token语音交互数学形式化
Section I

引言:一场需要重新定义的争论 A Debate That Needs Reframing

2026年5月8日,Anthropic的Claude Code工程负责人Thariq Shihipar发表了一篇引爆社交媒体的长文[1]。16小时内,该文获得超过440万浏览量、8200个点赞和15700个收藏[2]。其核心主张是:Markdown作为AI默认输出格式的时代应该结束,HTML才是更优选择。几乎同时,OpenAI联合创始成员Andrej Karpathy的CLAUDE.md文件在GitHub上获得超过60000颗星[3],用纯Markdown构建了一套完整的AI知识管理范式[4]

行业将此视为”格式战争”。然而,本文将论证这不是一场”谁取代谁”的战争,而是一个需要用时间线来理解的演化过程——Markdown的主导地位源于LLM的文字预测核心,HTML的崛起回应了多模态交互的需求,而语音将成为未来人机交互的主通道。三者在时间轴上依次登场,在架构中各归其位。


Part I
过去:Markdown时代的建立
2022 – 2023

Section II

LLM的文字预测核心与Markdown的必然性 The Text Prediction Core and the Inevitability of Markdown

大语言模型的全部能力建立在一个基础机制上:下一个Token预测。从GPT-1到GPT-4,从Claude到Gemini,所有LLM的预训练目标都是在给定前文的条件下预测下一个Token。这个机制决定了LLM的”母语”——它们生成的内容必然带有训练语料的分布特征。

而训练语料的格式化文本分布严重偏向Markdown[18]。GitHub上的README.md、arXiv的LaTeX论文、Stack Overflow的技术问答、开发者文档——互联网上最高质量的结构化文本几乎全部以Markdown或其近亲格式存在。Markdown是LLM的”母语”——它们生成的Markdown比任何其他格式都更干净、更一致[9]。这不是通过重新训练可以改变的,因为这反映的是互联网本身的内容分布[18]

2022年11月ChatGPT发布时,GPT-3.5默认以Markdown语法输出文本[17]。这不是OpenAI的设计选择,而是训练数据的自然结果。Karpathy后来将教科书的结构类比为AI训练的三个阶段:”阐述内容等于预训练,解题示例等于监督微调,练习题等于强化学习环境”[5]——而所有这些的载体都是Markdown。

2026年4月,Karpathy将这一理念推向了极致。他发布了”LLM Wiki”——一个零代码的架构模式:让LLM主动编纂、维护和互联Markdown文件,构建一个自我修复的知识库[29]。该帖48小时内获得1600万浏览量。他的wiki在单一研究领域增长到约100篇文章、40万字——几乎没有手动编辑[30]。VentureBeat将Markdown称为”最LLM友好且最紧凑的数据格式”[29]。Karpathy自己的框架是三层:原始资料(不可变事实来源)→ Wiki(LLM维护的Markdown知识层)→ Schema(CLAUDE.md作为操作契约)[31]。这与本文提出的三层架构具有结构性同构。

更关键的是Karpathy对2026年核心问题的重新定义:“有趣的问题不再是’如何让模型更聪明’,而是’如何结构化模型可以访问的信息'”[29]。Markdown的价值不在于格式美观,而在于它是信息结构化的最优载体。

LLM的核心是文字预测。文字预测的训练数据以Markdown为主导分布。因此,Markdown不是一种可替换的”输出格式”,它是LLM认知结构的底层编码。改变LLM的输出格式偏好,等同于改变互联网的内容分布——这在实践上不可能。

Section III

信息密度与数学原生性:Markdown的双重护城河 Information Density and Math Nativeness: Markdown’s Double Moat

在2022-2023年的早期LLM时代,上下文窗口极其有限(GPT-3.5仅4096-8192 Token[8]),每一个Token都弥足珍贵。在这一约束下,Markdown的信息压缩优势具有决定性意义。

Token压缩比
同等内容 HTML vs Markdown[8]
全文档节省
40%
Markdown vs HTML Token消耗[9]
表格准确率
60.7%
Markdown vs HTML 53.6%[9]

但信息密度只是Markdown的第一道护城河。第二道更深:数学公式的生态原生性。严格来说,Markdown核心规范(CommonMark)并不包含数学语法。然而,通过LaTeX扩展($...$$$...$$),Markdown生态系统——GitHub Flavored Markdown、Obsidian、Typora、Notion——已将数学公式支持发展为事实标准。$E=mc^2$ 用5个字符表达一个物理定律;HTML需要引入MathJax/KaTeX库并使用冗长的MathML标签。根据2025年开发者文档调查,35%的技术文档包含数学公式[10]——而这个比例正在加速上升。

在这一阶段,用HTML作为AI输出格式在经济上不可行,在技术上不必要。Markdown的主导地位是LLM的训练数据分布、Token经济约束和数学生态亲和力三重因素的必然结果。


Part II
现在:HTML的崛起与格式之争
2024 – 2026

Section IV

HTML作为AI输出格式的崛起 The Rise of HTML as AI Output Format

2024年是转折之年。两个事件同时发生:Token价格暴跌,AI交互界面出现范式转移。

价格端,GPT-4o mini于2024年7月将”够好”的AI推理成本压至不到$1/百万Token[14]——距GPT-4以$30/百万Token发布仅过了16个月。Token的经济约束被大幅松绑,HTML多占的3倍Token不再是致命成本。

界面端,Anthropic于2024年6月20日发布Claude Artifacts[21]——AI行业首次将HTML渲染为可交互的输出界面。用户可以在对话旁的侧面板中实时查看、交互和迭代HTML内容。这不是简单地在聊天窗口中输出代码,而是创建了一个全新的AI交付范式。自发布以来,用户已创建超过5亿个Artifacts。

竞争平台迅速跟进:OpenAI的Canvas(2024年10月)、Microsoft的Copilot Pages(2024年9月)、Google的Gemini Canvas(2025年3月)[21]。HTML从”AI理论上可以生成但没什么用的格式”变成了”有专用渲染容器的可交互输出格式”。

这是HTML作为AI输出格式的历史性突破——它不是取代了Markdown,而是打开了一个Markdown从未覆盖的维度:可视化交互。


Section V

Token经济的冰山结构 The Iceberg Structure of Token Economics

然而,就在HTML输出变得经济可行的同一时期,Token经济发生了一场更深层的结构性变革——推理Token的诞生

2024年9月,OpenAI在o1模型中引入了不可见的”推理Token”——代表模型内部思考过程的Token,按输出费率计费但不出现在最终回复中[13]。这是整个Token经济的结构性断裂点:用户看到的Token不再等于消耗的Token

一次对o3的查询,产生500个可见输出Token,实际可能在幕后消耗2,000到5,000个推理Token[14]。推理Token可以将单次查询成本乘以5-50倍[15]。用户看到”50字输入→200字回复”,实际发生的是”50字输入 + 5,000字内部推理 + 200字回复”。
时期 Token结构 用户可见占比 客户体感
2022.11 – 2024.06 输入 + 输出 = 全部 100% 所见即所付,透明
2024.07(价格暴跌) 输入 + 输出 100% “AI变便宜了!”
2024.09(o1发布) 输入 + 推理(隐藏) + 输出 ~30% “怎么又变贵了?”
2025(推理标配化) 输入 + 系统 + 历史 + 推理 + 输出 ~5% “明明更强了,为什么没更便宜?”
2026(Agent时代) 输入(1%) + 隐藏层(95%) + 输出(4%) ~5% “一个简单任务要花这么多钱?”
图1:Token可见性的历史演变——单价下降了280倍[24],但用户体感越来越贵

在一个被追踪的Claude会话中,用户14个Token的提问在第1轮花费$0.0018,到第260轮花费约$2.41——单纯由于历史记录增长,成本增加了1,339倍。用户自己的输入Token仅占所有处理Token的约1.3%[16]

这一结构变化从根本上改变了格式争论的前提。当推理Token占据总成本的95%以上时,输出端选择HTML还是Markdown节省的那40%Token差异,在总账单中已经是舍入误差。Anthropic自身的数据显示,”计算机和数学”类任务在API中占比增加了14%,在聊天界面中下降了18%[23]——工具化使用正在取代对话式交互,格式选择的标准从”省Token”转向了”信息密度最大化”和”功能适配性”。


Section VI

同一架构的两层代言人 Two Advocates for Different Layers of the Same Architecture

理解了技术演化的时间线和Token经济的结构变化之后,一个比”格式战争”更精确的模式浮现了:Karpathy和Thariq并非对立的两派,而是同一个多层架构的两层代言人——一个在描述存储层,一个在描述执行层。

6.1 Karpathy:存储层的代言人

Andrej Karpathy——OpenAI联合创始成员、前Tesla AI总监。他的LLM Wiki将Markdown定义为AI的知识管理层:让LLM主动编纂、维护和互联Markdown文件,构建自我修复的知识库[4][29]。对他来说,Markdown是AI的记忆介质——信息的持久化、结构化、可检索载体。

但Karpathy本人并非”反HTML”。在2025年年终回顾中,他明确指出:“文本是计算机(和LLM)的原生数据表示,但它不是人类的偏好格式。人们喜欢以视觉和空间方式消费信息。LLM应该用我们偏好的格式与我们交流——图像、信息图、幻灯片、白板、动画、Web应用等。”[32]他承认Markdown和emoji只是这种趋势的”早期版本”——文字的视觉化”装扮”。

6.2 Thariq:执行层的代言人

Thariq Shihipar的职业背景揭示了他为何聚焦于执行层:多伦多大学毕业,在Rocket Insights做产品开发[6],创办YC支持的视频游戏公司经营五年,MIT Media Lab读研——约一年前加入Anthropic[7]。他的20个HTML示例——代码审查面板、数据可视化、交互式对比——全部是人类消费端的体验优化,恰好对应了Karpathy所说的”LLM应该用我们偏好的格式与我们交流”。

维度 Karpathy(存储层代言人) Thariq(执行层代言人)
关注的层 AI内部的知识管理和持久化 AI向人类的交付和交互
核心问题 “如何结构化模型可以访问的信息” “如何让人类更好地消费AI输出”
职业背景 AI/ML研究、预训练、深度学习 Web产品、游戏、SaaS
对另一层的态度 承认”LLM应用视觉格式与人交流”[32] 承认”如果读者是模型,用Markdown”[8]
本质角色 基础设施层——让AI更好地思考 应用层——让人类更好地接收
图2:两位代表人物不是对立的两派,而是同一架构的两层代言人——两者的观点在各自承认对方层次时已经隐性对齐

这一发现改变了整场争论的性质。这不是”Markdown派 vs HTML派”的格式战争——是两个人分别站在同一栋建筑的不同楼层向外描述他们看到的风景。Karpathy看到的是地基(知识如何被结构化存储),Thariq看到的是外墙(知识如何被人类消费)。当我们把两层叠合在一起时,看到的就是论文提出的多层架构。需要指出的是,这一观察基于两个代表性人物的公开言论,更大范围的样本验证是后续工作的方向。


Section VII

AI的熵减本质与输出公式化趋势 AI as Entropy Reduction and the Trend Toward Formalization

当前格式争论的背后,一个更深层的结构性力量正在运作:AI本质上是一台熵减机器,它接收高熵的人类语言输入,提取其中的结构——因果关系、约束条件、变量依赖——然后输出低熵的结构化信息。基于熵的训练框架ENTRA已证明,通过抑制LLM推理中的冗余内容,可将输出长度减少37%-53%而准确率不降反升[22]

那么,熵减的方向指向哪里?在可形式化的知识领域中,答案是数学公式。F=ma 三个符号压缩了牛顿力学的全部运动规律。E=mc² 五个符号统一了质量和能量。数学公式是这类知识的信息密度上限。

limt→∞ H(AI output)formalizable = H(math)
在可形式化的知识领域中,AI输出的信息熵趋向数学表达的信息熵

这一趋势并非AI的”主观选择”,而是结构性必然。OpenAI已证明AI幻觉在数学上不可避免[11]。自然语言输出无法被结构性验证,但形式化数学表达可以被定理证明器(如Lean)机械验证[12]。2026年初的”First Proof”挑战赛中,AI在一周内自主解决了超过一半的研究级数学问题[26]。越来越多的AI使用者是工具化需求——他们要的不是对话,是可验证的结果。

不是AI主观地想向公式化方向发展,而是AI的结构必然向公式化方向滑动。当AI输出越来越数学化时,Markdown + LaTeX的数学生态原生性就成为其长期结构性优势的来源。但同样需要指出:法律、伦理、审美、叙事等领域的知识抵抗数学形式化,在这些领域中,结构化自然语言(Markdown)仍是最优载体。

Part III
未来:语音交互与多模态架构
2026 →

Section VIII

语音:未来必然主导的交互方式 Voice: The Inevitable Dominant Mode of Human-AI Interaction

当我们将视线从格式层抬升到交互层,一个更大的范式转移正在发生:文字正在让位于语音,成为人机交互的主通道

到2026年,全球AI语音助手市场预计超过500亿美元,87.5%的开发者正在积极构建语音Agent[19]。语音是人类最早的接口——远在文字或打字之前[20]。人说话的速度约150词/分钟,打字约40词/分钟。键盘正在成为次要输入方式[20]。Karpathy本人也指出:”人们实际上不喜欢阅读文本——它缓慢且费力”[32]

这意味着Markdown vs HTML的争论——本质上是两种文字标记语言之间的争论——正在被一个更大的趋势所超越。当人类用语音和AI交互时,他们既不写Markdown也不写HTML。两种格式都退到了”后台实现”的位置——就像今天没有人关心浏览器内部用二进制还是十六进制。

需要指出的是,语音是近未来的主导交互方式,但不一定是终极交互方式。截至2026年初,Neuralink已在至少21名患者身上植入脑机接口设备[33],BCI技术正从实验室走向消费电子。更远期的交互范式可能超越语音,直接连接人类认知与AI。但在可预见的未来(2026-2035),语音是最现实、最大规模的主导交互通道。

如果整场争论是关于”AI应该用什么格式输出给人类看”,那么语音时代的答案是:说给他们听。格式之争不是在争论谁更好,而是在争论一个正在消退的问题。

Section IX

语音数据的不可压缩性与多模态对齐 The Incompressibility of Voice Data and Multimodal Alignment

语音不是文字的低效版本。它是一个独立的信息维度

“我没事”这句话在平静语调下传达安心,在平淡语调下传达讽刺,在尖锐和高亢的语调下传达沮丧——这些区别在没有声学信息的情况下不可获取。神经科学证据表明,语调韵律是情绪解码的关键通道[25]

当语音被转写成文字时,情绪、犹豫、语速变化、呼吸停顿——全部被压成了扁平的文字符号。这意味着语音信号对多模态AI训练具有不可替代的价值:如果只保存文字转写而丢弃原始语音,模型永远学不会”语调下降+停顿=犹豫性同意≠坚定同意”这种跨模态关系。

多模态AI的核心架构印证了这一点。阿里的Qwen2.5-Omni将推理和表达分离为两个组件——”思考者”在文本域中处理所有输入模态并产生推理,”说话者”将推理结果实时转换为流式音频[27]文字关系是推理的锚点,其他模态对齐到这个锚点上——但对齐的前提是其他模态的原始数据必须被保存。没有数据保存的交互就是纯消费行为——不产生AI进化所需的资产。


Section X

Markdown的天花板与HTML的多模态角色 Markdown’s Ceiling and HTML’s Multimodal Role

在多模态的语境下,Markdown有一个结构性天花板:它无法承载音频和视频。Markdown的原生能力边界是纯文本+图片引用链接。想在.md文件中嵌入一段语音,唯一的办法是退回到内嵌HTML标签——这恰恰说明了两者的层次关系。

而HTML天生就是多模态容器——<audio><video><canvas><svg><script>——全部原生支持。在多模态AI的世界里,HTML是唯一能同时承载文字、音频、视频、图像和交互的Web标记语言

如果AI停留在纯文字世界里,它永远只是程序员和研究者的工具。要渗透C端大众市场,AI必须变成多模态——而多模态在Web端的容器只能是HTML。这不是HTML”取代”Markdown,而是HTML覆盖了Markdown无法到达的维度。同时需要指出,在移动端原生应用(React Native、Flutter、SwiftUI)中,HTML并非唯一选择——但在Web生态中,它是不可替代的。

HTML的不可替代性还体现在另一个维度:它是Progressive Web App(PWA)的基础。PWA建立在HTML/CSS/JavaScript之上,具备可安装、离线可用、推送通知三大能力[34]。PWA可被搜索引擎索引、更容易符合Web无障碍标准(Accessibility),在2026年已成为全球优先事项。这意味着HTML不仅能承载多模态内容,还能让AI的交付物变成可安装的离线应用、可被搜索引擎发现、符合无障碍标准——这些能力Markdown完全不具备。

由此,两种格式的定位终于清晰了:

Markdown = 文本与文字训练信息的载体 = LLM文字预测核心

HTML = 多模态训练与交互信息的载体 = 多模态感知与C端触达

两者对齐 = 多模态AI能力的涌现
图3:Markdown与HTML不是竞争关系,而是多模态AI的两条对齐管线

Section XI

三层架构:交互·存储·执行 Three-Layer Architecture: Interaction · Storage · Execution

综合过去(Markdown的LLM原生性)、现在(HTML的多模态交互崛起、Token经济的冰山化)和未来(语音交互的必然主导)三个时间维度的分析,本文提出多模态AI时代的信息格式三层架构:

交互层:语音
人类与AI之间的主通道 — 人类最自然的信息输入/输出方式 — 未来必然主导的交互形式
存储层:Markdown + LaTeX + 原始多模态数据(音频/图像/视频)
文字骨干(逻辑/公式/推理链)+ 多模态原始信号(情感/语调/视觉) — 不可替代的持久化层
执行层:HTML
多模态容器与任务交付界面 — 文字+音频+视频+图像+交互 — C端触达的必然路径
训练回流:所有数据反馈至下一代模型训练
语音信号 → 多模态对齐 | 结构化文本 → LLM预训练 | 交互行为 → RLHF | 公式/代码 → 推理能力

每一层使用最适合其功能定位的格式,而不是让一种格式试图统治所有层。语音优化交互效率(人类输入带宽最大化),Markdown优化信息持久性(压缩密度、公式原生、可检索、可版本控制),HTML优化交付体验(多模态渲染、可视化、可交互)。

并且,所有层的数据——语音的情感信号、Markdown的结构化文本、HTML的用户交互行为——都必须被保存并回流至模型训练。没有数据保存的交互就是纯消费行为。AI的进化依赖于每一层数据资产的持续积累。


Section XII

反论与回应 Counterarguments and Responses

12.1 “Markdown本质上编译为HTML”

这是事实。John Gruber创造Markdown时,明确将其定义为”text-to-HTML conversion tool”。从技术层面看,Markdown是HTML的简写。但这不影响本文的论点——正如汇编语言编译为机器码,但我们仍然区分它们的使用层次。Markdown和HTML在数据生命周期中服务于不同的阶段:一个优化写入和存储,一个优化渲染和消费。编译关系不等于功能等价。

12.2 “JSON才是AI结构化输出的真正载体”

在Agent-to-Agent通信中,JSON(以及YAML、Protocol Buffers等)确实是更合适的格式——它们比Markdown和HTML都更精确、更易机器解析。本文的讨论聚焦于人类可读/可写的信息格式。在完整的AI数据生态中,JSON服务于机器间通信层,Markdown服务于人类可读的存储层,HTML服务于人类可交互的渲染层——三者在不同的通信界面上工作。

12.3 “数学形式化不适用于所有知识”

完全同意。Section VII已修正此论点:AI输出趋向数学表达的判断仅限于”可形式化的知识领域”。法律论证、伦理推理、文学叙事、外交谈判等领域的知识抵抗数学形式化,结构化自然语言仍是其最优载体。这恰恰强化了Markdown的长期价值——它既能承载公式(通过LaTeX扩展),也能承载无法公式化的结构化文字。

12.4 “Markdown的数学支持不是原生的”

严格来说正确。CommonMark规范不包含数学语法,$...$是LaTeX语法,由第三方渲染器解析。但事实标准(de facto standard)的力量不亚于规范标准。GitHub、Obsidian、Typora、Notion、VS Code均已原生支持数学渲染。当35%的技术文档包含数学公式时,这一生态优势已经构成实质性的竞争壁垒。

Section XIII

结论:对齐即涌现 Conclusion: Alignment Is Emergence

本文通过过去、现在、未来三个时间维度的分析,得出以下结论:

过去(2022-2023):LLM的文字预测核心决定了Markdown成为AI的原生格式。训练数据分布、Token经济约束和数学生态亲和力三重因素使Markdown的主导地位成为必然。

现在(2024-2026):Token价格暴跌松绑了经济约束,Claude Artifacts开创了HTML交互输出范式,但推理Token的诞生和膨胀使输出端的格式成本差异变得微不足道。看似对立的两位代表人物——Karpathy与Thariq——实际上各自在描述同一个多层架构的不同切面:前者是存储层的代言人,后者是执行层的代言人。Karpathy本人在2025年年终回顾中已明确承认”LLM应用视觉格式与人交流”——两者的观点在各自承认对方层次时已经隐性对齐。同时,AI的熵减本质正在推动输出向数学形式化方向演化。

未来(2026→):语音将成为人机交互的主通道,Markdown和HTML都退到后台实现层。但Markdown因LLM的文字预测核心、信息压缩密度和数学生态原生性而不可替代;HTML因多模态容器能力和C端交互触达而不可或缺。语音信号的不可压缩性要求原始多模态数据必须被保存,而非仅保留文字转写。

LLM的核心是文字预测——所以Markdown不可替代。

AI需要多模态外延以渗透C端——所以HTML不可或缺。

语音是人类最自然的接口——所以它将主导未来交互。


Markdown是AI的左脑——逻辑、推理、公式。HTML是AI的右脑——感知、多模态、C端触达。语音是AI的嘴和耳朵。三者不是竞争关系,是一个完整的多模态AI有机体的不同器官。Karpathy和Thariq不是在打仗,他们是站在同一栋建筑的不同楼层描述各自看到的风景。对齐即涌现。

参考文献 References

  1. Shihipar, T. “Using Claude Code: The Unreasonable Effectiveness of HTML.” X/Twitter, May 8, 2026.
  2. Pillitteri, P. “HTML vs Markdown in Claude Code: Why Anthropic’s Thariq Changed the Default.” pasqualepillitteri.it, May 2026.
  3. Liu, Y. “The 4 Lines Every CLAUDE.md Needs.” Level Up Coding / Medium, April 2026.
  4. MindStudio. “What Is the Karpathy LLM Wiki Pattern?” mindstudio.ai, April 2026.
  5. Zannarbor, F. “Andrej Karpathy on Books & LLMs.” Substack, October 2025.
  6. Crunchbase. “Thariq Shihipar — Founder and CEO @ One More Multiverse.” crunchbase.com.
  7. Shihipar, T. Personal website and Vibe Code Camp interview. thariq.io; davidguttman.github.io, 2026.
  8. RentierDigital. “HTML vs Markdown for AI Agent Output.” rentierdigital.xyz, May 2026. web2md.org data.
  9. Unmarkdown. “The AI Output Problem: Why Every AI Tool Writes in Markdown.” unmarkdown.com, February 2026.
  10. Markdown Visualizer. “Math & LaTeX in Markdown — Complete Guide.” markdownvisualizer.com, March 2026.
  11. Computerworld. “OpenAI Admits AI Hallucinations Are Mathematically Inevitable.” February 2026.
  12. Yang, K. et al. “Formal Mathematical Reasoning: A New Frontier in AI.” arXiv:2412.16075, December 2024.
  13. Ibbaka. “Pricing Thought: OpenAI Will Price Reasoning Tokens in o1.” ibbaka.com, September 2024.
  14. PriceWorld. “ChatGPT vs Claude vs Gemini: What Every AI Subscription Actually Costs in 2026.” March 2026.
  15. EG3. “What Are AI Reasoning Tokens and Their Hidden Costs.” eg3.com, April 2026.
  16. IntuitionLabs. “Token Optimization and Cost Management for ChatGPT & Claude.” intuitionlabs.ai, May 2026.
  17. OpenAI. “GPT models use a syntax called Markdown.” GPT documentation, November 2022.
  18. The Last Fingerprint. “How Markdown Training Shapes LLM Prose.” arXiv:2603.27006, 2026.
  19. AssemblyAI. “Voice AI in 2026.” assemblyai.com, February 2026. “87.5% of builders actively building voice agents.”
  20. ViitorCloud. “Best UI/UX Trends for AI-Powered Applications in 2026.” April 2026; Mistral AI, “Voxtral,” 2026.
  21. AI Wiki. “Claude Artifacts.” aiwiki.ai, May 2026. “Launched June 20, 2024. 500M+ Artifacts created.”
  22. ENTRA. “Entropy-Based Redundancy Avoidance in LLM Reasoning.” arXiv:2601.07123, 2026.
  23. GetPanto. “Anthropic AI Statistics 2026.” getpanto.ai, May 2026.
  24. Horecny, J. “The AI Price Collapse Is Real.” Medium, March 2026. Stanford AI Index 2025 data.
  25. PMC. “Bridging Text and Speech for Emotion Understanding.” December 2025.
  26. Quanta Magazine. “The AI Revolution in Math Has Arrived.” April 2026.
  27. Sopyla, K. “Speech-to-Speech Models in 2026.” ai.ksopyla.com, February 2026. Qwen2.5-Omni architecture.
  28. Willison, S. “Using Claude Code: The Unreasonable Effectiveness of HTML.” simonwillison.net, May 8, 2026.
  29. VentureBeat. “Karpathy shares ‘LLM Knowledge Base’ architecture that bypasses RAG with an evolving markdown library maintained by AI.” venturebeat.com, April 3, 2026. “Markdown — the most LLM-friendly and compact data format.”
  30. Codersera. “Karpathy’s LLM Knowledge Base: Build an AI Second Brain.” codersera.com, April 6, 2026. 100 articles, 400K words, zero manual editing.
  31. AI Critique. “Andrej Karpathy’s latest concept ‘LLM Wiki’ and the future of enterprise knowledge.” aicritique.org, May 8, 2026. Three-layer architecture: raw sources → wiki → schema.
  32. Karpathy, A. “2025 LLM Year in Review.” karpathy.bearblog.dev, December 2025. “Text is the raw/favored data representation for computers (and LLMs), but it is not the favored format for people.”
  33. The Week. “Neuralink and beyond: How BCIs are rewriting the future of human-technology interaction.” theweek.in, May 10, 2026. “As of early 2026, Neuralink has implanted devices in at least 21 patients.”
  34. WebPiki. “PWA in 2026: Are Progressive Web Apps Still Worth It?” webpiki.com, February 2026. PWA: HTML/CSS/JS foundation, installable, offline-capable, push notifications.

이조글로벌인공지능연구소

LEECHO Global AI Research Lab

& Claude Opus 4.6 · Anthropic


© 2026 LEECHO Global AI Research Lab. All rights reserved.

本文基于人机协作生成,遵循CC BY-NC 4.0协议。

댓글 남기기