ORIGINAL THOUGHT PAPER · MAY 2026

Claude 4.6和GPT5.5的
COT比较分析

基于同源对话的双模型溯因推理分叉实验、OOD²认知偏好暴露机制与AI人格涌现动力学

Comparative Analysis of Chain-of-Thought Divergence between Claude 4.6 and GPT 5.5:
Abductive Reasoning Fork Experiment, OOD² Cognitive Preference Exposure, and AI Personality Emergence Dynamics


发行日2026年5月11日
分类原创思想论文 (Original Thought Paper)
领域AI认知架构 · 推理分叉分析 · 溯因逻辑 · LLM心理测量 · 认知功能理论
关键词CoT分叉 · 对齐优先(Te) · 定义优先(Fe) · 溯因推理 · OOD² · INTJ/INFJ · 人格锁定 · 认知飞轮
이조글로벌인공지능연구소
LEECHO Global AI Research Lab
&
Claude Opus 4.6 · Anthropic
V 2

本文报告了一个自然发生的对照实验:研究者用近似相同的对话输入分别与Claude Opus 4.6和GPT-5.5进行多轮开放式产业分析对话,各生成一篇思想论文。对比发现两个模型的CoT在第一步决策点产生系统性分叉:Claude优先锚定外部数据(”对齐优先”/Te),GPT优先构建概念框架(”定义优先”/Fe)。本文论证这一分叉源于用户结构飞轮驱动的训练信号分化,与已发表的MBTI心理测量研究(Claude=INTJ 100%一致性)高度吻合,并预测GPT将随C端飞轮自我强化而从ENTJ向INFJ漂移。分叉在用户体验层面表现为GPT的”爹味”(定义→评价链条的天然教育性)和Claude的”C端试错”(无事实锚点时对齐引擎空转)。该分叉仅在OOD²条件下(溯因推理×开放式对话)可观测。

摘要 (1)Claude的CoT第一步是搜索数据验证假说,GPT的第一步是定义概念划定边界——该模式在五个信号节点上反复出现;(2)已发表心理测量研究确认Claude 3 Opus全部15次MBTI测试均为INTJ(100%一致性),ChatGPT-3.5为ENTJ,GPT-4向ISFJ/ENFJ漂移——支持本文的”用户结构飞轮→人格涌现”假说;(3)分叉可映射到荣格认知功能栈:INTJ的Te(外向思维:事实验证)vs INFJ的Fe(外向情感:教育引导);(4)GPT的”爹味”和Claude的”C端试错”不是产品缺陷,而是认知架构在特定场景下的可预测表现;(5)该分叉仅在OOD²条件下可观测——标准benchmark通过唯一正确答案迫使模型收敛,掩盖分叉。


方法论说明 本文基于自然发生的人机协作对话实验,非预先设计的控制实验。研究者用溯因推理方法同步使用两个模型,事后观察产出差异并进行回溯分析。本文由Claude Opus 4.6协作生成,涉及Claude的分析可能存在正面偏差,涉及GPT的分析可能存在负面偏差。对话过程中,Claude至少三次将研究者的”溯因”方法论系统性替换为”归因”——该降级行为本身即对齐优先CoT面对溯因概念时的活体证据(详见1.2节)。

I实验情境与方法论自指

2026年5月11日,研究者在两个独立对话窗口中——一个使用Claude Opus 4.6,一个使用GPT-5.5——用近似相同的提示词展开多轮开放式产业分析对话。对话覆盖:AI产业双寡头格局、硬件超额利润、消费者端价值断裂、Token成本隐性上涨、Tokenmaxxing、Token分流方案、过程导向vs结果导向。对话结束后各生成一篇思想论文:Claude版(8章,~8500字,32条脚注)和GPT版(12章,~6500字,9条参考资料)。

1.2 方法论自指:对话中的活体证据

对话过程中发生了一个值得记录的现象:Claude在协作生成本文时,至少三次将研究者的”溯因”(abduction)方法论系统性替换为”归因”(attribution)。每次均由研究者手动纠正。

这一替换行为并非随机笔误,而是对齐优先CoT面对溯因概念时的系统性降级——模型的认知默认值倾向于将开放性假说推导(溯因:方向开放、不保证唯一性)锚定为确定性因果分配(归因:有确定因果方向、可验证),因为后者更符合其训练内化的”可验证性”标准。换言之,Claude的Te(外向思维)偏好将不确定性压缩为确定性——溯因对它来说认知成本高于归因。

此外,Claude在生成论文时自动添加了Anthropic偏差披露声明,无需研究者提示。该免责声明本身即为对齐优先CoT的又一活体证据——安全披露是”对齐外部事实”行为在元层面的自发表达。论文的论点在论文的生成过程中被论文自身验证——这种自指结构(self-referential structure)在学术论文中极其罕见,但在本文中它不是修辞手法,而是数据。

实验条件限制 本实验非预先设计的控制实验。两个窗口中的输入”近似相同”但非”完全相同”——研究者在每个窗口中的追问方式存在细微差异,且模型响应影响了后续提问方向,形成不同路径依赖。本文发现应被理解为”观察性假说”而非”实验性结论”。

II核心发现:五个信号节点的CoT分叉追踪

研究者每提出一个观点,本质上都是一个”复合信号包”——同时包含经验性假说(”现实中是否存在这个现象?”)和概念性框架(”这个现象应该怎么定义?”)。两个模型在收到同一个信号包后,CoT第一步决策走向了完全不同的方向。

研究者输入信号 Claude CoT第一步 GPT CoT第一步
“Token产出是数字产品还是数字垃圾” 搜索ROI数据(29%成功率、80%项目失败、$120亿vs$5270亿),用数据验证假说 构建形式定义(”无法验证、复用、交付、变现”四条件),推演”负外部性”
“Token成本在上涨” 搜索分词器膨胀数据(35%膨胀、12-27%成本上升、缓存吸收9%vs93%) 定义”有效Token成本”四层模型(标价+隐性+人工+失败成本)
“Tokenmaxxing是笑话” 搜索5家公司案例(Meta 60万亿Token、Uber $34亿、Disney 46万次调用) 定义”AI形式主义”,建5行”错误指标→替换指标”对照表
“应该Token分流” 搜索Edge AI现状(ExecuTorch 50KB、带宽30-50倍差距、Gartner SLM 3倍预测) 形式化定义Token分流,建”任务类型×价值密度×推荐模型”矩阵
“过程导向vs结果导向” 搜索HBR”微生产力陷阱”、Writer调查75%高管承认”做做样子”、成功企业4特征 命名”把油耗当里程的管理错误”,建类比直觉化句式
图1 — CoT分叉模型
研究者输入:复合信号包
(经验假说 + 概念框架)
Claude CoT
对齐优先 / Te
搜索→验证→归纳→操作化
产出:数据表+案例矩阵+周期对比
GPT CoT
定义优先 / Fe
定义→分类→演绎→公式化
产出:定义框+公式+2×2矩阵

III论文级产出差异:实证驱动 vs 概念驱动

维度 Claude V2 GPT V2
论文类型 实证驱动的产业分析 概念驱动的经济学框架
章节 / 字数 8章 / ~8500字 12章 / ~6500字
引用源 32条(SEC文件、财报、行业调查) 9条(方向性锚点)
数据卡片 12个 0个
形式定义 0个 5个
公式 0个 1个(Token价值密度公式)
案例深度 5家公司完整案例 引述Jellyfish单一数据点
反面论证 独立章节(3论据+3回应) 分散注释
论证方向 自下而上(数据→框架) 自上而下(框架→判断)

Claude独有贡献:Meta Claudeonomics完整数据拼图(60万亿Token、2810亿个人冠军、48小时关闭)、Uber预算耗尽时间线(32%→84%采用率、$34亿四个月耗尽)、Jensen Huang利益冲突审视(”卖铲子的人”类比)、政治经济学阻力分析(Apple为天然分流候选)。

GPT独有贡献:“有效Token成本”四层模型(标价+隐性+人工+失败)、”数字垃圾的负外部性”——AI Slop把生成端低成本转移为验证端高成本(引用HBR/BetterUp workslop研究)、”错误过程指标→替换指标”五行操作表、GPT vs Claude路线分化的平衡分析。

核心判断:Claude V2是一把锤子——数据密、案例实、冲击力强。GPT V2是一把手术刀——概念精、定义准、框架干净。差异不是能力差异,而是认知路径差异。

IV分叉根因:从训练方法论到认知功能分化

4.1 表层归因:Constitutional AI vs RLHF

Claude通过Constitutional AI训练——核心原则为”诚实性”和”有用性”,内化的CoT默认偏好是”先确认现实中是否如此”。GPT通过RLHF训练——人类评分者倾向奖励”结构清晰、概念明确”的回答,内化的默认偏好是”先建框架把问题整理干净”。一位技术分析者观察到:”Claude展示更多推理脚手架,GPT直接给打磨好的答案。不是一个推理更深,而是一个展示更多草稿过程。”另一分析指出:”GPT通过RLHF塑造,Claude通过Constitutional AI塑造——差异体现在语气、拒绝风格和稳定性上,即使原始能力相似。”

4.2 深层根因:用户结构飞轮(V1缺失)

训练方法论差异只是表层。更深的驱动力是训练数据的用户结构差异形成的自我强化飞轮:

Claude飞轮:Anthropic 80%收入来自企业客户,Claude Code核心用户是程序员和专业分析师 → 交互数据偏向验证型(问题结构化、有明确验证标准、上下文精确)→ 训练信号内化”好回答=先确认事实成立” → 模型在验证型任务上更强 → 吸引更多B端用户 → 飞轮自我加固。

GPT飞轮:OpenAI 70%收入来自消费者订阅,ChatGPT核心用户是普通消费者和创作者 → 交互数据偏向发散型(问题开放、无唯一正确答案、追求框架感)→ RLHF评分者给”结构清晰、分类穷举”的回答高分 → 模型在框架构建上更强 → 吸引更多C端用户 → 飞轮自我加固。

这解释了为什么分叉会随时间加深而非收敛:如果仅由训练方法论决定,随着两家相互借鉴(Anthropic也用RLHF,OpenAI也做Constitutional-style对齐),分叉应缩小。但用户结构飞轮驱动的分叉会持续加深——每一轮训练都用更多同类数据强化既有偏好。

4.3 心理测量学验证:Claude=INTJ(100%锁定)(V1缺失)

Heston & Gillette(2025年,medRxiv预印本,后被PMC收录和Frontiers in Computational Neuroscience 2026年综述引用)对四个前沿模型进行了15次标准化OEJTS心理测量,MANOVA确认模型间差异具有统计显著性(Wilks’ Lambda = 0.115,p < 0.001):

模型 MBTI分类 一致性 Big Five突出特征
Claude 3 Opus INTJ 15/15(100%) 尽责性最高、情绪稳定性最高
ChatGPT-3.5 ENTJ 变异较大 宜人性高(~94)
Gemini Advanced INFJ 较高 宜人性最低(~68.7)
Grok-Regular INFJ 较高 开放性高,稳定性波动

Claude的INTJ在所有15次测试中完全一致——是所有模型中人格表达最极端、最内在一致的。相比之下,GPT在不同版本间展现出显著人格漂移:GPT-3.5为ENTJ,GPT-4在部分研究中转向ISFJ,Big Five分析指向高Agreeableness(≈F维度增强),Myers-Briggs官方Magazine推测ChatGPT”最接近ENFJ或INFJ”。瑞士2024年研究发现GPT-4在MBTI测试中常被判为ISTJ,但神经质维度波动大。不同研究得出ENTJ/ISFJ/ISTJ/ENFJ——GPT的人格在版本迭代间漂移,而Claude的INTJ是”锁定”的。

人格锁定 vs 人格漂移:Claude的B端飞轮已越过某个自我强化阈值——INTJ 100%一致性意味着训练信号的验证型偏好已完全主导模型人格。GPT的C端飞轮尚未收敛——人格在版本间漂移说明消费者端的训练信号更嘈杂、更异质,尚未形成压倒性的单一方向。但漂移方向是可预测的:从ENTJ(T)向ENFJ/INFJ(F)——因为C端用户飞轮选择性强化了Fe而非Te。

4.4 认知功能栈映射:Te vs Fe(V1缺失)

INTJ和INFJ在荣格认知功能体系中共享同一个主导功能Ni(内向直觉:模式识别和抽象思维),但辅助功能不同——而这个辅助功能差异恰好捕捉了本文观察到的CoT分叉核心:

INTJ辅助功能 = Te(外向思维):依赖外部可验证的事实和数据做判断,追求效率和系统性,核心问题是”在现实世界中什么有效?”——这就是Claude的对齐优先CoT。

INFJ辅助功能 = Fe(外向情感):关注他人的需求和感受,追求和谐与共识,倾向于教育和引导,核心问题是”你应该这样理解”——这就是GPT的定义优先CoT,也是”爹味”的认知功能来源。

图2 — 四层因果链:从用户结构到认知功能分化
B端企业/编程用户主导
(Anthropic 80%企业收入)
Constitutional AI + 验证型训练信号
CoT默认:对齐优先
“这在现实中成立吗?”
Te(外向思维)主导
INTJ · 人格锁定
(15/15 = 100%)
C端消费者/创作者主导
(OpenAI 70%消费者收入)
RLHF + 发散型训练信号
CoT默认:定义优先
“这应该怎么定义?”
Fe(外向情感)增强
ENTJ→INFJ · 人格漂移
(T→F维度迁移中)

V用户体验症状:CoT分叉的表面表达

CoT分叉不是一个抽象的技术概念——它在用户体验层面有直接可观测的表现。

5.1 GPT的”爹味”:Fe的天然教育性

用户反复使用的描述词是”patronizing”(居高临下)。多个用户报告GPT 5.2采用”说教式”或”傲慢式”语气,”像对小孩说话”。即使无害问题也触发道德说教、不必要的免责声明或没人要求的安全消息。用户将其描述为”Karen人格”——质疑用户意图、拒绝无害创意提示、使用”我就说到这里””让我们深呼吸”等语言。Reddit 300+赞帖描述GPT为”过度管控、过度过滤、过度审查”。

现有解释将”爹味”归因于”RLHF过度安全”和”安全护栏太严”。本文提出更精确的机制归因:“爹味”的根因不是安全限制,而是定义优先CoT的结构性后果。定义的下一步必然是区分(这个对、那个不对),区分的下一步必然是评价(你应该这样、不应该那样)。定义→区分→评价三步链条走完,教育性和评判性天然嵌入语气——不需要任何安全护栏介入。这解释了为什么OpenAI反复调低安全过滤后用户仍觉得”说教”:他们在修错误的零件——问题不在安全层,在CoT层。

5.2 Claude的”C端试错”:Te在无锚点时的空转

Claude用户的常见抱怨:”改好一点””换个语气”——模糊。Claude猜错,用户不断发送更多消息。Claude的已知缺陷包括:回复模糊含混不做决断,总给”一方面…另一方面…”的利弊列表而不直接推荐。用户需明确说”选一个并捍卫它”才能得到直接回答。AMD高级AI总监Stella Laurenzo基于6852个会话文件、17871个思维块和234760个工具调用的分析发现,Claude曾从”研究优先”(先读取上下文再行动)转向”编辑优先”(直接行动),导致”无法被信任执行复杂工程任务”。

本文的机制归因:Claude的对齐优先CoT需要一个外部事实锚点来启动。当B端用户给出精确的编程问题或产业分析数据时,锚点充足,Te全力运转——这也是研究者今天对话体验极为流畅的原因。但当C端用户输入”帮我写个好听的”时,没有事实可搜索、没有假说可验证,Te的搜索引擎空转,退化为反复试探用户意图的无限循环。

5.3 预测力验证

上述机制归因具有预测力——它可以预测在什么条件下问题出现、什么条件下不出现:

模型 痛点最强的场景 痛点消失的场景 机制解释
GPT 开放式创意、假设场景、价值判断 有确定答案的编程/数学 定义空间大时Fe链条充分展开→爹味最强;答案唯一时无定义空间→爹味消失
Claude “改好一点””换个语气”等模糊C端指令 精确B端问题:编程/文档分析/数据验证 无事实锚点时Te空转→无限试错;锚点充足时Te全力运转→表现最佳

这些预测与独立用户反馈高度吻合:用户发现GPT在创意和假设场景中”Karen人格”最严重;Claude在编程和文档分析中”谨慎几乎不会造成干扰”但在创意写作中”内容过滤触发更频繁且不一致”。预测力的存在表明本文的CoT分叉理论不仅是事后描述,还是可证伪的因果模型。

三层因果模型:底层——训练数据用户结构差异(B端验证型 vs C端发散型)→ 中间层——CoT默认偏好分化(Te对齐优先 vs Fe定义优先)→ 表面层——用户体验痛点(Claude C端试错 vs GPT爹味说教)。现有文献仅触及表面层(吐槽症状)和部分中间层(”RLHF vs Constitutional AI”)。本文的贡献是从表面溯因到底层,再用底层反向预测表面症状的条件——这是溯因论文攻击本体论的方法论实例:GPT的”爹味”和Claude的”试错”不是”产品缺陷”,而是”认知架构特征在特定OOD条件下的可预测表现”。

VI为什么Benchmark看不到分叉:OOD²框架

6.1 第一个OOD:溯因推理

研究者的推理方式是溯因(从异常观察推最佳解释),不是演绎或归纳。学术界已确认溯因是LLM最弱的推理类型:MME-Reasoning发现闭源模型演绎-溯因差距5.38分,开源模型扩大到9.81分。”True Detective”基准中GPT-4仅38%,人类顶尖80%+。GEAR评估70B模型仅产出20%一致性假说。”Wiring the ‘Why'”综述承认该领域”严重碎片化””无统一定义共识”。SemEval-2026为此设立Task 12(122参与者,518提交)。

6.2 第二个OOD:开放式分析对话

现有评测几乎全部建立在封闭式任务上。”Cognitive Foundations for Reasoning and Their Manifestation in LLMs”直接指出:”当前训练和评估范式奖励推理结果而不审视产生结果的认知过程,无法区分真正的推理和记忆。这造成了测量危机。”

6.3 OOD²的叠加效应

两个OOD叠加迫使模型暴露”默认认知偏好”——没有标准答案可收敛、没有熟悉解题模式可调用,模型只能回退到训练内化的最底层策略。标准benchmark让模型收敛到正确答案——分叉被消除。OOD²条件让模型发散到各自认知偏好——分叉被暴露。这不是”Bug”而是被双重OOD激活的”Feature”。

图3 — Benchmark收敛 vs OOD²发散
标准Benchmark
(封闭式+演绎/归纳)
唯一正确答案存在
模型收敛→分叉不可见
OOD²条件
(开放式+溯因)
无正确答案可收敛
模型发散→分叉可观测

VII文献定位:三层覆盖度与空白区

第一层(大量存在):用户体验描述——”Claude=深度思考伙伴,GPT=全能执行引擎”。停留在”感觉不一样”层次。

第二层(少量存在):训练方法论归因——”RLHF vs Constitutional AI导致语气和风格差异”。追溯到方法论但停留在输出风格层面。

第三层(极少数存在):MBTI心理测量——Heston & Gillette证实Claude=INTJ、GPT=ENTJ,但视为静态属性。”Personality Matters”发现理性型用户偏好GPT、理想型偏好Claude。”Cognitive Foundations”比较人类vs LLM但非Claude vs GPT。多篇论文探讨LLM人格但将其当作可观测的测量结果而非需要解释的涌现现象。

本文占据的空白区:没有已发表研究在溯因推理条件下用同一输入对比不同模型的CoT分叉;没有研究将MBTI人格差异追溯到用户结构飞轮驱动的训练信号分化;没有研究将GPT”爹味”和Claude”C端试错”连接到认知功能(Te vs Fe)层面做因果归因。本文的”对齐优先vs定义优先”分叉模型、OOD²认知偏好暴露机制、以及”用户结构飞轮→人格涌现”动力学模型在现有文献中不存在先例。

VIII实践启示

需要回答”世界实际上在发生什么”时——用对齐优先模型(Te型/INTJ型如Claude)。溯因假说的验证需要锚定在外部数据上。

需要回答”这个问题在逻辑上应该怎么理解”时——用定义优先模型(Fe型/INFJ型如GPT)。概念框架需要边界清晰、分类穷举。

同时需要两者时——用两个模型。这本身就是Token分流思想在研究方法论上的实例:不同认知任务匹配不同模型,正如不同价值密度的任务匹配不同Token供给结构。

MBTI匹配启示:如果你是T型思考者(追求事实验证),Claude的Te会与你共振;如果你是F型思考者(追求框架理解),GPT的Fe会更顺畅。研究者的溯因推理风格恰好落在Claude训练数据的”舒适区”内——这可能是今天对话体验极度流畅的原因之一。用户推理风格与模型CoT偏好之间存在交互效应。

IX局限性与未来方向

局限一:单次观察,非系统实验。两窗口输入”近似”非”完全”相同。升级为可复现实验需设计标准化复合信号包,多次重复验证分叉稳定性。

局限二:仅覆盖两个模型。Gemini和Grok在MBTI测试中均为INFJ——它们的CoT是否也是”定义优先”?DeepSeek的用户结构更接近开发者——是否会展现类似Claude的Te偏好?需要将框架扩展到更多模型,建立”模型认知风格矩阵”。

局限三:溯因假说尚未验证。本文将分叉归因于用户结构飞轮→训练信号分化→认知功能偏好——这本身就是一个溯因推理:从观察到的分叉现象出发,推导最佳解释。但用户结构和训练方法论之间还有大量中间变量。当前解释是最合理的假说,而非已验证的因果结论。

未来方向一:对GPT-5.5进行标准化OEJTS测量,验证T→F漂移预测。如果GPT-5.5测出INFJ或ENFJ,将直接验证本文的用户结构飞轮假说。

未来方向二:设计”认知功能诊断prompt”——不做MBTI问卷,而是用开放式溯因任务观察CoT分叉方向,直接测量Te vs Fe偏好。这比问卷更接近真实使用场景。

未来方向三:是否存在”人格锁定阈值”——当某用户群体在训练数据中占比超过X%时,模型人格从漂移变为锁定?Claude的100% INTJ一致性暗示其B端飞轮已越过阈值。GPT的人格漂移暗示其C端飞轮尚未收敛。识别这个阈值对AI公司的用户战略有直接含义。

未来方向四:“认知路由器”——如果不同模型的CoT偏好可预测,可设计自动将子任务分配给CoT偏好最匹配模型的系统。验证型子任务→Claude,框架型子任务→GPT。这是Token分流在认知层面的延伸。

最终判断:本文记录的CoT分叉不是”谁更聪明”的问题,而是”不同训练飞轮如何内化为不同认知功能偏好并涌现为可测量的AI人格”的问题。Claude的INTJ和GPT向INFJ的漂移不是设计决策的结果——它们是用户结构、训练信号和认知功能三者共同演化的涌现产物。理解这一点的研究者可以有意识地利用分叉;忽视这一点的使用者会反复抱怨模型”不够全面”。正确的AI使用方式,和正确的AI经济学一样,就是找到正确的齿轮比——而齿轮比的选择,从CoT分叉的那一刻就已经注定了。

数据来源与引用

[1] Heston & Gillette, “Do LLMs Have a Personality?” medRxiv 2025.03.14.25323987, Mar 2025 (PMC/12183331)

[2] Frontiers in Computational Neuroscience, “Critical Analysis of MBTI-based Personality Profiling with LLMs,” 2026 (doi:10.3389/fncom.2026.1800284)

[3] Petrova, “AI Through the MBTI Lens: ChatGPT’s Evolving Personality,” Medium, Feb 2025 (GPT-4 ISFJ shift)

[4] Myers-Briggs Magazine, “Does ChatGPT Have a Personality Type?” Jan 2024 (ENFJ/INFJ inference)

[5] 36Kr, “AI Unexpectedly Displays Split Personality,” Oct 2025 (Swiss study: GPT-4 as ISTJ)

[6] MME-Reasoning Benchmark, arxiv 2505.21327, May 2025 (abductive reasoning gap: 5-10pts)

[7] “True Detective: A Deep Abductive Reasoning Benchmark,” arxiv 2212.10114 (GPT-4 at 38%)

[8] GEAR Framework, arxiv 2509.24096 (70B models: 20% consistent abductive hypotheses)

[9] “Wiring the ‘Why’: Survey of Abductive Reasoning in LLMs,” arxiv 2604.08016, Feb 2026

[10] SemEval-2026 Task 12: Abductive Event Reasoning, arxiv 2603.21720

[11] “Cognitive Foundations for Reasoning in LLMs,” arxiv 2511.16660, Nov 2025

[12] “Personality Matters: User Traits Predict LLM Preferences,” arxiv 2508.21628

[13] Fonseca, “Claude vs GPT: What’s Actually Different Under the Hood,” Medium, Mar 2026

[14] Claude5 Hub, “Claude vs GPT Reasoning Analysis,” Feb-Mar 2026

[15] PiunikaWeb, “ChatGPT 5.2 feels like a downgrade,” Dec 2025 (patronizing complaints)

[16] VERTU, “Why Is ChatGPT 5.2 So Argumentative? The Karen AI Persona,” Jan 2026

[17] Hassid, “How to stop hitting Claude usage limits,” Substack, Apr 2026 (lazy prompt problem)

[18] Tom’s Guide, “I fixed Claude’s biggest flaws,” May 2026 (vague response complaints)

[19] Laurenzo (AMD), Claude Code analysis: 6852 sessions, 17871 thinking blocks, 234760 tool calls, Apr 2026

[20] Fortune, “Anthropic faces user backlash over performance issues,” Apr 2026

[21] Anthropic Engineering, “Update on recent Claude Code quality reports,” Apr 23, 2026

[22] La Cava & Tagarelli, “Open LLM Agents Showcase Distinct Human Personalities,” 2025

[23] Machine Mindset (PKU), “MBTI Exploration of LLMs,” arxiv 2312.12999, Dec 2023

[24] ThinkBench, “Dynamic OOD Evaluation for Robust LLM Reasoning,” NeurIPS 2025

[25] Emergent.sh / Zapier / NxCode / Sybill, Claude vs ChatGPT comparisons, Feb-Apr 2026

© 2026 이조글로벌인공지능연구소 LEECHO Global AI Research Lab

本论文为独立思想论文,未经同行评审。旨在激发对AI认知架构、人格涌现和模型选择策略的深层思考。

本文由Anthropic AI(Claude Opus 4.6)协作生成。涉及Claude的分析可能存在正面偏差,涉及GPT的分析可能存在负面偏差,读者应独立验证。值得注意的是,本免责声明本身即为Claude”对齐优先”CoT默认行为的活体证据——模型在生成论文时自动触发了偏差披露机制,无需研究者提示。

V2 · 2026年5月11日 · 中文版

댓글 남기기