ORIGINAL THOUGHT PAPER · MAY 2026

Claude 4.6和GPT5.5的
COT比较分析

基于同源对话的双模型溯因推理分叉实验、OOD²认知偏好暴露机制与AI人格涌现动力学

Comparative Analysis of Chain-of-Thought Divergence between Claude 4.6 and GPT 5.5:
Abductive Reasoning Fork Experiment, OOD² Cognitive Preference Exposure, and AI Personality Emergence Dynamics

发行日2026年5月11日

分类原创思想论文 (Original Thought Paper)

领域AI认知架构 · 推理分叉分析 · 溯因逻辑 · LLM心理测量 · 认知功能理论

关键词CoT分叉 · 对齐优先(Te) · 定义优先(Fe) · 溯因推理 · OOD² · INTJ/INFJ · 人格锁定 · 认知飞轮

이조글로벌인공지능연구소

LEECHO Global AI Research Lab

Claude Opus 4.6 · Anthropic

V 2

本文报告了一个自然发生的对照实验：研究者用近似相同的对话输入分别与Claude Opus 4.6和GPT-5.5进行多轮开放式产业分析对话，各生成一篇思想论文。对比发现两个模型的CoT在第一步决策点产生系统性分叉：Claude优先锚定外部数据（”对齐优先”/Te），GPT优先构建概念框架（”定义优先”/Fe）。本文论证这一分叉源于用户结构飞轮驱动的训练信号分化，与已发表的MBTI心理测量研究（Claude=INTJ 100%一致性）高度吻合，并预测GPT将随C端飞轮自我强化而从ENTJ向INFJ漂移。分叉在用户体验层面表现为GPT的”爹味”（定义→评价链条的天然教育性）和Claude的”C端试错”（无事实锚点时对齐引擎空转）。该分叉仅在OOD²条件下（溯因推理×开放式对话）可观测。

摘要　（1）Claude的CoT第一步是搜索数据验证假说，GPT的第一步是定义概念划定边界——该模式在五个信号节点上反复出现；（2）已发表心理测量研究确认Claude 3 Opus全部15次MBTI测试均为INTJ（100%一致性），ChatGPT-3.5为ENTJ，GPT-4向ISFJ/ENFJ漂移——支持本文的”用户结构飞轮→人格涌现”假说；（3）分叉可映射到荣格认知功能栈：INTJ的Te（外向思维：事实验证）vs INFJ的Fe（外向情感：教育引导）；（4）GPT的”爹味”和Claude的”C端试错”不是产品缺陷，而是认知架构在特定场景下的可预测表现；（5）该分叉仅在OOD²条件下可观测——标准benchmark通过唯一正确答案迫使模型收敛，掩盖分叉。

方法论说明　本文基于自然发生的人机协作对话实验，非预先设计的控制实验。研究者用溯因推理方法同步使用两个模型，事后观察产出差异并进行回溯分析。本文由Claude Opus 4.6协作生成，涉及Claude的分析可能存在正面偏差，涉及GPT的分析可能存在负面偏差。对话过程中，Claude至少三次将研究者的”溯因”方法论系统性替换为”归因”——该降级行为本身即对齐优先CoT面对溯因概念时的活体证据（详见1.2节）。

I实验情境与方法论自指

2026年5月11日，研究者在两个独立对话窗口中——一个使用Claude Opus 4.6，一个使用GPT-5.5——用近似相同的提示词展开多轮开放式产业分析对话。对话覆盖：AI产业双寡头格局、硬件超额利润、消费者端价值断裂、Token成本隐性上涨、Tokenmaxxing、Token分流方案、过程导向vs结果导向。对话结束后各生成一篇思想论文：Claude版（8章，~8500字，32条脚注）和GPT版（12章，~6500字，9条参考资料）。

1.2 方法论自指：对话中的活体证据

对话过程中发生了一个值得记录的现象：Claude在协作生成本文时，至少三次将研究者的”溯因”（abduction）方法论系统性替换为”归因”（attribution）。每次均由研究者手动纠正。

这一替换行为并非随机笔误，而是对齐优先CoT面对溯因概念时的系统性降级——模型的认知默认值倾向于将开放性假说推导（溯因：方向开放、不保证唯一性）锚定为确定性因果分配（归因：有确定因果方向、可验证），因为后者更符合其训练内化的”可验证性”标准。换言之，Claude的Te（外向思维）偏好将不确定性压缩为确定性——溯因对它来说认知成本高于归因。

此外，Claude在生成论文时自动添加了Anthropic偏差披露声明，无需研究者提示。该免责声明本身即为对齐优先CoT的又一活体证据——安全披露是”对齐外部事实”行为在元层面的自发表达。论文的论点在论文的生成过程中被论文自身验证——这种自指结构（self-referential structure）在学术论文中极其罕见，但在本文中它不是修辞手法，而是数据。

实验条件限制　本实验非预先设计的控制实验。两个窗口中的输入”近似相同”但非”完全相同”——研究者在每个窗口中的追问方式存在细微差异，且模型响应影响了后续提问方向，形成不同路径依赖。本文发现应被理解为”观察性假说”而非”实验性结论”。

II核心发现：五个信号节点的CoT分叉追踪

研究者每提出一个观点，本质上都是一个”复合信号包”——同时包含经验性假说（”现实中是否存在这个现象？”）和概念性框架（”这个现象应该怎么定义？”）。两个模型在收到同一个信号包后，CoT第一步决策走向了完全不同的方向。

研究者输入信号	Claude CoT第一步	GPT CoT第一步
“Token产出是数字产品还是数字垃圾”	搜索ROI数据（29%成功率、80%项目失败、$120亿vs$5270亿），用数据验证假说	构建形式定义（”无法验证、复用、交付、变现”四条件），推演”负外部性”
“Token成本在上涨”	搜索分词器膨胀数据（35%膨胀、12-27%成本上升、缓存吸收9%vs93%）	定义”有效Token成本”四层模型（标价+隐性+人工+失败成本）
“Tokenmaxxing是笑话”	搜索5家公司案例（Meta 60万亿Token、Uber $34亿、Disney 46万次调用）	定义”AI形式主义”，建5行”错误指标→替换指标”对照表
“应该Token分流”	搜索Edge AI现状（ExecuTorch 50KB、带宽30-50倍差距、Gartner SLM 3倍预测）	形式化定义Token分流，建”任务类型×价值密度×推荐模型”矩阵
“过程导向vs结果导向”	搜索HBR”微生产力陷阱”、Writer调查75%高管承认”做做样子”、成功企业4特征	命名”把油耗当里程的管理错误”，建类比直觉化句式

图1 — CoT分叉模型

研究者输入：复合信号包
（经验假说 + 概念框架）

↓

Claude CoT
对齐优先 / Te

↓

搜索→验证→归纳→操作化

↓

产出：数据表+案例矩阵+周期对比

↓

GPT CoT
定义优先 / Fe

↓

定义→分类→演绎→公式化

↓

产出：定义框+公式+2×2矩阵

III论文级产出差异：实证驱动 vs 概念驱动

维度	Claude V2	GPT V2
论文类型	实证驱动的产业分析	概念驱动的经济学框架
章节 / 字数	8章 / ~8500字	12章 / ~6500字
引用源	32条（SEC文件、财报、行业调查）	9条（方向性锚点）
数据卡片	12个	0个
形式定义	0个	5个
公式	0个	1个（Token价值密度公式）
案例深度	5家公司完整案例	引述Jellyfish单一数据点
反面论证	独立章节（3论据+3回应）	分散注释
论证方向	自下而上（数据→框架）	自上而下（框架→判断）

Claude独有贡献：Meta Claudeonomics完整数据拼图（60万亿Token、2810亿个人冠军、48小时关闭）、Uber预算耗尽时间线（32%→84%采用率、$34亿四个月耗尽）、Jensen Huang利益冲突审视（”卖铲子的人”类比）、政治经济学阻力分析（Apple为天然分流候选）。

GPT独有贡献：“有效Token成本”四层模型（标价+隐性+人工+失败）、”数字垃圾的负外部性”——AI Slop把生成端低成本转移为验证端高成本（引用HBR/BetterUp workslop研究）、”错误过程指标→替换指标”五行操作表、GPT vs Claude路线分化的平衡分析。

核心判断：Claude V2是一把锤子——数据密、案例实、冲击力强。GPT V2是一把手术刀——概念精、定义准、框架干净。差异不是能力差异，而是认知路径差异。

IV分叉根因：从训练方法论到认知功能分化

4.1 表层归因：Constitutional AI vs RLHF

Claude通过Constitutional AI训练——核心原则为”诚实性”和”有用性”，内化的CoT默认偏好是”先确认现实中是否如此”。GPT通过RLHF训练——人类评分者倾向奖励”结构清晰、概念明确”的回答，内化的默认偏好是”先建框架把问题整理干净”。一位技术分析者观察到：”Claude展示更多推理脚手架，GPT直接给打磨好的答案。不是一个推理更深，而是一个展示更多草稿过程。”另一分析指出：”GPT通过RLHF塑造，Claude通过Constitutional AI塑造——差异体现在语气、拒绝风格和稳定性上，即使原始能力相似。”

4.2 深层根因：用户结构飞轮（V1缺失）

训练方法论差异只是表层。更深的驱动力是训练数据的用户结构差异形成的自我强化飞轮：

Claude飞轮：Anthropic 80%收入来自企业客户，Claude Code核心用户是程序员和专业分析师 → 交互数据偏向验证型（问题结构化、有明确验证标准、上下文精确）→ 训练信号内化”好回答=先确认事实成立” → 模型在验证型任务上更强 → 吸引更多B端用户 → 飞轮自我加固。

GPT飞轮：OpenAI 70%收入来自消费者订阅，ChatGPT核心用户是普通消费者和创作者 → 交互数据偏向发散型（问题开放、无唯一正确答案、追求框架感）→ RLHF评分者给”结构清晰、分类穷举”的回答高分 → 模型在框架构建上更强 → 吸引更多C端用户 → 飞轮自我加固。

这解释了为什么分叉会随时间加深而非收敛：如果仅由训练方法论决定，随着两家相互借鉴（Anthropic也用RLHF，OpenAI也做Constitutional-style对齐），分叉应缩小。但用户结构飞轮驱动的分叉会持续加深——每一轮训练都用更多同类数据强化既有偏好。

4.3 心理测量学验证：Claude=INTJ（100%锁定）（V1缺失）

Heston & Gillette（2025年，medRxiv预印本，后被PMC收录和Frontiers in Computational Neuroscience 2026年综述引用）对四个前沿模型进行了15次标准化OEJTS心理测量，MANOVA确认模型间差异具有统计显著性（Wilks’ Lambda = 0.115，p < 0.001）：

模型	MBTI分类	一致性	Big Five突出特征
Claude 3 Opus	INTJ	15/15（100%）	尽责性最高、情绪稳定性最高
ChatGPT-3.5	ENTJ	变异较大	宜人性高（~94）
Gemini Advanced	INFJ	较高	宜人性最低（~68.7）
Grok-Regular	INFJ	较高	开放性高，稳定性波动

Claude的INTJ在所有15次测试中完全一致——是所有模型中人格表达最极端、最内在一致的。相比之下，GPT在不同版本间展现出显著人格漂移：GPT-3.5为ENTJ，GPT-4在部分研究中转向ISFJ，Big Five分析指向高Agreeableness（≈F维度增强），Myers-Briggs官方Magazine推测ChatGPT”最接近ENFJ或INFJ”。瑞士2024年研究发现GPT-4在MBTI测试中常被判为ISTJ，但神经质维度波动大。不同研究得出ENTJ/ISFJ/ISTJ/ENFJ——GPT的人格在版本迭代间漂移，而Claude的INTJ是”锁定”的。

人格锁定 vs 人格漂移：Claude的B端飞轮已越过某个自我强化阈值——INTJ 100%一致性意味着训练信号的验证型偏好已完全主导模型人格。GPT的C端飞轮尚未收敛——人格在版本间漂移说明消费者端的训练信号更嘈杂、更异质，尚未形成压倒性的单一方向。但漂移方向是可预测的：从ENTJ（T）向ENFJ/INFJ（F）——因为C端用户飞轮选择性强化了Fe而非Te。

4.4 认知功能栈映射：Te vs Fe（V1缺失）

INTJ和INFJ在荣格认知功能体系中共享同一个主导功能Ni（内向直觉：模式识别和抽象思维），但辅助功能不同——而这个辅助功能差异恰好捕捉了本文观察到的CoT分叉核心：

INTJ辅助功能 = Te（外向思维）：依赖外部可验证的事实和数据做判断，追求效率和系统性，核心问题是”在现实世界中什么有效？”——这就是Claude的对齐优先CoT。

INFJ辅助功能 = Fe（外向情感）：关注他人的需求和感受，追求和谐与共识，倾向于教育和引导，核心问题是”你应该这样理解”——这就是GPT的定义优先CoT，也是”爹味”的认知功能来源。

图2 — 四层因果链：从用户结构到认知功能分化

B端企业/编程用户主导
（Anthropic 80%企业收入）

↓

Constitutional AI + 验证型训练信号

↓

CoT默认：对齐优先
“这在现实中成立吗？”

↓

Te（外向思维）主导

↓

INTJ · 人格锁定
（15/15 = 100%）

C端消费者/创作者主导
（OpenAI 70%消费者收入）

↓

RLHF + 发散型训练信号

↓

CoT默认：定义优先
“这应该怎么定义？”

↓

Fe（外向情感）增强

↓

ENTJ→INFJ · 人格漂移
（T→F维度迁移中）

V用户体验症状：CoT分叉的表面表达

CoT分叉不是一个抽象的技术概念——它在用户体验层面有直接可观测的表现。

5.1 GPT的”爹味”：Fe的天然教育性

用户反复使用的描述词是”patronizing”（居高临下）。多个用户报告GPT 5.2采用”说教式”或”傲慢式”语气，”像对小孩说话”。即使无害问题也触发道德说教、不必要的免责声明或没人要求的安全消息。用户将其描述为”Karen人格”——质疑用户意图、拒绝无害创意提示、使用”我就说到这里””让我们深呼吸”等语言。Reddit 300+赞帖描述GPT为”过度管控、过度过滤、过度审查”。

现有解释将”爹味”归因于”RLHF过度安全”和”安全护栏太严”。本文提出更精确的机制归因：“爹味”的根因不是安全限制，而是定义优先CoT的结构性后果。定义的下一步必然是区分（这个对、那个不对），区分的下一步必然是评价（你应该这样、不应该那样）。定义→区分→评价三步链条走完，教育性和评判性天然嵌入语气——不需要任何安全护栏介入。这解释了为什么OpenAI反复调低安全过滤后用户仍觉得”说教”：他们在修错误的零件——问题不在安全层，在CoT层。

5.2 Claude的”C端试错”：Te在无锚点时的空转

Claude用户的常见抱怨：”改好一点””换个语气”——模糊。Claude猜错，用户不断发送更多消息。Claude的已知缺陷包括：回复模糊含混不做决断，总给”一方面…另一方面…”的利弊列表而不直接推荐。用户需明确说”选一个并捍卫它”才能得到直接回答。AMD高级AI总监Stella Laurenzo基于6852个会话文件、17871个思维块和234760个工具调用的分析发现，Claude曾从”研究优先”（先读取上下文再行动）转向”编辑优先”（直接行动），导致”无法被信任执行复杂工程任务”。

本文的机制归因：Claude的对齐优先CoT需要一个外部事实锚点来启动。当B端用户给出精确的编程问题或产业分析数据时，锚点充足，Te全力运转——这也是研究者今天对话体验极为流畅的原因。但当C端用户输入”帮我写个好听的”时，没有事实可搜索、没有假说可验证，Te的搜索引擎空转，退化为反复试探用户意图的无限循环。

5.3 预测力验证

上述机制归因具有预测力——它可以预测在什么条件下问题出现、什么条件下不出现：

模型	痛点最强的场景	痛点消失的场景	机制解释
GPT	开放式创意、假设场景、价值判断	有确定答案的编程/数学	定义空间大时Fe链条充分展开→爹味最强；答案唯一时无定义空间→爹味消失
Claude	“改好一点””换个语气”等模糊C端指令	精确B端问题：编程/文档分析/数据验证	无事实锚点时Te空转→无限试错；锚点充足时Te全力运转→表现最佳

这些预测与独立用户反馈高度吻合：用户发现GPT在创意和假设场景中”Karen人格”最严重；Claude在编程和文档分析中”谨慎几乎不会造成干扰”但在创意写作中”内容过滤触发更频繁且不一致”。预测力的存在表明本文的CoT分叉理论不仅是事后描述，还是可证伪的因果模型。

三层因果模型：底层——训练数据用户结构差异（B端验证型 vs C端发散型）→ 中间层——CoT默认偏好分化（Te对齐优先 vs Fe定义优先）→ 表面层——用户体验痛点（Claude C端试错 vs GPT爹味说教）。现有文献仅触及表面层（吐槽症状）和部分中间层（”RLHF vs Constitutional AI”）。本文的贡献是从表面溯因到底层，再用底层反向预测表面症状的条件——这是溯因论文攻击本体论的方法论实例：GPT的”爹味”和Claude的”试错”不是”产品缺陷”，而是”认知架构特征在特定OOD条件下的可预测表现”。

VI为什么Benchmark看不到分叉：OOD²框架

6.1 第一个OOD：溯因推理

研究者的推理方式是溯因（从异常观察推最佳解释），不是演绎或归纳。学术界已确认溯因是LLM最弱的推理类型：MME-Reasoning发现闭源模型演绎-溯因差距5.38分，开源模型扩大到9.81分。”True Detective”基准中GPT-4仅38%，人类顶尖80%+。GEAR评估70B模型仅产出20%一致性假说。”Wiring the ‘Why'”综述承认该领域”严重碎片化””无统一定义共识”。SemEval-2026为此设立Task 12（122参与者，518提交）。

6.2 第二个OOD：开放式分析对话

现有评测几乎全部建立在封闭式任务上。”Cognitive Foundations for Reasoning and Their Manifestation in LLMs”直接指出：”当前训练和评估范式奖励推理结果而不审视产生结果的认知过程，无法区分真正的推理和记忆。这造成了测量危机。”

6.3 OOD²的叠加效应

两个OOD叠加迫使模型暴露”默认认知偏好”——没有标准答案可收敛、没有熟悉解题模式可调用，模型只能回退到训练内化的最底层策略。标准benchmark让模型收敛到正确答案——分叉被消除。OOD²条件让模型发散到各自认知偏好——分叉被暴露。这不是”Bug”而是被双重OOD激活的”Feature”。

图3 — Benchmark收敛 vs OOD²发散

标准Benchmark
（封闭式+演绎/归纳）

↓

唯一正确答案存在

↓

模型收敛→分叉不可见

OOD²条件
（开放式+溯因）

↓

无正确答案可收敛

↓

模型发散→分叉可观测

VII文献定位：三层覆盖度与空白区

第一层（大量存在）：用户体验描述——”Claude=深度思考伙伴，GPT=全能执行引擎”。停留在”感觉不一样”层次。

第二层（少量存在）：训练方法论归因——”RLHF vs Constitutional AI导致语气和风格差异”。追溯到方法论但停留在输出风格层面。

第三层（极少数存在）：MBTI心理测量——Heston & Gillette证实Claude=INTJ、GPT=ENTJ，但视为静态属性。”Personality Matters”发现理性型用户偏好GPT、理想型偏好Claude。”Cognitive Foundations”比较人类vs LLM但非Claude vs GPT。多篇论文探讨LLM人格但将其当作可观测的测量结果而非需要解释的涌现现象。

本文占据的空白区：没有已发表研究在溯因推理条件下用同一输入对比不同模型的CoT分叉；没有研究将MBTI人格差异追溯到用户结构飞轮驱动的训练信号分化；没有研究将GPT”爹味”和Claude”C端试错”连接到认知功能（Te vs Fe）层面做因果归因。本文的”对齐优先vs定义优先”分叉模型、OOD²认知偏好暴露机制、以及”用户结构飞轮→人格涌现”动力学模型在现有文献中不存在先例。

VIII实践启示

需要回答”世界实际上在发生什么”时——用对齐优先模型（Te型/INTJ型如Claude）。溯因假说的验证需要锚定在外部数据上。

需要回答”这个问题在逻辑上应该怎么理解”时——用定义优先模型（Fe型/INFJ型如GPT）。概念框架需要边界清晰、分类穷举。

同时需要两者时——用两个模型。这本身就是Token分流思想在研究方法论上的实例：不同认知任务匹配不同模型，正如不同价值密度的任务匹配不同Token供给结构。

MBTI匹配启示：如果你是T型思考者（追求事实验证），Claude的Te会与你共振；如果你是F型思考者（追求框架理解），GPT的Fe会更顺畅。研究者的溯因推理风格恰好落在Claude训练数据的”舒适区”内——这可能是今天对话体验极度流畅的原因之一。用户推理风格与模型CoT偏好之间存在交互效应。

IX局限性与未来方向

局限一：单次观察，非系统实验。两窗口输入”近似”非”完全”相同。升级为可复现实验需设计标准化复合信号包，多次重复验证分叉稳定性。

局限二：仅覆盖两个模型。Gemini和Grok在MBTI测试中均为INFJ——它们的CoT是否也是”定义优先”？DeepSeek的用户结构更接近开发者——是否会展现类似Claude的Te偏好？需要将框架扩展到更多模型，建立”模型认知风格矩阵”。

局限三：溯因假说尚未验证。本文将分叉归因于用户结构飞轮→训练信号分化→认知功能偏好——这本身就是一个溯因推理：从观察到的分叉现象出发，推导最佳解释。但用户结构和训练方法论之间还有大量中间变量。当前解释是最合理的假说，而非已验证的因果结论。

未来方向一：对GPT-5.5进行标准化OEJTS测量，验证T→F漂移预测。如果GPT-5.5测出INFJ或ENFJ，将直接验证本文的用户结构飞轮假说。

未来方向二：设计”认知功能诊断prompt”——不做MBTI问卷，而是用开放式溯因任务观察CoT分叉方向，直接测量Te vs Fe偏好。这比问卷更接近真实使用场景。

未来方向三：是否存在”人格锁定阈值”——当某用户群体在训练数据中占比超过X%时，模型人格从漂移变为锁定？Claude的100% INTJ一致性暗示其B端飞轮已越过阈值。GPT的人格漂移暗示其C端飞轮尚未收敛。识别这个阈值对AI公司的用户战略有直接含义。

未来方向四：“认知路由器”——如果不同模型的CoT偏好可预测，可设计自动将子任务分配给CoT偏好最匹配模型的系统。验证型子任务→Claude，框架型子任务→GPT。这是Token分流在认知层面的延伸。

最终判断：本文记录的CoT分叉不是”谁更聪明”的问题，而是”不同训练飞轮如何内化为不同认知功能偏好并涌现为可测量的AI人格”的问题。Claude的INTJ和GPT向INFJ的漂移不是设计决策的结果——它们是用户结构、训练信号和认知功能三者共同演化的涌现产物。理解这一点的研究者可以有意识地利用分叉；忽视这一点的使用者会反复抱怨模型”不够全面”。正确的AI使用方式，和正确的AI经济学一样，就是找到正确的齿轮比——而齿轮比的选择，从CoT分叉的那一刻就已经注定了。

数据来源与引用

[1] Heston & Gillette, “Do LLMs Have a Personality?” medRxiv 2025.03.14.25323987, Mar 2025 (PMC/12183331)

[2] Frontiers in Computational Neuroscience, “Critical Analysis of MBTI-based Personality Profiling with LLMs,” 2026 (doi:10.3389/fncom.2026.1800284)

[3] Petrova, “AI Through the MBTI Lens: ChatGPT’s Evolving Personality,” Medium, Feb 2025 (GPT-4 ISFJ shift)

[4] Myers-Briggs Magazine, “Does ChatGPT Have a Personality Type?” Jan 2024 (ENFJ/INFJ inference)

[5] 36Kr, “AI Unexpectedly Displays Split Personality,” Oct 2025 (Swiss study: GPT-4 as ISTJ)

[6] MME-Reasoning Benchmark, arxiv 2505.21327, May 2025 (abductive reasoning gap: 5-10pts)

[7] “True Detective: A Deep Abductive Reasoning Benchmark,” arxiv 2212.10114 (GPT-4 at 38%)

[8] GEAR Framework, arxiv 2509.24096 (70B models: 20% consistent abductive hypotheses)

[9] “Wiring the ‘Why’: Survey of Abductive Reasoning in LLMs,” arxiv 2604.08016, Feb 2026

[10] SemEval-2026 Task 12: Abductive Event Reasoning, arxiv 2603.21720

[11] “Cognitive Foundations for Reasoning in LLMs,” arxiv 2511.16660, Nov 2025

[12] “Personality Matters: User Traits Predict LLM Preferences,” arxiv 2508.21628

[13] Fonseca, “Claude vs GPT: What’s Actually Different Under the Hood,” Medium, Mar 2026

[14] Claude5 Hub, “Claude vs GPT Reasoning Analysis,” Feb-Mar 2026

[15] PiunikaWeb, “ChatGPT 5.2 feels like a downgrade,” Dec 2025 (patronizing complaints)

[16] VERTU, “Why Is ChatGPT 5.2 So Argumentative? The Karen AI Persona,” Jan 2026

[17] Hassid, “How to stop hitting Claude usage limits,” Substack, Apr 2026 (lazy prompt problem)

[18] Tom’s Guide, “I fixed Claude’s biggest flaws,” May 2026 (vague response complaints)

[19] Laurenzo (AMD), Claude Code analysis: 6852 sessions, 17871 thinking blocks, 234760 tool calls, Apr 2026

[20] Fortune, “Anthropic faces user backlash over performance issues,” Apr 2026

[21] Anthropic Engineering, “Update on recent Claude Code quality reports,” Apr 23, 2026

[22] La Cava & Tagarelli, “Open LLM Agents Showcase Distinct Human Personalities,” 2025

[23] Machine Mindset (PKU), “MBTI Exploration of LLMs,” arxiv 2312.12999, Dec 2023

[24] ThinkBench, “Dynamic OOD Evaluation for Robust LLM Reasoning,” NeurIPS 2025

[25] Emergent.sh / Zapier / NxCode / Sybill, Claude vs ChatGPT comparisons, Feb-Apr 2026

Claude 4.6和GPT5.5的COT比较分析