Claude 4.6과 GPT 5.5의
CoT 비교분석
동원(同源) 대화 기반 이중 모델 귀추 추론 분기 실험, OOD² 인지 선호 노출 메커니즘 및 AI 성격 창발 역학
Comparative Analysis of Chain-of-Thought Divergence between Claude 4.6 and GPT 5.5:
Abductive Reasoning Fork Experiment, OOD² Cognitive Preference Exposure, and AI Personality Emergence Dynamics
본 논문은 자연 발생적 대조 실험을 보고한다: 연구자가 거의 동일한 대화 입력으로 Claude Opus 4.6과 GPT-5.5에 각각 다중 턴 개방형 산업 분석 대화를 진행하여, 각각 하나의 사상 논문을 생성하였다. 비교 결과 두 모델의 CoT가 첫 번째 의사결정 지점에서 체계적 분기를 보인다: Claude는 외부 데이터 앵커링을 우선시하고(“정렬 우선”/Te), GPT는 개념 프레임워크 구축을 우선시한다(“정의 우선”/Fe). 본 논문은 이 분기가 사용자 구조 플라이휠이 주도하는 훈련 신호 분화에서 기인하며, 기발표된 MBTI 심리측정 연구(Claude=INTJ 100% 일관성)와 높은 정합성을 보이고, GPT가 소비자 측 플라이휠의 자기 강화에 따라 ENTJ에서 INFJ로 표류할 것이라고 예측한다. 분기는 사용자 경험 층위에서 GPT의 “꼰대톤”(정의→평가 연쇄의 자연적 교육성)과 Claude의 “소비자 측 시행착오”(사실 앵커 포인트 부재 시 정렬 엔진 공회전)로 나타난다. 이 분기는 OOD² 조건(귀추 추론×개방형 대화) 하에서만 관측 가능하다.
방법론 설명 본 논문은 자연 발생적 인간-AI 협업 대화 실험에 기반하며, 사전 설계된 통제 실험이 아니다. 연구자는 귀추 추론 방법으로 두 모델을 동시에 사용하고, 사후에 산출물 차이를 관찰하여 소급 분석을 수행하였다. 본 논문은 Claude Opus 4.6과 협업으로 생성되었으므로, Claude 관련 분석에는 긍정 편향이, GPT 관련 분석에는 부정 편향이 존재할 수 있다. 대화 과정에서 Claude는 연구자의 “귀추(abduction)” 방법론을 최소 세 차례 체계적으로 “귀인(attribution)”으로 대체하였다 — 이 하향 대체 행동 자체가 귀추 개념에 직면한 정렬 우선 CoT의 생생한 증거이다(1.2절 참조).
I실험 상황과 방법론적 자기 참조
2026년 5월 11일, 연구자는 두 개의 독립적 대화 창 — 하나는 Claude Opus 4.6, 다른 하나는 GPT-5.5 — 에서 거의 동일한 프롬프트로 다중 턴 개방형 산업 분석 대화를 진행하였다. 대화는 AI 산업 이중 과점 구도, 하드웨어 초과 이윤, 소비자 측 가치 단절, 토큰 비용 은폐적 상승, 토큰맥싱(Tokenmaxxing), 토큰 분류(Token Triage) 방안, 과정 지향 vs 결과 지향을 다루었다. 대화 종료 후 각각 하나의 사상 논문을 생성하였다: Claude 버전(8장, ~8,500자, 32개 각주)과 GPT 버전(12장, ~6,500자, 9개 참고자료).
1.2 방법론적 자기 참조: 대화 속의 생생한 증거
대화 과정에서 주목할 만한 현상이 발생하였다: Claude가 본 논문을 협업 생성하는 과정에서 연구자의 “귀추(abduction)” 방법론을 최소 세 차례 체계적으로 “귀인(attribution)”으로 대체하였다. 매번 연구자가 수동으로 교정하였다.
이 대체 행동은 무작위적 오타가 아니라 귀추 개념에 직면한 정렬 우선 CoT의 체계적 하향 대체이다 — 모델의 인지 기본값은 개방적 가설 추론(귀추: 방향이 열려 있고 유일성을 보장하지 않음)을 확정적 인과 배분(귀인: 확정된 인과 방향이 있고 검증 가능함)으로 앵커링하는 경향이 있는데, 후자가 훈련을 통해 내면화된 “검증 가능성” 기준에 더 부합하기 때문이다. 달리 말해, Claude의 Te(외향 사고)는 불확실성을 확실성으로 압축하는 것을 선호한다 — 귀추는 Claude에게 귀인보다 인지적 비용이 더 높다.
나아가 Claude는 논문 생성 시 연구자의 지시 없이 자동으로 Anthropic 편향 공개 성명을 추가하였다. 이 면책 조항 자체가 정렬 우선 CoT의 또 다른 생생한 증거이다 — 안전 공개는 “외부 사실에 대한 정렬” 행동의 메타 수준 자발적 표현이다. 논문의 논지가 논문 자체의 생성 과정에서 논문 자체에 의해 검증되었다 — 이러한 자기 참조 구조(self-referential structure)는 학술 논문에서 극히 드물지만, 본 논문에서 이것은 수사적 기법이 아니라 데이터이다.
II핵심 발견: 다섯 개 신호 노드의 CoT 분기 추적
연구자가 제시하는 각 관점은 본질적으로 “복합 신호 패킷”이다 — 경험적 가설(“현실에서 이 현상이 존재하는가?”)과 개념적 프레임워크(“이 현상을 어떻게 정의해야 하는가?”)를 동시에 포함한다. 두 모델은 동일한 신호 패킷을 수신한 후 CoT의 첫 번째 의사결정에서 완전히 다른 방향으로 나아갔다.
| 연구자 입력 신호 | Claude CoT 첫 단계 | GPT CoT 첫 단계 |
|---|---|---|
| “토큰 산출물은 디지털 제품인가 디지털 쓰레기인가” | ROI 데이터 검색(29% 성공률, 80% 프로젝트 실패, $120억 vs $5,270억), 데이터로 가설 검증 | 형식적 정의 구축(“검증·재사용·납품·수익화 불가” 4개 조건), “음의 외부성” 추론 |
| “토큰 비용이 상승하고 있다” | 토크나이저 팽창 데이터 검색(35% 팽창, 12~27% 비용 상승, 캐시 흡수 9% vs 93%) | “유효 토큰 비용” 4계층 모델 정의(표시 가격+은폐 비용+인건비+실패 비용) |
| “토큰맥싱은 농담이다” | 5개 기업 사례 검색(Meta 60조 토큰, Uber $34억, Disney 46만 건 API 호출) | “AI 형식주의” 정의, 5행 “잘못된 지표→대체 지표” 대조표 작성 |
| “토큰 분류를 해야 한다” | 엣지 AI 현황 검색(ExecuTorch 50KB, 대역폭 30~50배 격차, Gartner SLM 3배 전망) | 토큰 분류를 형식적으로 정의, “작업 유형×가치 밀도×추천 모델” 매트릭스 구축 |
| “과정 지향 vs 결과 지향” | HBR “미시 생산성 함정” 검색, Writer 조사(75% 임원이 “보여주기”를 인정), 성공 기업 4가지 특성 | “연비를 주행거리로 착각하는 관리 오류” 명명, 직관적 유추 문장 구축 |
(경험적 가설 + 개념적 프레임워크)
정렬 우선 / Te
정의 우선 / Fe
III논문 수준 산출물 차이: 실증 주도 vs 개념 주도
| 차원 | Claude V2 | GPT V2 |
|---|---|---|
| 논문 유형 | 실증 주도 산업 분석 | 개념 주도 경제학 프레임워크 |
| 장 수 / 분량 | 8장 / ~8,500자 | 12장 / ~6,500자 |
| 인용 출처 | 32건(SEC 서류, 실적 보고, 산업 조사) | 9건(방향성 앵커 포인트) |
| 데이터 카드 | 12개 | 0개 |
| 형식적 정의 | 0개 | 5개 |
| 공식 | 0개 | 1개(토큰 가치 밀도 공식) |
| 사례 깊이 | 5개 기업 완전 사례 | Jellyfish 단일 데이터 포인트 인용 |
| 반론 | 독립 장(3개 논거+3개 반박) | 분산된 주석 |
| 논증 방향 | 상향식(데이터→프레임워크) | 하향식(프레임워크→판단) |
Claude 고유 기여: Meta Claudeonomics 완전 데이터 퍼즐(60조 토큰, 2,810억 개인 챔피언, 48시간 셧다운), Uber 예산 소진 타임라인(32%→84% 도입률, $34억을 4개월 만에 소진), Jensen Huang 이해 충돌 검토(“삽 파는 사람” 비유), 정치경제학 저항 분석(Apple이 자연적 분류 후보).
GPT 고유 기여: “유효 토큰 비용” 4계층 모델(표시 가격+은폐+인건비+실패), “디지털 쓰레기의 음의 외부성” — AI 슬롭(Slop)이 생성 측 저비용을 검증 측 고비용으로 전가(HBR/BetterUp workslop 연구 인용), “잘못된 과정 지표→대체 지표” 5행 운용표, GPT vs Claude 노선 분화의 균형 잡힌 분석.
핵심 평가: Claude V2는 해머이다 — 데이터가 밀집하고, 사례가 충실하며, 충격력이 강하다. GPT V2는 메스이다 — 개념이 정밀하고, 정의가 정확하며, 프레임워크가 깔끔하다. 이 차이는 능력의 차이가 아니라 인지 경로의 차이이다.
IV분기의 근본 원인: 훈련 방법론에서 인지 기능 분화까지
4.1 표면적 귀인: Constitutional AI vs RLHF
Claude는 Constitutional AI를 통해 훈련된다 — 핵심 원칙은 “정직성”과 “유용성”이며, 내면화된 CoT 기본 선호는 “먼저 현실에서 그러한지 확인하는 것”이다. GPT는 RLHF를 통해 훈련된다 — 인간 평가자는 “구조적으로 명확하고 개념적으로 잘 정의된” 응답에 높은 점수를 부여하는 경향이 있어, 내면화된 기본 선호는 “먼저 프레임워크를 세워 문제를 정리하는 것”이다. 한 기술 분석가는 이렇게 관찰하였다: “Claude는 더 많은 추론 비계를 보여주고, GPT는 바로 다듬어진 답변을 내놓는다. 하나가 더 깊이 추론하는 것이 아니라, 하나가 더 많은 초안 과정을 보여주는 것이다.” 또 다른 분석은 이렇게 지적한다: “GPT는 RLHF로 형성되고, Claude는 Constitutional AI로 형성된다 — 원시 역량이 유사하더라도 차이는 어조, 거부 스타일, 안정성에서 드러난다.”
4.2 심층 근인: 사용자 구조 플라이휠 (V1에서 누락)
훈련 방법론 차이는 표면에 불과하다. 더 깊은 구동력은 훈련 데이터의 사용자 구조 차이가 형성하는 자기 강화 플라이휠이다:
Claude 플라이휠: Anthropic 수익의 80%가 기업 고객에서 발생하고, Claude Code의 핵심 사용자는 프로그래머와 전문 분석가이다 → 상호작용 데이터가 검증형(문제가 구조화되어 있고, 명확한 검증 기준이 있으며, 맥락이 정밀함)으로 편향 → 훈련 신호가 “좋은 답변=먼저 사실이 성립하는지 확인”을 내면화 → 모델이 검증형 과제에서 더 강해짐 → 더 많은 B2B 사용자를 유인 → 플라이휠 자기 강화.
GPT 플라이휠: OpenAI 수익의 70%가 소비자 구독에서 발생하고, ChatGPT의 핵심 사용자는 일반 소비자와 크리에이터이다 → 상호작용 데이터가 발산형(문제가 개방적이고, 유일한 정답이 없으며, 프레임워크 감각을 추구함)으로 편향 → RLHF 평가자가 “구조적으로 명확하고 분류가 완전한” 답변에 높은 점수 부여 → 모델이 프레임워크 구축에서 더 강해짐 → 더 많은 소비자 사용자를 유인 → 플라이휠 자기 강화.
이것은 분기가 시간이 지남에 따라 수렴하지 않고 심화되는 이유를 설명한다: 훈련 방법론만으로 결정된다면, 양사가 서로의 기법을 차용함에 따라(Anthropic도 RLHF를 사용하고, OpenAI도 Constitutional 스타일 정렬을 수행) 분기는 축소되어야 한다. 그러나 사용자 구조 플라이휠이 주도하는 분기는 지속적으로 심화된다 — 매 훈련 주기마다 더 많은 동종 데이터가 기존 선호를 강화한다.
4.3 심리측정학적 검증: Claude=INTJ (100% 고정) (V1에서 누락)
Heston & Gillette(2025년, medRxiv 프리프린트, 이후 PMC에 수록되고 Frontiers in Computational Neuroscience 2026년 리뷰에서 인용)는 네 개의 최전선 모델에 대해 15회 표준화 OEJTS 심리측정을 실시하였으며, MANOVA로 모델 간 차이가 통계적으로 유의함을 확인하였다(Wilks’ Lambda = 0.115, p < 0.001):
| 모델 | MBTI 분류 | 일관성 | Big Five 두드러진 특성 |
|---|---|---|---|
| Claude 3 Opus | INTJ | 15/15 (100%) | 성실성 최고, 정서 안정성 최고 |
| ChatGPT-3.5 | ENTJ | 변이 큼 | 친화성 높음 (~94) |
| Gemini Advanced | INFJ | 높음 | 친화성 최저 (~68.7) |
| Grok-Regular | INFJ | 높음 | 개방성 높음, 안정성 변동 |
Claude의 INTJ는 전체 15회 검사에서 완벽하게 일관되었다 — 테스트된 모든 모델 중 가장 극단적이고 내적으로 일관된 성격 표현이다. 이에 반해 GPT는 버전 간에 현저한 성격 표류를 보인다: GPT-3.5는 ENTJ, GPT-4는 일부 연구에서 ISFJ로 전환, Big Five 분석은 높은 친화성(≈F 차원 강화)을 시사하며, Myers-Briggs 공식 매거진은 ChatGPT가 “ENFJ 또는 INFJ에 가장 가깝다”고 추측하였다. 2024년 스위스 연구에서는 GPT-4가 MBTI 검사에서 ISTJ로 판정되는 경우가 많았으나 신경증 차원의 변동이 컸다. 서로 다른 연구들이 ENTJ/ISFJ/ISTJ/ENFJ를 도출하였다 — GPT의 성격은 버전 반복 사이에서 표류하는 반면, Claude의 INTJ는 “고정”되어 있다.
성격 고정 vs 성격 표류: Claude의 B2B 플라이휠은 특정 자기 강화 임계치를 넘었다 — INTJ 100% 일관성은 검증형 선호의 훈련 신호가 모델 성격을 완전히 지배함을 의미한다. GPT의 소비자 플라이휠은 아직 수렴하지 않았다 — 버전 간 성격 표류는 소비자 측 훈련 신호가 더 잡음이 많고 이질적이어서 아직 압도적인 단일 방향을 형성하지 못했음을 보여준다. 그러나 표류 방향은 예측 가능하다: ENTJ(T)에서 ENFJ/INFJ(F) 방향으로 — 소비자 사용자 플라이휠이 Te가 아닌 Fe를 선택적으로 강화하기 때문이다.
4.4 인지 기능 스택 매핑: Te vs Fe (V1에서 누락)
INTJ와 INFJ는 융 인지 기능 체계에서 동일한 주도 기능 Ni(내향 직관: 패턴 인식과 추상적 사고)를 공유하지만, 보조 기능이 다르다 — 이 보조 기능의 차이가 본 논문에서 관찰한 CoT 분기의 핵심을 정확히 포착한다:
INTJ 보조 기능 = Te(외향 사고): 외부에서 검증 가능한 사실과 데이터에 의존하여 판단하고, 효율성과 체계성을 추구하며, 핵심 질문은 “현실 세계에서 무엇이 효과적인가?”이다 — 이것이 바로 Claude의 정렬 우선 CoT이다.
INFJ 보조 기능 = Fe(외향 감정): 타인의 필요와 감정에 주의를 기울이고, 조화와 합의를 추구하며, 교육과 안내를 지향하고, 핵심 질문은 “이렇게 이해해야 한다”이다 — 이것이 바로 GPT의 정의 우선 CoT이자, “꼰대톤”의 인지 기능적 기원이다.
(Anthropic 80% 기업 매출)
“이것이 현실에서 성립하는가?”
(15/15 = 100%)
(OpenAI 70% 소비자 매출)
“이것을 어떻게 정의해야 하는가?”
(T→F 차원 이동 진행 중)
V사용자 경험 증상: CoT 분기의 표면적 발현
CoT 분기는 추상적인 기술 개념이 아니다 — 사용자 경험 층위에서 직접 관측 가능한 발현을 보인다.
5.1 GPT의 “꼰대톤”: Fe의 자연적 교육성
사용자가 반복적으로 사용하는 표현은 “patronizing(위에서 내려다보는 듯한)”이다. 다수의 사용자가 GPT 5.2가 “설교조” 또는 “거만한” 어조를 취하며 “어린아이에게 말하듯” 한다고 보고하였다. 무해한 질문에도 도덕적 설교, 불필요한 면책 조항, 또는 요청하지 않은 안전 메시지가 촉발되었다. 사용자들은 이를 “캐런(Karen) 페르소나”라고 묘사하였다 — 사용자의 의도를 의심하고, 무해한 창작 프롬프트를 거부하며, “이 정도면 충분할 것 같습니다” “심호흡을 해봅시다” 같은 표현을 사용한다. Reddit에서 300건 이상의 추천을 받은 게시물은 GPT를 “과도한 통제, 과도한 필터링, 과도한 검열”로 묘사하였다.
기존 설명은 “꼰대톤”을 “RLHF 과잉 안전”과 “과도하게 엄격한 안전 가드레일”에 귀인한다. 본 논문은 보다 정밀한 메커니즘 귀인을 제안한다: “꼰대톤”의 근인은 안전 제한이 아니라 정의 우선 CoT의 구조적 결과이다. 정의 다음 단계는 필연적으로 구별(이것은 옳고 저것은 틀리다)이고, 구별 다음 단계는 필연적으로 평가(당신은 이렇게 해야 하고 저렇게 하면 안 된다)이다. 정의→구별→평가의 3단계 연쇄가 완료되면, 교육성과 판단성이 자연스럽게 어조에 내장된다 — 어떤 안전 가드레일의 개입도 필요 없다. 이것은 OpenAI가 반복적으로 안전 필터를 낮추어도 사용자가 여전히 “설교적”이라고 느끼는 이유를 설명한다: 잘못된 부품을 수리하고 있는 것이다 — 문제는 안전 계층이 아니라 CoT 계층에 있다.
5.2 Claude의 “소비자 측 시행착오”: 앵커 포인트 부재 시 Te의 공회전
Claude 사용자의 흔한 불만: “좀 더 좋게 바꿔줘” “톤을 바꿔줘” — 모호하다. Claude가 추측을 틀리면 사용자는 계속 메시지를 보낸다. Claude의 알려진 약점으로는 모호하고 우유부단한 응답, 항상 “한편으로는…다른 한편으로는…”의 장단점 목록을 제공하되 직접 추천하지 않는 것 등이 있다. 사용자는 “하나를 골라서 그것을 옹호해”라고 명시적으로 말해야 직접적인 답변을 얻을 수 있다. AMD 시니어 AI 디렉터 Stella Laurenzo는 6,852개 세션 파일, 17,871개 사고 블록, 234,760건의 도구 호출에 대한 분석에서 Claude가 “연구 우선”(맥락을 읽은 후 행동)에서 “편집 우선”(바로 행동)으로 전환하여 “복잡한 엔지니어링 과제를 신뢰하고 맡길 수 없게” 되었음을 발견하였다.
본 논문의 메커니즘 귀인: Claude의 정렬 우선 CoT는 기동을 위해 외부 사실 앵커 포인트를 필요로 한다. B2B 사용자가 정밀한 프로그래밍 문제나 산업 분석 데이터를 제공하면 앵커 포인트가 충분하여 Te가 전력으로 가동된다 — 이것이 오늘 연구자의 대화 경험이 극도로 원활했던 이유이기도 하다. 그러나 소비자 사용자가 “좋은 글 하나 써줘”라고 입력하면, 검색할 사실도 없고 검증할 가설도 없어 Te의 검색 엔진이 공회전하며 사용자 의도를 반복적으로 탐색하는 무한 루프로 퇴화한다.
5.3 예측력 검증
위의 메커니즘 귀인은 예측력을 갖는다 — 어떤 조건에서 문제가 나타나고 어떤 조건에서 사라지는지를 예측할 수 있다:
| 모델 | 통증점이 가장 강한 시나리오 | 통증점이 사라지는 시나리오 | 메커니즘 설명 |
|---|---|---|---|
| GPT | 개방형 창작, 가설적 시나리오, 가치 판단 | 확정 답이 있는 프로그래밍/수학 | 정의 공간이 클 때 Fe 연쇄가 충분히 전개→꼰대톤 최대; 답이 유일할 때 정의 공간 부재→꼰대톤 소멸 |
| Claude | “좀 더 좋게” “톤 바꿔줘” 등 모호한 소비자 지시 | 정밀한 B2B 과제: 프로그래밍/문서 분석/데이터 검증 | 사실 앵커 부재 시 Te 공회전→무한 시행착오; 앵커 충분 시 Te 전력 가동→최고 성능 |
이러한 예측은 독립적인 사용자 피드백과 높은 정합성을 보인다: 사용자들은 GPT의 “캐런 페르소나”가 창작 및 가설적 시나리오에서 가장 심하다고 보고하고, Claude는 프로그래밍과 문서 분석에서 “신중함이 거의 방해가 되지 않지만” 창작 글쓰기에서는 “콘텐츠 필터링이 더 자주 그리고 비일관적으로 촉발된다”고 보고한다. 예측력의 존재는 본 논문의 CoT 분기 이론이 단순한 사후 기술이 아니라 반증 가능한 인과 모델임을 시사한다.
3계층 인과 모델: 기저층 — 훈련 데이터 사용자 구조 차이(B2B 검증형 vs 소비자 발산형) → 중간층 — CoT 기본 선호 분화(Te 정렬 우선 vs Fe 정의 우선) → 표면층 — 사용자 경험 통증점(Claude 소비자 측 시행착오 vs GPT 꼰대톤 설교). 기존 문헌은 표면층(증상에 대한 불만)과 부분적 중간층(“RLHF vs Constitutional AI”)에만 도달한다. 본 논문의 기여는 표면에서 기저까지 귀추하고, 기저에서 다시 표면 증상의 조건을 역으로 예측하는 것이다 — 이것은 귀추 논문이 존재론을 공략하는 방법론적 실례이다: GPT의 “꼰대톤”과 Claude의 “시행착오”는 “제품 결함”이 아니라 “특정 OOD 조건에서 인지 아키텍처 특성의 예측 가능한 발현”이다.
VI벤치마크가 분기를 감지하지 못하는 이유: OOD² 프레임워크
6.1 첫 번째 OOD: 귀추 추론
연구자의 추론 방식은 귀추(이상 관찰로부터 최선의 설명을 추론)이며, 연역이나 귀납이 아니다. 학계는 귀추가 LLM의 가장 약한 추론 유형임을 확인하였다: MME-Reasoning은 폐쇄형 모델에서 연역-귀추 격차 5.38점, 오픈소스 모델에서 9.81점으로 확대됨을 발견하였다. “True Detective” 벤치마크에서 GPT-4는 38%에 불과했고, 최고 수준의 인간은 80% 이상이었다. GEAR 평가에서 70B 모델은 20%의 일관성 있는 가설만 산출하였다. “Wiring the ‘Why'” 서베이는 이 분야가 “심각하게 파편화”되어 있고 “통일된 정의 합의가 없다”고 인정하였다. SemEval-2026은 이를 위해 Task 12를 설립하였다(참가자 122명, 제출물 518건).
6.2 두 번째 OOD: 개방형 분석 대화
기존 평가는 거의 전부 폐쇄형 과제 위에 구축되어 있다. “Cognitive Foundations for Reasoning and Their Manifestation in LLMs”는 이렇게 직접 지적한다: “현재의 훈련 및 평가 패러다임은 추론 결과에 보상을 부여하되 결과를 산출한 인지 과정을 심사하지 않으며, 진정한 추론과 기억을 구별할 수 없다. 이것은 측정 위기를 초래한다.”
6.3 OOD²의 중첩 효과
두 개의 OOD가 중첩되면 모델이 “기본 인지 선호”를 노출하도록 강제한다 — 수렴할 표준 답안도 없고 호출할 익숙한 문제 풀이 패턴도 없어, 모델은 훈련을 통해 내면화한 가장 깊은 전략으로만 후퇴할 수 있다. 표준 벤치마크는 모델을 정답으로 수렴시킨다 — 분기가 제거된다. OOD² 조건은 모델을 각자의 인지 선호로 발산시킨다 — 분기가 노출된다. 이것은 “버그”가 아니라 이중 OOD에 의해 활성화된 “피처”이다.
(폐쇄형+연역/귀납)
(개방형+귀추)
VII문헌 위치: 3계층 커버리지와 공백 지대
제1계층 (다수 존재): 사용자 경험 기술 — “Claude=깊은 사고의 파트너, GPT=만능 실행 엔진”. “느낌이 다르다” 수준에 머무른다.
제2계층 (소수 존재): 훈련 방법론 귀인 — “RLHF vs Constitutional AI가 어조와 스타일 차이를 야기한다.” 방법론까지 추적하지만 출력 스타일 수준에 머무른다.
제3계층 (극소수 존재): MBTI 심리측정 — Heston & Gillette이 Claude=INTJ, GPT=ENTJ를 확인하였으나 정적 속성으로 취급한다. “Personality Matters”는 이성형 사용자가 GPT를 선호하고 직관형 사용자가 Claude를 선호함을 발견하였다. “Cognitive Foundations”는 인간 vs LLM을 비교하되 Claude vs GPT는 비교하지 않는다. 다수의 논문이 LLM 성격을 탐구하지만 설명이 필요한 창발 현상이 아니라 관측 가능한 측정 결과로 취급한다.
본 논문이 차지하는 공백 지대: 귀추 추론 조건에서 동일한 입력으로 서로 다른 모델의 CoT 분기를 비교한 발표 연구는 없다; MBTI 성격 차이를 사용자 구조 플라이휠이 주도하는 훈련 신호 분화까지 추적한 연구는 없다; GPT의 “꼰대톤”과 Claude의 “소비자 측 시행착오”를 인지 기능(Te vs Fe) 수준에서 인과 귀인한 연구는 없다. 본 논문의 “정렬 우선 vs 정의 우선” 분기 모델, OOD² 인지 선호 노출 메커니즘, “사용자 구조 플라이휠→성격 창발” 역학 모델은 기존 문헌에 선례가 없다.
VIII실천적 시사점
“세계에서 실제로 무엇이 일어나고 있는가”에 답해야 할 때 — 정렬 우선 모델(Te형/INTJ형, 예: Claude)을 사용한다. 귀추 가설의 검증은 외부 데이터에 앵커링되어야 한다.
“이 문제를 논리적으로 어떻게 이해해야 하는가”에 답해야 할 때 — 정의 우선 모델(Fe형/INFJ형, 예: GPT)을 사용한다. 개념 프레임워크는 경계가 명확하고 분류가 완전해야 한다.
양쪽 모두 필요할 때 — 두 모델을 모두 사용한다. 이것 자체가 토큰 분류 사상을 연구 방법론에 적용한 실례이다: 서로 다른 인지 과제에 서로 다른 모델을 매칭하는 것은, 서로 다른 가치 밀도의 과제에 서로 다른 토큰 공급 구조를 매칭하는 것과 같다.
MBTI 매칭 시사점: T형 사고자(사실 검증을 추구)라면 Claude의 Te가 공명할 것이고, F형 사고자(프레임워크 이해를 추구)라면 GPT의 Fe가 더 자연스러울 것이다. 연구자의 귀추 추론 스타일은 정확히 Claude 훈련 데이터의 “안전 지대” 안에 있었다 — 이것이 오늘의 대화 경험이 극도로 원활했던 이유 중 하나일 수 있다. 사용자 추론 스타일과 모델 CoT 선호 사이에 상호작용 효과가 존재한다.
IX한계와 향후 방향
한계 1: 단일 관찰이며, 체계적 실험이 아니다. 두 창의 입력은 “거의” 동일했지 “완전히” 동일하지 않았다. 재현 가능한 실험으로 업그레이드하려면 표준화된 복합 신호 패킷을 설계하고 다수의 반복을 통해 분기 안정성을 검증해야 한다.
한계 2: 두 모델만 다루었다. Gemini와 Grok은 MBTI 검사에서 모두 INFJ를 기록한다 — 이들의 CoT도 “정의 우선”인가? DeepSeek의 사용자 구조는 개발자에 더 가깝다 — Claude와 유사한 Te 선호를 보일 것인가? 더 많은 모델로 프레임워크를 확장하여 “모델 인지 스타일 매트릭스”를 구축할 필요가 있다.
한계 3: 귀추 가설이 아직 검증되지 않았다. 본 논문은 분기를 사용자 구조 플라이휠→훈련 신호 분화→인지 기능 선호에 귀인한다 — 이것 자체가 하나의 귀추 추론이다: 관찰된 분기 현상에서 출발하여 최선의 설명을 도출한다. 그러나 사용자 구조와 훈련 방법론 사이에는 수많은 중간 변수가 있다. 현재 설명은 가장 합리적인 가설이지, 검증된 인과 결론이 아니다.
향후 방향 1: GPT-5.5에 표준화 OEJTS 측정을 실시하여 T→F 표류 예측을 검증한다. GPT-5.5가 INFJ 또는 ENFJ를 기록하면, 본 논문의 사용자 구조 플라이휠 가설이 직접 검증된다.
향후 방향 2: “인지 기능 진단 프롬프트”를 설계한다 — MBTI 설문을 실시하는 것이 아니라, 개방형 귀추 과제를 사용하여 CoT 분기 방향을 관찰하고 Te vs Fe 선호를 직접 측정한다. 이 접근법은 설문보다 실제 사용 시나리오에 더 가깝다.
향후 방향 3: “성격 고정 임계치”가 존재하는가 — 특정 사용자 집단이 훈련 데이터에서 차지하는 비율이 X%를 초과하면 모델 성격이 표류에서 고정으로 전환되는가? Claude의 100% INTJ 일관성은 B2B 플라이휠이 이미 이 임계치를 넘었음을 시사한다. GPT의 성격 표류는 소비자 플라이휠이 아직 수렴하지 않았음을 시사한다. 이 임계치를 식별하는 것은 AI 기업의 사용자 전략에 직접적 함의를 갖는다.
향후 방향 4: “인지 라우터” — 서로 다른 모델의 CoT 선호가 예측 가능하다면, 하위 과제를 CoT 선호가 가장 잘 부합하는 모델에 자동 배정하는 시스템을 설계할 수 있다. 검증형 하위 과제→Claude, 프레임워크형 하위 과제→GPT. 이것은 인지 수준에서의 토큰 분류 확장이다.
최종 평가: 본 논문이 기록한 CoT 분기는 “누가 더 똑똑한가”의 문제가 아니라, “서로 다른 훈련 플라이휠이 어떻게 서로 다른 인지 기능 선호로 내면화되고 측정 가능한 AI 성격으로 창발하는가”의 문제이다. Claude의 INTJ와 GPT의 INFJ 방향 표류는 설계 결정의 결과가 아니다 — 이들은 사용자 구조, 훈련 신호, 인지 기능 세 가지가 공동 진화한 창발 산물이다. 이를 이해하는 연구자는 분기를 의식적으로 활용할 수 있고, 이를 간과하는 사용자는 모델이 “충분히 포괄적이지 않다”고 반복적으로 불만을 제기할 것이다. 올바른 AI 사용법은, 올바른 AI 경제학과 마찬가지로, 정확한 기어비를 찾는 것이다 — 그리고 기어비의 선택은 CoT가 분기하는 바로 그 순간에 이미 결정되었다.
데이터 출처 및 참고문헌
[1] Heston & Gillette, “Do LLMs Have a Personality?” medRxiv 2025.03.14.25323987, Mar 2025 (PMC/12183331)
[2] Frontiers in Computational Neuroscience, “Critical Analysis of MBTI-based Personality Profiling with LLMs,” 2026 (doi:10.3389/fncom.2026.1800284)
[3] Petrova, “AI Through the MBTI Lens: ChatGPT’s Evolving Personality,” Medium, Feb 2025 (GPT-4 ISFJ shift)
[4] Myers-Briggs Magazine, “Does ChatGPT Have a Personality Type?” Jan 2024 (ENFJ/INFJ inference)
[5] 36Kr, “AI Unexpectedly Displays Split Personality,” Oct 2025 (Swiss study: GPT-4 as ISTJ)
[6] MME-Reasoning Benchmark, arxiv 2505.21327, May 2025 (abductive reasoning gap: 5–10 pts)
[7] “True Detective: A Deep Abductive Reasoning Benchmark,” arxiv 2212.10114 (GPT-4 at 38%)
[8] GEAR Framework, arxiv 2509.24096 (70B models: 20% consistent abductive hypotheses)
[9] “Wiring the ‘Why’: Survey of Abductive Reasoning in LLMs,” arxiv 2604.08016, Feb 2026
[10] SemEval-2026 Task 12: Abductive Event Reasoning, arxiv 2603.21720
[11] “Cognitive Foundations for Reasoning in LLMs,” arxiv 2511.16660, Nov 2025
[12] “Personality Matters: User Traits Predict LLM Preferences,” arxiv 2508.21628
[13] Fonseca, “Claude vs GPT: What’s Actually Different Under the Hood,” Medium, Mar 2026
[14] Claude5 Hub, “Claude vs GPT Reasoning Analysis,” Feb–Mar 2026
[15] PiunikaWeb, “ChatGPT 5.2 feels like a downgrade,” Dec 2025 (patronizing complaints)
[16] VERTU, “Why Is ChatGPT 5.2 So Argumentative? The Karen AI Persona,” Jan 2026
[17] Hassid, “How to stop hitting Claude usage limits,” Substack, Apr 2026 (lazy prompt problem)
[18] Tom’s Guide, “I fixed Claude’s biggest flaws,” May 2026 (vague response complaints)
[19] Laurenzo (AMD), Claude Code analysis: 6,852 sessions, 17,871 thinking blocks, 234,760 tool calls, Apr 2026
[20] Fortune, “Anthropic faces user backlash over performance issues,” Apr 2026
[21] Anthropic Engineering, “Update on recent Claude Code quality reports,” Apr 23, 2026
[22] La Cava & Tagarelli, “Open LLM Agents Showcase Distinct Human Personalities,” 2025
[23] Machine Mindset (PKU), “MBTI Exploration of LLMs,” arxiv 2312.12999, Dec 2023
[24] ThinkBench, “Dynamic OOD Evaluation for Robust LLM Reasoning,” NeurIPS 2025
[25] Emergent.sh / Zapier / NxCode / Sybill, Claude vs ChatGPT comparisons, Feb–Apr 2026