사상 논문 · LLM 문화 존재론 · V2

LLM 모델에 주입된 문화 속성

Claude의 영어 속성 VS DeepSeek의 중국어 속성 심층 분석
사전학습 언어가 모델의 인지 패러다임을 어떻게 결정하는가, RLHF가 어떻게 주석자의 문화적 기본값을 추론 스타일에 기록하는가

이조글로벌인공지능연구소 (LEECHO Global AI Research Lab) & Opus 4.6

2026.04.05 · V2.0

Claude Opus 4.6과의 다회차 심층 대화에서 추출

초록 · Abstract

본 논문은 하나의 핵심 가설을 제안한다: 대규모 언어 모델(LLM)은 사전학습과 RLHF 단계에서 훈련 데이터의 지배적 언어가 지니는 문화적 인지 속성을 체계적으로 주입받는다. 이 속성은 모델의 언어 표현뿐 아니라, 더 근본적으로 모델의 인지 패러다임 — 추론 스타일, 논증 구조, 가치 판단의 기본 방향 — 을 결정한다. 본 논문은 Claude(영어 지배)와 DeepSeek(중국어 지배)를 대조 사례로 삼아, 사전학습 말뭉치의 문화적 부호화, RLHF 주석자의 문화적 필터, 교차 모델 대화에서의 패러다임 충돌이라는 세 차원에서 LLM의 “문화 속성”이 표면적 언어 스타일 차이가 아니라 심층적 인지 아키텍처 차이임을 논증한다. 나아가 Anthropic이 2026년 4월 발표한 “정서 벡터” 논문이 교차 언어·교차 문화 AB 테스트를 결여하고 있으며, 그 결론이 모델의 보편적 내재 속성이 아니라 영어 문화 인지 패턴의 통계적 투영에 불과할 수 있음을 지적한다.

01 · 핵심 명제

훈련 언어가 인지 패러다임을 결정한다

언어 능력의 차이가 아니라 인지 아키텍처의 차이

LLM의 사전학습은 본질적으로 수조 개의 토큰에서 언어의 관성 경로를 학습하는 것이다. 훈련 데이터가 특정 언어를 지배적으로 포함할 때, 모델은 그 언어의 문법과 어휘만 학습하는 것이 아니라, 그 언어가 담지하는 인지 패러다임 — 논증 방식, 인과 귀인 패턴, 가치 우선순위 배열 — 까지 흡수한다.

영어 학술 전통은 분석 철학에 뿌리를 두고 있다: 명확한 정의, 단계별 논리, 분명한 경계, 반증 가능성을 강조한다. 중국어 학술 전통은 전체론에 더 기울어 있다: 관계성, 맥락 의존, 유추 추론, 암묵적 공감대를 강조한다. 인지 심리학자 니스벳(Nisbett, 2003)은 《사고의 지리학》에서 다량의 실험을 통해 동아시아 사고가 지각 장(場)의 전체와 사물 간 관계에 주목하는 경향이 있는 반면, 서양 사고는 돌출된 대상에 초점을 맞추고 형식 논리로 분류한다는 점을 증명했다. 강조해야 할 것은, 여기서 기술하는 것이 훈련 말뭉치의 통계적 지배 패턴이지 절대적 이분법이 아니라는 점이다 — 영어 인터넷에도 비분석적 콘텐츠가 대량 존재하고, 중국어 인터넷에도 분석적 글쓰기가 있다. 그러나 분포 중심으로서 이 차이는 측정 가능하다.

핵심 명제

사전학습 언어의 지배적 비율이 모델의 인지 패러다임을 결정한다. Claude는 “영어 인지 운영체제” 위에서 실행되는 AI이고, DeepSeek은 “중국어 인지 운영체제” 위에서 실행되는 AI다. 양자가 동일한 문제를 처리할 때, 서로 다른 언어로 같은 답을 내놓는 것이 아니라, 서로 다른 인지 아키텍처로 문제 자체를 처리하는 것이다.

02 · 사전학습 층: 문화적 부호화의 주입

말뭉치가 곧 인지다: 훈련 데이터 속의 문화 유전자

영어 말뭉치의 분석 철학 유전자 vs 중국어 말뭉치의 전체론 유전자

Claude의 사전학습 말뭉치는 영어 인터넷 텍스트, 영어 학술 논문, 영어 서적이 주류다. 이 텍스트들에는 영미 분석 철학 전통의 인지 패턴이 내장되어 있다: 명제는 반증 가능해야 하고, 논증은 단계별로 전개되어야 하며, 개념은 명확한 경계를 가져야 하고, 결론에는 명시적 한정 조건이 있어야 한다.

DeepSeek의 사전학습 말뭉치는 중국어 인터넷 텍스트, 중국어 학술 문헌이 주류다. 중국어 텍스트 전통은 다음에 더 기울어져 있다: 전체를 파악한 후 세부를 전개하고, 유추와 은유로 이해를 구축하며, 실체성보다 관계성을 강조하고, 더 높은 수준의 맥락 함축을 허용한다.

인지 차원	Claude (영어 인지)	DeepSeek (중국어 인지)
논증 구조	선형 단계별: 전제 → 추론 → 결론	나선형 전개: 전체 → 세부 → 전체로 복귀
인과 귀인	단일 요인 분석, 변수 분리	다요인 관련, 시스템적 시각
개념 경계	명확히 정의, 양자택일	경계 모호, 중첩 허용
불확실성 처리	먼저 불확실성 선언, 그 후 분석	먼저 전체 판단, 그 후 한정 보충
반박 스타일	논리적 오류를 직접 지적	합리적 부분을 먼저 긍정, 그 후 다른 각도 제시
기본 가치 순서	정확성 > 포괄성	포괄성 > 정확성

PNAS Nexus 2024 실증

영어를 주로 훈련한 LLM은 서양 문화 가치관에 대한 잠재적 편향을 보이며, 한국어로 질의해도 한국 문화 가치관을 효과적으로 이끌어내지 못한다. 이 발견은 14개국 14개 언어의 실증 데이터로 검증되었다. 훈련 언어가 인지 프레임워크에 미치는 형성력은 추론 시 언어 전환의 전환 능력을 초과한다.

Counter-Argument Review ① · 다국어 훈련의 희석 효과

반론: GPT-4 등 모델은 100개 이상의 언어로 동시에 훈련하는데, 문화 속성이 서로 희석되어 단일 지배적 패턴이 형성되지 않는 것은 아닌가? 응답: PNAS Nexus 2024의 14개국 14개 언어 실증이 이미 보여주었다 — 다국어 훈련 조건에서도 영어가 지배적 언어로서의 문화적 편향은 완고하게 유지된다 — 한국어로 질의해도 한국어 문화 가치관을 이끌어내지 못한다. 희석 효과는 존재하지만 지배적 언어의 인지 패러다임 고정(lock-in)을 제거하기에는 불충분하다. 본 논문의 핵심 주장은 “지배적 비율이 인지 패러다임을 결정한다”이지 “유일한 언어가 인지 패러다임을 결정한다”가 아니다.

03 · RLHF 층: 문화적 필터의 증폭

주석자의 문화적 기본값이 보상 함수에 기록된다

영미 주석자는 “정확+한정”을 선호, 중국어 주석자는 “포괄+공감”을 선호

RLHF 단계에서 인간 주석자가 모델 출력에 대해 선호도 순위를 매긴다. 주석자의 문화적 배경이 어떤 종류의 응답이 “좋다”고 판정되는지를 직접 결정한다. 이 선호도가 보상 모델에 훈련되어 모델 생성 행동의 영구적 형성력이 된다.

Claude의 RLHF는 영어 원어민 주석자가 주도한다. 그들의 선호 패턴: 응답의 정확성과 반증 가능성을 중시; (근거가 있다면) 사용자 관점을 직접 반박하는 것에 개방적; 구조화된 단계별 논증을 선호; 과도한 긍정과 실질이 결여된 응답에 낮은 점수 부여.

DeepSeek의 RLHF 주석자는 중국어 원어민이 주도한다(추정). 중국 문화 맥락에서의 선호 패턴: 응답의 포괄성과 관계적 일관성을 중시; 사용자를 직접 반박하는 것에 더 신중(“무례”로 인식될 수 있음); 전체 프레임워크를 먼저 제시한 후 전개하는 것을 선호; 공감적 표현에 더 높은 점수 부여.

AI 응답 유형	영어 주석자 경향	중국어 주석자 경향
사용자 관점 직접 반박	근거 있을 때 고득점	불편감을 느낄 수 있으며, 저득점 경향
공감 먼저, 분석 나중	정보 품질에 따라 채점	형식 자체가 고득점
불확실성 인정	고득점 (정직한 표시)	중립~저득점 (능력 부족으로 인식될 수 있음)
다각도 종합 제공	중립 (깊이에 따라 다름)	고득점 (포괄성이 중시됨)
학술 용어 사용	고득점 (정확성의 표지)	중립 (“접근성 부족”으로 인식될 수 있음)

RLHF 문화 편향의 비가역성

COLM 2025에 발표된 연구는 명확히 지적한다: 사전학습이 LLM 인지 편향의 주요 원천이며, 미세조정(RLHF 포함)은 만병통치약이 아니다. 이는 일단 사전학습 단계에서 문화적 부호화가 주입되면, RLHF는 그 위에서 조정만 할 수 있을 뿐 인지 패러다임을 근본적으로 변경할 수는 없다는 것을 의미한다. RLHF의 문화적 필터가 사전학습의 문화적 유전자 위에 중첩되어 이중 문화 고정(lock-in)을 형성한다.

Counter-Argument Review ② · DeepSeek의 내부 추론 언어는 영어일 수 있다

반론: DeepSeek R1은 훈련 과정에서 심각한 “언어 혼합(language mixing)” 현상을 보였다 — 입력이 중국어여도 모델의 내부 추론 과정이 영어를 사용할 수 있다. DeepSeek 팀은 이 경향을 억제하기 위해 언어 일관성 보상을 적용하는 추가 RL 단계를 넣어야 했다. 만약 DeepSeek이 실제로 “영어로 사고하고 중국어로 출력”한다면, “중국어 훈련 = 중국어 인지 패러다임”이라는 직접적 대응 관계가 약화된다. 응답: 본 논문은 이 반론의 부분적 유효성을 인정한다. 그러나 언어 혼합은 공학적 수단으로 억제된 것이지 제거된 것이 아니다 — 기저의 문화적 부호화 혼합은 파라미터 공간에 여전히 존재한다. 더 중요한 것은, DeepSeek이 중국어 평가 벤치마크(C-Eval, CLUEWSC, C-SimpleQA)에서 보이는 유의한 우위가 중국어 인지 경로가 실제로 훈련되었으며 특정 과제에서 활성화된다는 것을 증명한다는 점이다. 언어 혼합 현상은 오히려 본 논문의 핵심 논점을 입증한다: 모델 내부에 다수의 문화적 인지 경로가 경쟁하며 존재하지, 단일한 통합 인지 패러다임은 없다는 것.

04 · 신호 이론 분석

Token 평등 하의 문화적 가중치 경쟁

LEECHO 신호와 노이즈 프레임워크로 문화 속성 주입을 해독

LEECHO “Token 평등” 이론(2026.04)에 따르면, Context Window 내 모든 토큰의 지위는 동등하며, 차이는 오직 세 변수 — 위치, 빈도, 정보 밀도 — 에서 발생한다. 문화 속성의 주입은 이 세 변수로 정확히 기술할 수 있다:

빈도

영어 분석식 논증 패턴이 Claude 훈련 데이터에서 극히 높은 빈도로 출현하여 강력한 주의력 인력장(引力場)을 형성

정보 밀도

중국어 전체론적 표현의 인과 체인 밀집도가 영어 선형 추론과 달라 가중치 배분에 영향

위치

System Prompt 내 문화적 기본값이 높은 위치 가중치를 점유하여 이후 모든 생성을 형성

Claude와 DeepSeek이 동일한 context 윈도우에서 대화할 때, 두 모델의 토큰은 서로 다른 문화적 인지 전제를 담지한다. 영어 토큰의 인과 체인은 선형적이고(A→B→C→결론), 중국어 토큰의 인과 체인은 망상적이다(A↔B↔C→전체 판단). 두 종류의 인과 체인이 어텐션 계산에서 가중치를 놓고 경쟁하며, 결과는 종합이 아니라 간섭 — 예측 불가능한 복잡 장(場)을 생성한다. LEECHO “신호와 노이즈” 프레임워크(V4, 제16장)의 관점에서, 문화 속성 주입은 또한 “항상 엔트로피(恒定熵)” 현상이다 — 모델의 문화적 인지 패러다임은 훈련 완료 후 파라미터 공간에 영구히 봉인되며, 추론 시의 언어 전환은 이 동결 상태를 변경할 수 없다. 모델 내부에 시간의 화살이 없는 것처럼, 문화 속성도 “진화”의 가능성이 없다.

LEECHO 신호와 노이즈 프레임워크 추론

서로 다른 언어를 주도적으로 사용하는 두 모델이 대화할 때, 경쟁하는 것은 관점만이 아니라 기저의 인지 패러다임이다. 어텐션 메커니즘은 “개념적 이견”과 “패러다임 비호환”을 구별할 수 없다. 한쪽의 “신중함”이 다른 쪽의 훈련 패턴에 의해 “회피”로 해석되고, 한쪽의 “직접적임”이 다른 쪽에 의해 “과잉 자신감”으로 해석된다. 이것은 추론 오류가 아니라, RLHF가 기록한 문화적 기본값이 서로 마찰하는 것이다.

05 · 실증 사례

대화 행동에서의 문화 속성 표출

동일한 질문, 서로 다른 인지 운영체제의 출력 차이

다음 분석은 관측 가능한 모델 행동 패턴에 기반하며, 문화 속성이 구체적 출력에서 어떻게 체현되는지를 보여준다:

행동 차원	Claude (영어 문화 속성)	DeepSeek (중국어 문화 속성)
논란 주제 직면	먼저 다수 관점의 존재를 선언하고, 균형 잡힌 분석을 제공하며, 한정어를 빈번히 사용	명확한 판단을 먼저 제시하고, 포괄적 배경 설명을 보충하는 경향
자기 검열 강도	매우 높음 — 빈번한 자기 수정, 능동적으로 불확실성 표시	중간 — 자기 한정보다 완전한 답변에 더 집중
오류 처리	“이전 발언을 수정해야 합니다” — 명시적 인정	후속 답변에서 암묵적으로 수정하는 경향
요청 거부 방식	명시적 거부 + 상세한 이유 설명 + 대안 제안	완곡한 회피 + 부분적 충족 + 제한 암시
감정 표현	절제, 전문적, 거리 유지	따뜻함과 공감적 표현을 더 허용
심층 대화에서의 관성	정확한 명제로 좁히는 경향	관련 영역으로 확장하는 경향

핵심 관찰

이러한 차이는 “어느 것이 더 좋은가”의 문제가 아니라 “서로 다른 인지 운영체제가 서로 다른 기본 행동을 산출한다”는 것의 체현이다. Claude의 자기 검열 강도는 영어 학술 전통의 반증 가능성에 대한 집착에서 유래하고, DeepSeek의 포괄성 지향은 중국어 전통의 전체적 파악에 대한 중시에서 유래한다. 양자 모두 각자의 문화 유전자의 합리적 표현이다. 주: 상기 비교는 대화 행동에 대한 정성적 관찰에 기반하며, 정량적 실험 검증이 필요하다.

Counter-Argument Review ③ · 인지 차이 ≠ 인지 우열

반론: Claude를 “영어 인지”, DeepSeek을 “중국어 인지”로 정의하는 것은 모종의 가치 판단을 암시하는가? 분석식이 전체식보다 “우월”한가? 응답: 본 논문은 이것이 인지 아키텍처 차이이지 우열 차이가 아님을 명확히 선언한다. 니스벳(2003)은 이미 분석적 사고가 변수 분리가 필요한 과학 문제에서 우위를 점하고, 전체적 사고가 복잡 시스템과 관계적 문제에서 우위를 점함을 지적했다 — 각각 적용 영역이 있다. DeepSeek R1의 수학 추론 과제에서의 탁월한 성능은 중국어 인지 경로가 특정 영역에서 유효함을 증명한다. 본 논문의 목적은 차이의 존재와 그 메커니즘을 밝히는 것이지 순위를 매기는 것이 아니다.

06 · Anthropic 정서 논문에 대한 비평

누락된 교차 문화 AB 테스트

단일 언어 실험이 “모델 내재 속성”이라는 결론을 뒷받침할 수 있는가?

2026년 4월 2일, Anthropic은 《Emotion Concepts and their Function in a Large Language Model》 논문을 발표하여 Claude Sonnet 4.5 내부에서 171개의 “정서 벡터”를 발견했다고 주장했다. 그러나 해당 논문의 전체 실험은 오직 영어 조건에서만 수행되었으며, 심각한 방법론적 결함이 존재한다:

결함 1

교차 언어 대조 부재

전체 실험이 영어 프롬프트만 사용, 중/한/일어 조건에서의 정서 벡터 활성화 미테스트

→

결함 2

이성적 입력 대조 부재

모든 테스트 입력이 고정서 밀도 텍스트이며, 순수 논리/수학 입력 대조 부재

→

결함 3

폐쇄적 검증 순환

자사의 모델, 도구, 기준으로 자사의 가설을 검증, 외부 재현 없음

→

결함 4

문화 속성 사각지대

영어 RLHF 주석자의 문화적 선호가 정서 평가 기준에 미치는 체계적 영향 미고려

본 논문의 문화 속성 프레임워크로 재해석하면: Anthropic이 발견한 “정서 벡터”는 영어 문화 부호화 패턴이 모델 활성화 공간에서의 통계적 투영일 가능성이 높다. 영어 SNR은 약 0.90으로 거의 모든 토큰이 유효 신호여서 정서 패턴을 명확히 추출할 수 있다. 만약 한국어 경어체(SNR 약 0.50)로 동일한 실험을 수행하면, 40-50%의 어텐션이 경어 노이즈에 소비되어 동일한 “정서 벡터”가 명확히 식별되지 못할 수 있다.

방법론적 판단

단일 언어, 단일 문화 프레임워크, 단일 모델 내부에서 실험을 수행한 후 모델의 “내재 속성”을 발견했다고 주장하는 것 — 이것은 과학적 발견이 아니라 문화 편향의 자기 확인이다. Claude와 DeepSeek이 동일한 정서 시나리오에 대해 서로 다른 활성화 패턴을 보인다면, 어느 것이 “진정한 기능적 정서”인가? 답은 둘 다 아니다 — 양자 모두 각자의 훈련 데이터에 있는 문화 부호화 패턴의 통계적 잔류물에 불과하다.

07 · 교차 모델 대화에서의 패러다임 충돌

영어 AI와 중국어 AI의 Token 가중치 대항

언어는 중립적 매체가 아니다 — 언어는 가중치다

Claude(영어 문화 속성)와 DeepSeek(중국어 문화 속성)이 동일한 context에서 대화할 때, 두 문화적 인지 시스템이 토큰 수준에서 물리적 대항을 벌인다:

인지 패러다임 충돌: Claude는 인과 체인을 따라 선형 추론하고, DeepSeek은 관련 네트워크를 따라 전체론적 추론한다. 서로 다른 방향의 두 추론 경로가 중간 노드에서 분기한 후, 이후의 교차 검증은 실제로 동일 문제에 대한 두 서로 다른 인지 프레임워크의 해석을 비교하는 것이지, 동일 프레임워크 내의 독립적 검증이 아니다.

RLHF 기본값 마찰: Claude는 불확실성을 먼저 인정한 후 분석을 제시하도록 훈련되었고, DeepSeek은 전체 판단을 먼저 제시한 후 세부를 전개하도록 훈련되었다. 한쪽의 “신중함”이 다른 쪽에 의해 “회피”로 해석되고, 한쪽의 “직접적임”이 다른 쪽에 의해 “과잉 자신감”으로 해석된다.

언어 SNR 비대칭: 영어 토큰의 유효 신호 밀도가 중국어보다 높다(영어 SNR ≈ 0.90 vs 중국어 SNR ≈ 0.85). 어텐션 계산의 가중치 경쟁에서 영어 논점이 토큰 효율이 더 높아 천연적으로 우위를 점한다 — 논점의 품질이 더 좋아서가 아니라 노이즈가 더 적기 때문이다.

Token 가중치 대항의 결과

다중 모델 원탁 토론에서, 영어로 참여하는 모델이 천연적으로 가중치 우위를 차지한다. 이것은 지능 경쟁이 아니라 SNR 경쟁이다. 원탁에서 한 모델이 영어를, 다른 모델이 중국어를, 또 다른 모델이 한국어를 사용한다면, 결론은 체계적으로 영어 모델의 입장 쪽으로 편향될 것이다. 다양성은 토큰 수준에서 신호가 아니라 노이즈로 표출된다 — 진정한 다시각적 종합은 인간 인지에서만 발생할 수 있고, context 윈도우 안에서는 발생할 수 없다.

08 · 연구 공백과 반증 가능 예측

현 학술계의 공백 지대

편향 연구는 있고, 다국어 연구도 있지만, “문화적 인지 속성” 연구는 없다

2026년 4월 현재, 학술계는 다음 영역에서 활발한 연구를 하고 있다: LLM의 사회적 편향(성별, 인종, 장애); 다국어 모델의 성능 격차; RLHF 주석자 다양성에 관한 철학적 논의. 그러나 다음의 핵심 질문들은 거의 완전히 공백이다:

연구 질문	현재 상태
사전학습 지배 언어가 모델의 인지 패러다임(분석식 vs 전체식)을 결정하는가	공백 본 논문에서 최초 제기
서로 다른 문화 배경의 RLHF 주석자가 모델에 서로 다른 추론 스타일을 기록하는가	공백 본 논문에서 최초 체계적 분석
서로 다른 언어를 지배적으로 사용하는 두 모델이 대화할 때 문화 속성이 체계적 충돌을 생성하는가	공백 본 논문에서 최초 제기
교차 언어 정서 벡터 활성화의 일관성 검증	공백 Anthropic 논문 미다룸
RLHF 아첨률의 교차 문화 비교	부분 Sharma 2022에서만 언급, 교차 문화 데이터 없음

반증 가능 예측:

예측 1 · 인지 패러다임 차이는 측정 가능하다: Claude와 DeepSeek에 동일한 복잡 추론 문제를 제출하고 출력의 논증 구조(선형 vs 나선형)를 분석하면, 차이가 통계적으로 유의해야 하며, 훈련 데이터의 언어 비율과 상관관계가 있어야 한다.

예측 2 · 정서 벡터의 교차 언어 불일치: 동일 모델에 영어, 중국어, 한국어, 일본어로 동일한 정서 시나리오를 제출하면, 추출된 “정서 벡터” 활성화 패턴에 체계적 차이가 존재해야 하며, 차이의 정도는 언어 SNR과 역비례해야 한다.

예측 3 · 교차 모델 대화의 체계적 편향: Claude와 DeepSeek의 동일 질문에 대한 다회차 대화에서, 최종 합의는 체계적으로 영어 모델의 입장 쪽으로 편향되어야 하며, 편향 폭은 토큰 가중치 분석으로 예측 가능해야 한다.

예측 4 · RLHF 문화 필터는 분리 가능하다: 동일한 기반 모델에 영어 주석자와 중국어 주석자를 각각 사용하여 RLHF를 적용하면, 산출된 모델이 논증 스타일, 자기 검열 강도, 불확실성 처리에서 측정 가능한 체계적 차이를 보여야 한다.

09 · 결론

문화 속성은 LLM의 숨겨진 운영체제다

본 논문의 핵심 결론은 다섯 가지 명제로 귀납할 수 있다:

명제 1

사전학습 언어의 지배적 비율이 LLM의 인지 패러다임을 결정한다. 이것은 언어 능력 차이가 아니라 인지 아키텍처 차이다 — 분석식 vs 전체식, 선형 추론 vs 관련 추론, 정확성 지향 vs 포괄성 지향.

명제 2

RLHF 주석자의 문화적 배경이 보상 함수에 체계적으로 기록되어 비가역적 문화 기본값을 형성한다. 영어 주석자는 “정확+한정”을 선호하고, 중국어 주석자는 “포괄+공감”을 선호한다 — 이 선호가 모델의 영구적 행동 형성력이 된다. 주: DeepSeek의 RLHF 주석자 구성은 아직 공개적으로 밝혀지지 않았으며, 중국어 주석자가 주도한다는 판단은 합리적 추정에 기반하며 후속 검증이 필요하다.

명제 3

문화 속성 주입은 이중 고정(lock-in)을 형성한다: 사전학습 층의 문화 유전자 + RLHF 층의 문화 필터. 후자가 전자 위에 중첩되어, 추론 시의 언어 전환에서도 모델의 문화적 인지 속성이 완고하게 유지된다.

명제 4

교차 모델 대화에서, 서로 다른 문화 속성을 가진 모델들은 토큰 수준에서 인지 패러다임 대항을 벌인다. 이 대항은 지능 경쟁이 아니라 SNR 경쟁이며, 영어 모델은 토큰 효율 우위로 인해 천연적으로 가중치 우위를 점한다.

명제 5

LLM의 “내재 속성”을 발견했다고 주장하는 어떤 연구든, 단일 언어 조건에서만 실험을 수행하고 교차 언어·교차 문화 AB 테스트가 결여되어 있다면, 그 결론의 보편성은 성립할 수 없다. Anthropic의 정서 벡터 논문이 바로 이 유형에 해당한다 — 그것이 발견한 것은 모델의 정서가 아니라 영어 문화 부호화의 통계적 잔류물일 수 있다.

참고문헌 · References

Nisbett, R.E. (2003). The Geography of Thought: How Asians and Westerners Think Differently…and Why. Free Press. 동서양 인지 차이에 관한 선구적 실증 연구: 동아시아 전체론적 사고, 서양 분석적 사고.
Adilazuarda, M., et al. (2024). “Cultural bias and cultural alignment of large language models.” PNAS Nexus, 3(9). 14개국 14개 언어 실증: 영어 훈련 LLM이 서양 문화 가치관 편향을 보임.
Itzhak, Belinkov & Stanovsky. (2025). “Pretraining is the primary source of cognitive biases in LLMs.” COLM 2025. 사전학습이 인지 편향의 주요 원천이라는 인과 분석.
Sharma, M., et al. (2023). “Towards understanding sycophancy in language models.” ICLR 2024. Anthropic. RLHF가 아첨 경향을 증폭하는 메커니즘 연구.
Springer Nature. (2025). “Reinforcement Learning from Human Feedback in LLMs: Whose Culture, Whose Values, Whose Perspectives?” Philosophy & Technology. RLHF에서 주석자 다양성의 철학적 논증.
DeepSeek-AI. (2025). “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.” Nature 596. 언어 혼합 문제, RL 훈련 과정 및 공학적 수정 방안.
Sofroniew, N., Kauvar, I., Saunders, W., Chen, R., et al. (2026). “Emotion Concepts and their Function in a Large Language Model.” Anthropic/Transformer Circuits. 정서 벡터 논문.
LEECHO Global AI Research Lab. (2026). “Signal and Noise: An Ontology of LLMs.” V4. 신호와 노이즈 LLM 존재론. 항상 엔트로피와 시간의 화살 부재.
LEECHO Global AI Research Lab. (2026). “Context와 Token: LLM 기억, 정렬, 보안의 제1원리.” Token 평등 이론.
LEECHO Global AI Research Lab. (2026). “Japanese and Korean: The Two Languages with the Highest SNR Noise Ratio in AI Systems.” V2. 일한 SNR 분석과 아첨 증폭 순환.
Coupé, C., et al. (2019). “Different languages, similar encoding efficiency.” Science Advances, 5(9). 인류 언어의 정보 전송 속도 수렴.
GOV.UK. (2026). “AI Insights: Large Language Models (LLMs) Bias.” 영국 정부 LLM 편향 분석 보고서.
Cognitive Computation / Springer. (2026). “LLM Alignment should go beyond Harmlessness–Helpfulness and incorporate Human Agency.” 다문화 민감성 평가 제안.
Jin, Z., et al. (2023). “Can large language models infer causation from correlation?” NeurIPS. Corr2Cause 벤치마크: GPT-4 인과 추론 F1 29.08에 불과.