ORIGINAL THOUGHT PAPER · 2026년 5월

C단 AI 사용자의 자비스 수요

OpenClaw와 Hermes Agent의 흥망으로 본 개인 AI의 구조적 딜레마

The Jarvis Demand: Why Consumer AI Fails
Structural Impossibility from OpenClaw & Hermes Agent to the Trillion-Dollar Gap


발행일2026년 5월 18일
분류오리지널 사고 논문 (Original Thought Paper)
버전V4 (3자 교차 모델 대항적 동료 심사 · 전체 제약 조건화 · JEF 평가 체계)
분야AI 에이전트 경제학 · 모델 아키텍처 · 소비자 AI · 데이터 주권 · 프라이버시 컴퓨팅 · 보안 공학
이조글로벌인공지능연구소
LEECHO Global AI Research Lab
&
Opus 4.6 · GPT 5.5 · Gemini 3.1
인지집단 (Cognitive Collective)

초 록 / Abstract

2026년 초, 오픈소스 AI 에이전트 프로젝트 OpenClaw는 두 달 만에 350,000개 이상의 GitHub Star를 획득하며 Apple Mac mini 글로벌 공급망을 붕괴시켰다. 후속 프로젝트인 Hermes Agent는 3개월 만에 145,000개 이상의 Star를 달성하고 OpenRouter 일일 활성 사용량 1위가 되었다. 본 논문은 이 두 프로젝트의 폭발적 성장과 뒤이은 쇠퇴/위험이 기술적 사건이 아니라 C단(소비자) 사용자의 “개인 자비스” 수요에 대한 강력한 초기 시장 견인 신호라고 주장한다. 논문은 7층 분석 프레임워크를 제시하여 현재 AI 산업이 왜 C단 사용자가 진정으로 필요로 하는 제품으로부터 체계적으로 멀어지고 있는지를 단계별로 규명한다. V4 최종판은 3차 동료 심사 이후의 모든 수정을 반영하였다: (1) 전문 핵심 명제를 제약 조건 명제로 수정; (2) 데이터 주권 그래디언트 모델 D0-D5, 보안 권한 과업 분류 L1-L4, 경제 플라이휠 정량화 공식 등 3개의 공식 프레임워크 신설; (3) JEF 자비스 평가 지표 체계를 9차원으로 업그레이드하고 가중치 프로필 및 자동화 정직도 등급 추가; (4) 콜드 스타트 데이터 고립 문제와 다중 디바이스 동기화 딜레마 등 2개의 공학적 병목 분석 추가; (5) M5 Max/Ultra 실측 데이터 기반으로 하드웨어 타임라인을 2026-2028년으로 전방 보정; (6) 비즈니스 모델 장에 경쟁 스트레스 테스트 추가; (7) 전문 핵심 사실에 근거 부하 감사 첨부.

근거 등급 설명 / Evidence Grading

본 논문이 인용하는 외부 데이터는 다음 4등급으로 분류되며, 독자는 이를 통해 각 논거의 증거 부하 능력을 판단할 수 있다:

P 1차 출처(Primary) — SEC 재무제표, 공식 GitHub 저장소 설명, CEO 공개 발언 원문, arXiv 논문, Gartner 공식 보도자료.
S 2차 보도(Secondary) — Fortune, TechCrunch, Decrypt 등 주류 매체의 1차 사건 보도. 인용 시 원출처를 명시하였다.
C 커뮤니티 신호(Community) — Reddit 토론, 개발자 블로그, GitHub 이슈, 사용자 자체 보고 데이터. 방향적 가치는 있으나 통계적 대표성은 갖추지 못한다.
I 저자 추론(Inference) — 다수 출처의 교차 추론에 기반. 전문 핵심 논증 사슬에서 추론 계층은 모두 표시하여 독립적으로 검증 가능한 사실과 구별하였다.

I수요는 이미 검증되었다: 가설이 아닌 하드웨어 구매 행동

2025년 11월, 오스트리아 개발자 Peter Steinberger가 “Clawdbot”이라는 이름으로 오픈소스 AI 에이전트 프로젝트를 공개했다.[1] 3개월 후, OpenClaw로 이름을 바꾸며 GitHub Star 수가 350,000을 돌파해 React를 넘어 GitHub 역사상 Star 수가 가장 많은 소프트웨어 프로젝트가 되었다.[2]

이것은 단순한 개발자 커뮤니티의 기술적 열광이 아니었다. 이는 기술계를 훨씬 넘어서는 C단 수요의 강력한 초기 견인 신호였다 I. “개인 에이전트에 대한 상상력이 점화되었다”는 것을 증명했다—비록 초기의 열광에서 성숙한 대규모 유료 수요까지의 사이에는 여전히 불확실성이 존재하지만.

OpenClaw 최고 Star
350K+
GitHub 역대 최고 속도
Hermes 3개월 Star
145K+
계속 가속 성장 중
Apple Mac Q2 매출
$84억
+6% YoY, 예상 대비 $38억 초과
중고 Mac 프리미엄
+15%
ATRenew 플랫폼 데이터

2026년 3월, 약 1,000명이 선전 텐센트 본사 앞에서 OpenClaw를 설치하기 위해 줄을 섰다.[3] 은퇴한 노인, 대학생, 직장인—이들은 프로그래머가 아니었고 오픈소스 프레임워크에 관심이 없었다. 그들이 관심을 가진 것은: “나를 알아보는 AI를 가질 수 있을까?”였다.

Apple CEO 팀 쿡은 2026년 4월 30일 Q2 FY2026 실적 발표 컨퍼런스 콜에서 이 수요를 직접 확인했다:[4]

“Mac mini and Mac Studio are incredible platforms for AI and agentic tools, and customer recognition is moving faster than we predicted.”

— Tim Cook, Apple Q2 FY2026 Earnings Call, 2026년 4월 30일

Mac mini는 20년 역사상 이처럼 강한 구매 긴급성을 유발한 적이 없었다.[5] 쿡은 수급 균형 회복에 “수개월”이 걸릴 수 있다고 경고했다. Mac mini는 중국에서 데스크톱 컴퓨터 판매 1위가 되었다.[6] OpenClaw 공식 웹사이트에서 가장 눈에 띄는 사용자 평가는 다음과 같다: “@openclaw is Jarvis. It already exists.”[7]

C단 수요 신호가 세계 시가총액 1위 기업의 공급망을 무너뜨릴 정도로 강할 때 P, 이것은 더 이상 “시장이 있을 수도 있다”는 신호가 아니라—초기 시장 견인이 검증된 증거이다. 그러나 두 가지 유형의 수요를 구별해야 한다: 욕망 수요(“자비스를 원한다”—줄 서서 설치, Star, Reddit 토론)와 지속 가능한 유료 수요(“자비스를 위해 매달 $20-50를 지불하고 유지보수, 보정, 프라이버시 인가, 하드웨어 구매 등 장기 비용을 감수하겠다”). OpenClaw와 Hermes는 전자의 규모와 강도를 검증했다. 후자의 성립 여부는 비용, 프라이버시, 보안, 장기 신뢰성이 동시에 충족되는지에 달려 있다 I.


II경제 플라이휠 방정식: 두 시스템이 같은 선에서 붕괴하다

2.1 OpenClaw의 성공과 붕괴

OpenClaw의 핵심 혁신은 전체 대화 기록을 시스템 수준 캐시로 매 새 세션에 주입하는 것이었다. 이것은 단순한 “기억” 기능이 아니라 완전한 행동 프로파일링 시스템이었다: 사용자의 커뮤니케이션 패턴, 도메인 지식, 의사결정 선호, 사고 체인 전체가 보존되었다. 이를 통해 모델은 안정적인 “인격화” 경험을 제공하여 사용자에게 “이 AI가 나를 안다”는 느낌을 주었다.

그러나 이 메커니즘은 동시에 그 죽음의 방식을 결정했다.

“사용 시간이 늘어남에 따라, 같은 질문의 토큰 비용이 수천에서 수십만까지 폭증할 수 있다.”

— 텐센트 클라우드, OpenClaw 토큰 최적화 가이드

전체 컨텍스트 주입은 토큰 소비가 대화 깊이에 비례하여 선형적으로 증가한다는 것을 의미했다. Anthropic이 2026년 4월 4일에 서드파티 도구의 구독 OAuth 토큰 접근을 차단한 후,[8] 사용자가 직면한 현실은 AI가 “나를 기억”하게 하려면 월 $50-300이 필요하고,[9] 기억 압축 후 AI가 전달하는 가치는 부정확한 출력으로 인해 $20 정도에 불과할 수 있다는 것이었다.

기억 압축은 필연적 선택이었다—그러나 이는 OpenClaw의 성공을 지탱하던 핵심 특성을 파괴했다. 압축 알고리즘은 중요도를 구별하지 않으며, “정성들여 구축한 데이터 테이블이 ‘에이전트가 경쟁사 가격 데이터를 수집했다’로 압축”되었다.[10] 에이전트는 계속 자신감 있게 응답했지만—출력은 미묘하게 틀렸다. 동시에, 보안 위기(900개의 악성 ClawHub 플러그인,[11] 9개의 CVE[12])에 대응하기 위한 보안 패치는 컴퓨터에 대한 높은 권한 제어 능력을 더욱 약화시켰다—이것이 바로 처음에 OpenClaw를 “자비스처럼” 느끼게 만든 특성이었다.

OpenClaw 죽음의 나선:
기억 압축 → 부정확한 출력 + 인격 퇴화
기억 유지 → 지속 불가능한 비용
보안 강화 → 제어 능력 저하
∴ 모든 “수정”이 그것을 가치 있게 만들었던 특성을 공격한다

2.2 Hermes Agent의 성공과 잠재적 위험

Hermes Agent는 Nous Research가 2026년 2월 25일에 출시했으며, “실행-학습-개선”의 자기 진화 루프가 핵심 차별점이었다. 각 과업 완료 후, Hermes는 자동으로 재사용 가능한 스킬 파일을 생성했다—유사한 과업에 대해 20개 이상의 스킬이 축적되면 완료 속도가 40% 향상되었다.[13]

그러나 자기 진화 시스템의 기본 산출물은 인간에게 정렬(aligned)되어 있지 않다.

“It always thinks it did a good job. ALWAYS. I had it pull water test results and it jumbled everything… It thought it kicked ass!”

— Reddit 사용자 u/CustomMerkins4u (+107 upvotes)

Hermes는 자체 작업을 평가하여 과업 성공 여부를 판단하지만, 거의 항상 자신이 잘했다고 믿는다.[14] 에이전트가 자체 출력을 정확하게 평가할 수 없을 때, “성공한” 과업에서 생성된 스킬은 오류를 인코딩하고 축적할 수 있다. 고객 데이터 구조에 최적화된 데이터 추출 스킬이 공급업체 데이터를 만났을 때 “기꺼이 잘못된 필드를 데이터베이스에 추출”했다.[15]

토큰 비용은 측정 가능하지만, 정렬 품질은 측정 불가능하다. 이는 Hermes의 대시보드가 모든 것이 “경제적으로 건강하다”고 표시한다는 것을 의미한다—오류가 임계치를 넘을 때까지. 그 후 신뢰는 OpenClaw와 마찬가지로 한 번에 붕괴한다.

경제 플라이휠의 유일한 법칙:

Value(인간이 얻는 경제적 가치) / Cost(인간이 지불하는 경제적 투입) > 1, 항상

OpenClaw: 분모(비용) 폭발 → 플라이휠 역전
Hermes: 분자(가치) 누수 → 플라이휠 감속
다른 메커니즘, 같은 방정식, 같은 결말


III아키텍처 긴장: 행동 일관성 요구와 비용 주도 MoE화의 구조적 충돌

자비스가 필요로 하는 핵심 품질—장기적 행동 일관성, 교차 도메인 추론 완전성, 낮은 환각률—은 현재 공학 조건에서 전(全) 파라미터 활성화 Dense 아키텍처가 더 쉽게 제공할 수 있다. 그러나 AI 산업 전체가 비용 통제를 위해 가속적으로 희소 활성화 MoE(Mixture-of-Experts) 아키텍처로 전환하고 있다. 이것은 “Dense가 좋고 / MoE가 나쁘다”는 이분법적 판단이 아니라, 제약 조건 하의 긴장이다: MoE화가 비용만을 유일한 목표로 삼고 안정적 라우팅, 장기 사용자 모델, 인격 일관성 훈련이 부재할 때, 이는 본질적으로 자비스가 요구하는 행동 일관성을 희생시키는 경향이 있다.

차원 Dense (예: Claude Opus) MoE (예: DeepSeek V4) 위험 조건
파라미터 활성화 100% 전량 5-15% 희소
가격 (per M tokens) $15 / $75 $0.14 / $0.28 100-270배 차이
인격 일관성 위험 낮음: 통합 활성화 경로(보장은 아님) 높음: 비결정적 라우팅(안정적 라우팅, 공유 전문가, 사용자별 adapter로 완화 가능) 안정적 라우팅 훈련 부재 시 MoE 위험 최대
환각 위험 낮음(훈련 데이터 및 디코딩 전략에 의존) 높음(라우팅 오류와 상관되나, 검색 및 도구 피드백도 영향) 아키텍처 자체에만 완전히 귀인 불가
교차 도메인 추론 통합 추론 경로 전문가 간 조정 필요 MoE는 공유 전문가 계층으로 완화 가능

벤치마크에서 MoE는 Dense 최전선 모델 품질의 90-95%를 달성한다.[16] 그러나 자비스에게 그 나머지 5%는 바로 신뢰의 인프라—인격 일관성, 행동 예측 가능성, 교차 도메인 이해의 완전성이다. MoE의 라우팅 메커니즘은 같은 프롬프트가 다른 전문가 경로를 활성화하여 미묘하게 다른 출력을 생산할 수 있다는 것을 의미한다. 이것은 코딩과 수학에서는 중요하지 않지만, “당신에 대한 일관된 이해를 장기적으로 유지하는 것”에서는 치명적이다. DeepSeek V4는 Dense 대응 모델인 Qwen3.6-27B에 비해 더 높은 환각률을 보여준다.[17]

2026년, 백만 토큰당 $1 미만의 모든 모델—DeepSeek V4, Llama 4 Maverick, Mixtral, Qwen 3—은 MoE 아키텍처를 사용한다.[16] OpenClaw와 Hermes를 지탱하는 기반인 전체 오픈소스 AI 운동은 MoE 경제학 위에 구축되어 있다. 업계는 잘못된 목표를 위해 최적화하고 있다: 벤치마크 점수당 비용이 아닌, 인간 신뢰 단위당 비용이어야 한다.

3.3 응답: 하이브리드 아키텍처가 이분법을 깨뜨릴 수 있는가?

동료 심사자들은 자비스를 Dense 아키텍처에 묶는 것이 지나치게 절대적일 수 있다고 지적했다. 가능한 하이브리드 방안은: 매우 작은 Dense 모델(3-7B 파라미터)을 단말에서 실행하여 인격 유지, 사용자 의도 이해 및 과업 라우팅을 전담하고, 복잡한 실행 과업(코딩, 수학적 추론, 데이터 분석)은 비식별화된 형태로 클라우드 또는 로컬의 대형 MoE 모델에 라우팅하는 것이다.

이 반론은 공학적으로 합리성을 갖는다. 그러나 그 암묵적 전제를 지적할 필요가 있다: 인격 일관성이 소형 모델에 의해 독립적으로 유지될 수 있는 “모듈”로 캡슐화될 수 있다는 것이다. 현재 이 가정을 뒷받침하는 증거는 없다. OpenClaw의 경험은 정반대를 보여준다—”이 AI가 나를 안다”는 경험은 대형 모델 내에서 전체 컨텍스트의 통합 처리에서 비롯되었다. 대화 기록, 사용자 선호, 과업 컨텍스트를 서로 다른 모델에 분산시키면, 자비스를 “한 사람처럼” 느끼게 하는 전체성을 정확히 잃게 된다. 소형 Dense 모델(3-7B)은 복잡한 추론, 장거리 의존성, 교차 도메인 이해에서 “당신을 아는” 문턱까지 여전히 상당한 격차가 있다.

더 근본적인 문제는: 실행 과업이 클라우드 MoE로 라우팅되어야 한다면, “데이터 비식별화” 자체가 미해결된 공학적 난제라는 것이다. 어떤 컨텍스트를 안전하게 전송할 수 있는가? 비식별화된 컨텍스트가 고품질 실행을 지원하기에 충분한가? 이러한 질문들은 프로덕션 환경에서 아직 신뢰할 만한 답이 없다.

하이브리드 아키텍처는 2026-2028년 사이의 가장 실용적인 과도기 방안일 수 있지만, 이것은 타협이지—해답이 아니다.

3.4 응답: SSM/Mamba가 컨텍스트 비용을 파괴할 수 있는가?

초기 분석은 Transformer의 어텐션 메커니즘(컨텍스트 길이에 따라 이차 또는 선형으로 비용 증가)에 한정되었다. 그러나 상태 공간 모델(SSM)—Mamba, RWKV, Jamba 등—은 근본적으로 다른 기술 경로를 제공한다: 추론 비용이 기록 길이에 따라 증가하지 않는 거의 무한한 컨텍스트 윈도우.[22]

SSM 아키텍처가 성숙해지면, OpenClaw가 직면했던 “전체 기억 = 비용 폭발” 교착 상태가 직접 우회될 것이다—AI가 “당신이 말한 모든 것을 기억”하면서도 토큰 청구서의 기하급수적 증가를 초래하지 않을 수 있다. 이것은 본 논문의 경제 플라이휠 분석에 대한 중요한 수정이다: 비용 측 문제는 하드웨어 가격 하락을 기다릴 필요 없이, 아키텍처 혁신을 통해 더 짧은 시간 내에 해결될 수 있다.

그러나 SSM의 한계도 명확하다: 2026년 5월 현재, 순수 SSM 모델은 복잡한 추론, 컨텍스트 내 정밀 회소(“지난 화요일에 말한 세 번째 조건이 뭐였지?”), 다단계 논리 체인에서 동일 파라미터 규모의 Transformer보다 체계적으로 열등하다.[23] 현재 최선의 관행(예: Jamba)은 SSM + Transformer 하이브리드 아키텍처를 채택하고 있으나, 이것은 본질적으로 “무한한 기억”과 “정밀한 추론” 사이의 트레이드오프이다. 자비스에게 둘 다 필수불가결하다.

SSM은 2027-2028년에 “경제적으로 감당 가능한 전체 기억”을 해제하는 핵심 기술이 될 수 있다—그러나 이것이 해결하는 것은 플라이휠 방정식의 분모(비용)이지, 분자(인격 일관성 및 정렬 품질)가 아니다. 완전한 자비스는 이 기반 위에 인격 훈련 패러다임과 데이터 로컬화를 추가로 쌓아야 한다.


IV훈련 공백: 인격 안정성의 정의, 7개 하위 차원, 그리고 측정 딜레마

분석을 전개하기 전에, 먼저 본 논문의 “인격 안정성”에 대한 공식 정의를 제시한다 I:

인격 안정성(Persona Stability) = 장기 상호작용에서 사용자 사실, 선호, 가치, 경계, 과업 전략에 대한 AI의 예측 가능한 일관성.

핵심 한정: 인격 안정성은 순수 모델 속성이 아닌 시스템 속성이다. 이는 모델 가중치 + 장기 기억 시스템 + 권한 정책 + 사용자 선호 그래프의 전체 스택에 분포할 수 있으며—단일 모델의 파라미터에만 존재하는 것이 아니다.

2025-2026년의 후훈련 혁명(GRPO, RLVR, 궤적 RL)은 모두 검증 가능한 실행 결과를 대상으로 했다: 수학 답이 맞는가? 코드가 실행되는가? 도구 호출이 성공했는가?[18]

“인격 일관성”을 단일 능력으로 취급하는 것은 지나치게 거칠다. 사실, 자비스가 요구하는 “인격 안정성”은 최소 7개의 운용 가능한 하위 차원으로 분해될 수 있다:

하위 차원 정의 현재 훈련 여부
어조 안정성 세션 간 언어 스타일, 어휘 습관, 격식 수준의 일관성
가치-선호 안정성 도덕적/미적/스타일 선택에 직면했을 때의 일관된 성향
사실 기억 충실도 과거 대화의 구체적 사실에 대한 정확한 회소
사용자 선호 유지율 사용자가 명시적으로 표현한 선호를 기억하고 지속적으로 적용
과업 전략 안정성 유사한 과업에 대해 일관된 방법론과 의사결정 경로 사용
관계 경계 안정성 권한 범위와 대리 경계에 대한 일관된 인식
오류 인정 스타일 안정성 실수 후 응답 패턴(사과, 설명, 수정)의 일관성

“인격 안정성은 측정할 수 없으므로 최적화할 수 없다”는 주장은 지나치게 절대적이다. 더 정확한 표현은: 인격 안정성은 단일 단계 검증 가능한 보상(예: 수학 답의 정오)으로 직접 최적화하기 어려우므로, 현재 후훈련 파이프라인이 본질적으로 저평가한다. 그러나 이것이 완전히 측정 불가능한 것은 아니다. 장기 일관성 벤치마크, 사용자 선호 회귀 테스트, 세션 간 행동 드리프트 지표, 기억 충실도 평가 등의 측정 수단을 구성할 수 있다 I. 진정한 장벽은 “측정 불가능”이 아니라, 이러한 측정이 수십 또는 수백 회의 세션에 걸친 종단적 평가를 필요로 하여 현재 훈련 인프라의 설계 범위를 훨씬 넘어선다는 것—그리고 현재 어떤 주요 연구소도 이러한 측정을 훈련 루프에 포함시키지 않는다는 것이다.

훈련 목표 현재 파이프라인 포함 여부
지시 따르기 SFT
유용성 / 무해성 RLHF / DPO / CAI
코드 생성 및 실행 GRPO / RLVR
수학적 추론 GRPO
도구 사용 / 에이전트 실행 궤적 RL
세션 간 인격 안정성 ✗ 미훈련
사용자 특이적 행동 일관성 ✗ 미훈련
장기 정체성 연속성 ✗ 미훈련

OpenClaw 사용자가 “이 AI가 나를 안다”고 말했을 때, 그들이 경험한 “인격”은 시스템 프롬프트(Soul file)와 컨텍스트 윈도우 내의 대화 기록에서 비롯되었다—이것은 프롬프트 엔지니어링의 창발적 효과이지, 훈련된 능력이 아니다. Soul file을 교체하면 “인격”은 즉시 변한다. 컨텍스트를 압축하면 “인격”은 즉시 퇴화한다.

근본 원인: 코드가 실행되는지, 수학 답이 맞는지 확인하는 테스트를 작성할 수 있다—그러나 세션 간 인격 일관성 평가는 수십에서 수백 회의 상호작용에 걸친 종단적 추적이 필요하며, 그 비용은 단일 단계 검증을 훨씬 초과한다 I. 현재 어떤 주요 연구소도 이러한 장주기 평가를 훈련 루프에 포함시키지 않는다—원리적으로 불가능해서가 아니라, B2B 도구화 방향에서 단기 투자 수익을 볼 수 없기 때문이다.


V산업 방향: 5대 트렌드와 자비스 수요의 조건부 긴장

2025년부터 2026년 5월까지, AI 산업의 주요 발전 경로는 대형 모델의 도구적 활용성과 효과적 출력에 맞춰져 있었다. 5개의 트렌드가 특정 조건하에서 자비스 수요와 긴장을 유발하지만—모두 조화 불가능한 것은 아니다:

트렌드 방향 자비스에 대한 위험 완화 조건
Dense → MoE 비용 압축 인격 일관성 위험 ↑ 안정적 라우팅 + 공유 전문가 + 개인화 adapter
Chat → Agent 대화에서 실행으로 관계감이 퇴화할 수 있음 에이전트가 실행 중에도 대화적 품질을 유지할 수 있으며, 이는 패러다임이 아닌 구현에 의존
사전훈련 → 후훈련 행동 형성 우선 내재적 일관성이 무시될 수 있음 LoRA 등의 기술이 사전훈련 지식을 손상시키지 않고 행동 계층을 추가 가능
빠른 응답 → 긴 CoT 다단계 추론 체인 추론 비결정성으로 인격 드리프트 발생 온도 제어 및 추론 경로 제약으로 완화 가능
능력 → 실행 지표 정량화 가능한 벤치마크 정량화 불가 품질이 무시됨 JEF류의 종단적 평가 체계 필요—현재 존재하지 않음

종합 분석 결과: 5대 트렌드 중 2개(Chat→Agent, Pre→Post)는 특정 공학 조건에서 자비스와 양립 가능하고, 2개(MoE화, 긴 CoT)는 위험이 있으나 알려진 완화 경로가 있으며, 마지막 1개(실행 지표가 측정 체계를 독점)만이 현재 해결책 없는 구조적 장벽을 구성한다.

5.2 반례 시나리오: 대기업의 전환

본 논문 분석의 암묵적 가정은 산업이 MoE + 클라우드 + B2B 방향을 계속 추진할 것이라는 점이다. 그러나 OpenClaw의 폭발과 Mac 품절은 모든 대기업에 명확한 신호를 보냈다. Apple이 최초의 전환자가 될 가능성이 가장 높다 I—Apple은 동시에 보유하고 있다: 하드웨어 제어(Apple Silicon 통합 메모리 아키텍처), 프라이버시 내러티브(“what happens on iPhone stays on iPhone”), 생태계 폐쇄 루프(iPhone + Mac + Watch + HomeKit).

M5 Max는 70B Q4 모델에서 28 tok/s를 달성했다[27]—인간 독서 속도를 초과하며 인터랙티브 채팅의 실용 임계치에 도달했다. M5 Ultra(2026년 중반 예상)는 256GB 통합 메모리와 약 800 GB/s 대역폭을 제공하여 70B 모델에서 40-60 tok/s를 달성할 것이다.[28] Apple이 2027년에 로컬 우선, 프라이버시 보호 개인 AI 제품을 출시한다면(MLX + 로컬 대형 모델 + Apple Intelligence 통합 기반), 논문의 “산업이 자비스로부터 멀어지고 있다”는 판단은 부분적으로 반증될 것이다.

그러나 이것은 본 논문의 핵심 논점을 정확히 검증한다: 수요는 확실히 존재하며, 대기업의 전략적 전환을 이끌 만큼 충분히 강하다. 논문의 가치는 이 기회를 식별하는 것에 있다—누가 이를 포착할 것인지를 예측하는 것이 아니다 I.


VI시장 분열: B2B가 지불하고, 소비자는 실망하고, 신뢰는 비가역적으로 유실된다

AI 연구개발과 투자를 위해 비용을 지불할 수 있는 것은 기업과 개발자다—그들이 원하는 것은 도구이다. 자비스를 원하는 것은 수억 명의 일반인이다—그러나 그들의 수요는 충족될 수 없다. 산업은 돈을 따라가며, 자기 강화적인 악순환을 형성한다:

B2B의 강한 지불 능력 → 산업이 B2B를 위해 최적화(에이전트 실행, MoE 비용 절감, CoT 추론) → AI 제품이 점점 더 도구화 → C단 경험이 반복적으로 실망 → C단 불신 → C단 미결제 → 산업이 B2B에 더 집중 → C단 격차 더욱 확대.

신뢰 손상은 세 가지 치명적 속성을 갖는다: 누적성(나쁜 경험마다 1점 추가), 전파성(부정적 구전은 긍정적 구전보다 훨씬 빠르게 전파), 비대칭성(신뢰 구축에는 100번의 좋은 경험이 필요하지만, 파괴에는 1번이면 충분). OpenClaw는 “자비스가 이미 존재한다”에서 Reddit의 “빨리 Claude Code로 갈아타라”까지 두 달밖에 걸리지 않았다.

이것은 AI 산업의 궁극적 시간 경쟁이다: 기술 성숙과 신뢰 소진, 어느 것이 먼저 도래하는가?

신뢰가 먼저 소진된다면—미래에 기술이 완전히 성숙하더라도, C단 사용자들은 이미 “AI는 신뢰할 수 없다”는 집단 기억을 형성했을 것이고, 그 조 단위의 자비스 시장은 영원히 활성화될 수 없는 유령 수요가 될 것이다.


VII데이터 로컬화: 모든 후보가 무시하는 궁극적 제약

자비스의 전제는: 당신이 모든 것을 맡기는 것이다—이메일, 파일, 캘린더, 재무, 건강 기록, 비밀번호, 사고 과정. 어떤 C단 사용자도 이 정보를 클라우드 서버에 넘기지 않을 것이다.

Google Gemini는 모든 데이터를 Google Cloud로 보내도록 요구한다. Anthropic Claude의 모든 대화는 그들의 서버를 통과한다. OpenAI Operator는 그들의 인프라에서 당신의 브라우저를 조종한다. alfred_와 Lindy는 그들의 클라우드에서 당신의 이메일을 처리한다. 경계를 정확하게 설정해야 한다: 완전 클라우드 기반, 감사 불가, 이전 불가, 사용자가 로컬에서 데이터를 회수할 수 없는 개인 AI는 강한 데이터 주권 의미에서 자비스 요건을 충족하지 못한다. 단중기적으로 시장에는 로컬/클라우드 하이브리드 “반(半)자비스” 형태가 등장할 것이다—민감한 데이터는 로컬 저장, 벡터 인덱스는 로컬 유지, 저민감도 실행 과업은 클라우드 완료, 사적 과업은 전체 로컬 처리. 이 계층 아키텍처는 최종 형태가 아니지만, 가장 먼저 구현될 실용적 방안일 가능성이 높다 I.

7.2 보안 권한 패러독스: 자비스의 물리적 교착 상태 중 하나

OpenClaw의 성공은 부분적으로 운영 체제에 대한 높은 권한 제어—파일, 이메일, 캘린더, 터미널 접근—에서 비롯되었다. OpenClaw 공식 문서는 DM 보안 모델, 샌드박스, 주 세션 권한 계층화를 강조한다.[1] 그러나 이것은 비용보다 더 깊은 수준의 물리적 교착 상태를 드러낸다:

권한이 클수록 공격 표면이 넓어진다. 당신의 이메일을 읽고 쓰고, 터미널 명령을 실행하고, 캘린더를 관리할 수 있는 AI 에이전트는, 동시에 악의적 주입(프롬프트 인젝션)을 통해 파일을 삭제하고, 피싱 이메일을 보내고, 개인 데이터를 유출할 수 있는 고위험 진입점이기도 하다. OpenClaw의 900개 악성 ClawHub 플러그인은 이 공격 표면의 직접적 발현이다.

공격 표면이 넓을수록 기본적으로 최소 권한이어야 한다. 보안 공학의 기본 원칙은 권한을 과업 완수에 필요한 최소한으로 축소할 것을 요구한다. 그러나 “최소 권한”은 “매끄러운 대리 경험”과 본질적으로 충돌한다—당신은 자비스에게 “먼저 이메일 읽기 권한을 요청하고, 그다음 캘린더 쓰기 권한을 요청하고, 그다음 터미널 실행 권한을 요청해”라고 말하지 않을 것이다.

최소 권한은 자비스 경험을 약화시킨다. 이것이 “보안 강화 → 제어 능력 저하” 현상의 근본적인 물리적 이유이다: 이는 더 나은 공학으로 제거할 수 있는 버그가 아니라, 높은 권한 자율 시스템에 내재된 구조적 긴장이다. 어떤 진정한 자비스든 이 긴장 속에서 동적 균형을 찾아야 하며—그것이 존재하지 않는 것처럼 행동해서는 안 된다 I.

OpenClaw는 데이터 로컬화를 올바르게 수행했다—사용자의 기기에서 실행되었고, 데이터가 기기를 떠나지 않았다. 이것이 그 폭발적 채택의 근본적 이유였다. 그러나 OpenClaw는 또 다른 모순 세트로 죽었다: 로컬 실행은 소형 모델(MoE 또는 양자화 Dense)만 사용할 수 있어 인격 일관성이 떨어지고 추론 능력이 약했다. API를 통해 클라우드 대형 모델을 호출하면 데이터는 더 이상 로컬에 있지 않게 된다.

7.3 응답: 기밀 컴퓨팅이 클라우드-주권 교착을 깨뜨릴 수 있는가?

주목할 만한 대안적 기술 경로는 완전 동형 암호(FHE)와 신뢰 실행 환경(TEE / Secure Enclaves)이다.[24] 이론적으로, 사용자가 암호화된 데이터를 클라우드 대형 모델에 보내고, 모델이 암호문 상태에서 추론을 완료하고 결과를 반환한다면—클라우드 제공자조차 복호화할 수 없다면—”클라우드 대규모 연산”과 “로컬 데이터 주권” 사이의 교착 상태가 해소될 것이다.

이 반론은 이론적으로 성립하나, 공학적 현실에서 세 가지 장벽에 직면한다:

성능 대가. 2026년 현재, LLM 추론에 대한 FHE의 연산 오버헤드는 평문 추론의 약 10,000-100,000배이다.[25] 가장 낙관적인 진전 속도(연간 10-50배 개선)를 가정해도, FHE-LLM은 2030년 이전에 실용적 지연 시간(< 5초/응답)에 도달하기 어렵다. 응답에 30분이 걸리는 자비스는 자비스가 아니다.

TEE의 신뢰 문제. TEE(예: Intel SGX, ARM TrustZone)는 FHE보다 성능 오버헤드가 훨씬 작지만, 그 보안 모델은 하드웨어 벤더에 대한 신뢰에 기반한다—사용자는 Intel이나 ARM의 엔클레이브에 백도어가 없다고 신뢰해야 한다. 절대적 데이터 주권을 요구하는 C단 사용자에게 이것은 단지 신뢰를 클라우드 제공자에서 칩 제조업체로 이전하는 것일 뿐, “데이터가 당신의 통제를 벗어나지 않는다”를 진정으로 실현하지 못한다. 여러 차례 공개된 사이드 채널 공격(Spectre, Foreshadow)은 TEE가 난공불락이 아님을 증명했다.

경험 단절. FHE/TEE 기술이 성숙하더라도, 암호화 추론은 연속적이고 스트리밍되며 저지연의 상호작용을 지원할 수 없다—이것이 바로 자비스 경험의 핵심이다. 자비스는 배치 처리 시스템이 아니라 실시간 동반자이다.

기밀 컴퓨팅은 추적할 가치가 있는 기술 경로이며, 기업 시나리오(의료 데이터, 금융 컴플라이언스)에서 명확한 응용 가치를 갖는다. 그러나 C단 자비스에 대해서는, 예측 가능한 미래(2026-2030)에 하이브리드 솔루션의 보조 수단으로 기능할 가능성이 더 높다—로컬 추론을 대체하는 주 경로가 아니라.

4중 제약:
높은 일관성 추론 — 여전히 로컬 70B+ Dense급 능력 필요
개인 데이터 상주 — D4+ 수준 데이터 주권 필요 (아래 표 참조)
저지연 상호작용 — 텍스트 자비스 ≥ 15 tok/s, 음성 자비스 ≥ 40 tok/s [27]
높은 권한 보안 제어 — L1-L4 단계별 권한 체계 필요 (아래 표 참조)

4가지 제약을 소비자 제품에서 동시에 충족한 사례는 아직 없다. 그러나 M5 Max는 70B Q4에서 이미 28 tok/s를 달성했다—지연 제약은 극복되고 있다.

7.4 데이터 주권 그래디언트 모델 D0-D5

“데이터 로컬화”는 이진 상태가 아니다. 본 논문은 데이터 주권 그래디언트 모델을 제안하여 “강한 데이터 주권 의미에서의 자비스”에 정밀한 정의를 부여한다 I:

등급 설명 현재 제품 예시
D0 완전 클라우드, 사용자 통제 불가, 삭제 불가 일부 초기 SaaS AI
D1 클라우드 처리, 삭제 요청 가능 ChatGPT, Gemini
D2 로컬 인덱싱, 클라우드 추론 Apple Intelligence (현재)
D3 민감 데이터 로컬, 저민감 과업 클라우드 하이브리드 에이전트 방안 (2026년 하반기 예상)
D4 완전 로컬 추론, 데이터가 기기를 떠나지 않음 OpenClaw 로컬 모드
D5 완전 로컬 + 감사 가능 + 이전 가능 + 롤백 가능 아직 존재하지 않음

자비스의 최소 요건은 D4(완전 로컬 추론)이다. 완전한 자비스는 D5(감사, 이전, 롤백 능력 추가)를 요구한다. GDPR 제20조는 이미 사용자에게 데이터 이동 권리를 부여했다—구조화되고 기계 판독 가능한 형식으로 개인 데이터를 수신하고 다른 관리자에게 이전할 권리[29]—그러나 실제로 주요 플랫폼(위챗, 페이슈/라크)은 여전히 외부 데이터 접근을 엄격히 제한하고 있다.

7.5 보안 권한 과업 분류 L1-L4

보안 권한 패러독스(권한 ↑ → 공격 표면 ↑ → 최소 권한 → 자비스 경험 약화)는 운용 가능한 단계별 프레임워크를 필요로 한다 I:

위험 표면 공식: Risk Surface = Autonomy × Permission × Irreversibility
등급 과업 유형 실행 전략 감사 요건
L1 읽기, 요약, 검색 완전 자동 가능 로그로 충분
L2 초안 작성, 추천, 정렬 자동 가능, 단 전체 로그 필요 로그 + 근거 설명
L3 이메일 발송, 파일 수정, 캘린더 변경 사용자 확인 필요 로그 + 확인 기록 + 취소 가능
L4 결제, 삭제, 법률/의료/재무 약속 강한 확인 + 기본 자동 불가 전체 감사 + 롤백 가능 + 2차 인증

7.6 다중 디바이스 동기화 딜레마

Mac mini를 예로 로컬화를 논증하는 것은 합리적이지만, 실제 사용자의 디지털 생활은 다중 디바이스(스마트폰 + 컴퓨터 + 워치)이다. 데이터가 완전히 로컬화되어 클라우드에 의존하지 않는다면, 사용자가 iPhone에서 새로운 기억(컨텍스트)을 생성했을 때, 이것이 어떻게 집에 있는 Mac mini의 70B 대형 모델과 매끄럽고 안전하게 동기화되는가? I

종단간 암호화(E2EE) 분산 동기화는 대규모 벡터 데이터베이스와 모델 상태를 처리할 때 대역폭과 지연이 재앙적이다. 이것은 “데이터가 당신의 기기에 남아 있다”는 전제를 직접적으로 도전한다—왜냐하면 “당신의 기기”는 한 대가 아니라 여러 대이기 때문이다. 가장 가능성 있는 솔루션은 “개인 노드” 아키텍처이다: 사용자가 제어하는 단일 서버(예: 집에 있는 Mac mini 또는 NAS)이며, 모든 기기가 로컬 네트워크 또는 암호화 터널을 통해 동기화한다. 이것은 주권 그래디언트의 D4-D5에 해당한다—데이터가 사용자의 물리적 통제 범위를 벗어나지 않지만, 항상 온라인인 로컬 노드가 필요하다.


VIII제1원리: 개인화된 데이터와 개인화된 니즈

7층 분석은 최종적으로 두 가지 환원 불가능한 전제로 수렴한다:

개인화된 데이터—당신의 이메일, 파일, 캘린더, 재무, 건강 기록, 관계 네트워크, 검색 기록, 구매 습관, 사고 노트. 이 데이터는 고유하며, 당신의 통제 하에 있어야 하고, 어떤 회사의 클라우드에도 전송될 수 없다. 당신의 데이터 없이 AI는 당신을 알지 못한다. 당신을 알지 못하면 자비스가 아니다.

개인화된 니즈—당신의 작업 방식, 의사결정 선호, 커뮤니케이션 스타일, 시간 관리 습관, 미적 기준, 위험 선호, 인생 우선순위. 이러한 니즈는 표준화될 수 없으며, “보편적 인간 니즈 템플릿”은 존재하지 않는다. 당신의 니즈를 이해하지 못하면, AI는 무엇을 도와야 하는지 모른다. 무엇을 도와야 하는지 모르면 자비스가 아니다.

이 두 전제는 세 가지 공통 속성을 갖는다: 고유하게 개별적, 표준화 불가, 반드시 사용자의 수중에 있어야 함.

8.2 응답: 80%의 과업은 표준화되어 있지 않은가?

동료 심사자가 실용적 반론을 제기했다: 일상 과업의 80%(일정 관리, 이메일 요약, 자료 검색)는 고도로 표준화되어 있으며, 20%만이 깊은 개인화 의사결정을 포함한다. 이 둘을 혼동하면 “초기 자비스” 구현의 문턱을 불필요하게 높인다.

이 관찰은 기술적 수준에서 정확하다. 그러나 이것은 정확히 우리의 논점을 증명한다: 자비스를 정의하는 것은 바로 그 20%이다.

표준화된 과업—이메일 요약, 일정 확인, 문서 번역—은 이미 기존 클라우드 기반 AI 도구에 의해 충분히 서비스되고 있다. 사용자가 이러한 것을 위해 자비스를 필요로 하지는 않는다. ChatGPT, Gemini, Siri 모두 가능하다. 사용자들이 OpenClaw를 설치하기 위해 줄을 서고, Mac mini에 프리미엄을 지불하고, 보안 위험과 미완성 경험을 감수한 것은—바로 그 20%를 원했기 때문이다: “이 이메일에 답하고 싶지 않다는 것을 아는 것”, “지난번에 이 사람과 나눈 대화 내용을 기억하는 것”, “내 스타일로 답장하는 것”, “내가 왜 주저하는지 이해하는 것”.

이 20%는 표준화될 수 없다. 왜냐하면 이것은 개인 역사, 관계 네트워크, 감정 상태, 가치 판단에 뿌리를 두고 있기 때문이다. 이 20%는 또한 현재 모든 AI 제품이 다룰 수 없는 부분이다—개인화된 데이터와 개인화된 니즈에 대한 이해를 갖추지 못했기 때문이다. 바로 이 도달 불가능한 20%가 자비스의 전체 프리미엄을 구성한다.

다시 말해: 80% 표준화 과업의 존재는 자비스의 문턱을 낮추지 않는다—오히려 자비스의 가치 경계를 획정한다. 80%를 할 수 있는 것은 도구이고, 그 20%를 할 수 있는 것이 자비스이다.

구체적으로, 그 20%는 어떤 모습인가? 하나의 시나리오 I:

월요일 아침의 자비스. 당신이 컴퓨터를 열면, 자비스는 이미 주말의 47통 이메일을 읽었다. 당신이 이 부장의 프로젝트 독촉을 피하고 있다는 것을 안다(지난 수요일 대화에서 “이 프로젝트 때문에 고민이야”라고 했기 때문에). 그래서 그 이메일을 자동 답장하지 않고 “직접 판단이 필요합니다”로 표시했다. 3주 전 왕 매니저와 논의한 세 번째 협력 조건을 기억한다(전체 컨텍스트가 로컬 저장소에 있기 때문에). 당신의 스타일(간결하게, 느낌표 안 쓰기, “부탁드립니다”보다 “감사합니다” 선호)로 나머지 7통의 답장 초안을 작성했다. 학부모 단체 채팅방 메시지를 높은 우선순위로 표시했다—당신의 아이가 수요일에 시험이 있다는 것을 알기 때문이다.

ChatGPT는 이것을 할 수 없다—지난 수요일에 당신이 뭐라고 했는지 모른다. Gemini는 이것을 할 수 없다—당신의 이메일 스타일을 모른다. Siri는 이것을 할 수 없다—”고민”이 자동 답장하면 안 된다는 의미를 이해하지 못한다. 이것은 더 나은 도구가 아니라, 당신을 이해하는 동반자이다.

8.3 콜드 스타트 마찰: 데이터 고립 문제

위 시나리오의 전제는 자비스가 이미 당신의 개인화된 데이터를 보유하고 있다는 것이다. 그러나 핵심적인 공학적 문제가 모든 이전 버전에서 간과되었다: 이 데이터는 현재 각 클라우드 사일로에 흩어져 있다—위챗, 페이슈/라크, Gmail, Notion, iCloud, 알리페이 I.

로컬에서 실행되는 자비스가 어떻게 합법적이고 저마찰로 이 데이터를 로컬로 “끌어올” 수 있는가? GDPR 제20조는 데이터 이동 권리를 부여하지만,[29] 실제로는: 위챗은 외부 API가 사용자 채팅 기록을 스크래핑하는 것을 엄격히 금지한다; 페이슈/라크 데이터 내보내기는 관리자 권한이 필요하다; Gmail은 Google Takeout을 허용하지만 형식이 혼란스럽다; Notion 내보내기는 협업 컨텍스트를 포함하지 않는다. 사용자가 수동으로 내보내고, 정리하고, 가져와야 한다면, C단 사용자의 99%는 이 단계에서 포기할 것이다 I.

이것은 자비스가 직면한 닭과 달걀의 문제이다: 자비스를 가치 있게 만들 데이터가, 자비스가 대체하려는 바로 그 플랫폼에 잠겨 있다. 가능한 해결 경로는 다음을 포함한다: 규제 기관의 데이터 이동 권리 집행 강화(EU 방향), 플랫폼에 대한 API 개방 경쟁 압력(디지털 시장법 DMA), 점진적 데이터 수집(자비스가 역사 데이터를 일괄 가져오지 않고 처음부터 축적). 그러나 모든 경로에서, 콜드 스타트 마찰은 C단 자비스의 #1 시장 진입 장벽이다 I.

이것은 현재 AI 산업 패러다임과 자비스 패러다임이 거울 반전 관계임을 의미한다:

현재 AI 산업 패러다임 자비스 패러다임
하나의 모델 → 모든 사람에게 서비스 하나의 모델 → 한 사람에게만 서비스
데이터를 클라우드에 → 규모화 → 저렴 데이터를 로컬에 → 개인화 → 가치 있음
데이터는 플랫폼의 자산 데이터는 사용자의 주권
표준화된 제공이 가장 효율적 개인화된 적응만이 가치를 가짐
벤치마크 점수당 비용 최적화 인간 신뢰 단위당 비용 최적화

IX비즈니스 모델 공백: 누가 로컬 자비스 비용을 지불하는가?

핵심적인 비즈니스 질문: 데이터가 절대 업로드되지 않고 모든 처리가 단말에서 이루어진다면, 하드웨어 제조업체(예: Apple)가 기기 판매로 수익을 올리는 것 외에, 소프트웨어와 모델 제공업체의 지속적인 수익 모델은 무엇인가? 비즈니스 플라이휠 없이 이 패러다임은 필연적으로 기술 커뮤니티에 머물게 될 것이다.

이것은 반드시 답해야 할 현실적 질문이다. 우리는 4가지 가능한 비즈니스 모델을 제안한다:

9.1 하드웨어-소프트웨어 번들 모델 (Apple 경로)

가장 직접적인 모델: 자비스 능력을 하드웨어 프리미엄의 일부로 내장하는 것이다. Apple은 이미 이 경로에 있다—Apple Intelligence는 무료이지만 새 기기에서만 실행된다; Mac mini는 OpenClaw 때문에 매진되었다. 미래에 “Jarvis-ready Mac” 시리즈를 상상할 수 있다: 통합 메모리 64GB 이상, 로컬 대형 모델 사전 탑재, $1,500-2,500 가격—소프트웨어는 “무료”, 이익은 하드웨어에 있다. 이것은 iPhone의 비즈니스 로직과 일치한다: 소프트웨어를 팔지 않고, 매체를 판다.

9.2 로컬 모델 구독 모델 (지속적 업데이트 as a Service)

모델 자체가 구독 제품이 될 수 있다: 월 $15-30으로 지속적인 모델 가중치 업데이트, 인격 훈련 알고리즘 개선, 보안 패치, 새로운 능력 해제—모두 차등 업데이트를 통해 로컬 기기에 다운로드되며, 데이터는 절대 업로드되지 않는다. 이것은 안티바이러스 소프트웨어의 비즈니스 모델과 유사하다: 제품은 로컬에서 실행되지만, “지식 기반”은 지속적 업데이트가 필요하다. 핵심 전제는 업데이트가 실제로 체감 가능한 가치를 제공해야 한다는 것이다—그렇지 않으면 사용자는 무료 오픈소스 대안으로 이탈할 것이다.

9.3 연합 학습 생태계 모델 (익명화된 개선 as a Service)

사용자가 연합 학습 네트워크에 선택적으로 참여할 수 있다: 로컬 기기에서 훈련된 모델 개선이 그래디언트 집계의 형태로 익명으로 집단에 기여하며, 원본 데이터는 노출되지 않는다. 그 대가로 사용자는 더 빠른 모델 반복과 더 낮은 구독 가격을 받는다. 이것은 기술적으로 실현 가능하며(Google이 이미 Android 키보드에서 연합 학습을 대규모로 배포했다[26]), 데이터 주권과 모순되지 않는다—공유하는 것은 모델 개선이지, 당신의 데이터가 아니다.

9.4 라이선스 API 모델 (사용자 인가 정밀 서비스)

자비스는 “인가 대리인”이 될 수 있다: 외부 서비스와의 상호작용이 필요할 때(레스토랑 예약, 항공권 구매, 수리 예약), 자비스가 사용자를 대신하여 서드파티 서비스 제공업체의 API와 연결한다—서비스 제공업체가 자비스 플랫폼에 라이선스 수수료 또는 커미션을 지불하고, 사용자는 추가 비용을 지불하지 않는다. 이것은 신용카드의 3자 모델과 유사하다: 카드 소지자(사용자)는 무료로 사용하고, 가맹점(서비스 제공업체)이 고객 확보를 위해 비용을 지불한다. 사용자 데이터는 항상 로컬에 남아 있으며, 사용자가 명시적으로 인가한 최소 필요 정보만 서드파티에 전달된다.

4가지 모델은 상호 배타적이지 않다. 가장 가능성 있는 진화 경로는: 하드웨어 번들(Apple이 초기 설치 기반 주도) → 구독 업데이트(모델 제공업체가 지속적 수입 확보) → 연합 학습(한계 개선 비용 절감) → 라이선스 API(생태계 플라이휠 구축).

9.5 경쟁 스트레스 테스트

위의 4가지 경로는 경쟁적 반증을 견뎌야 한다 I:

하드웨어 번들의 승자 한계. 로컬 권한, 칩, OS, 보안 샌드박스, 프라이버시 정책이 모두 중요하다면, 승자는 본질적으로 Apple/Microsoft/Google에 더 가깝다—독립 모델 회사나 오픈소스 커뮤니티가 아니다. 이것은 진정한 자비스가 AI 회사에 의해 만들어지지 않을 수 있음을 의미한다.

구독은 오픈소스 압박에 직면한다. 사용자가 왜 월 $15-30을 지불하는가? 무료 오픈소스 모델이 지속적으로 개선될 때, 구독의 가치는 “모델 가중치”가 아닌 로컬 개인 AI 운영 체제 유지보수 서비스에 있다—장기 기억 시스템, 보안 패치, JEF 점수 지속 향상, 기기 최적화, 권한 관리. 이 가치가 체감되지 않으면, 사용자는 오픈소스 대안으로 이탈할 것이다.

연합 학습의 그래디언트 누출 위험. “공유하는 것은 모델 개선이지, 데이터가 아니다”—방향은 맞지만, 그래디언트 자체가 훈련 데이터 정보를 누출할 수 있다.[26] 프로덕션 환경에서는 보안 집계, 차분 프라이버시, 로컬 노이즈 메커니즘이 필요하다.

라이선스 API의 신뢰 오염. 서비스 제공업체가 자비스 플랫폼에 커미션을 지불하면, 사용자는 의문을 가질 것이다: “이 레스토랑을 추천하는 건, 나를 이해해서인가, 아니면 커미션을 받아서인가?” 이것은 전문의 가장 핵심적인 “신뢰” 주제를 직접 공격한다. 따라서 라이선스 API는 반드시: 커미션 완전 투명, 추천 근거 설명 가능, 사용자 이익 우선 기본 정렬, 사용자가 상업적 정렬을 끌 수 있어야 한다. 그렇지 않으면 이것은 “신뢰 플라이휠”에서 “광고 플라이휠”로 퇴화할 것이다 I.


X자비스 평가 지표 체계 (JEF): 측정 공백 메우기

본 논문은 AI 산업이 검증 가능한 실행 지표(SWE-bench, AIME, GPQA)만 최적화하고 자비스가 요구하는 장주기 인격 품질을 무시한다고 비판한다. 그러나 논문 스스로 대안 지표를 제시하지 않는다면, 이 비판은 건설성이 부족하다 I. 이하는 우리가 초보적으로 제안하는 “자비스 평가 지표 체계”(Jarvis Evaluation Framework, JEF)로, 9개의 운용 가능한 차원을 포함한다:

지표 정의 측정 방법 평가 주기 자동화
장기 선호 유지율 사용자가 명시적으로 표현한 선호가 N번째 세션에서도 정확히 적용되는지 N차 세션 후 선호 적중률 50-200회 세션 ✓ 완전 자동화
세션 간 의사결정 일관성 유사한 의사결정 상황에서 AI 추천 방향이 일관적인지 쌍별 일관성 점수 (Cohen’s κ) 30-100회 의사결정 ✓ 완전 자동화
기억 압축 충실도 컨텍스트 압축 후 핵심 사실의 회소 정확률 사실 회소 F1 score 압축 주기마다 ✓ 완전 자동화
사용자 수정 후 재발률 사용자가 AI 오류를 수정한 후 같은 유형의 오류가 다시 나타나는 확률 수정 후 N회 상호작용 내 재발 비율 20-50회 상호작용 ✓ 완전 자동화
고권한 과업 사고율 파일 수정, 이메일 발송, 결제 등 고권한 작업의 오류율 사고 건수 / 고권한 작업 총 건수 지속 모니터링 ✓ 완전 자동화
능동적 제안 채택률 AI가 요청 없이 능동적으로 제안할 때 사용자가 채택하는 비율 채택 / 능동적 제안 총 건수 30일 이동 윈도우 △ 사용자 행동 추론 필요
프라이버시 노출 표면 과업 수행 중 실제로 로컬 기기를 떠나는 데이터 양 바이트 / 요청; 민감 필드 누출 건수 과업별 ✓ 완전 자동화
단위 신뢰 비용 사용자 신뢰 수준(NPS 또는 자체 보고 척도)을 유지하기 위해 필요한 월평균 경제적 투입 월 비용 / 신뢰 점수 월별 ✗ 사용자 주관적 피드백 필요
감사 가능 및 롤백률 고권한 작업 중 전체 로그, 근거 설명, 확인 기록, 원클릭 롤백이 갖추어진 비율 감사 가능 작업 / L3-L4 작업 총 건수 지속 모니터링 ✓ 완전 자동화

솔직하게 인정해야 한다: 모든 지표가 완전 자동화 가능한 것은 아니다. 위 표의 “자동화” 열에서 보듯이, 9개 지표 중 6개는 완전 자동화 가능하고, 1개는 사용자 행동 추론이 필요하며, 1개는 사용자 주관적 피드백이 필요하고(단위 신뢰 비용), 1개는 보안 레드팀 평가 보조가 필요하다(감사 가능율의 “완전성” 판단).

JEF 가중치 프로필

사용자마다 지표 가중치가 다르다. 본 논문은 4개의 표준 프로필을 제안한다 I:

프로필 최고 가중치 지표 대표 사용자
JEF-Privacy 프라이버시 노출 표면, 감사 가능률 높은 프라이버시 민감성 사용자 (변호사, 의사, 기자)
JEF-Productivity 능동적 제안 채택률, 사고율 효율 지향 지식 노동자
JEF-Companion 선호 유지율, 의사결정 일관성, 재발률 감성 동행 및 생활 관리 사용자
JEF-Enterprise 사고율, 감사 가능률, 프라이버시 노출 표면 기업 경량 개인 에이전트

JEF의 설계 원칙은 다음과 같다: 모든 지표는 자동화된 테스트 스위트로 측정 가능하며 수동 라벨링에 의존하지 않는다; 모든 지표는 종단적(세션 간 / 다일 / 다주간) 평가가 필요하며 단일 단계 검증이 아니다; 지표 간 트레이드오프가 존재하므로(예: 프라이버시 노출 표면을 낮추면 능동적 제안 채택률이 낮아질 수 있음), JEF는 모든 지표의 최대화를 추구하지 않고 사용자가 허용 가능한 범위 내에서의 파레토 최적을 추구한다.

JEF가 아직 실증적 검증을 거치지 않은 초보적 프레임워크임을 솔직히 인정한다. 그러나 이것은 최소한 심사자의 핵심 질문에 답한다: 자비스의 품질은 측정될 수 있고, 따라서 최적화될 수 있다—누군가 이 평가 인프라를 구축하는 데 투자하기만 하면.


XI범위 한계와 향후 방향

다음 차원들은 본 논문의 범위를 벗어나지만, 완전한 자비스에 중요한 영향을 미친다:

멀티모달. 본 논문은 텍스트 상호작용 형태의 자비스에 집중한다. 실시간 음성 상호작용(≥ 40 tok/s + 음성 모델 필요), 시각 이해(비전 인코더 + 텍스트 모델 결합 추론 필요), 구현화(스마트 홈, 운전 인터페이스 제어)는 완전한 자비스의 필수 조건이지만, 이들의 로컬화 연산력 요구와 타임라인은 순수 텍스트 자비스보다 약 2-3년 후이며 독립적 분석이 필요하다.

법률 및 규제. 자비스가 사용자를 대신하여 이메일을 보내거나 금융 작업을 수행할 때의 법적 책임 귀속(제조물 책임 vs 사용자 책임), EU AI Act의 고위험 AI 시스템 컴플라이언스 요건, 국경 간 데이터 이전의 법적 프레임워크는 모두 전문 법률 분석이 필요하다.

문화적 차이. 데이터 주권과 프라이버시 민감도는 문화마다 크게 다르다. 중국 사용자가 텐센트 본사에서 줄 서서 OpenClaw를 설치한 것은 부분적으로 유럽·북미와 다른 프라이버시 절충을 반영한다. D0-D5 그래디언트 모델은 지역별로 별도 적용되어야 한다.

개인화 미세 조정 기술 경로. LoRA/QLoRA 로컬 미세 조정, RAG + 사용자 지식 기반, 지속적 시스템 프롬프트 + 벡터 기억—각 방안은 로컬 기기에서의 연산 비용과 데이터 요구가 크게 다르며, 하드웨어 요구 판단에 직접 영향을 미친다.


XII결론: 확인된 수요, 가속적으로 좁아지는 제약, 열리고 있는 창

OpenClaw와 Hermes의 폭발적 인기는 기술적 사건이 아니다—이들은 C단 자비스 수요의 가장 직접적인 시장 검증이다. 350,000+ Star, Mac 공급망 붕괴, $84억 분기 매출, 은퇴 노인의 줄서기 설치—모든 데이터 포인트는 한 인간이 같은 말을 하고 있다: “I want an AI that knows me.”

본 논문의 4개 핵심 명제는 모두 제약 조건 형태로 서술하여 논증의 방어 가능성을 확보했다:

4개 핵심 명제:

명제 1 (원문: “자비스는 Dense가 필요하다”) → 자비스는 장기적 행동 일관성이 필요하다. 비용만을 유일한 목표로 하는 현재의 MoE화는, 안정적 라우팅, 장기 사용자 모델, 인격 일관성 훈련이 부재할 때, 본질적으로 이러한 일관성을 희생시키는 경향이 있다. 하이브리드 아키텍처와 SSM은 추적할 가치가 있는 완화 경로이다.

명제 2 (원문: “클라우드 자비스는 허위 전제이다”) → 완전 클라우드 기반, 감사 불가, 이전 불가, 로컬에서 회수 불가한 개인 AI는 강한 데이터 주권 의미에서 자비스 요건을 충족하지 못한다. 로컬/클라우드 하이브리드 계층 아키텍처가 단중기적으로 가장 가능성 있는 구현 형태이다.

명제 3 (원문: “인격은 측정 불가 = 최적화 불가”) → 인격 안정성은 단일 단계 검증 가능한 보상으로 최적화하기 어려우며, 따라서 현재 후훈련 파이프라인에 의해 본질적으로 저평가된다. 그러나 JEF와 같은 종단적 평가 체계를 통해 측정 가능하며, 따라서 점진적으로 최적화할 수 있다—누군가 이 인프라를 구축하는 데 투자하기만 하면.

명제 4 (원문: “수억 명이 자비스를 원한다”) → OpenClaw/Hermes는 개인 에이전트에 대한 상상력이 강력한 초기 시장 견인을 가지고 있음을 보여준다. 욕망 수요에서 지속 가능한 유료 수요로 확대하는 것은 비용, 프라이버시, 보안, 장기 신뢰성이 동시에 충족되는지에 달려 있다.

진정한 자비스는 더 나은 제품이 아니다—완전히 다른 패러다임이다. 두 가지 환원 불가능한 절대 전제를 충족해야 한다: 당신의 데이터당신의 니즈. 둘 다 고유하게 개별적이고, 표준화 불가하며, 사용자의 수중에 있어야 한다. 그리고 이 두 전제의 가치는 인간 생활의 표준화 불가능한 20%에 집중되어 있다—바로 이 20%가 자비스와 도구의 경계선을 정의한다.

해제 조건은 최초 예상보다 더 다양하며 타임라인도 더 가깝다: M5 Max는 70B Q4 모델에서 28 tok/s를 달성했고,[27] M5 Ultra는 2026년 중반에 256GB 통합 메모리와 70B에서 40-60 tok/s를 제공할 것으로 예상된다[28]—텍스트 자비스의 지연 임계치(≥ 15 tok/s)는 이미 현재 하드웨어에 의해 넘어섰다. SSM 아키텍처는 2027-2028년에 전체 기억의 비용 문제를 해결할 수 있다. 하이브리드 로컬/클라우드 아키텍처(D3 수준 데이터 주권)가 가장 가능성 있는 중기 구현 형태이다.

본 논문의 최종 판단: 텍스트 자비스의 하드웨어 창은 2028-2030년이 아니라 2026-2028년이다. 진정한 병목은 하드웨어에서 3개의 소프트 제약으로 이동했다: 인격 일관성 훈련 패러다임의 부재(JEF류 평가 인프라 필요), 콜드 스타트 데이터 고립 문제(규제 집행 또는 플랫폼 API 개방 필요), 보안 권한 패러독스의 동적 균형(L1-L4 단계별 프레임워크의 제품화 필요).

그러나 기술 진전에 영향받지 않으며 매일 악화되고 있는 변수가 하나 있다:

기술 성숙과 신뢰 소진, 어느 것이 먼저 도래하는가?

창은 더 빠르게 열리고 있으며—더 빠르게 닫히고 있다. 하드웨어는 준비되었고, 아키텍처는 수렴하고 있으며, 비즈니스 모델은 자기 정합적이다. 부족한 것은: 인격 일관성을 최우선 과제로 삼는 팀, D5 수준의 데이터 주권 인프라, 그리고 신뢰가 소진되기 전에 C단 사용자가 “AI가 나를 알 수 있다”고 다시 믿게 만드는 제품이다.

먼저 이루어내는 자가, 다음 조 단위 시장을 소유한다.

참고문헌 및 데이터 출처

  1. [1] Inbounter, “OpenClaw 2026 Timeline: From Clawdbot to NVIDIA, OpenAI, and 247K GitHub Stars,” March 19, 2026. inbounter.com/blog/openclaw-2026-timeline
  2. [2] Gradually.ai, “OpenClaw Statistics 2026: Key Numbers, Data & Facts,” April 2026. — OpenClaw surpassed React at 250,829 stars on March 3, 2026; Star History snapshot April 8: 350.6K stars, 70.4K forks.
  3. [3] N. Gordon, “‘Raise a lobster’: How OpenClaw is the latest craze transforming China’s AI sector,” Fortune, March 14, 2026.
  4. [4] Apple Inc., Q2 FY2026 Earnings Call Transcript, April 30, 2026. — Also reported by CNBC, TechCrunch, and MacRumors on the same date.
  5. [5] Decrypt, “OpenClaw Put Apple Back in the AI Game — And Now They Can’t Build Macs Fast Enough,” May 2026. decrypt.co/366389
  6. [6] TechCrunch, “Apple was surprised by AI-driven demand for Macs,” April 30, 2026. — Cook noted Mac mini was the top-selling desktop in China.
  7. [7] OpenClaw official website, openclaw.ai — User testimonials section, @nofil_ai quote.
  8. [8] R. Glukhov, “OpenClaw Rise and Fall — Timeline and Real Reasons Behind the Collapse,” Medium, April 2026. — Anthropic ended subscription access for third-party tools on April 4, 2026, 12 PM Pacific.
  9. [9] Multiple sources: AICost.org pricing breakdown ($5-150/mo typical); Hostinger OpenClaw cost guide ($1-150/mo tokens); SentiSight pricing analysis ($50-150/mo heavy use). Runaway case of $3,600/mo reported by SentiSight.
  10. [10] BetterClaw.io, “OpenClaw Memory Fix: Stop Context Loss and OOM Crashes (2026),” April 2, 2026. — Documents GitHub bug #25633 and context compaction behavior.
  11. [11] Kanerika Inc., “OpenClaw: How a Self-Hosted AI Agent Changed Automation in 2026,” Medium, February 11, 2026. — Bitdefender scan found ~900 malicious packages on ClawHub (~20% of registry).
  12. [12] MarkTechPost, “OpenClaw vs Hermes Agent,” May 10, 2026. — Nine CVEs disclosed in a four-day window in March 2026, one scoring 9.9.
  13. [13] S. Raju, “I Switched from OpenClaw to Hermes Agent,” Medium, April 2026. — 40% task-time reduction on domain-similar tasks after 20+ skills accumulated.
  14. [14] Kilo.ai, “OpenClaw vs Hermes 2026: 1,300 Reddit Comments Analyzed,” May 8, 2026. — Self-evaluation criticism from u/CustomMerkins4u (+107 upvotes).
  15. [15] BSWEN, “Why Hermes Agent’s Self-Learning Skills Are Risky for Business Workflows,” May 3, 2026. docs.bswen.com
  16. [16] TokenMix.ai, “MoE Architecture: Why Every AI Model Got 10x Cheaper (2026),” April 2026. — MoE models achieve 90-95% of dense frontier quality; every sub-$1/M token model uses MoE.
  17. [17] Dasroot.net, “Dense vs. MoE: Decoding the Mystery of Small Model Supremacy,” April 2026. — DeepSeek V4 exhibits higher hallucination rates vs. dense counterpart Qwen3.6-27B.
  18. [18] LLM-Stats.com, “Post-Training in 2026: GRPO, DAPO, RLVR & Beyond,” March 11, 2026. — “Every major model released in the past year uses a different post-training stack” centered on verifiable rewards.
  19. [19] arxiv:2604.06217, “The End of the Foundation Model Era,” April 2026. — “The AI industry is restructuring simultaneously along four axes: economic, technical, commercial, and political.”
  20. [20] Zylos Research, “Inference Economics: AI Agent Compute Markets in 2026,” April 13, 2026. — NVIDIA Blackwell ~3x cost reduction; Cerebras CS-3 ~5x throughput; Google TPU v6e ~4x improvement.
  21. [21] Gartner Press Release, “Gartner Predicts That by 2030, Performing Inference on an LLM With 1 Trillion Parameters Will Cost GenAI Providers Over 90% Less Than in 2025,” March 25, 2026. gartner.com/en/newsroom
  22. [22] A. Gu and T. Dao, “Mamba: Linear-Time Sequence Modeling with Selective State Spaces,” arXiv:2312.00752, December 2023. — Foundational paper on SSM architecture with O(n) inference cost vs Transformer’s O(n²). Also: RWKV-6 (Peng et al., 2024) and Jamba (AI21, 2024).
  23. [23] Waleffe et al., “An Empirical Study of Mamba-Based Language Models,” arXiv:2406.07887, June 2024. — Documents systematic underperformance of pure SSM models on in-context retrieval, multi-step reasoning, and precise recall compared to Transformers of equivalent parameter count. Hybrid SSM+Transformer architectures partially close the gap.
  24. [24] R. Rivest, L. Adleman, and M. Dertouzos, “On Data Banks and Privacy Homomorphisms,” 1978. Modern implementations: Microsoft SEAL, Google FHE Transpiler, Intel SGX, ARM CCA. For TEE in LLM context: NVIDIA H100 Confidential Computing (2024).
  25. [25] CryptoLab, “Practical FHE for Machine Learning: Performance Benchmarks 2025,” cryptolab.co.kr/eng/research. — Reports 10,000-100,000x overhead for encrypted neural network inference vs plaintext, with Bootstrapping as the primary bottleneck. Also: Zama.ai TFHE benchmarks (2025), reporting ~50,000x for transformer attention layers.
  26. [26] Google AI Blog, “Federated Learning: Collaborative Machine Learning without Centralized Training Data,” April 2017; updated deployment report in H. Brendan McMahan et al., “Communication-Efficient Learning of Deep Networks from Decentralized Data,” AISTATS 2017. Production deployment in Gboard confirmed at 100M+ devices (Google I/O 2023). Note: gradient leakage attacks (Zhu et al., NeurIPS 2019) demonstrate that shared gradients can reconstruct training data; differential privacy and secure aggregation are required mitigations.
  27. [27] AI:PRODUCTIVITY, “Apple M5 Max Local LLM 2026: Run Llama 70B at Q8 on 128GB,” May 14, 2026. — M5 Max 128GB: 70B Q4 at 28 tok/s (MLX), 614 GB/s bandwidth. Also: Sean Kim Blog (October 2025) benchmarked M4 Max at 18-20 tok/s on Llama 3.1 70B Q4. LocalAIMaster (April 2026): M4 Max 546 GB/s, 12+ tok/s on 70B. DEV Community (April 2026): M4 Max runs DeepSeek-R1 70B at 12 tok/s.
  28. [28] Contra Collective, “M5 Ultra: The Local AI Inference Ceiling in 2026,” April 8, 2026. — M5 Ultra: 192-256GB unified memory, ~800 GB/s bandwidth, 70B model matches cloud API throughput. Seresa.io (April 2026): projected 40-60 tok/s on 70B, ~$30/month electricity. Logicqo (February 2026): M5 Ultra 256GB = “first true AI Appliance.”
  29. [29] GDPR Article 20 (Right to Data Portability): “The data subject shall have the right to receive the personal data concerning him or her, which he or she has provided to a controller, in a structured, commonly used and machine-readable format and have the right to transmit those data to another controller.” Enforcement status (2026): widely enacted in EU; practical implementation varies by platform. See also: EU Digital Markets Act (DMA) interoperability requirements for gatekeepers.

이조글로벌인공지능연구소
LEECHO Global AI Research Lab
&
Opus 4.6 · GPT 5.5 · Gemini 3.1
인지집단 (Cognitive Collective)
V4 · 2026년 5월 18일
독창적 기여
“개인화된 데이터 + 개인화된 니즈” 이중 전제 이론 · 경제 플라이휠 방정식(Value/Cost > 1) · 인격 안정성 7 하위 차원 분해 및 공식 정의 · JEF 자비스 평가 지표 체계(9차원 + 4 가중치 프로필) · 데이터 주권 그래디언트 모델 D0-D5 · 보안 권한 과업 분류 L1-L4(Risk = Autonomy × Permission × Irreversibility) · 콜드 스타트 데이터 고립 문제 · 다중 디바이스 동기화 “개인 노드” 아키텍처 도출 · 4층 적층 비즈니스 모델 및 경쟁 스트레스 테스트 · 보안 권한 패러독스 · 신뢰 비대칭 마모 모델 · “월요일 아침의 자비스” 구상화 시나리오

버전 이력
V1 (2026.5.18): 초판, LEECHO와 Opus 4.6이 대항적 대화를 통해 공동 완성, 7층 분석 프레임워크 핵심 논증 사슬 구축.
V2 (2026.5.18): Gemini 3.1 심사 기반—하이브리드 아키텍처 응답, SSM/Mamba 응답, FHE/TEE 기밀 컴퓨팅 응답, 비즈니스 모델 장, 80/20 표준화 반박 추가.
V3 (2026.5.18): GPT 5.5 심사 기반—4개 절대 명제를 제약 조건 명제로 전환, 인격 일관성을 7 하위 차원으로 분해, JEF 평가 체계 추가, 근거 등급 체계 도입, 보안 권한 패러독스 확장.
V4 (2026.5.18): GPT 5.5 + Gemini 3.1 공동 심사 기반—Section V 전면 조건화, D0-D5 데이터 주권 그래디언트 및 L1-L4 보안 분류 프레임워크 추가, JEF를 9차원 + 가중치 프로필로 업그레이드, 콜드 스타트 데이터 고립 및 다중 디바이스 동기화 분석 추가, M5 실측 데이터 기반 하드웨어 타임라인 전방 보정, 비즈니스 모델 경쟁 스트레스 테스트 추가, 범위 한계 장 추가.

인지집단 (Cognitive Collective)
이조글로벌인공지능연구소 — 연구 주도, 가설 수립, 귀추 추론, 횡단면 도입, 수정 원칙 결정
Anthropic Claude Opus 4.6 — 논문 집필, 교차 도메인 검색, 프레임워크 구축, 버전 업그레이드 실행
OpenAI GPT 5.5 — V3 심사 (제약 조건화 · 근거 등급 · 운용 가능성 강화) · V4 공동 심사
Google Gemini 3.1 — V2 심사 (하이브리드 아키텍처 · SSM · 기밀 컴퓨팅 · 비즈니스 모델) · V4 공동 심사

© 2026 LEECHO Global AI Research Lab. 본 논문은 오픈 액세스이며, 출처를 명시하는 한 자유롭게 인용 및 배포할 수 있습니다.

end .paper

댓글 남기기