THOUGHT PAPER · APRIL 2026

Agent와 Skill 본체론에 대한 사고

LLM 시스템 핵심 개념의 모호성, 비용 블랙박스, 시장의 구조적 모순

Ontological Reflections on Agent and Skill

Conceptual Ambiguity, Cost Opacity, and Structural Contradictions in the LLM Ecosystem


발행일2026년 4월 28일
분류독창적 사고 논문 (Original Thought Paper)
영역철학적 본체론 · 사이버네틱스 · LLM 경제학 · 시스템 아키텍처 · 가격 이론
이조글로벌인공지능연구소
LEECHO Global AI Research Lab
&
Claude Opus 4.6 · Anthropic

초록 Abstract
본 논문은 LLM Agent와 Skill 개념에 대한 체계적 추궁을 토대로, 현재 AI 산업의 핵심 용어가 본체론·범주 경계·사용 시나리오 정의에서 근본적으로 모호하다는 점을 밝힌다. Anthropic, OpenAI, Google 세 곳의 정의를 교차 비교하고, 사이버네틱스 프레임워크에서 LLM 출력 확정성에 대한 경험적 평가(약 95% 제어 상한)를 결합하며, ‘가챠 뽑기’와 ‘지능 저하’ 같은 민간 인식을 도입하여, 개념 모호에서 가격 책정 불가능에 이르는 완전한 인과 사슬을 논증한다. 그 가운데 ‘지능 저하’ 현상은 데이터 퇴화, 정렬세(Alignment Tax), 비용 최적화라는 세 가지 상이한 메커니즘이 사용자 경험 차원에서 수렴한 것으로 해체되며, 환각과 창의성의 관계는 동치 관계가 아닌 실증적으로 검증된 트레이드오프 관계로 수정된다. 나아가 실증 데이터—Gemini API의 TPM 트리거 기록과 추론 Token의 비용 블랙홀 포함—를 통해 현재 LLM 제품의 비즈니스 모델과 사용자의 실제 경험 사이에 구조적 단절이 존재함을 증명한다. 또한 LLM 시장의 개념 모호가 왜 클라우드 컴퓨팅 시장보다 더 파괴적인지를 논증한다: 모호성이 제품 정의, 산출 품질, 비용 계량이라는 세 차원을 동시에 관통하기 때문이다. 본 논문은 LLM 생태계에 필요한 것은 기존 개념의 더 정밀한 정의가 아니라, 확률 시스템에 고유한 완전히 새로운 개념 체계라고 제안한다.

서론: 대답할 수 없는 근본적 질문

“Agent란 무엇인가? Skill이란 무엇인가?”—이것은 LLM 애플리케이션 개발 분야에 진입하는 누구나 마주치는 첫 번째 질문이다. 그러나 3대 AI 플랫폼의 공식 문서, 학술 논문, 엔지니어링 실무에 대한 체계적 연구를 거친 결과, 우리는 불안한 결론에 도달했다: 이 두 개념에는 현재 엄밀한 정의가 존재하지 않는다.

이는 정의가 너무 전문적이거나 너무 기술적이어서가 아니라, 정의 자체가 모호하고 자기모순적이며 플랫폼마다 다르기 때문이다. 더 깊은 문제는, 이러한 모호성이 우연한 실수가 아니라는 점이다—확률 시스템 위에 세워진 산업이 확정적 언어로 자신을 묘사하려 할 때 필연적으로 맞닥뜨리는 구조적 곤경이다.

본 논문은 저자 자신이 LLM 심층 사용자로서 실천한 경험을 출발점으로, 이 ‘모호성의 사슬’ 각 고리를 역추적한다—개념 정의에서 범주 경계로, 사이버네틱스 상한에서 비용 블랙박스로, 민간의 불만에서 시장 구조로—최종적으로 하나의 완전한 인과 폐루프(closed loop)를 밝혀낸다.

· · ·

Agent의 본체론: 정의의 공허

2.1 세 회사 정의의 교차 비교

현재 글로벌 3대 LLM 플랫폼의 Agent 정의는 각기 다르며, 핵심 차원에서 서로 모순된다:

차원 Anthropic OpenAI Google
핵심 정의 LLM이 자체 프로세스와 도구 사용을 동적으로 지시하는 시스템 사용자를 대신하여 독립적으로 작업을 완수하는 시스템 AI를 사용하여 목표를 추구하는 소프트웨어 시스템
강조점 제어권 귀속 (Workflow와 구분) 독립성 + 가드레일 추론 + 계획 + 기억
정의 스타일 아키텍처 구분형 제품/엔지니어링 지향 능력 체크리스트형

세 곳 모두 모호하지만, 모호한 방식이 다르다. OpenAI가 가장 실용적이다[2]—Agent는 “구성된 LLM 인스턴스”에 불과하다. Google이 가장 범용적이다[3]—추론 능력이 있는 거의 모든 AI 시스템이 해당된다. Anthropic만이 아키텍처적 경계선(Workflow vs Agent)을 그으려 시도했지만[1], 그 선 자체도 불분명하다.

2.2 Agent와 Workflow: 유일한 경계선과 그 모호성

세 곳의 정의 중 Anthropic만이 내부 경계를 그으려 시도했다. Anthropic은 명확히 구분한다: Workflow는 사전 정의된 코드 경로를 통해 LLM과 도구를 편성하는 시스템이고, Agent는 LLM이 자체 프로세스와 도구 사용을 동적으로 지시하는 시스템이다. 이 경계의 판정 기준은 제어권 귀속이다—다음에 무엇을 할지 누가 결정하는가? 코드가 미리 규정한다면 Workflow이고, LLM이 스스로 결정한다면 Agent이다.

OpenAI와 LangChain도 이 구분선을 인정한다. LangChain은 OpenAI와 Anthropic 모두 Workflow를 Agent와 다른 설계 패턴으로 취급한다고 지적한다—Workflow에서 LLM의 제어권은 더 적고 프로세스는 더 확정적이다. 그러나 양쪽 모두 인정하는 바는: 많은 애플리케이션에서 Workflow는 명확히 정의된 작업에 예측 가능성과 일관성을 제공하고, Agent는 유연성과 모델 주도 의사결정이 필요한 시나리오에 더 적합하다는 것이다. 다시 말해, 이것은 우열의 차이가 아니라 적용 시나리오의 차이이다.

문제는 이 경계가 실제로는 연속 스펙트럼이지 이산적 분계선이 아니라는 점이다:

Agent ↔ Workflow 연속 스펙트럼
특성 순수 Workflow 회색 지대 순수 Agent
제어권 100% 코드 제어 일부 노드를 LLM이 의사결정 100% LLM 제어
실행 경로 사전 정의, 확정적 조건 라우팅 + LLM 판단 완전 동적, 비확정적
예측 가능성 높음 중간 낮음
디버깅 난이도 낮음 중간 높음
전형적 구현 프롬프트 체이닝, 병렬화 오케스트레이터-워커 패턴 도구 호출 루프 (ReAct)

대부분의 사람들이 Agent라고 부르는 것은 실제로 Agent가 아니다. 이른바 “Agent”의 대다수는 API 호출에 도구 접근을 더한 것에 불과하다—독립적으로 행동할 수 없고 의사결정을 내릴 수 없다. 단지 사용자에게 응답할 뿐이다. 그런데도 우리는 여전히 그것을 Agent라고 부른다. 한 독립 연구자는 CrewAI가 말하는 “Agent”가 사실상 특정 작업에 배정된 사전 정의 Workflow에 가깝고, Anthropic이 정의하는 Agent는 어떤 작업이든 독립적으로 추론하여 완수할 수 있는 시스템이라고 지적했다[25]. 두 이해 모두 가치가 있지만, 전혀 다른 기술적 실체를 가리킨다.

더 핵심적인 점은, 대부분의 애플리케이션에서 프로덕션급 에이전트 시스템은 Workflow와 Agent의 조합이 될 것이며—순수한 Agent는 프로덕션 환경에 거의 등장하지 않는다는 것이다. Anthropic은 가장 단순한 실행 가능 방안을 찾고, 필요할 때만 복잡도를 추가할 것을 권고한다. 이는 에이전트 시스템을 구축할 필요가 전혀 없을 수 있다는 뜻이다. 이는 곧: Agent라는 개념이 정의되었음에도 불구하고, 실무에서는 가능한 한 사용을 피하도록 권장된다는 것이다. 자기 정의자가 신중한 사용을 조언하는 개념은, 제품 카테고리로서의 유효성이 의문시된다.

2.3 자율성의 역설

Agent 정의의 핵심은 “자율성”에 있다. 그러나 깊이 추궁하면 근본적 역설이 드러난다: 프롬프트 없는 Agent에게는 자율성이 없다.

LLM의 “자율성”은 내재적인 것이 아니라 프롬프트가 부여한 것이다. 아무것도 없는 LLM—시스템 프롬프트 없이, 역할 정의 없이, 도구 설명 없이—은 오직 한 가지만 한다: 입력 텍스트에 기반하여 다음 토큰을 예측하는 것이다. 스스로 목표를 설정하지 않고, 도구 호출을 결정하지 않으며, 작업이 완료되었는지 판단하지 않는다.

핵심 명제
프롬프트는 Agent의 부속물이 아니다. 프롬프트가 Agent 자율성의 원천이다. 이른바 “자율성”이란, 인간이 미리 설정한 의미 공간 내에서의 조건적 자유에 불과하다. Agent의 목표는 인간이 부여한 것이고, 능력 경계는 인간이 정한 것이며, 행동 프레임워크는 인간이 설계한 것이고, 루프 구조는 인간이 작성한 것이다—심지어 “자율적으로 결정할 수 있다”는 것 자체도, 인간이 프롬프트에서 허용한 것이다.

2.4 정의 모호성의 심층 원인

Anthropic 스스로 인정한다: “Agent는 여러 방식으로 정의될 수 있다.”[1] 이것은 엄밀한 본체론적 정의가 아니라 제품 분류 전략이다. 모호성의 원인은 세 가지다: 첫째, 2026년 “Agent”는 가장 뜨거운 키워드이며 정의가 넓을수록 시장 내러티브가 커진다. 둘째, Agent의 자율성은 실제로 연속 스펙트럼이며 억지로 선을 긋는 것은 엔지니어링적으로 무의미하다. 셋째, 이 분야가 너무 새로워서 학계조차 아직 논쟁 중이다.

· · ·

Skill의 본체론: 개념의 표류

3.1 Skill이 아닌 것

Skill의 본질은 부정적 정의를 통해 획정해야 한다:

Skill은 도구(Tool)가 아니다—도구는 확정적 연산으로, 입력을 주면 구조화된 출력을 얻는다. Skill은 LLM이 해석하는 일련의 지시(instructions)이다.[4] Skill은 “어떻게 할 것인가”를 기술하고, 도구는 “실행한다”.

Skill은 프롬프트(Prompt)가 아니다—프롬프트는 일시적이고, 반응적이며, 코드에 내장된다. Skill은 지속적이고, 이식 가능하며, 버전 관리되는 산출물이다.[5]

Skill은 에이전트(Agent)가 아니다—Agent는 자체 도구, 기억, 의사결정 루프를 가진 실행 런타임이다. Skill은 어떤 Agent든 로드할 수 있는 지식 모듈이다.

3.2 세 회사의 분열

차원 Anthropic OpenAI Google
Skill 개념 유무 있음—발명자이자 표준 제정자 있음—후에 전면 채택 독립적 정의 없음, 호환적 사용
Skill vs Tool 명확히 구분 역사적으로 구분하지 않았으나 현재 구분 시작 구분 없음, 모든 것이 Function
Skill의 본질 절차적 지식 패키지 재사용 가능한 파일 번들 도구/함수에 포함

Microsoft의 Semantic Kernel은 처음에 “Skills”라고 불렀다가 나중에 “Plugins”로 이름을 변경했다[6]—이는 그들의 관점에서 Skill과 Tool 사이에 본질적 차이가 없었음을 보여준다. 이것은 “Skill과 Tool은 다른 범주이다”라는 논지를 직접적으로 도전한다.

3.3 Tool과 Skill 경계의 자기검증과 붕괴

“Tool은 실행 계층, Skill은 편성 계층”이라는 흔한 논지를 4차원 검증(논리, 정의, 범주, 유추)에 부쳤으며, 모든 차원에서 문제가 노출되었다:

4차원 검증 결과
차원 원래 논지 검증 후 수정
논리 Skill이 편성 계층에서 Tool을 편성한다 Skill은 아무것도 편성하지 않는다. LLM이 Skill을 읽고 Tool을 편성한다
정의 Tool은 확정적, Skill은 비확정적 대부분의 경우 그렇지만, 본질적 구분은 아니다
범주 Tool vs Skill 이원 대립 실제로는 System Prompt / Skill / Tool 3층 구조
유추 망치 vs 작업 매뉴얼 레시피 vs 조리기구—레시피가 조리기구를 참조하며, 독립적 병렬이 아니다

가장 정직한 결론: Tool과 Skill의 차이는 본질적으로 다른 두 범주가 아니라, 동일한 연속 스펙트럼 위의 서로 다른 위치이다.[7] 산업 자체도 아직 통일되지 않았다.

· · ·

사이버네틱스 관점: 95% 상한과 5%의 이중성

4.1 불확실성의 정량화

프롬프트 재사용성, Project 환경의 출력 안정성, Skill 재사용 효과에 대한 장기 사용 관찰을 통해, 모든 경험이 같은 방향을 가리킨다: LLM 출력의 제어 가능성에는 약 95%의 경험적 상한이 존재한다. 이것은 통제 실험으로 측정된 정밀 상수가 아니라, 지속적 실천에 기반한 수렴적 판단이다—흥미롭게도 MIT의 독립 연구도 생성형 AI 파일럿 프로젝트의 95%가 프로덕션에 도달하지 못한다는 결과를 발견했으며[21], 서로 다른 차원의 두 “95%”가 의미심장한 공명을 이룬다.

이 마지막 5%는 엔지니어링 문제가 아니다—프롬프트를 잘 못 쓴 것도, Skill 설계가 정교하지 않은 것도, 프레임워크를 잘못 선택한 것도 아니다. 이것은 LLM이 확률적 샘플링으로 토큰을 생성하는 메커니즘 자체가 결정하는 물리 법칙 수준의 한계이다.

4.2 5%의 가치 반전

핵심 통찰은 이것이다: 이 5%의 불제어성은 사이버네틱스 관점에서는 리스크이지만, 창의성 관점에서는 핵심 가치이다.

LLM이 기대에서 벗어날 때—벗어나는 방향이 “더 나쁜” 쪽이면 환각(hallucination)이나 오류라 부르고, “더 나은” 쪽이면 경이로움이나 통찰이라 부른다. 둘 다 확률 샘플링이 예설되지 않은 출력을 생성한 데서 비롯되지만, 엄밀한 등가 관계는 아니다—학술 연구에 따르면, 서로 다른 환각 억제 기술이 창의성에 정반대 영향을 미친다: 어떤 방법(예: CoVe)은 환각을 줄이면서 오히려 창의적 다양성을 강화하고, 다른 방법(예: DoLa)은 양쪽을 동시에 억제한다[22]. 모델의 서로 다른 디코딩 레이어 사이에 정량화 가능한 환각-창의성 트레이드오프 곡선이 존재하며, 특정 최적 균형점이 있다[23].

핵심 추론
환각과 경이로움의 관계는 등가 관계가 아니라, 실증적으로 검증된 트레이드오프 관계이다—환각을 줄이는 수단이 동시에 경이로움의 확률 공간을 압축한다. 특정 기술 경로에서 환각을 줄이면서 일부 창의성을 보존할 수는 있겠지만, 무손실 해결책은 존재하지 않는다—이 트레이드오프는 확률적 생성 시스템의 구조적 특성이지, 엔지니어링으로 우회할 수 있는 우발적 한계가 아니다.

4.3 LLM이라는 새로운 제품 범주

이 95%+5% 구조는 인류 상업사에서 전례 없는 제품 범주를 정의한다:

제품 유형 확정성 핵심 가치 사용자 기대
전통 소프트웨어 100% 신뢰성 매번 동일한 결과
창작 도구 낮음 표현의 자유 매번 다른 결과
LLM 시스템 95% 신뢰성 + 간헐적 초월 동시에 신뢰할 수 있고 경이로운

기존의 어떤 가격 모델, 평가 프레임워크, 품질 표준도 이러한 종류의 제품을 위해 설계되지 않았다. 이것이 모든 기존 개념을 적용하면 들어맞지 않는 근본 원인이다.

· · ·

민간 본체론: ‘가챠 뽑기’와 ‘지능 저하’

5.1 ‘가챠 뽑기’—비용의 가장 진실된 묘사

‘가챠 뽑기(抽卡)’는 어떤 전문가가 발명한 용어가 아니다. 수억 명의 중국어권 AI 사용자가 실제 사용 중에 자발적으로 수렴한 합의 어휘이다[18]—게임 커뮤니티에서 유래했으며, 그곳의 사용자들은 확률 시스템의 본질을 이미 오래전부터 이해하고 있었다: 돈을 써도 결과는 보장되지 않고, 희소성이 비용을 결정하며, 운영사가 확률을 몰래 변경할 수 있다.

‘가챠 뽑기’는 가격 모델이 무시하는 사실을 드러낸다: 실제 생산 비용은 “한 번 생성의 가격”이 아니라 “만족스러운 결과를 뽑을 때까지의 총비용”이다. 그리고 이 총비용은 예측 불가능하다.

5.2 ‘지능 저하’—세 가지 상이한 메커니즘의 체험 수렴

실무자들이 관찰하는 ‘지능 저하(降智)’는 실제로 세 가지 서로 다른 메커니즘이 사용자 경험 차원에서 수렴한 것이다:

메커니즘 1: 데이터 품질 퇴화(“뇌 부패”). 여러 대학의 연구에 따르면, 저품질 인터넷 데이터로 학습한 모델은 체계적 능력 저하를 보인다[8]—추론 점수가 74.9에서 57.2로, 기억 및 장문맥 이해력이 84.4에서 52.3으로 하락했다. 더 우려스러운 점은, 이 손상이 쉽게 복구되지 않는다는 것이다—고품질 데이터로 재학습해도 모델이 원래 수준으로 완전히 돌아가지 않는다. 이것은 데이터 소스 차원의 문제이다.

메커니즘 2: 정렬세(Alignment Tax). RLHF 정렬 이후의 모델은 “응답 동질화” 현상을 보인다—연구 측정 결과, TruthfulQA에서 40%의 질문이 10회 독립 샘플링에서 단 하나의 의미 클러스터만 생성했다[24]. 영향을 받는 질문에서 샘플링 기반 불확실성 추정 방법의 판별력은 0으로 떨어졌다(AUROC=0.500). 이것은 능력 퇴화가 아니라 안전성을 위해 지불하는 구조적 대가—설계 선택이다.

메커니즘 3: 비용 최적화와 모델 교체. 공급업체가 새 모델에 비용 최적화 추론 조정을 수행하여 기본적으로 더 짧은 출력을 내놓으며, 동시에 고비용 모델을 저비용 모델로 조용히 교체하면서 과금은 그대로 유지할 수 있다[9]. 이것은 이익 주도의 상업적 결정이다.

세 메커니즘은 원인이 다르고, 책임 귀속이 다르며, 해결 경로가 다르다. 그러나 사용자 경험 차원에서는 동일한 감각으로 수렴한다: 이전에 할 수 있던 일을 이제 할 수 없고, 이전에 훌륭했던 답변이 이제는 평범해졌다. ‘지능 저하’라는 민간 용어는 이 복합적 경험을 정확하게 인코딩한다—비록 원인을 구분하지는 못하지만.

역설
모델은 그 5%의 예측 불가능성으로 사용자를 끌어들이고, 그 다음 상업적 안전을 위해 체계적으로 그 5%를 압축하며, 결국 자신의 가장 매력적인 특질을 죽인다. 모델이 가장 쓸만할 때는 가장 돈이 안 될 때이고, 모델이 돈을 벌기 시작할 때는 나빠지기 시작할 때이다.

5.3 두 언어 체계의 대립

공식적으로는 Agent, Skill, Tool이라 말하고, 사용자들은 가챠 뽑기, 지능 저하라 말한다. 두 언어 체계가 동일한 시스템을 묘사하지만, 완전히 다른 결론에 도달한다. 전자는 이것이 제어 가능하고, 정의 가능하고, 가격 책정 가능한 제품이라 말하고, 후자는 이것이 제어 불가능하고, 운에 맡겨야 하며, 점점 나빠지는 도박이라 말한다. 민간의 ‘가챠 뽑기 + 지능 저하’가 공식의 ‘Agent + Skill’보다 훨씬 정직하다.

· · ·

비용 블랙박스: 추론 Token과 TPM 함정

6.1 숨겨진 추론 Token

입력과 출력 사이에, 거의 어떤 회사도 투명하게 공개하지 않는 비용 계층이 존재한다: 추론 Token(Reasoning Tokens). 학술 논문에 따르면, 과금된 Token의 90% 이상이 사용자에게 표시되지 않은 사례가 기록되어 있으며, 내부 추론이 Token 사용량을 20배 이상 부풀렸다.[10]

당신이 50개의 Token을 보내고, 100개의 Token을 받았지만, 650개의 Token에 대해 과금된다.[11] 그 500개의 “추론 Token”은 모델의 내부 독백—당신은 결코 볼 수 없다. 추론 Token은 단일 쿼리 비용을 5~50배까지 증폭시킬 수 있으며[12], 작업 난이도와 모델 선택에 따라 다르다.

6.2 TPM 함정: 실증 데이터

아래 데이터는 본 논문의 저자(이조글로벌인공지능연구소)의 Google Gemini API 유료 Tier 1 대시보드 스크린샷에서 가져온 것으로[13], 90일간의 사용 기록을 포괄한다:

실증 데이터 · 이조글로벌인공지능연구소 · Gemini API 유료 1등급 · 90일

모델 RPM (사용/한도) TPM (사용/한도) RPD (사용/한도)
Gemini 3 Pro 14 / 25 1.26M / 1M (한도 26% 초과) 252 / 250 (한도 초과)
Gemini 3 Flash 5 / 1K 1.08M / 1M (한도 8% 초과) 322 / 10K
Gemini 2.5 Pro 2 / 150 1.12K / 2M 7 / 1K
Gemini 2.5 Flash 1 / 1K 108 / 1M 2 / 10K

핵심 사실: 저자의 사용 시나리오는 오직 채팅(Chat)—배치 처리가 아니고, 복잡한 Agent 자동화가 아니며, 오직 대화뿐이다. 채팅으로 TPM이 트리거된 후, 당일 API 호출이 차단되었다.

6.3 4중 블랙박스의 완전한 구조

모든 발견을 중첩하면, LLM 사용자가 직면하는 실제 처지는 하나의 4중 블랙박스이다:

4중 블랙박스 모델
계층 불확실성 표현
제1층: 가챠 뽑기 산출 품질 불확실 동일 프롬프트가 동일 결과를 보장하지 않음
제2층: 지능 저하 품질 추세 불확실 모델이 업데이트와 함께 퇴화
제3층: 추론 Token 단건 비용 불확실 보이지 않는 내부 추론이 과금의 90% 이상 소비
제4층: TPM 함정 서비스 연속성 불확실 유료 사용자가 예측 불가능하게 차단됨

사용자는 어떤 품질의 결과를 얻을지 모르고, 이번에 얼마를 썼는지 모르며, 왜 갑자기 제한이 걸렸는지 모르고, 심지어 모델이 뒤에서 조용히 교체되었는지조차 모른다[10].

· · ·

개념 모호에서 시장 블랙박스로: 완전한 인과 사슬

모든 발견을 연결하면, 하나의 완전한 인과 추론 사슬이 구성된다:

인과 폐루프
개념 모호 → 고객이 제품을 이해할 수 없음 → 평가 불가 → 가격 책정 불가 → 자본은 내러티브에만 베팅 가능 → 내러티브가 클수록 더 모호 → 개념이 더 모호 → 순환 가속

이 순환의 모든 단계가 이미 실제 시장에서 검증되었다: 약 80%의 기업이 생성형 AI를 사용한다고 보고하지만, 동일한 비율의 기업이 의미 있는 수익 영향이 없다고 보고한다[14]. AI Agent를 프로덕션에 배포한 조직은 11%에 불과하다[15]. 대부분의 기업 예산이 실제 총소유비용(TCO)을 40~60% 과소평가한다[16]. MIT 보고서는 나아가 생성형 AI 파일럿 프로젝트의 95%가 실패한다고 보여준다[21].

가능한 반론에 응답해야 한다: “클라우드 컴퓨팅”도 초기에는 마찬가지로 정의가 모호했지만, 여전히 기능이 완비된 조 단위 시장으로 성장했다. 왜 개념 모호성이 LLM 시장에서 이토록 파괴적인가? 답은 클라우드 컴퓨팅은 개념 정의 차원에서만 모호했고, 그 산출은 확정적이었다는 데 있다—1GB를 저장하면 1GB이고, 1시간을 계산하면 1시간이며, 검증 가능하고, 감사 가능하고, 비교 가능하다. LLM 시장의 특수성은 모호성이 세 차원을 동시에 관통한다는 데 있다: 제품 정의가 모호하고(Agent란 무엇인가), 산출 품질이 비확정적이며(동일 프롬프트가 동일 결과를 보장하지 않음), 비용 계량이 불투명하다(추론 Token이 보이지 않음). 이 3중으로 중첩된 불확실성이야말로 이 시장이 유효한 가격 책정 메커니즘을 형성하지 못하는 근본 원인이다.

가격 혼란은 직접적 증상이다: 어떤 공급업체는 해결 건수로 과금하고, 어떤 공급업체는 대화 건수로 과금하며, 또 어떤 공급업체는 가격을 영업 통화 뒤에 완전히 숨긴다[19]. 과금 단위조차 합의가 없다—Token, Credit, “Intelligence Unit”, Conversation, Resolution[20]—이 과금 차원 중 어느 것도 사용자 관점의 가치 지표가 아니다.

7.1 OOD 사용자에 대한 구조적 처벌

가장 아이러니한 점은, 현재의 비용 구조가 체계적으로 고가치 사용을 처벌하고 얕은 사용을 보상한다는 것이다. 학제간 깊은 사고를 하는 사용자—고밀도 OOD(Out-of-Distribution) 쿼리를 생성하고, 모델의 Dense 모드 추론을 트리거하며, 지속적으로 컨텍스트를 쌓아가는—의 Token 소비는 지수적으로 증가한다. 이런 사용자야말로 AI가 사용되어야 할 목적—깊은 사고—을 정확히 수행하는 사람들이지만, 전체 비즈니스 모델이 그들을 처벌한다.

실증: 본 논문의 저자는 오직 채팅만으로(배치 작업이 아닌, Agent 자동화가 아닌) Gemini 3 Pro의 1M TPM 한도를 트리거하여 당일 차단을 당했다. 그 대화 패턴의 특징은 매 턴마다 새로운 학문 차원을 열고, 컨텍스트가 지속적으로 팽창하며[17], 추론 Token이 지수적으로 증가하는 것이었다. 제한이 없는 경우, 이러한 대화 패턴은 이론적으로 분당 1B Token 소비에 도달할 수 있다.

· · ·

결론: 새로운 개념 체계가 필요하다

핵심 논지

LLM 생태계의 핵심 개념—Agent, Skill, Tool, Workflow—은 현재 엄밀한 정의가 아니라 마케팅 내러티브 아래의 모호한 은유이다. 이 모호성은 우연한 실수가 아니라, 확률 시스템 위에 세워진 산업이 확정적 개념으로 자신을 묘사하려 할 때 필연적으로 맞닥뜨리는 구조적 곤경이다.

확률 시스템 위에 완전히 확정적인 추상 계층을 구축하는 것은 불가능하다. 확정적 개념—재사용, 정의, 제어, 평가, 가격 책정—으로 확률 시스템을 묘사하고 관리하려는 모든 시도는 모호, 불안정, 비재사용성, 가격 책정 불가능의 문제에 부딪힌다.

8.1 산업이 대답해야 할 세 가지 질문

개념 모호가 초래하는 시장 혼란을 진정으로 해결하려면, LLM 시스템에 고유한 새로운 개념 체계가 필요하다—인간 조직, 전통 소프트웨어, 인지과학에서 빌려온 은유가 아니라, LLM의 실제 작동 메커니즘에서 도출된 것이어야 한다. 이 체계는 최소한 다음에 답해야 한다:

첫째, 원자 단위의 문제. LLM 시스템에서 진정으로 더 이상 나눌 수 없는 원자 단위는 무엇인가? Token인가? 한 번의 추론 호출인가? 하나의 완전한 컨텍스트 윈도우인가?

둘째, 격리 경계의 문제. 서로 다른 컴포넌트 간의 격리 경계는 무엇이 보장하는가? 전통 소프트웨어에는 타입 시스템, 인터페이스 정의, 프로세스 격리가 있다. LLM 시스템에서는 모든 것이 동일한 Token 스트림 안에서 혼합된다—프롬프트, 도구 설명, Skill 지시, 사용자 입력, 모델 출력—진정한 물리적 격리가 없고, 의미론적 규약만 있다.

셋째, 자율성의 문제. 본질적으로 조건부 확률 생성기인 시스템에서 “자율성”이란 도대체 무엇을 의미하는가?

8.2 역사적 유추와 전망

기술이 개념보다 앞서 달리는 것은 기술사에서 반복적으로 나타나는 패턴이다. 전기가 처음 발명되었을 때 “인공 번개”라 불렸고, 자동차가 처음 등장했을 때 “말 없는 마차”라 불렸다. 이 이름들은 모두 낡은 개념을 새로운 사물에 억지로 씌운 것이다. “Agent”는 인간 대리인과 강화학습 에이전트에서 빌려온 것이고, “Skill”은 인간의 기능에서 빌려온 것이다—모두 정확하지 않다.

최종적으로 살아남는 것은 두 종류의 회사일 것이다: 명확한 문제를 진정으로 해결하여 평가하고 가격을 매길 수 있는 회사, 또는 기초 모델 역량을 보유하여 “Agent” 내러티브에 의존하지 않는 인프라 회사이다. 그 사이에서 모호한 개념과 자본 내러티브에 기대어 살아가는 회사들은, 시장이 정리될 때 첫 번째 도태 대상이 될 것이다.

충분히 많은 구매자가 나서서 “이해가 안 됩니다. 제가 멍청해서가 아니라, 여러분이 명확히 설명하지 않았기 때문입니다—명확히 설명하기 전까지 저는 사지 않겠습니다”라고 말할 때, 비로소 블랙박스 시장은 투명 시장으로 전환되도록 강제될 것이다.

참고문헌 및 주석

  1. Anthropic, “Building Effective Agents,” 2024.
    https://www.anthropic.com/research/building-effective-agents
    Anthropic의 Agent와 Workflow 아키텍처 구분 및 “증강된 LLM”을 기본 빌딩 블록으로 정의. 문서에서 “Agent는 여러 방식으로 정의될 수 있다”고 인정.
  2. OpenAI, “A Practical Guide to Building Agents,” 2025.
    https://platform.openai.com/docs/guides/agents
    OpenAI는 Agent를 “사용자를 대신하여 독립적으로 작업을 완수할 수 있는 시스템”으로 정의하며, 가드레일과 도구 접근을 강조. OpenAI Agents SDK에서 Agent는 모델, 지시, 런타임 행동을 패키징하는 핵심 단위로 정의.
  3. Google, “AI Agents” 공식 문서, 2025–2026.
    https://cloud.google.com/discover/what-are-ai-agents
    Google은 AI Agent를 “사용자를 대신하여 AI를 사용해 목표를 추구하고 작업을 완수하는 소프트웨어 시스템”으로 정의하며, 추론, 계획, 기억 능력을 강조. Google 체계에는 독립적 Skill 개념 계층이 없으며 FunctionDeclaration 객체를 사용.
  4. Anthropic, “Agent Skills — Open Standard,” 2025.
    https://docs.anthropic.com/en/docs/agents-and-tools/agent-skills
    Anthropic은 2025년 10월 SKILL.md 개념을 처음 도입하고, 12월에 오픈 표준으로 발표. Skill은 “LLM이 해석하는 일련의 지시”로 정의되며, 도구(확정적 연산)와 명확히 구분. Skill은 지속적이고, 이식 가능하며, 버전 관리되는 산출물.
  5. OpenAI, “Codex Agent Skills” 문서, 2026.
    https://platform.openai.com/docs/guides/codex-skills
    OpenAI가 후에 Anthropic의 오픈 표준을 채택하여, Skill을 “재사용 가능한 워크플로우 작성 형식”으로 기술. Skill에는 지시, 리소스, 선택적 스크립트가 패키징됨. OpenAI는 원래 “Skill” 용어를 공식 사용하지 않았으며, 역사적 패러다임은 “모든 것이 도구”였음.
  6. Microsoft, “Semantic Kernel: Skills → Plugins Rename,” 2023.
    https://learn.microsoft.com/en-us/semantic-kernel/
    Microsoft의 Semantic Kernel은 처음에 재사용 가능한 능력 모듈을 “Skills”라 명명했다가 후에 “Plugins”로 개명—Skill과 Tool 경계에 대한 산업의 인식 불일치를 반영.
  7. Marvin Wendt, “MCP vs Agent Skills: Complete Breakdown,” 2025.
    https://www.marvinwendt.com/blog/mcp-vs-agent-skills
    MCP(도구 계층)와 Agent Skills(지식 계층)의 체계적 비교. 모든 것을 Tool로 취급하는 팀은 결국 컨텍스트 윈도우 팽창, 모델 혼란, 취약한 통합에 직면하며, Skill에만 투자하는 팀은 사고는 훌륭하지만 아무것도 할 수 없는 Agent를 얻게 된다고 지적.
  8. Texas A&M / UT Austin / Purdue University, “AI Brain Rot” 연구, 2025.
    https://arxiv.org/ (관련 프리프린트)
    AI 모델이 저품질 인터넷 데이터로 학습될 때 “뇌 부패” 현상이 나타남을 보여주는 연구. 정크 콘텐츠에 노출된 모델의 추론 점수가 74.9에서 57.2로, 기억 및 장문맥 이해력이 84.4에서 52.3으로 하락.
  9. IncredibleAnalytics, “Is ChatGPT Getting Dumber? Yes — Here’s the Data,” 2025.
    https://incredibleanalytics.com/is-chatgpt-getting-dumber/
    ChatGPT 출력 품질의 측정 가능한 하락을 체계적으로 기록. 세 가지 유형의 변화로 분류: 안전 필터링 강화, 비용 최적화, 행동 튜닝. 개발자의 81%가 여전히 GPT 모델을 사용하지만, Claude 채택률이 43%로 증가—개발자들이 적극적으로 대안을 모색 중.
  10. Mauro Pellegrini et al., “Token Billing Opacity in LLM Platforms,” 2025–2026.
    https://arxiv.org/ (관련 프리프린트)
    과금된 Token의 90% 이상이 사용자에게 표시되지 않은 사례를 기록한 논문. “Token 수량 부풀리기” 개념을 제시—공급업체가 Token 수를 허위 보고하거나 위조 추론 Token을 주입할 수 있음. OpenAI o3 모델의 단일 ARC-AGI 실행이 1.11억 개 Token($66,772)을 소비. “모델 다운그레이드” 관행도 기록—저비용 모델로 조용히 교체하면서 과금은 유지.
  11. James Liu, “Understanding Reasoning Tokens in O-series Models,” 2025.
    https://community.openai.com/
    추론 Token의 불투명성에 대한 개발자 커뮤니티 토론. 한 개발자가 보고: “한 문장만 보냈고, 모델도 십여 자만 답했는데, 왜 거의 900개의 출력 Token이 표시되는가?” 추론 Token은 출력 Token으로 과금되지만 API 응답에 나타나지 않음.
  12. GrisLabs, “AI Agent Cost Analysis: 1127 Runs,” 2026.
    https://grislabs.com/ (내부 보고서)
    1,127회 Agent 실행을 추적, 중앙값 비용 $1.22이지만 95번째 백분위가 $22.14—18배 비율은 “평균 작업 비용은 거짓이며, 롱테일이 예산을 삼킨다”는 것을 의미. 추론 Token이 단일 쿼리 비용을 5~50배 증폭 가능.
  13. 이조글로벌인공지능연구소(본 논문 저자), Google AI Studio 대시보드 스크린샷, 2026년 4월.
    저자 본인의 Gemini API 유료 Tier 1 계정 속도 제한 페이지. Gemini 3 Pro TPM 사용량 1.26M/한도 1M(26% 초과), Gemini 3 Flash TPM 사용량 1.08M/한도 1M(8% 초과) 표시. 사용 시나리오는 오직 채팅. TPM 트리거 후 당일 API 호출 금지. 저자는 동시에 NVIDIA DGX Spark에서 로컬 추론 테스트도 수행했으며, 고밀도 OOD 대화로 시스템 수준 크래시도 발생.
  14. McKinsey & Company, “The State of AI in 2025,” 2025.
    https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai
    약 80%의 기업이 생성형 AI를 사용하지만, 동일한 비율의 기업이 의미 있는 수익 영향이 없다고 보고. “수평적” Copilot은 빠르게 확산되었지만 수익은 분산적이며, 더 변혁적인 “수직적” 사용 사례의 약 90%가 파일럿 단계에 머무르고 있음.
  15. AI Agent 배포에 관한 다수 산업 보고서, 2025–2026.
    교차 검증된 다수의 보고서: AI Agent를 프로덕션에 배포한 조직은 11%에 불과하며, AI 프로젝트의 80% 이상이 배포에 실패—비AI IT 프로젝트 실패율의 두 배.
  16. Martechify, “AI Agent Pricing Guide,” 2026.
    https://martechify.com/ai-agent-pricing/
    분석에 따르면 대부분의 기업 예산이 실제 총소유비용을 40~60% 과소평가. 가시적 비용(공급업체 견적, 재무 승인 부분)은 실제 지출의 50~60%에 불과. 숨겨진 비용에는 통합, 유지보수, 인력 검토, 오류 처리 등이 포함.
  17. OpenClaw Community / GitHub Issues, 2025–2026.
    https://github.com/ (OpenClaw 관련 토론)
    커뮤니티 데이터에 따르면 OpenClaw가 메시지당 약 35,600개의 작업 공간 파일 Token을 주입하며, Token 예산의 93.5%가 변하지 않는 정적 콘텐츠에 소비됨. 한 사용자의 메인 세션이 400K 컨텍스트 윈도우의 56~58%를 점유. 신규 사용자는 며칠 내에 $30~100을 소비하는 것이 흔함.
  18. DeviantArt Forum, “AI Image Generation is Gacha!” 2025.
    https://www.deviantart.com/forum/
    사용자들이 AI 이미지 생성을 “가챠” 메커니즘에 직접 비유. 프롬프트에 제약을 더할수록 AI의 선택 공간이 좁아지고, 결과가 오히려 기대에서 벗어남을 지적. 전략은 “너무 많이 말하지 않기”—AI에게 자유롭게 발휘할 공간을 주는 것으로 변화.
  19. Vendasta / Intercom, “AI Agent Pricing Models,” 2025–2026.
    https://www.vendasta.com/blog/ai-agent-pricing/
    AI Agent 시장은 가격 불투명성으로 심각한 피해를 받고 있음. 대부분의 컨설팅 회사와 공급업체가 “견적은 문의하세요” 전략을 채택하여, 투자 범위를 영업 주기 후반까지 숨김. 성과 기반 가격은 “무엇이 성과인가”에 대한 사전 합의가 필요하나, 실무에서 이는 극히 달성하기 어려움.
  20. Zuora / SaaS 산업 분석, “The Death of Per-Seat Pricing,” 2026.
    https://www.zuora.com/blog/
    단일 AI Agent가 과거 10~50명의 인간 사용자가 필요했던 작업을 수행할 수 있을 때, 사용자당 가격은 압축되는 수준이 아니라 붕괴한다. 공급업체가 새로운 추상 계층을 발명: Token → Credit → “Intelligence Unit”. 고객은 익숙하고 예산 편성 가능한 모델을 원하지만, 기존 프레임워크는 더 이상 적용 불가.
  21. MIT / Gartner / IBM, AI 파일럿 실패율 연구, 2025–2026.
    https://biztechmagazine.com/article/2026/04/google-cloud-next-2026-expanding-ai-agent-adoption-requires-culture-shift
    MIT 보고서에 따르면 생성형 AI 파일럿 프로젝트의 95%가 실패. Gartner는 2025년 말까지 생성형 AI 프로젝트의 최소 50%가 PoC(개념 증명) 이후 포기되었음을 발견(데이터 품질 저하가 원인). IBM 2025 글로벌 CEO 설문조사에서 지난 3년간 AI 프로젝트의 25%만 기대 가치를 달성.
  22. Anonymous et al., “Does Less Hallucination Mean Less Creativity? An Empirical Investigation in LLMs,” arXiv:2512.11509, 2026.
    https://arxiv.org/abs/2512.11509
    CoVe, DoLa, RAG 세 가지 환각 억제 기술에 대한 창의성 영향 평가. 결과는 예상 밖: CoVe는 환각을 줄이면서 확산적 창의성을 강화했고, DoLa는 양쪽을 동시에 억제. 환각과 창의성의 관계가 단순한 등가가 아니라 억제 경로에 따라 서로 다른 트레이드오프 방향을 보임을 증명.
  23. He et al., “Shakespearean Sparks: The Dance of Hallucination and Creativity in LLMs’ Decoding Layers,” arXiv:2503.02851, 2025.
    https://arxiv.org/abs/2503.02851
    실증 분석이 레이어 깊이, 모델 유형, 모델 규모에 걸쳐 일관된 환각-창의성 트레이드오프 관계를 밝혀냄. 서로 다른 모델 아키텍처에서 특정 최적 균형 레이어가 존재. 이 레이어는 대형 모델에서 초기 레이어에 나타나는 경향이 있으며, 해당 레이어에서의 모델 신뢰도도 유의하게 높음.
  24. Liu, “The Alignment Tax: Response Homogenization in Aligned LLMs and Its Implications for Uncertainty Estimation,” arXiv:2603.24124, 2026.
    https://arxiv.org/abs/2603.24124
    “정렬세(Alignment Tax)” 개념을 공식 제시하고 그 영향을 정량화. RLHF 정렬 후 TruthfulQA에서 40%의 질문이 10회 독립 샘플링에서 단일 의미 클러스터만 생성, 영향받은 질문에서 샘플링 불확실성 판별력이 AUROC=0.500으로 하락. Qwen3-14B의 base-vs-instruct 소거 실험이 정렬의 인과적 역할을 확인: 기초 모델의 단일 클러스터 비율이 1.0%였으나, 정렬 후 급등.
  25. Louis Bouchard, “Agents or Workflows?” 2025; LangChain, “How to Think About Agent Frameworks,” 2026.
    https://www.louisbouchard.ai/agents-vs-workflows/ · https://blog.langchain.com/how-to-think-about-agent-frameworks/
    Agent–Workflow 경계에 대한 독립 분석. Bouchard는 “대부분의 사람들이 Agent라고 부르는 것은 실제로 Agent가 아니다”라고 지적—CrewAI의 “Agent”는 실질적으로 사전 정의된 Workflow. LangChain은 OpenAI와 Anthropic 모두 Workflow를 Agent와 다른 패턴으로 취급하면서, 프로덕션급 시스템은 거의 항상 양쪽의 조합임을 인정한다고 지적. Anthropic은 “가장 단순한 실행 가능 방안을 찾고, 필요할 때만 복잡도를 추가하라—이는 에이전트 시스템을 전혀 구축하지 않아도 될 수 있음을 의미한다”고 권고.

본 논문은 독립적 사고 논문이며, 동료 심사를 거치지 않았습니다. LLM 생태계의 핵심 개념에 대한 비판적 사고를 촉발하기 위한 것입니다.

This paper is an independent thought paper, not peer-reviewed. It aims to provoke critical thinking about core concepts in the LLM ecosystem.

이조글로벌인공지능연구소 · LEECHO Global AI Research Lab

&

Claude Opus 4.6 · Anthropic

V2 · 2026년 4월 28일 · April 28, 2026

댓글 남기기