토큰 COGS를 통제하라: ‘모델 선택’이 아니라 ‘LLM을 쓰지 않을 설계’가 먼저다

토큰 COGS를 통제하라: ‘모델 선택’이 아니라 ‘LLM을 쓰지 않을 설계’가 먼저다

에이전트 제품의 유닛이코노믹스는 프롬프트 최적화가 아니라 아키텍처·컨텍스트·거버넌스로 결정된다.

토큰 COGS AI 에이전트 LLM 비용 최적화 유닛이코노믹스 컨텍스트 캐시 멀티모델 라우팅 아키텍처 감사 그로스 실험
광고

AI 에이전트/LLM 제품에서 가장 위험한 착각은 “좋은 모델로 갈아타면 된다”입니다. 비용은 토큰 단가보다 ‘어떤 작업을 LLM 호출로 만들었는지’에서 폭발합니다. dev.to의 효율 프레임은 이 문제를 아키텍처 레이어로 끌어올리고, OpenClaw 사례는 주말 사이 37€/day가 찍히는 현실을 보여줍니다. 토큰 COGS는 운영 KPI이고, 통제 실패는 곧 실험 속도(=CAC 최적화 루프)의 붕괴로 이어집니다.

핵심 이슈는 “무의미한 LLM 호출이 상시 과금 파이프라인이 된다”는 점입니다. 멀티 에이전트 시스템은 편의상 모든 상태 체크·검증·포맷팅까지 LLM에 태우기 쉽고, 그 순간부터 모든 크론/하트비트가 토큰을 태우는 고정비(COGS)로 변합니다. Gartner가 2027년까지 에이전틱 프로젝트의 40% 이상이 비용/가치 불명확으로 취소될 수 있다고 본 맥락(첫 기사 인용)도, 결국 이 “상시 과금 구조”를 못 끊는 팀이 많다는 신호입니다.

첫 번째 맥락: 비용 최적화의 정답은 ‘토큰 다이어트’가 아니라 ‘LLM 호출의 적합성 감사(audit)’입니다. dev.to 글은 Four Axes( Script-It / Ground-It / Skill-It / Slim-It )로 “LLM을 쓸 이유가 없는 세션”을 찾아내는 렌즈를 제시합니다. 예컨대 파일 존재 여부 확인, 구조화 데이터 비교, 정해진 규칙의 로그 분류 같은 결정론적 작업은 스크립트가 더 빠르고(지연↓), 더 정확하며(환각 0), 비용은 0에 가깝습니다. 여기서 중요한 건 절감이 아니라 “AI를 가치가 생기는 지점에만 쓰는 정밀 배치”입니다.

두 번째 맥락: 비용 폭증은 대개 ‘컨텍스트 적재’에서 시작합니다. OpenClaw 운영자는 5개 에이전트가 상시 돌고, 각 세션 초기화 때마다 툴/메모리/성격/활성 작업/Obsidian 세컨드브레인까지 통째로 로드하면서 메시지당 평균 9.2만 input tokens가 발생했다고 진단합니다(dev.to 프랑스어 글). 평소 하루 한 번이면 티가 안 나지만, 크론이 시간당 수십 번 돌면 비용은 선형이 아니라 시스템적으로 폭주합니다. 해결책도 프롬프트가 아니라 구조였습니다: 컨텍스트 캐시 도입으로 “매번 전체를 재적재”→“delta만 과금”으로 바꾸고, 작업별로 모델을 라우팅해 월 28$ 수준으로 낮췄습니다(동일 출처).

시사점은 명확합니다. 토큰 COGS를 통제하면 (1) ARPU 대비 마진을 지키고, (2) CAC 실험을 더 많은 채널/세그먼트로 스케일하며, (3) 실패해도 ‘학습 비용’이 감당 가능한 범위에 머뭅니다. 반대로 통제 실패는 가격 인상 압박→전환율 하락→리텐션 악화로 이어져 LTV 자체를 깎습니다. 특히 크론/백그라운드 자동화가 많은 제품일수록 “조용히 새는 비용”이 가장 치명적입니다.

실행 관점에서 바로 적용할 체크리스트는 3가지입니다. 첫째, LLM 호출 감사: “이 출력은 판단이 필요한가, 아니면 동일 입력→동일 출력의 결정론인가?” 결정론이면 Script-It로 스크립트화합니다(첫 기사). 둘째, 상태의 구조화: 에이전트 간 상태 전달을 자연어로 하지 말고 JSON/DB 필드로 내려 Ground-It 합니다. 비용보다도 재처리/중복 처리/스테이지 꼬임 같은 ‘운영 리텐션(신뢰)’ 이슈가 줄어듭니다(첫 기사). 셋째, 컨텍스트 예산화: 세션 초기화에서 항상 로드되는 메모리/문서/가이드의 토큰을 계측하고, 캐시·요약·스킬 파일로 Skill-It/Slim-It 하세요. OpenClaw의 9.2만 토큰/메시지는 “컨텍스트를 한 덩어리로 취급한 설계”가 만든 결과였습니다(두 번째 기사).

전망: 에이전트 제품의 경쟁은 ‘더 똑똑한 모델’보다 ‘더 싼 단위비용으로 더 많은 실험을 굴리는 운영 능력’으로 이동 중입니다. 앞으로는 (a) 컨텍스트 캐시/델타 과금 활용, (b) 작업별 멀티모델 라우팅, (c) 크론/툴 호출에 예산·정책을 거는 거버넌스가 표준이 됩니다. 즉, 토큰 COGS 통제는 비용 절감이 아니라 “성장 엔진을 꺼지지 않게 하는 연료 관리”입니다. LTV를 지키면서 CAC를 공격적으로 낮추고 싶다면, 지금 당장 제품의 모든 LLM 호출을 회계장부처럼 뜯어봐야 합니다—‘어디서 가치가 생기고, 어디서 그냥 세금이 나가는지’를요.

출처

더 많은 AI 트렌드를 Seedora 앱에서 확인하세요