토큰 COGS 낮추는 AI 스택: ‘큰 모델 만능’에서 티어링·로컬로

AI/LLM이 제품에 붙는 순간부터, 모델 선택은 기능 논쟁이 아니라 유닛이코노믹스 싸움입니다. 같은 UX라도 “어떤 모델을 언제 호출하느냐”에 따라 토큰 COGS가 갈리고, 그 차이는 곧 가격·마진·무료 티어·트래픽 확장 여력으로 이어져 CVR과 LTV/CAC를 직접 흔듭니다.

dev.to의 Ryan Brubeck 글(“Bigger Model ≠ Better Results”)이 던진 메시지는 단순합니다. GPT-5급 ‘대형 모델’을 모든 요청에 쓰는 건 망치로 액자를 거는 꼴이고, 보통 업무의 대부분은 더 저렴한 티어에서 동일하거나 더 좋은 결과가 난다는 것. 그는 모델을 Tier 1(최고성능·고비용)~Tier 3(무료/초저가)로 나누고, 작업별로 올바른 티어를 고르기만 해도 비용이 10~100배까지 줄어드는 실측을 제시합니다(일 100만 토큰 기준 월 $450→$45→$3 수준).

여기서 그로스 관점의 핵심은 “절약”이 아니라 “실험 상한선”입니다. 토큰 COGS가 10배 내려가면 같은 예산으로 A/B 테스트, 온보딩 카피 실험, 추천/검색 랭킹 실험을 10배 더 돌릴 수 있습니다. 퍼널 최적화는 결국 반복 횟수 게임이고, 비용 구조를 낮추는 팀이 학습 속도에서 경쟁사를 압도합니다.

또 하나의 역설은 ‘모델 파워’보다 ‘컨텍스트 품질’이 결과를 좌우한다는 점입니다. Brubeck은 거대한 컨텍스트 윈도우에 HTML/파일 덤프를 마구 쌓아두면 비싼 모델도 환각·오답이 늘고, 오히려 컨텍스트를 요약·정리해 주는 매니저(예: ContextClaw류)와 결합한 무료급 모델이 더 나은 결과를 내는 상황을 반복적으로 봤다고 말합니다. 즉, “큰 모델로 업그레이드”는 마지막 수단이고, 먼저 프롬프트·RAG·요약·세션 정리로 입력 토큰을 줄여야 토큰 COGS와 품질을 동시에 잡습니다.

두 번째 소스(“The Small Mind That Could”)는 로컬 소형모델 전략이 단지 비용절감이 아니라 ‘배포 아키텍처’의 레버임을 보여줍니다. AI21 Labs의 Jamba Reasoning 3B 같은 3B급 모델이 소비자 기기에서 돌아가고(긴 컨텍스트 처리까지), 중앙 클러스터가 처리하던 루틴 질의를 태블릿으로 내려 응답 지연·네트워크 의존을 줄입니다. 이 글의 포인트는 명확합니다: 큰 모델을 없애는 게 아니라, “큰 모델이 해야 할 일만 남기고 나머지는 분산”시키는 것.

그로스 설계로 번역하면 이렇게 됩니다. (1) 온보딩/FAQ/분류/포맷팅/간단 추천은 Tier 3 또는 로컬 SLM로 처리해 단위비용을 ‘제로에 가깝게’ 만들고, (2) 결제 직전의 설득 카피, 복잡한 상담, 고가 고객의 케어처럼 CVR에 직접 영향이 큰 구간만 Tier 1~2로 승격시키며, (3) 모델이 자신 없을 때만 상위 티어로 에스컬레이션하는 “confidence threshold 라우팅”을 기본값으로 둡니다. 이 구조가 잡히면 CAC는 두 번 내려갑니다: 서버비가 줄어 가격을 낮추거나 무료 범위를 넓힐 수 있고(전환↑), 동시에 절감된 예산을 채널 테스트에 재투입할 수 있기 때문입니다.

마지막 퍼즐은 ‘가시성’입니다. 여러 공급자/툴을 섞어 쓰는 순간, 비용은 분산되고 통제는 무너집니다. dev.to의 TokenBar 사례는 토큰 사용량을 메뉴바에서 실시간으로 보여주는 “ambient metric”이 행동을 바꾼다고 말합니다. 대시보드가 아니라 상시 노출이 중요한 이유는 간단합니다. 비용 최적화는 정책이 아니라 습관이고, 습관은 눈앞의 피드백 루프가 만들기 때문입니다.

시사점은 하나로 정리됩니다. 이제 AI 스택은 ‘모델 하나 잘 고르는’ 문제가 아니라 티어링(라우팅) + 컨텍스트 압축 + 로컬 SLM + 사용량 관측의 조합 문제입니다. 이 조합이 완성되면 토큰 COGS가 내려가고, 실험 속도가 올라가며, 결과적으로 CVR과 리텐션 개선 루프가 더 빨리 돕니다.

전망: 2026년의 승자는 “최신 대형 모델을 가장 먼저 붙인 팀”이 아니라, 작업을 쪼개고(디컴포지션), 싼 모델로 최대를 처리한 뒤, 비싼 모델은 결정적 순간에만 쓰는 팀입니다. 모델이 커질수록 단가도 올라가지만, 동시에 소형모델의 성능/컨텍스트가 빠르게 개선되고 있습니다(Jamba 3B, 모바일급 고성능 모델 트렌드). 결국 토큰 COGS를 낮추는 팀은 마진만 지키는 게 아니라, 더 많은 실험으로 시장을 더 빨리 학습해 CAC/LTV 게임에서 구조적 우위를 가져갈 겁니다.

토큰 COGS 낮추는 AI 스택: ‘큰 모델 만능’에서 티어링·로컬로

출처