토큰 COGS 통제 로드맵: 측정→라우팅→운영으로 ‘실험 예산’을 되찾는 법

AI 에이전트/LLM 제품에서 가장 잔인한 병목은 정확도가 아니라 COGS(토큰 원가+운영비)다. 원가가 흔들리면 마진이 깨지고, 마진이 깨지면 CAC를 감당할 실험 예산이 사라진다. 더 나쁘게는 비용을 아끼겠다고 응답을 느리게/불안정하게 만들면 D1/D7 리텐션이 먼저 무너진다. 결국 토큰은 재무 지표가 아니라 퍼널 지표다.

문제는 “얼마나 썼는지”가 아니라 “어디서 새는지”다. dev.to의 Claude Code Cost Explorer 사례는 이 간극을 정확히 찌른다. 월간 합계나 세션 총액은 보여줘도, 어떤 ‘턴(turn)’이 Read/Glob 같은 툴 호출을 폭증시키며 $4를 태웠는지까지는 못 본다. 턴 단위 비용이 보이는 순간, 프롬프트 한 줄의 모호함이 node_modules를 재귀 탐색하게 만들어 $3.70을 태우는 식의 ‘조용한 누수’가 패턴으로 드러난다. 관찰성은 절감의 전제조건이지, 대시보드 장식이 아니다. (출처: dev.to, “Where Did My Claude Code Money Go?…”)

두 번째 레버는 라우팅이다. 같은 dev.to의 모델 라우터 글이 말하는 핵심은 단순하다: “큰 모델을 모든 요청에 쓰는 습관”이 비용과 레이턴시를 동시에 올린다. 요약/리프레이즈 같은 70% 트래픽은 소형 모델이 95% 품질을 내는데, 대형 모델을 태우면 GPU/토큰이 모두 낭비된다. 키워드 기반 if/else만으로도 대부분의 요청을 ‘cheap&fast’로 보내고, 고난도만 ‘expensive&smart’로 보내는 티어링이 가능하다. 중요한 건 완벽한 분류기가 아니라, 기본값을 ‘비싼 쪽’에서 ‘싼 쪽’으로 바꾸는 것. (출처: dev.to, “I Built a Model Router…”)

세 번째는 운영(세션/IDE)이다. 에이전트 개발은 실험이 많은데, 실험이 많을수록 컨텍스트가 흩어지고 비용 추적이 사라진다. Agenv는 이 지점을 “세션 지속+실시간 토큰/비용”으로 묶는다. 탭이 날아가도 세션이 유지되고, 에이전트를 나란히 돌리면서 비용을 바로 본다. 이건 편의성 얘기가 아니라 운영비 얘기다. 실패한 실험을 빨리 종료하고, 재현 가능한 세션 단위로 비교할수록 불필요한 반복 호출(=숨은 토큰)이 줄어든다. (출처: dev.to, “Agenv — A Full IDE…”)

이 세 가지를 로드맵으로 묶으면 실행 순서가 나온다. 1) 턴/세션 단위 관찰성으로 ‘어디서 새는지’ 고정밀로 잡고, 2) 라우팅으로 트래픽의 기본 경로를 저원가 모델로 재배치한 뒤, 3) IDE/세션 운영으로 실험의 재현성과 종료 규율을 세워 누수를 구조적으로 막는다. 여기서 그로스 팀이 노려야 할 KPI는 단순 절감률이 아니라 “토큰당 활성화(Activation per 1K tokens)”와 “응답시간 p95 vs D1/D7 리텐션”의 동시 개선이다.

시사점은 명확하다. 토큰 COGS를 통제하면 가격을 내리지 않고도 전환율을 올릴 여지가 생기고(더 빠른 응답/더 많은 체험 제공), 같은 매출에서 CAC 상한이 올라가 채널 실험을 더 공격적으로 돌릴 수 있다. 반대로 관찰성 없이 ‘프롬프트 최적화만’ 하면, 팀은 우연히 절감하고 우연히 낭비한다. 비용 최적화의 본질은 문장 기술이 아니라 시스템 설계다.

전망: 단기적으로는 “키워드 라우팅+턴 단위 비용 탐색”이 가장 ROI가 높다(하루~1주 내 배포 가능). 중기적으로는 라우팅에 컨텍스트(최근 작업, 프로젝트, 실패율)를 붙여 자동 재시도/폴백을 만들고, 장기적으로는 비용을 단순 모니터링이 아니라 ‘예산 기반 스케줄링’(세션/유저/워크스페이스별 한도, 초과 시 저가 모델로 강등)로 운영해야 한다. 토큰은 계속 싸지더라도, 트래픽은 더 빠르게 늘어난다. 결국 이기는 팀은 모델을 잘 쓰는 팀이 아니라, 토큰을 제품 운영의 제약조건으로 설계한 팀이다.