토큰 COGS로 CAC 깎기: 광고비 올리기 전에 ‘원가 레버’부터 당겨라

토큰 COGS로 CAC 깎기: 광고비 올리기 전에 ‘원가 레버’부터 당겨라

프롬프트 캐싱과 하이브리드 라우팅을 묶으면, 마진을 먼저 확보해 실험 예산을 ‘자체 조달’할 수 있다.

토큰 COGS CAC 프롬프트 캐싱 하이브리드 라우팅 LLM 에이전트 마진 AARRR observability
광고

LLM/에이전트 제품에서 토큰 비용은 단순 운영비가 아니라 COGS입니다. COGS가 흔들리면 가격(ARPU), 전환(Activation→Paid), 리텐션(D7/D30)까지 같이 흔들립니다. 그래서 CAC를 더 태우기 전에 해야 할 일은 “유입을 늘리는 것”이 아니라 “한 유저를 서빙하는 단가를 안정화”하는 겁니다. 토큰 COGS를 낮추면 같은 매출에서도 마진이 생기고, 그 마진이 다시 실험 예산이 되어 CAC를 공격적으로 최적화할 수 있습니다.

dev.to의 Cursor Composer 2 사례는 이걸 아주 노골적으로 보여줍니다. 핵심은 모델 성능 자랑이 아니라 ‘캐시 이코노미’입니다. 다회전(멀티턴) 에이전트 세션에서 매 턴마다 반복되는 컨텍스트(레포 구조, 최근 파일, 대화 히스토리)가 입력 토큰의 대부분을 차지하는데, 이를 캐시 read로 전환해 단가를 낮춥니다. 기사에서 언급된 것처럼 몇 턴만 지나도 입력의 80%+가 캐시로 바뀌고, 결과적으로 긴 리팩토링 세션이 “비쌀수록 더 비싸지는” 구조에서 “길수록 더 싸지는” 구조로 역전됩니다(출처: dev_to, Cursor Composer 2 분석 글).

성장 관점에서 중요한 해석은 하나입니다. 에이전트는 ‘대화 UX’가 아니라 ‘반복 호출되는 런타임’이기 때문에, 캐시 적중률이 곧 마진률이 됩니다. 그리고 마진률은 곧 CAC 상한선을 재설정합니다. 예를 들어 유료 전환율이 그대로여도, 세션당 COGS가 내려가면 LTV가 올라가고 LTV:CAC 허용 범위가 넓어집니다. 즉, 같은 퍼널에서도 더 많은 채널을 테스트할 수 있고(실험 예산 증가), 더 높은 CPC 구간도 버틸 수 있습니다(입찰 경쟁력 상승).

두 번째 레버는 하이브리드 라우팅입니다. dev.to의 하이브리드 라우팅 글이 지적하듯, 실제 트래픽은 ‘난이도 분포가 균일’하지 않고 FAQ와 엣지케이스로 양극화되는 경우가 많습니다. 모든 요청을 클라우드 프론티어 모델로 보내는 순간, 당신의 CAC는 마케팅이 아니라 아키텍처에 의해 결정됩니다. 로컬(또는 저가) 모델을 1차로 두고, 복잡도/리스크가 높은 요청만 클라우드로 승격(escalation)하면 비용은 요청 난이도에 따라 변동하게 되고, 그 변동성이 곧 “성장 가능한 원가 구조”가 됩니다(출처: dev_to, Hybrid LLM Routing 글).

여기서 한 단계 더 들어가면, 캐싱과 라우팅은 서로를 증폭합니다. 라우팅으로 ‘긴 컨텍스트가 필요한 요청’을 특정 티어로 모으면 캐시의 효율이 올라가고, 캐싱으로 멀티턴 단가가 내려가면 ‘에이전트가 더 오래 문제를 붙잡는’ 운영도 가능해져 해결률이 올라갑니다. 해결률이 오르면 재질문/재시도 토큰이 줄어들고, 이는 다시 COGS를 낮춥니다. 비용 최적화가 품질을 갉아먹는 게 아니라, 제대로 설계하면 오히려 품질·전환·리텐션을 같이 끌어올리는 구조가 됩니다.

실무 시사점은 3가지로 정리됩니다. 첫째, 토큰 비용을 월 총액으로 보지 말고 “유저/세션/작업 단위 COGS”로 쪼개 트래킹해야 합니다(프로덕션에서는 비용이 선형이 아니며 추정치가 깨진다는 경고도 dev.to 운영 글에서 반복됩니다). 둘째, 캐싱은 ‘켜는 기능’이 아니라 ‘적중률을 운영하는 제품 기능’입니다. 캐시 read 비중이 비정상적으로 낮아지면(버그, TTL, 프롬프트 변화) 마진이 즉시 녹고, 곧바로 CAC 실험이 멈춥니다. 셋째, 라우터의 목표는 단순 분류가 아니라 “라우팅 오류의 기대 비용 최소화”입니다. 애매하면 클라우드로 보내는 보수성이 오히려 합리적이며, 대신 로컬 실패 시 즉시 승격·서킷브레이커·포맷 파싱 폴백 같은 ‘운영 장치’가 동반돼야 합니다.

전망은 명확합니다. LLM 제품 경쟁은 모델 스펙보다 ‘단가를 통제하는 런타임 설계’로 이동하고 있습니다. Cursor가 보여준 것처럼, 같은 지능을 두고도 큐 우선순위/지연 허용(standard vs fast)로 가격을 쪼개면 사용자 세그먼트가 열리고, 그 자체가 패키징/프라이싱 실험이 됩니다. 다음 단계는 캐시·라우팅·평가(evals)·관찰성(escallation rate, cache hit rate)을 하나의 성장 루프로 묶는 팀이 CAC를 구조적으로 낮추는 겁니다. 광고비는 언제든 경쟁이 붙지만, 토큰 COGS를 설계로 낮춘 팀의 마진은 쉽게 복제되지 않습니다.

출처

더 많은 AI 트렌드를 Seedora 앱에서 확인하세요