AI COGS 거버넌스: ‘조용한 TTL 회귀’가 ARPU 실험을 죽이는 방식

AI 제품의 유닛이코노믹스에서 가장 위험한 비용은 ‘비싼 비용’이 아니라 ‘예고 없이 변하는 비용’이다. dev.to의 Claude Code 캐시 TTL 회귀 사례는 이를 극단적으로 보여준다. 공급자가 캐시 TTL을 1시간에서 5분으로 조용히 되돌리면, 같은 사용량에서도 캐시 적중 구조가 무너져 토큰 과금이 15~53% 튄다(커뮤니티 측정). 이건 단순 비용 증가가 아니라, 가격·패키징 실험 여력과 마진 안전판을 한 번에 갉아먹는 성장 리스크다.

첫 번째 기사(verify whether your Claude Code uses 5m or 1h cache TTL)는 “로그가 증거”라는 점이 핵심이다. Claude Code는 로컬 JSONL에 API 응답의 usage.cache_creation을 남기고, 여기에 5m/1h 버킷이 직접 기록된다. 즉, ‘UI 표기’나 ‘체감’이 아니라 서버가 어떤 TTL로 과금 최적화를 적용했는지를 회계감사처럼 재현할 수 있다. 더 날카로운 포인트는 회귀가 한 번이 아니라 3/6에 이어 4/9에 “2차 파동”처럼 재발했고, 특히 sub-agent만 100% 5m으로 강등되었다는 관측이다. 제품 팀 입장에선 서브에이전트가 자동으로 호출되는 순간, COGS가 예측 불가능해진다.

이 사건을 성장 맥락으로 번역하면 이렇게 된다. (1) ARPU를 올리기 위해 상위 플랜에 “멀티 에이전트/자동화”를 묶는 전략은 COGS 예측 가능성이 전제다. 그런데 sub-agent 계층만 TTL 정책이 바뀌면, ‘프리미엄 기능을 쓸수록 마진이 악화’되는 역진성이 생긴다. (2) LTV는 가격이 아니라 마진으로 결정된다. 비용이 흔들리면 할인·번들·연간 선결제 같은 LTV 부스팅 실험을 보수적으로 할 수밖에 없고, 결국 성장 속도가 느려진다. (3) 최악은 고객 신뢰다. “이번 달에 왜 요금이 늘었나요?”에 답이 없으면, 이탈(Churn)은 제품 퀄리티가 아니라 청구 불확실성에서 시작된다.

두 번째 기사(How I Track Claude Code Token Costs)는 해법의 방향을 제시한다. 여러 AI 코딩 툴이 각자 로컬 로그를 남기지만, 사용자는 ‘통합 뷰’가 없어 카드명세서로 뒤늦게 맞는다는 문제의식이다. 이걸 cc-statistics처럼 로컬 세션 데이터를 모아 대시보드/알림으로 만든다. 여기서 우리가 배워야 할 건 도구 자체가 아니라 운영 원칙: COGS 관측(telemetry) 없이는 최적화도, 거버넌스도 불가능하다는 사실이다.

실행 관점의 시사점은 3가지다. 첫째, 공급자 정책을 ‘외부 변수’가 아니라 ‘실험 변수’로 트래킹해야 한다. TTL, 캐시 정책, 모델 라우팅, 레이트리밋/쿼터 강등은 모두 COGS를 흔든다. 둘째, 기능별 COGS 손익계산서가 필요하다. 특히 에이전트/서브에이전트/툴콜은 호출 구조가 복잡해 “어떤 기능이 비용을 만든다”를 분리하지 않으면 가격 설계가 감으로 변한다. 셋째, 가드레일: (a) 일/주 단위 예산 상한, (b) 캐시 버킷 변화 감지 시 경보, (c) 특정 기능(예: 서브에이전트) 사용량이 임계치를 넘으면 자동 degrade(컨텍스트 축소, 모델 다운시프트, 배치화) 같은 런타임 정책을 제품 레벨에서 준비해야 한다.

전망은 명확하다. 추론 최적화는 계속 좋아지겠지만, 더 중요한 전장은 “비용의 안정성”이다. Nvidia AITune처럼 백엔드 최적화 툴이 늘어도(또는 캐시/라우팅이 고도화돼도) 공급자·환경·버전 결합으로 정책이 흔들리면, 팀은 비용을 ‘통제’가 아니라 ‘추적’하는 데서부터 다시 시작해야 한다. 결국 경쟁력은 모델 성능만이 아니라 COGS 거버넌스 스택(관측→예측→제어)을 가진 팀이 가져간다. 마진이 안정되어야 ARPU 실험을 공격적으로 돌릴 수 있고, 그 실험 속도가 곧 LTV를 만든다.

AI COGS 거버넌스: ‘조용한 TTL 회귀’가 ARPU 실험을 죽이는 방식

출처