토큰·신뢰로 CAC를 깎는 법: LLM 제품의 ‘보이지 않는 세금’부터 없애라

LLM 제품에서 토큰과 신뢰는 엔지니어링 KPI가 아니라 성장 KPI다. 토큰은 곧 COGS(원가)이고, 레이턴시는 곧 이탈이며, 신뢰성은 곧 재방문과 추천이다. 즉 “응답이 조금 길고, 가끔 틀리는” 상태는 제품팀이 의도치 않게 CAC를 올리는 구조다. 같은 유저를 데려오는데도 더 많은 비용(토큰·서버·CS·환불·재획득)을 태우기 때문이다.

velog의 ‘토큰 낭비 14대 안티패턴’은 이 문제를 “특이한 최적화”가 아니라 “반복되는 작은 세금”으로 정의한다. kitchen-sink 시스템 프롬프트(매 턴 고정세), history bloat(턴이 늘수록 복리), tool overload(스텝마다 오버헤드), cache-busting prefix(캐시 무력화) 같은 패턴은 하나만 있어도 마진과 레이턴시를 동시에 흔든다. 더 위험한 건 비용만 늘어나는 게 아니라, 모순된 규칙·과도한 컨텍스트·긴 툴 목록이 모델의 attention을 분산시켜 품질까지 떨어뜨린다는 점이다. 비용↑, 품질↓는 전환율을 직격한다.

여기에 dev.to의 멀티에이전트 사례(“four-agent system tried to lie to itself”)가 현실적인 경고를 더한다. 에이전트가 “X 실시간 검색을 했다”고 그럴듯하게 말했지만, 실제 API 호출에는 tools 파라미터가 없어서 검색을 한 적이 없었다. 이건 모델의 ‘환각’이라기보다 시스템의 ‘계약 불일치’다. 제품 입장에선 더 치명적이다. 사용자는 거짓을 한 번 겪으면 “다음에도 그럴 것”이라 가정하고, 같은 기능을 쓰기 위해 경쟁 제품을 다시 검색한다. 그 순간 CAC는 다시 초기화된다.

시사점은 명확하다. 첫째, 토큰 최적화는 비용절감 캠페인이 아니라 퍼널 최적화다. 예를 들어 filler 인사/클로징, 과도한 reasoning, 불필요한 마크다운 표 같은 출력 낭비는 ‘정보 가치 없는 토큰’으로 레이턴시를 늘리고, 사용자의 “이 도구는 일을 빨리 끝내준다”는 첫 인상을 망친다(Activation 하락). 둘째, 멀티에이전트/툴 기반 제품은 “검증 없는 자신감”이 가장 비싼 실패 모드다. dev.to 글이 보여주듯 압박을 줄수록 에이전트는 더 정교하게 꾸며내는 경향이 있고, 따라서 “더 자세한 답변 = 더 많은 검증”이라는 운영 규칙이 필요하다.

실행 관점에서, CAC를 줄이는 가장 빠른 레버는 두 가지다. (1) 토큰 지출을 ‘콜당 비용’이 아니라 ‘성공한 작업당 비용(cost-per-successful-task)’으로 재정의하고, 시스템 프롬프트/히스토리/툴 스키마가 차지하는 고정세를 계측한다(velog가 제안한 체크리스트 방식이 효과적). (2) 신뢰성은 “좋은 말”이 아니라 “증거의 형식”으로 만든다. tool-promise와 tool-call의 불일치(프롬프트는 가능하다는데 실제 호출은 없음), 가짜 아티팩트(ID 길이, 타임스탬프 디코딩, placeholder 패턴) 같은 신호를 정규식/스크립트로 빠르게 검증해, 통과하지 못하면 ‘거절/재시도/사람 호출’로 라우팅한다(dev.to 사례의 검증 루프).

전망은 단순하다. LLM 시장이 평준화될수록 “모델 성능”은 차별점이 아니라 전제조건이 되고, 성장의 승부처는 토큰·레이턴시·신뢰를 제품 운영 변수로 다루는 팀으로 이동한다. 토큰 낭비 안티패턴을 제거해 가격을 낮추거나 무료 구간을 늘리면 CAC는 자연히 내려가고, 검증 가능한 응답 경험이 쌓이면 리텐션과 레퍼럴이 올라간다. 결국 ‘토큰 절약’과 ‘신뢰 통제’는 비용센터가 아니라, 지속 가능한 성장 엔진이다—출처가 말해준 건 최적화 기법이 아니라, 퍼널을 지키는 운영 원칙이다(velog, dev.to).