요즘 LLM/에이전트를 제품에 붙이는 스타트업에서 진짜 싸움은 “더 똑똑한 모델”이 아니라 “이 유저 1명을 위해 토큰·지연·툴콜을 얼마 태우는가”입니다. 성능은 비슷해지고, 가격은 급락하고, 사용량은 폭증하는데—여기서 비용 계측이 없으면 CAC가 조용히 폭발합니다.
먼저 dev.to의 Agent Duelist는 이 문제를 정면으로 찌릅니다. OpenAI·Azure·Anthropic·Gemini 등 여러 제공자를 같은 태스크로 붙여서 정확도/지연/토큰/비용(가격 카탈로그 기반)을 재현 가능하게 뽑아주죠. “스프레드시트로 감으로 모델 바꾸기”를 끝내고, 모델 선택을 실험 가능한 의사결정으로 바꿔줍니다. 이거다—프로덕트 팀이 ‘비용을 코드로’ 다룰 수 있게 됩니다.
맥락은 더 거셉니다. AI타임스에 따르면 오픈라우터 토큰 사용량 상위권을 중국 모델들이 점령했고, 미니맥스 M2.5가 입력/출력 단가에서 클로드 오퍼스 대비 16~20배 저렴하다고 언급됩니다. “성능이 약간 낮아도, 단가로 시장을 먹는다”는 가격 충격이 이미 시작된 거죠. 이거 바이럴 될 것 같은데? ‘초저가 모델 + 스위칭 허브(OpenRouter류)’ 조합은 스타트업의 비용 구조를 한 번 더 뒤집습니다.
여기에 성장 스토리도 붙습니다. 구글뉴스로 유통된 TIKR의 분석에서 Yelp Assistant 사용이 2025년에 400% 이상 증가(견적 요청 제출 급증)했고, 동시에 OpenAI와의 데이터 라이선싱이 기타 수익을 끌어올렸다고 설명합니다. 중요한 포인트는 “AI를 붙였더니 사용량이 늘었다”가 아니라, 사용량이 늘수록 비용도 늘 텐데 그걸 수익화(리드/사스/라이선스)로 전환하는 구조를 같이 만든 겁니다. LLM은 기능이 아니라, 매출 라인으로 연결될 때만 의미가 있습니다.
현장 레벨의 힌트도 있습니다. dev.to의 c9watch는 여러 Claude Code 세션을 OS 레벨에서 감시하면서 일별/프로젝트별/모델별 비용을 추적합니다. “워크플로우를 바꾸지 않고도 자동 계측한다”는 게 포인트예요. 유저가 여기서 이탈할 것 같은데… 바로 이런 ‘보이지 않는 비용’이 팀/유저를 지치게 하고, 결국 리텐션과 마진을 깎습니다.
시사점은 명확합니다. 이제 그로스 팀이 봐야 할 KPI는 토큰/툴콜/지연 → COGS → CAC·LTV로 이어지는 체인입니다. 예를 들어 온보딩 단계에서 에이전트가 도구를 5번 호출하면(검색·요약·검증·작성·포맷) 전환율이 조금 오를 수는 있지만, 결제/리드 전환이 동반되지 않으면 LTV보다 COGS가 더 빨리 커져요. 그래서 “모델 벤치마크”는 정확도 랭킹이 아니라 품질-비용 곡선을 그리는 작업이어야 합니다.
바로 실행 가능한 그로스 체크리스트를 제안하면: 1) Agent Duelist류로 핵심 유저 플로우(가입→첫 성공→결제 전 단계) 태스크를 만들어 모델별 비용/지연/성공률을 매주 리그전처럼 돌리고, 2) 제품 이벤트에 AI 비용 이벤트(토큰, 툴콜 수, 에이전트 스텝 수, 실패 재시도)를 함께 로깅해 코호트별 COGS를 붙이고, 3) ‘초저가 모델’은 단순히 스위칭하지 말고 가드레일(스키마 검증·툴사용 정확도·LLM-as-judge)을 같이 둬서 재시도 비용을 막아야 합니다. 빨리 테스트해봐야 돼—모델 교체는 A/B가 아니라 “단위경제 실험”입니다.
전망은 두 갈래입니다. 가격은 계속 내려가고(중국 모델의 단가 압력 + 미국 빅테크의 가격 인하), 그 결과 에이전트 사용량은 더 폭발할 겁니다. 그래서 승자는 “제일 싼 모델”이 아니라 비용 계측과 자동 스위칭, 그리고 수익화 연결을 가장 빨리 제품화한 팀이 될 가능성이 큽니다. 결국 AI 그로스의 본질은 하나예요: 성능을 팔지 말고, 단위당 비용을 통제해서 전환율과 LTV를 키우는 운영 능력을 파세요.