에이전트 COGS 낮추기: ‘모델 단가’보다 큰 레버는 토큰·지연·라우팅이다

에이전트/LLM 제품에서 “모델이 비싸다”는 문제의 절반만 봅니다. 성장의 진짜 상한선은 COGS(토큰 사용량+지연시간)와 신뢰(오류·환각)입니다. 둘이 무너지면 온보딩에서 멈추고(D1), 재사용이 끊기고(D7), 결국 가격을 올릴 명분(LTV)이 사라집니다. 그래서 저는 ‘모델 단가 절감’이 아니라 ‘요청 1건당 토큰·지연·실패율을 줄이는 설계’가 곧 그로스 레버라고 봅니다.

맥락은 좋아졌습니다. 요즘IT가 전한 OpenAI의 GPT-5.4 mini·nano는 “빠르고 저렴한데 꽤 잘함”을 전면에 둔 릴리즈입니다. mini는 SWE-Bench Pro에서 플래그십에 근접하고(54.4% vs 57.7%), OSWorld-Verified도 인간 기준을 넘겼다는 포인트(72.1%)가 핵심입니다. nano는 분류·추출·랭킹 같은 ‘상품형 추론’을 더 싸고 빠르게 밀어붙이기 위한 포지션이죠. 이 조합이 의미하는 바는 단순합니다. 이제 단일 모델 만능주의보다, 역할을 쪼개 병렬로 돌리는 멀티모델 에이전트가 “실제로” 단위경제를 만들기 시작했다는 것.

하지만 소형 모델만으로 COGS가 자동으로 내려가진 않습니다. dev.to의 ‘37x inference tax’ 글이 찌르는 지점은 명확해요. 프론티어 모델은 토큰당 마크업이 크고(브랜드/안전/SLA/최신성의 프리미엄), 오픈웨이트는 commodity 작업에서 거의 같은 품질을 훨씬 싸게 냅니다. 결론은 이분법이 아니라 라우팅입니다. “유저가 직접 보는 출력/매출에 직결되는 구간은 프론티어, 그 외는 오픈웨이트(또는 nano/mini)”로 70~80% 트래픽을 값싼 경로로 보내면, 품질 손실을 2~3% 내에서 억제하며 비용을 5~8배까지 줄일 수 있다는 프레임이죠(출처: dev.to).

여기서 한 번 더 치고 들어가는 사례가 ‘스킬 리졸버’입니다(dev.to). 코딩 에이전트가 새로운 스킬을 찾을 때마다 SKILL.md를 5~10개 읽고 비교하느라 세션당 5만 토큰을 태운다는 고백은, 많은 팀이 “RAG만 잘하면 되겠지”라고 생각하는 순간 놓치는 누수입니다. 리졸버는 LLM 추론 없이 TF‑IDF 기반 매칭으로 스킬 탐색 토큰을 ~200 수준으로 낮췄고(약 250x 효율), 중요한 건 이게 ‘모델 교체’가 아니라 ‘워크플로 재설계’로 만든 절감이라는 점입니다. 즉, COGS는 모델이 아니라 제품의 반복 행동(검색→비교→재시도)에서 새고 있습니다.

시사점은 실행으로 정리됩니다. ① 최근 1,000개 요청을 “유저가 보는가/정확도 90%로도 되는가/지연이 UX를 좌우하는가”로 라벨링해 워크로드 지도를 만드세요. ② 라우터를 두고, 분류·추출·하트비트·임베딩·리랭킹은 nano/오픈웨이트로, 최종 답변·고위험 액션·멀티모달 판단만 프론티어(또는 mini)로 보내세요. ③ ‘스킬/툴 탐색’처럼 에이전트가 매번 새로 읽는 컨텍스트는 리졸버/캐시로 토큰을 고정비→변동비로 바꾸세요. ④ 마지막으로 COGS 절감은 반드시 퍼널 실험으로 환산해야 합니다. 예: “응답 1.2초 단축 → 온보딩 완료율 +X%”, “요청당 원가 40% 절감 → 무료 플랜 한도 상향 → 활성 사용자 +Y%”처럼요.

전망은 분명합니다. GPT-5.4 mini/nano 같은 ‘쓸만한 소형 모델’이 늘수록, 승부는 모델 스펙이 아니라 라우팅/캐싱/리졸버/평가 파이프라인을 누가 더 빠르게 제품에 녹이느냐로 이동합니다. 그리고 그 결과는 기술 지표가 아니라 그로스 지표로 나타납니다. 더 낮은 COGS는 더 공격적인 가격 실험(낮은 진입장벽, 더 넓은 무료 구간), 더 빠른 응답은 더 높은 전환과 리텐션, 더 안정적인 신뢰는 더 높은 ARPU를 가능하게 합니다. 이제 “어떤 모델 쓰세요?”보다 중요한 질문은 하나입니다. “당신의 에이전트는 어떤 요청을 왜 비싸게 처리하고 있나요?”