LLM 제품에서 토큰/레이턴시/비용은 그냥 엔지니어링 지표가 아닙니다. 그 자체가 COGS이고, COGS는 곧 가격·전환·리텐션을 흔드는 성장 레버입니다. 문제는 많은 팀이 “모델이 비싸다”는 결론만 반복한 채, 어떤 결정을 바꾸면 비용이 내려가고 그게 매출로 이어지는지를 제품 레벨에서 설계하지 못한다는 점입니다.
dev.to의 추론 최적화 글(“LLM Inference Optimization…”)이 던지는 핵심은 간단합니다. Hugging Face의 단순 서빙은 실트래픽에서 GPU를 놀리기 쉽고(순차 처리로 대기열 발생), 결국 우리는 유휴 실리콘에 돈을 내고 있다는 것. 해법은 “모델을 바꾸는” 게 아니라 서빙 방식을 바꾸는 것(vLLM/SGLang, continuous batching, PagedAttention)입니다. 여기서 절감된 비용은 마진이 되거나, 더 공격적인 프라이싱/무료구간/체험을 가능하게 만들어 상단 퍼널을 엽니다.
맥락을 더 쪼개보면, 추론은 ‘prefill(입력 처리)’과 ‘decode(토큰 생성)’로 갈리고 병목이 다릅니다. 긴 컨텍스트·동시 요청이 섞이면 많은 팀은 FLOPs보다 KV 캐시로 VRAM이 먼저 포화됩니다(기사의 Llama-3-70B 예시처럼 요청당 캐시가 GB 단위로 커짐). 이 말은 성장 관점에서 “동시성↑/컨텍스트↑”가 곧 “단가↑/지연↑”로 직결된다는 뜻이고, 제품 기능(긴 문맥, 에이전트 체인)이 늘수록 더 빨리 원가가 터집니다.
그래서 1순위 ROI는 양자화입니다. 기사에 따르면 BF16의 70B급 모델은 H100 다장 구성 같은 비싼 선택을 강요하지만, 4-bit AWQ로 VRAM 풋프린트를 줄이면 훨씬 저렴한 GPU 조합으로도 같은 모델을 운영할 수 있습니다. 이건 단순 비용 절감이 아니라, “요금제의 최소 단위”가 내려가는 효과입니다. 예: (1) 무료 체험의 일일 토큰을 늘려 활성화(Activation) 개선, (2) B2B PoC에서 과금 저항을 낮춰 전환율 개선, (3) 같은 예산으로 더 많은 동시 사용자 처리로 리텐션 방어.
다음은 GPU를 ‘제대로’ 쓰는 서빙 엔진 선택입니다. vLLM의 continuous batching은 실트래픽에서 utilization을 끌어올려 토큰당 비용을 구조적으로 낮추는 장치이고, PagedAttention은 KV 캐시를 더 효율적으로 다뤄 동시성을 확보합니다. 반면 에이전트/구조화 출력처럼 공통 프롬프트가 길게 반복되는 워크로드는 SGLang의 RadixAttention처럼 프롬프트 prefix 재사용이 곧바로 원가 절감으로 연결됩니다. 즉 “우리 제품의 주된 요청 패턴이 무엇인가”를 먼저 정의해야 최적화가 매출로 번역됩니다.
하지만 최적화만으로는 ‘매출’이 되지 않습니다. dev.to의 또 다른 글(“Inference Observability…”)이 찌르는 포인트는, 비용은 인프라가 아니라 의사결정 레이어(라우팅/프롬프트 길이/재시도/캐시)에서 발생하는데 대부분은 그 레이어를 모니터링하지 않는다는 겁니다. 달러 알림은 늦습니다. 토큰은 이미 써버렸습니다. 그래서 선행지표는 Token Consumption Rate(엔드포인트별 토큰 속도), Prompt Length Drift(p95), Routing Distribution(모델 티어 비중), Cache Hit Rate, Retry Rate입니다. 여기까지 계측이 되면 “스파이크 탐지 → 라우팅 다운그레이드/스로틀/킬스위치” 같은 개입이 가능해지고, 갑작스런 원가 폭증이 가격 인상(=이탈)으로 이어지는 악순환을 끊습니다.
시사점은 명확합니다. 토큰비용을 매출로 바꾸려면 ‘절감’과 ‘관측’을 한 실험 루프로 묶어야 합니다. 추천하는 최소 실험 설계는 2개입니다. (A) 서빙 전환 실험: 동일 모델을 naive 서빙 vs vLLM/SGLang로 나눠, QPS/TTFT/토큰당 비용/세션 유지율을 함께 봅니다. (B) 비용-원인 알림 실험: 달러 알림 대신 엔드포인트별 token rate anomaly를 먼저 울리게 하고, 알림 발생 시 자동 라우팅 정책(저가 모델, 짧은 컨텍스트, 캐시 강제)을 적용했을 때 비용 피크 절감률과 품질 지표(해결률/CS)가 어떻게 변하는지 측정합니다.
전망: LLM 제품 경쟁은 “더 똑똑한 모델”에서 “더 싼 토큰”으로만도 끝나지 않습니다. 결국 승부는 (1) 토큰 단가를 낮추는 추론 스택, (2) 토큰이 새는 지점을 앞서 감지하는 관측, (3) 그 둘을 가격·패키징·온보딩 실험으로 연결하는 성장 운영의 결합에서 납니다. 비용을 줄인 팀이 이기는 게 아니라, 비용을 ‘통제 가능한 제품 변수’로 만들어 매출 실험 속도를 올린 팀이 이깁니다.