LLM/에이전트 제품에서 가격과 마진을 결정하는 건 ‘가장 똑똑한 모델’이 아니라 COGS입니다. 토큰(입·출력), GPU/호스팅, 그리고 운영(재시도·휴먼리뷰·장애) 비용이 합쳐져 유닛 이코노믹스를 만들고, 결국 CAC(획득) 한계와 LTV(회수) 상한을 정합니다. 기능은 비슷해져도 “왜 어떤 모델은 같은 질문에 더 비싸게 청구되나?” 같은 미세한 차이가 곧바로 수익성 차이로 번집니다. (삼성SDS 인사이트리포트의 토큰화/소비 구조 분석이 이 지점을 잘 짚습니다.)
맥락을 한 문장으로 요약하면: COGS를 깎는 팀은 ‘프롬프트’가 아니라 ‘아키텍처’를 최적화합니다. 첫째, 토큰은 단순히 글자 수가 아니라 토크나이저/언어/형식(BPE 등)에 따라 분해 방식이 달라져 동일한 의미라도 과금 토큰이 달라집니다(삼성SDS). 둘째, “한 모델로 모든 일을 시키는” 접근은 쉬운 작업에 비싼 두뇌를 붙이거나, 어려운 작업에 싼 모델을 붙여 재시도·불만·이탈을 만드는 전형적 비용 누수입니다(dev.to의 task routing 가이드가 실무 감각으로 설명). 셋째, 공급사/모델 교체 비용(코드 수정, SDK 이원화, 에러·리트라이 정책 분기)이 커지면 비용 절감 실험 자체가 느려지고, 그 느려짐이 전환율 개선 속도를 갉아먹습니다(dev.to의 OpenAI 호환 게이트웨이 사례).
그래서 실무에서 바로 적용 가능한 LLM COGS 절감 3단계는 다음 순서가 가장 빠릅니다.
1) 토큰 레이어 최적화: “같은 의미를 더 적은 토큰으로”
토큰화 차이를 ‘지식’으로만 두지 말고 비용 실험의 변수로 올리세요. 구조화 출력(JSON), 불필요한 예시/군더더기 제거, 언어 혼용 최소화, 긴 컨텍스트를 그대로 던지기보다 요약→질의의 2단계 파이프라인으로 바꾸는 것만으로도 입력 토큰을 크게 줄일 수 있습니다. 핵심은 비용 지표를 프롬프트 버전과 함께 트래킹하는 겁니다(요청당 input/output tokens, 실패율, 재시도 횟수).
2) 태스크별 모델 라우팅: “싼 모델로 80%를 처리하고, 비싼 모델은 에스컬레이션”
dev.to 가이드가 말하듯 LLM 선택은 쇼핑이 아니라 아키텍처 결정입니다. 분류/추출/요약 같은 고빈도 작업은 라이트·미드 티어로, 다단계 추론·에이전트 플래닝·복잡한 코드/정책 판단만 프론티어로 올리세요. 여기서 COGS 절감은 단순 단가 인하가 아니라 재시도 감소(품질-비용 최적점)에서 더 크게 나옵니다. 즉 “싼데 3번 돌리는 모델”은 비쌀 수 있습니다.
3) 무중단 모델 스왑(게이트웨이): “실험 속도가 곧 마진”
OpenAI 호환 엔드포인트를 활용한 게이트웨이(혹은 LiteLLM/자체 프록시)를 두면 base_url과 model 이름만 바꿔도 공급사 전환이 가능해집니다(dev.to 사례처럼). 이게 중요한 이유는 비용을 ‘절감’하는 것보다 COGS A/B 테스트를 상시화하기 때문입니다. 모델/가격은 2주마다 흔들리는데, 코드가 묶여 있으면 최적화가 불가능합니다. 게이트웨이는 모델 스왑뿐 아니라 공통 로깅(토큰/지연/에러), 폴백 체인, 서킷브레이커까지 한 곳에서 관리하게 해 운영 비용도 줄입니다.
시사점은 명확합니다. COGS를 30~70%만 낮춰도 (1) 같은 가격에서 마진이 올라가 LTV가 커지고, (2) LTV/CAC 여유가 생겨 paid 채널 확장이 가능해지며, (3) 가격 인하로 전환율을 올리는 실험도 ‘버틸 체력’이 생깁니다. 특히 SMB 셀프서브 제품은 “첫 결제 전까지”가 가장 비싼 구간인데, 이때 COGS를 못 잡으면 무료 체험이 곧 적자 퍼널이 됩니다.
전망적으로는, 모델 성능 격차가 좁아질수록 경쟁 우위는 토큰 설계(입력 파이프라인) + 라우팅(정확도/재시도) + 게이트웨이(전환 비용 0)로 이동합니다. 다음 분기 액션 아이템은 간단합니다: ① 엔드포인트별 토큰/성공률/지연 대시보드부터 깔고 ② 상위 3개 태스크에 라우팅 규칙을 넣고 ③ 게이트웨이로 모델 스왑을 ‘배포 없이’ 가능하게 만드세요. 기술이 성장으로 연결되는지의 기준은 하나입니다—COGS가 내려가면서 실험 회전수가 올라갔는가입니다.