AI 제품의 성장 방정식은 결국 단위경제입니다. 트래픽이 늘수록 이익이 쌓여야 하는데, 많은 SaaS가 LLM API 비용 때문에 반대로 갈립니다. dev.to의 한 사례는 이를 극적으로 보여줍니다. OpenAI API가 매출의 40%를 먹던 챗봇을, 오픈소스 LLM을 로컬로 돌리고(하이브리드 백업 포함) 월 50,000+ 호출을 약 $20 수준으로 낮췄습니다. 여기서 핵심은 ‘싼 모델로 갈아탔다’가 아니라, COGS를 통제 가능한 레버로 바꾸는 설계입니다.
이 구조의 요지는 세 가지입니다. 첫째, 모델 라우팅: 질문 난이도에 따라 Mistral 7B(대부분), Llama 2 13B(중간), Mixtral(복잡)로 분기하고, 실패 시에만 상용 모델로 폴백(LiteLLM)합니다. 둘째, 캐싱: Redis로 24시간 캐시를 두어 반복 질문의 35%를 ‘0원 응답’으로 만듭니다. 셋째, 로컬/저비용 인프라: Ollama를 저렴한 서버에 올려 고정비로 흡수합니다. 결과적으로 변동비 중심 구조(토큰 과금)에서, 예측 가능한 고정비+최소 폴백으로 바뀌며 마진이 안정됩니다.
하지만 여기서 착각하면 위험합니다. 또 다른 dev.to 글은 “AI는 비싸지 않다. 나쁜 AI 시스템이 비쌀 뿐”이라고 못 박습니다. 모델 비용만 낮추고 끝내면, 곧 숨은 운영비가 COGS를 다시 부풀립니다. 인프라(메모리/CPU/GPU), 지연시간-품질 트레이드오프, 지속적 개선(재학습/평가), 엔지니어링 오버헤드(디버깅·관측성·드리프트), 리스크 대응(환각·안전장치·HITL)이 ‘런타임의 월세’처럼 붙습니다. 즉 COGS 절감은 모델 선택이 아니라, 시스템을 운영 가능한 형태로 표준화하는 문제입니다.
그럼 성장팀 관점에서 이게 왜 중요한가? COGS가 급격히 내려가면, 즉시 실험의 공간이 열립니다. (1) 가격: 더 낮은 엔트리 플랜/연간 선결제 할인 폭을 키워 CAC 회수기간을 줄일 수 있고, (2) 무료 체험: 체험 크레딧·사용량·기능 범위를 넓혀도 손익이 무너지지 않아 전환율 실험이 쉬워집니다. (3) 프리미엄 기능: 고비용 추론(장문 분석, 에이전트 작업 등)을 ‘고급 라우트’로 묶어 상위 요금제에 걸면, 기능이 아니라 원가 기반의 패키징이 됩니다. 여기서 중요한 지표는 “토큰 절감”이 아니라 요금제별 Gross Margin, 요청당 COGS, 캐시 히트율, 폴백률, P95 지연시간입니다.
또 하나의 맥락: 엔터프라이즈는 ‘가장 똑똑한 모델’보다 ‘운영 가능한 모델’을 삽니다. 최근 Anthropic이 Claude Opus 4.7을 “스케일 배포”와 “예측 가능한 운영”에 맞춰 포지셔닝한 것도 같은 흐름입니다(google_news 보도). 게다가 토크나이저 변경으로 실사용 토큰이 늘 수 있다는 언급은, 모델 가격표보다 실제 청구 토큰과 시스템 설계가 비용을 좌우한다는 경고입니다. 결국 시장은 성능 경쟁에서 운영 성능(비용·신뢰성·통제) 경쟁으로 이동 중입니다.
전망은 명확합니다. 앞으로 AI COGS 절감은 ‘로컬로 옮기자’가 아니라, 하이브리드 운영 표준(라우팅+캐시+폴백+관측성+가드레일)로 굳어질 가능성이 큽니다. 이 표준을 먼저 갖춘 팀이 가격을 공격적으로 실험하고, 무료 구간을 넓혀 상단 퍼널을 키우며, 프리미엄 라우트를 요금제에 연결해 LTV를 끌어올립니다. 실행 순서는 단순합니다: ① 요청 유형을 3단계로 라벨링(단순/중간/복잡) ② 라우팅 규칙과 폴백 정의 ③ 캐시 정책(시간/키/무효화) 수립 ④ 폴백률·지연·만족도·COGS 대시보드 구축 ⑤ 그 다음에야 가격/체험/패키징 A/B로 ‘마진이 남는 성장’을 검증하세요. 비용 절감은 목표가 아니라, 스케일 가능한 성장 실험을 여는 열쇠입니다.