AI 제품 성장의 최대 레버를 아직도 ‘기능 추가’로 착각하는 팀이 많습니다. 하지만 초기/중기에는 기능보다 COGS(모델 호출·인프라 비용)가 더 직접적으로 CAC를 좌우합니다. COGS가 높으면 가격을 올리거나 마케팅을 줄여야 하고, 둘 다 전환율·규모 확장을 망칩니다. 반대로 COGS를 낮추면 같은 매출에서 더 많은 실험 예산이 생겨 CAC를 공격적으로 낮출 수 있습니다.
dev.to의 Supabase Edge Functions 비용 실측 글(“Real Cost Breakdown…”)이 이 지점을 명확히 보여줍니다. 12개월 운영 기준으로 Supabase Pro가 $25, AI API가 약 $36로 총 $60대에 수렴했는데, 핵심은 “Supabase가 아니라 AI 토큰이 비용 드라이버”였다는 결론입니다. 즉 서버리스 런타임을 최적화하기 전에, 호출 자체를 줄이고(캐싱), 더 싼 모델로 라우팅하고(티어링), 같은 토큰을 더 싸게 사는(프롬프트 캐싱) 순서가 ROI가 큽니다.
이 아키텍처(프론트→Edge Functions→Claude/Gemini/OpenAI)는 성장 관점에서 장점이 큽니다. 키를 프론트에 노출하지 않고, RLS 기반으로 유저별 레이트리밋/과금을 걸 수 있어 “과금-사용량-원가”를 같은 레이어에서 제어할 수 있습니다. 이는 곧 ‘악성 사용자가 COGS를 폭발시키는’ 상황을 막아 CAC를 방어하는 장치가 됩니다.
비용 최적화 패턴도 성장 지표에 직결됩니다. (1) Circuit Breaker는 모델 장애 시 요청을 계속 태워 비용을 누수시키는 걸 막고, 동시에 실패 경험을 통제해 이탈을 줄입니다. (2) 응답 캐싱은 동일 프롬프트 재호출을 제거해 호출량을 즉시 깎습니다(기사 사례에선 특정 리포트 기능 캐시 히트 ~40%). (3) 모델 티어링은 “고난도만 프론티어, 나머진 저가 모델”로 평균 단가를 낮춰, 트래픽이 늘어도 COGS 곡선을 완만하게 만듭니다.
여기에 두 번째 소스(dev.to “Token Budget Negotiator”)가 꽂히는 지점이 있습니다. 프롬프트는 시간이 지나며 ‘의미를 모르는 토큰 부채’가 쌓이고, 팀은 어떤 섹션이 성능에 기여하는지 감으로만 판단합니다. 이 도구는 프롬프트를 섹션 단위로 나눠 ablation(하나씩 제거) 실험을 돌리고, LLM judge로 품질을 점수화해 “품질 임계치 내에서 최소 토큰”을 자동으로 찾습니다. 즉, 토큰 절감이 사람의 의지/감각이 아니라 파이프라인이 됩니다.
시사점은 명확합니다. COGS 절감은 비용팀의 최적화가 아니라 그로스팀의 무기입니다. 40~60% 원가를 줄이면(첫 글의 패턴+프롬프트 캐싱/캐시 전략), 그 마진으로 ① 가격 프로모션/무료 크레딧을 더 길게 가져가 CAC를 낮추거나 ② 온보딩에서 ‘첫 성공’까지 더 많은 모델 호출을 허용해 전환율을 올리거나 ③ 리텐션 기능(개인화·재요약·주기 리포트)을 더 자주 돌려 LTV를 키울 수 있습니다. 결국 “원가를 낮춘 팀만이 공격적으로 실험한다”로 귀결됩니다.
전망: AI 에이전트 시장이 성숙할수록 기능 격차는 줄고, 단가 구조가 경쟁력이 됩니다. 앞으로는 (a) Edge 레이어에서 비용 통제(레이트리밋·캐싱·브레이커) (b) 프롬프트를 ‘버전 관리+자동 절감’ (c) 모델 라우팅을 실험 변수로 운영하는 팀이 CAC를 구조적으로 낮출 겁니다. 다음 액션은 단순합니다. “기능별 원가(토큰·호출·캐시 히트율) 대시보드”부터 만들고, 가장 비싼 상위 20% 호출에 캐싱/티어링/프롬프트 절감을 순차 적용하세요. 성장의 레버는 기능이 아니라, 비용 곡선을 평평하게 만드는 설계입니다.