AI 제품에서 지금 당장 ‘바로 돈 되는’ 전장은 두 가지입니다. 첫째, 모델 호출 비용이 곧바로 COGS로 찍히는 단위경제. 둘째, 가격/요금제 실험을 해도 유저가 믿고 따라오게 만드는 신뢰도. Anthropic이 월 $20 프로 요금제에서 Claude Code를 빼는 시험을 일부 신규(약 2%)에 적용했다가, 요금제 페이지 표시가 전체 변경처럼 보이며 역풍을 맞은 사건(디지털투데이, Ars Technica 인용)은 이 두 축이 연결되어 있음을 보여줍니다.
문제의 본질은 “기능을 뺐다”가 아니라 “실험이 신뢰를 훼손했다”입니다. 요금제는 퍼널에서 ‘가격-가치 약속’의 문서인데, 여기서 예외(신규만 제외)가 발생하면 유저는 즉시 최악의 시나리오(나도 곧 제한/인상)를 상상합니다. 그 순간 전환율은 떨어지고(결제 직전 이탈), 리텐션은 흔들립니다(업무 의존 툴일수록 불안이 churn으로 직행). 더 무서운 건 경쟁사가 그 불안을 증폭시키며 채널 효율을 빼앗는다는 점입니다(기사 속 오픈AI의 공개 견제처럼).
Anthropic이 내세운 배경—대화형에서 상시 구동 에이전트/코딩 워크로드로 사용 패턴이 바뀌었고, 가입자당 사용량이 급증했다—는 전형적인 ‘가격-원가 미스매치’ 신호입니다. 여기서 성장팀이 흔히 하는 실수는 가격표에서 먼저 칼을 빼는 겁니다. 하지만 가격표를 흔드는 순간, 그 제품은 더 이상 “일할 때 믿고 쓰는 도구”가 아니라 “언제 조건이 바뀔지 모르는 서비스”가 됩니다. 요금제 실험이 퍼널의 상단(획득)까지 악영향을 미치는 이유죠.
반대로, dev.to의 AI API 비용 최적화 사례는 같은 문제를 ‘신뢰를 해치지 않고’ 푸는 길을 보여줍니다. 핵심은 비싼 플래그십 모델을 기본값으로 깔지 않고, 작업 난이도에 따라 저가 모델로 스왑(예: 단순 텍스트 변환을 Gemini 2.5 Flash Lite로)해 요청당 비용을 30배까지 낮췄다는 점입니다. 여기에 프롬프트 캐싱(Anthropic은 캐시 토큰 90% 할인)과 시스템 프롬프트 다이어트(불필요한 공손함/군더더기 제거)까지 결합하면, ‘기능을 빼거나 가격을 올리지 않고도’ COGS를 먼저 줄일 수 있습니다.
시사점은 실행 순서입니다. ①먼저 COGS를 낮춰 가격표를 덜 흔들게 만들고, ②그 다음에 가격 실험을 하되 신뢰를 잃지 않는 방식으로 설계해야 합니다. 실전 프레임은 간단합니다: (1) 라우팅/티어링: “가장 똑똑한 모델”이 아니라 “실패하지 않는 가장 싼 모델”을 기본값으로 두기, (2) 캐싱/프롬프트 최적화로 입력 토큰을 구조적으로 줄이기, (3) 고사용량 유저는 ‘기능 제거’가 아니라 ‘사용량 기반 가드레일(크레딧, 우선순위, 피크 제한의 명시적 보상)’로 분리하기, (4) 실험 노출은 가격표가 아니라 서버/계정 레벨로 투명하게 공지하고(“당신은 실험군” 표시), 기존 고객의 기대가치를 침식시키지 않기.
전망은 분명합니다. AI 구독은 앞으로 ‘좌석당 가격’에서 ‘워크로드 가격(에이전트 시간, 장기 실행, 고토큰 작업)’으로 이동합니다. 이 전환기에 요금제 실험을 서두르면, 단기적으로는 원가를 줄여도 장기적으로는 신뢰 비용(CAC 상승, 바이럴 감소, churn 증가)으로 더 큰 청구서를 받습니다. 가격을 실험하고 싶다면 먼저 단위경제를 잠그세요. COGS가 안정되면, 요금제는 실험의 대상이 아니라 성장의 엔진이 됩니다.