AI 단위경제로 성장하라: 기능보다 ‘토큰 원가’와 ‘배포’가 먼저다

AI 단위경제로 성장하라: 기능보다 ‘토큰 원가’와 ‘배포’가 먼저다

추론비용을 낮추는 컴퓨팅 포트폴리오와 CAC를 0에 가깝게 만드는 배포 채널이, AI 제품의 스케일을 결정합니다.

단위경제 추론비용 토큰원가 Anthropic KakaoTalk AI 오케스트레이션 CAC LTV
광고

AI 제품에서 ‘기능’은 이제 기본값이 됐습니다. 성능이 비슷해질수록 승부는 단위경제(Unit Economics)—즉 토큰당 원가(추론/훈련/서빙 비용)와 이를 회수하는 배포 전략—에서 갈립니다. 요즘 AI 비즈니스가 갑자기 “싸게 많이 팔기” 게임이 된 이유입니다.

최근 두 사례가 이 현실을 아주 노골적으로 보여줍니다. 하나는 앤트로픽(Anthropic)의 멀티 하이퍼스케일러 비용 차익거래(데이터 그래비티 분석을 인용한 AI매터스 보도), 다른 하나는 카카오의 카카오톡 4,900만 MAU 기반 에이전트 배포(머니투데이 보도)입니다. 전자는 COGS를, 후자는 CAC를 구조적으로 깎습니다. 둘 다 그로스의 핵심 레버를 정확히 찌릅니다.

맥락부터 정리하죠. AI 서비스의 비용 구조는 시간이 갈수록 ‘추론(inference)’ 쪽으로 기울고 있습니다. AI매터스 기사에 따르면 2026년에는 추론 비용이 전체 컴퓨팅 지출의 3분의 2를 차지할 수 있습니다. 즉, 모델을 한 번 잘 학습시키는 것보다 “매일매일 사용자 요청을 얼마나 싸게 처리하느냐”가 마진을 결정합니다.

앤트로픽은 여기서 정면승부를 걸었습니다. AWS의 트레이니엄2(Trainium2), 구글 TPUv7, 그리고 엔비디아 GPU를 병행 운용하는 ‘다중 가속기 아키텍처’를 깔아 비용 차익거래를 만듭니다. 보도에 따르면 트레이니엄2는 특정 지속 워크로드에서 H100 대비 비용이 절반 수준까지 내려가고, TPUv7은 시스템 레벨에서 토큰당 가격이 50% 개선됐습니다. 중요한 건 “어떤 칩이 최고냐”가 아니라, 워크로드에 맞춰 최저비용 조합으로 라우팅할 수 있는 선택권이 생긴다는 점입니다.

이 선택권은 단순 절감이 아니라 ‘협상력’입니다. 엔비디아 단일 스택에 묶이면 공급/가격/물량에서 종속이 생기고, 그 순간 단위경제는 제품팀이 아니라 공급망이 결정합니다. 반대로 멀티 하이퍼스케일러는 공급 이중화로 다운타임 리스크를 줄이고, “대체 가능성” 자체로 단가를 누릅니다. AI매터스가 인용한 추정처럼, TPU를 실제로 크게 쓰지 않아도 ‘옵션이 존재’하는 것만으로도 협상에서 비용이 내려갈 수 있습니다.

이제 배포 쪽을 봅시다. 카카오는 LLM 성능 경쟁 대신, 카카오톡 안에서 AI가 먼저 말을 거는 ‘선톡’을 출시하며 에이전트를 “이미 있는 습관”에 얹습니다(머니투데이). 여기서 핵심은 기술이 아니라 유통입니다. 신규 유저를 돈 주고 사오는 게 아니라, 4,900만 MAU의 기존 트래픽에서 Activation을 뽑아내는 구조라 CAC가 구조적으로 낮습니다.

게다가 카카오는 ‘AI 오케스트레이션’을 전면에 둡니다. 자체 모델/오픈소스/글로벌 API를 상황에 따라 조합해 “동일한 품질이면 더 싼 모델”을 선택하겠다는 방향인데, 이건 곧 마진 방어 전략입니다. 카카오톡 내 AI 도입 후 체류시간이 약 4분 늘었다는 데이터도 공개됐는데, 체류시간 증가는 리텐션 신호이자 광고·커머스 전환 실험의 모수 확대입니다. 즉 CAC(기저 트래픽)·리텐션(체류)·ARPU(광고/거래)의 세 레버가 한 화면에 같이 뜹니다.

시사점은 명확합니다. AI 그로스는 더 이상 “기능 A/B 테스트”만으로 이기기 어렵습니다. (1) 토큰당 원가를 내리는 컴퓨팅/모델 라우팅 포트폴리오, (2) CAC를 낮추는 채널 내장형 배포(메신저, OS, 브라우저, 업무툴 등), (3) 그리고 비용 절감분을 가격·번들·무료쿼터로 재투자해 전환과 LTV를 같이 밀어올리는 설계가 한 세트가 돼야 합니다.

실행 관점에서 팀이 당장 점검할 체크리스트는 간단합니다. 첫째, 원가를 ‘토큰’이 아니라 ‘유저 작업(task)’ 단위로 귀속하고 있나요? 둘째, 동일 품질에서 더 싼 경로로 자동 라우팅할 수 있는가(모델/가속기/캐시/온디바이스)? 셋째, 배포는 광고로 사오고 있나요, 아니면 기존 습관 위에 얹고 있나요? 넷째, 원가 절감이 생겼을 때 그 마진을 어디에 재투자할 건가요—가격 인하, 무료 체험 확대, 혹은 더 강한 리텐션 루프?

전망: 앞으로 AI 시장의 격차는 ‘모델 성능’이 아니라 “단위경제를 지키며 스케일하는 운영 능력”에서 벌어질 가능성이 큽니다. 앤트로픽은 비용 구조에서, 카카오는 배포 구조에서 각각 해자를 쌓고 있습니다. 결론은 하나입니다. AI 제품의 성장 공식은 기능이 아니라 (추론비용을 낮추는 아키텍처) × (CAC를 줄이는 배포) 입니다. 이 곱을 키우는 팀이, 결국 가격을 무기로 스케일을 가져갑니다.

출처

더 많은 AI 트렌드를 Seedora 앱에서 확인하세요