DeepSeek가 V4를 공개하며 오픈소스 전환과 효율 중심 설계를 전면에 내세웠다(서울뉴스통신). 표면적으로는 “성능이 프론티어급에 근접”이지만, 스타트업 관점에서 더 큰 이슈는 LLM 사용 단가 하락이 곧바로 그로스 레버로 변환된다는 점이다. 비용이 내려가면 ‘기능을 더 넣는’ 게 아니라, 같은 예산으로 더 많은 가설을 더 빨리 검증할 수 있다.
V4의 포인트는 비용 구조를 건드리는 기술적 선택들이다. 스파스 어텐션과 토큰 압축 기반의 새로운 어텐션 메커니즘으로 100만 토큰 이상 컨텍스트를 지원하면서 연산·메모리 부담을 낮췄고(서울뉴스통신), MoE·양자화(FP4 QAT) 같은 효율 기법으로 운영 비용을 크게 절감했다고 알려졌다(환경감시일보). 여기에 V4 Pro(고성능)와 V4 Flash(경량/저지연)로 작업 난이도에 따라 단가를 다르게 가져갈 수 있게 만든 구성이 결정적이다.
이 변화가 왜 ‘그로스’냐. LLM COGS는 결국 퍼널 실험의 속도(회전수)를 제한하는 탄약이다. 예: 온보딩에서 AI가 개인화 가이드를 3턴→6턴으로 늘리면 전환은 오를 수 있지만, 비용 때문에 테스트를 못 하면 아무 일도 일어나지 않는다. 단가가 내려가면 (1) 세그먼트별 프롬프트/UX 변형을 더 촘촘히 돌리고, (2) 실패한 실험을 빠르게 폐기하며, (3) 성공한 조합을 전 구간으로 확장할 수 있다. “모델이 좋아졌다”보다 “실험이 빨라졌다”가 CAC를 더 직접적으로 깎는다.
여기에 프론티어 모델 가격/성능 비교를 붙이면 실행 프레임이 선명해진다. dev.to의 비교는 ‘최고 모델 하나로 통일’ 시대가 끝났고 작업별 라우팅이 최적이라고 말한다. Gemini 3.1 Pro는 가격이 낮고(입력 $2/M, 출력 $12/M), Opus 4.7과 GPT-5.5는 특정 에이전트/코딩 워크로드에서 강점이 있지만 출력 단가가 더 높다(각 $25/M, $30/M). 즉, 스타트업의 정답은 “우리 제품의 돈이 되는 구간에만 비싼 모델을 쓰고, 나머지는 저가·오픈소스로 깔아 COGS를 평탄화”하는 포트폴리오다.
시사점은 세 가지다. 첫째, 모델 선택 기준을 ‘벤치마크 1등’이 아니라 ‘퍼널 KPI당 비용’으로 바꿔야 한다. 추천/서포트/요약처럼 대량 호출 구간은 V4 Flash 같은 저가 모델로, 결제 직전·리텐션 핵심(예: 과금 플랜 설계, 고난도 코딩, 법/재무 문서)은 프론티어 모델로 라우팅한다. 둘째, 1M 컨텍스트는 “긴 문서 처리”가 아니라 ‘대화 중 재질문 감소→완료율 상승’으로 연결될 때만 가치가 있다. 컨텍스트를 키운 만큼 토큰이 늘면 역으로 마진이 박살난다. 토큰 예산을 기능이 아니라 단계별 전환율(Activation/Conversion)로 배분하라. 셋째, 오픈소스는 단순 비용 절감이 아니라 커스터마이징(도메인 용어, 규정, 워크플로우)을 통해 ARPU를 지키는 방패가 된다. 같은 COGS로 더 높은 가격을 받는 이유를 ‘정확도’가 아니라 ‘업무 완료’로 증명할 수 있다.
전망: LLM 시장의 경쟁축은 ‘규모’에서 ‘효율+운영’으로 이동 중이고(서울뉴스통신), 가격은 더 내려갈 가능성이 높다. 이때 성장 팀이 해야 할 일은 단순히 더 싼 모델을 찾는 게 아니다. (1) 작업 난이도 분류(cheap vs premium), (2) 모델 라우팅, (3) 토큰/지연/성공률 트래킹, (4) 실험 설계(A/B·코호트)까지 묶어 “COGS 하락→실험 회전수 증가→퍼널 최적화” 루프를 제품 운영에 박아 넣는 것이다. 단가 하락은 누구에게나 온다. 그걸 CAC 하락으로 전환하는 팀만 이긴다.