AI COGS↓가 실험 예산을 만들고, GEO가 CAC를 깎는다

AI 제품의 성장은 결국 두 숫자로 수렴합니다. 한쪽은 COGS(토큰·인프라)이고, 다른 한쪽은 CAC(고객 획득 비용)입니다. COGS가 높으면 가격을 올리거나 마진을 포기해야 하고, 마진이 얇아지면 실험(채널/온보딩/전환) 예산이 증발합니다. 반대로 COGS를 안정적으로 낮추면 그 차익이 곧바로 “성장 실험의 탄약”이 됩니다.

dev.to의 두 글이 같은 문제를 다른 각도에서 찌릅니다. 첫째, Anthropic의 Prompt Caching은 이론상 입력 비용을 크게(캐시 읽기 0.1×) 줄일 수 있지만, “프리픽스가 바이트 단위로 100% 동일”해야만 캐시 히트가 난다는 점이 함정입니다. 실제로 시스템 프롬프트에 날짜/타임스탬프 한 토큰이 들어가 캐시가 전부 미스 나며 할인율이 90%가 아니라 1%로 추락한 사례가 소개됩니다(출처: dev.to, ‘Anthropic Prompt Caching…’).

둘째, AI 앱은 ‘에러 없이’ 돈을 태우는 패턴이 많습니다. 무한 재시도, 에이전트 자기-트리거, 컨텍스트 윈도우의 점진적 팽창, 아무도 읽지 않는 크론 잡 등은 Sentry/Datadog에선 정상처럼 보이지만, 토큰 청구서로만 폭발합니다(출처: dev.to, ‘Your AI app is silently burning…’). 즉, 비용 최적화는 “모델 선택”이 아니라 “운영 패턴 감지 + 호출 구조 고정”의 문제입니다.

여기서 핵심은 COGS 절감이 ‘원가 개선’에 그치지 않고, CAC와 전환율을 동시에 건드린다는 점입니다. ① 캐싱이 제대로 걸리면 동일 기능을 더 싸게 제공할 수 있고, 이 여유로 무료 티어/체험 크레딧/온보딩에서의 즉시 가치 제공(첫 세션 토큰을 더 태워도 됨) 같은 전환 레버에 투자할 수 있습니다. ② 반대로 캐싱 미스·재시도 루프 같은 누수는 LTV를 깎기 전에 현금흐름을 먼저 갉아먹어, 마케팅 집행/세일즈 확장 타이밍을 늦춥니다.

실행 관점에서 오늘 당장 점검해야 할 것은 ‘히트율’과 ‘누수율’입니다. 프롬프트 캐싱은 정적 블록(툴 정의/시스템 프롬프트/고정 문서 컨텍스트)과 동적 값(유저/세션/시간)을 물리적으로 분리하고, 캐시 키가 흔들리는 요소를 마지막 브레이크포인트 뒤로 밀어야 합니다. 동시에 usage에서 cache_read_input_tokens / cache_creation_input_tokens / input_tokens를 모두 로깅해 “캐시가 돈을 벌고 있는지”를 시간대별로 확인해야 합니다. 히트율이 낮으면 캐싱은 기능이 아니라 ‘추가 과금 장치’가 됩니다(캐시 쓰기 비용 프리미엄이 존재).

그리고 확보한 마진을 어디에 재투자할지에서 GEO(Generative Engine Optimization)가 등장합니다. GEO는 구글 SEO처럼 ‘순위 경쟁’이 아니라, ChatGPT/Perplexity/Gemini 같은 생성형 검색 답변에 “출처로 인용되는 것”을 목표로 합니다. 이 채널은 클릭보다 상단 퍼널의 ‘신뢰 있는 노출’을 만들고, 잘 먹히면 광고비 없이도 신규 세그먼트를 열어 CAC를 구조적으로 낮출 수 있습니다(출처: dev.to, ‘The Technical Side of GEO…’).

GEO는 기술적으로도 “비용 최적화와 닮은 게임”입니다. 바이트 단위 동일성이 캐시 히트를 만들듯, 문단 단위 ‘직답 밀도(Direct Answer Density)’와 구조화 데이터(FAQPage/Article/HowTo 스키마)가 인용 히트를 만듭니다. 즉, 콘텐츠를 LLM이 발췌하기 좋은 단위로 쪼개고(각 섹션 첫 문장은 결론), 엔티티 클러스터를 충분히 포함시키며, 최신성 신호(dateModified/Last-Modified)를 관리하면 ‘인용 점유율(Citation Share)’이 올라갑니다. 이건 광고 최적화처럼 매체비가 늘수록 비싸지는 구조가 아니라, 초기에 세팅하면 복리로 쌓이는 자산에 가깝습니다.

시사점은 명확합니다. AI 스타트업의 성장 로드맵은 “기능→마케팅”이 아니라 “COGS 통제→실험 예산 생성→GEO로 신규 유입 채널 개방→퍼널 A/B”로 재정렬돼야 합니다. 비용을 못 잡으면 CAC를 논할 자격이 없고, 유입 채널을 하나 더 열지 못하면 비용 절감도 결국 ‘연명’으로 끝납니다.

전망: 2026년의 경쟁력은 더 좋은 모델이 아니라 더 낮은 단가로 더 빠르게 실험하는 운영 시스템에서 갈립니다. 프롬프트 캐싱 같은 ‘토큰 단가 레버’는 점점 기본기(모두가 도입)로 평준화될 겁니다. 그 다음 격차는 두 곳에서 벌어집니다. (1) 누수 패턴을 실시간으로 탐지해 COGS 변동성을 제거하는 팀, (2) GEO로 인용 점유율을 선점해 상단 퍼널을 자동화하는 팀. 결국 “COGS↓로 실험을 사고, GEO로 CAC를 깎는” 조합이 가장 스케일 가능한 성장 루프가 됩니다.