AI 제품의 초기 성장에서 가장 흔한 착각은 ‘기능을 더 넣으면 사용량이 오른다’입니다. 실제로는 그 전에 새는 돈부터 잠가야 합니다. 첫째는 LLM 추론비(=AI COGS), 둘째는 데이터/프라이버시 신뢰 비용입니다. 이 두 축이 열려 있으면, 전환이 조금 늘어도 마진은 더 빨리 증발하고 엔터프라이즈 딜은 보안 심사에서 멈춥니다.
dev.to의 사례는 이 문제를 단위경제 관점에서 정면으로 때립니다. 운영 로그를 보면 사용자 질문은 “다르게 말할 뿐 사실상 같은 의도”가 반복됩니다. 그런데 나이브하게 모든 요청을 무거운 LLM으로 보내면, 같은 인지 작업에 돈을 1,000번 내는 구조가 됩니다. 즉 ‘사용량 성장=비용 선형 성장’이 되어 LTV가 아니라 런웨이가 먼저 닳습니다.
해법은 의미론적 캐싱(semantic caching)입니다. 텍스트를 그대로 키로 캐싱하는 게 아니라, 임베딩으로 “의도 벡터”를 만들고 Redis 벡터서치(예: Amazon ElastiCache)에서 코사인 유사도로 근접 질의를 찾습니다. 유사도 임계치(예: 0.95 이상)를 넘으면 LLM 호출을 생략하고 캐시 응답을 반환합니다. 기사에서 제시한 가정(월 100만 쿼리) 기준, 캐시 히트 40%만 되어도 LLM 비용이 약 36% 절감되고, 해당 트래픽의 레이턴시는 수 초 → 수십 ms로 ‘체감 100배’ 가까이 좋아집니다. 비용 절감과 UX 개선이 동시에 일어나는, 드문 레버입니다.
하지만 성장 관점에서 더 중요한 건 “절감한 돈으로 뭘 할 수 있느냐”입니다. COGS가 내려가면 가격·패키징 실험의 자유도가 생깁니다. 예를 들어 (1) 좌석당 과금에서 사용량 과금으로, (2) 무료 티어의 한도를 공격적으로 올리거나, (3) 온보딩 구간만 고성능 모델을 쓰고 나머지는 캐시/경량 루트로 보내는 식의 퍼널 실험을 돌릴 수 있습니다. 즉 COGS 절감은 ‘비용 최적화’가 아니라 CAC/LTV를 동시에 움직이는 실험 예산 확보입니다.
두 번째 축은 신뢰입니다. aitimes가 전한 오픈AI의 오픈소스 소형 모델 ‘Privacy Filter’는 텍스트에서 PII를 문맥 기반으로 탐지·마스킹/삭제하고, 로컬 환경에서 구동되도록 설계됐습니다. 규칙 기반 필터가 놓치던 미묘한 개인정보까지 잡는 쪽으로 진화했고(F1 96% 수준), 긴 문서(최대 12만8천 토큰)도 처리 가능하다는 점은 “실제 업무 데이터”를 다루는 B2B/공공에 특히 중요합니다. 핵심은 하나입니다: 민감 데이터가 외부로 나가기 전에, 엣지/사내에서 먼저 걸러낼 수 있느냐.
이건 단순한 보안 기능이 아니라, 매출 파이프라인의 병목 제거입니다. 엔터프라이즈/공공 시장에서 보안 우려는 ‘반대 의견’이 아니라 ‘딜 중단 버튼’입니다. 로컬 PII 필터를 기본 제공하면 보안 설문·법무 검토·DPA 협상에서 시간을 줄이고, 무엇보다 “우리 데이터가 학습/전송되지 않는다”는 신뢰를 제품의 기본값으로 만들 수 있습니다. 결과적으로 세일즈 사이클이 짧아지고, 보안 리스크를 이유로 한 이탈(Churn)도 줄어듭니다.
시사점은 명확합니다. 지금 AI 제품이 먼저 해야 할 성장 해킹은 ‘바이럴 기능 추가’가 아니라 (1) 의미론적 캐싱으로 중복 추론비를 잠그고 (2) 로컬 PII 필터로 신뢰를 잠그는 것입니다. 이 두 개가 닫히면, 그 다음부터가 진짜 성장 실험 구간입니다: 무료→유료 전환율을 건드리는 패키징, 좌석 확장을 만드는 협업 기능, 레퍼럴 프로그램 등은 그 위에 쌓아야 효과가 납니다.
전망: 앞으로 생성형 AI는 “연구용 API 호출”이 아니라 “마진에 민감한 프로덕션 워크로드”로 더 빠르게 이동합니다. 따라서 스택의 기본값도 바뀝니다. 프론트에는 semantic cache(의도 단 캐싱), 인입에는 PII/시크릿 필터(로컬 우선), 그리고 도메인 변경 시 TTL/이벤트 기반 무효화로 ‘거짓말하는 캐시’를 막는 운영 체계가 표준이 될 가능성이 큽니다. 성장팀의 체크리스트도 바뀝니다. 이제 질문은 하나로 수렴합니다: 이 기능이 사용자 사용시간을 늘리기 전에, 단위경제와 신뢰를 먼저 잠갔는가?