성장지표 오염 방어: ‘유저 수’와 ‘답변 품질’이 동시에 거짓말할 때

성장팀 관점에서 가장 치명적인 리스크는 ‘전환율이 낮다’가 아니라 ‘전환율을 잘못 보고 있다’입니다. dev.to의 PostHog Ghost Profiles 사례는 실제 유저 1명이 여러 Person으로 쪼개지며 유저 수/퍼널/리텐션/A/B 테스트가 15~30%까지 왜곡될 수 있음을 경고합니다. 여기에 dev.to의 프로덕션 RAG 실패 모음은 “답변이 나쁘다”가 아니라 “검색-생성 파이프라인이 조용히 망가져 Time-to-Value와 신뢰가 떨어지는” 운영 리스크를 보여줍니다.

핵심 이슈는 한 문장으로 정리됩니다: 성장지표는 ‘수집(트래킹) 오염’과 ‘제품 경험(품질) 오염’ 두 축에서 동시에 무너진다. Ghost Profile은 같은 사람을 여러 명으로 세어 코호트와 실험 단위를 깨고, RAG 운영 실수는 사용자가 ‘가치를 못 느끼는 시간’을 늘려 활성화·리텐션·유료전환을 직접 깎습니다. 둘 다 공통점은 “겉으로는 숫자가 그럴듯한데, 의사결정의 바닥이 썩는다”는 점입니다.

맥락을 성장 프레임으로 해석하면 더 선명해집니다. PostHog에서 identify() 머지가 완벽하지 않거나(기기/브라우저 분리, 쿠키 삭제, in-app browser, 레이스 컨디션) 익명→가입 전환 경로가 분절되면, 퍼널은 ‘이탈 1명 + 갑툭튀 전환 1명’으로 기록됩니다(출처: dev.to의 Ghost Profiles 글). 결과적으로 Activation rate가 흔들리고, D7 리텐션은 “기기만 바꿔도 리텐션처럼 보이거나” 반대로 “다른 기기에서 계속 쓰는데 churn처럼 보이는” 모순을 만들죠.

RAG 쪽은 제품 레벨의 지표 오염입니다. 고정 길이 청킹, 벡터검색 단독, retrieval 검증 부재, 임베딩 드리프트, 문서 버저닝/권한/모니터링 미비 같은 실수(출처: dev.to의 ‘7 Production RAG Mistakes’, ‘Semantic Chunking’ 글)는 결과적으로 ‘정답률 하락’만이 아니라 온보딩의 핵심 지표인 Time-to-Value를 늘리고, 재방문 동기(신뢰)를 갉아먹어 리텐션을 악화시킵니다. 더 무서운 건 이 문제가 보통 알림 없이 서서히 진행된다는 점입니다.

시사점 1: “Persons=유저수”를 KPI로 쓰는 순간부터 오염이 시작됩니다. 성장팀은 실험 단위(사람) 를 보장하는 지표를 별도로 둬야 합니다. 예: (1) distinct_id/person 비율 모니터링, (2) 이메일/폰/$device_id 중복 클러스터 크기 추적, (3) 로그인 유저 기준의 코어 퍼널과 익명 퍼널을 분리해 리포팅. 즉, ‘볼륨 KPI’와 ‘의사결정 KPI’를 분리해야 합니다.

시사점 2: A/B 테스트는 제품 아이디어보다 “ID 안정성”에 먼저 투자해야 합니다. 한 사람이 서로 다른 variant에 중복 노출되면 실험은 통계가 아니라 랜덤 노이즈가 됩니다. 실무 액션은 단순합니다. identify() 호출 타이밍을 온보딩 초반으로 당기고, 앱-웹뷰-웹의 연결(브릿지)을 설계하며, 이벤트 인입 레이스를 줄이는 가드레일(큐잉/재시도/서버사이드 식별)을 둡니다. 이미 쌓인 중복은 수동 머지로는 못 따라가니, “중복 탐지→자동 병합/제외” 운영 루프가 필요합니다(출처: Ghost Profiles 글의 문제 제기와 해결 방향).

시사점 3: RAG는 ‘기능’이 아니라 ‘퍼널’입니다. 검색이 틀리면 답이 틀리고, 답이 틀리면 유저는 재시도하다가 떠납니다. 따라서 RAG 운영 지표는 성장 지표와 직결되게 잡아야 합니다. 예: (1) Retrieval gap rate(검색 실패/저신뢰 비율) = 온보딩 마찰, (2) p95 latency = 사용성/활성화, (3) precision/groundedness = 신뢰→리텐션. 그리고 임베딩 버전 고정/드리프트 감시, 문서 버저닝, 권한을 retrieval 레이어에서 적용하는 건 “보안/품질”을 넘어 이탈과 CS 비용을 줄이는 성장 장치입니다(출처: 7 Mistakes 글).

전망: 앞으로 성장팀의 경쟁력은 ‘더 많은 실험’이 아니라 ‘오염에 강한 측정-품질 시스템’에서 갈립니다. 트래킹은 멀티디바이스·프라이버시 환경에서 더 불완전해지고, RAG는 모델/임베딩/문서가 계속 변해 “어제의 정확도”가 오늘 조용히 무너집니다. 결론은 하나입니다. 지표를 만드는 인프라(Identity) + 경험을 만드는 인프라(RAG 품질/비용/모니터링) 를 한 팀의 루프로 묶어, 오염을 조기에 탐지하고 실험 단위를 보호하는 조직이 CAC를 덜 태우고 더 오래 성장합니다.