A/B 테스트 결과가 “p<0.05라서 이겼습니다!”로 끝나는 순간, 그로스 팀은 함정에 빠집니다. 통계적으로는 유의해도, 프로덕트 성장 관점에선 ‘의미 없는 개선’일 수 있거든요. 특히 트래픽이 큰 서비스일수록, 아주 작은 차이도 p-value를 쉽게 뚫고 들어옵니다.
velog의 「p-value가 작다고 다가 아니다」(seongbongha07) 사례가 딱 이 지점을 찌릅니다. 4,100만 행 같은 대규모 데이터에선 “거의 모든 비교가 유의”가 되어버리기 쉽고, 그래서 글에서는 가격대별로 5만 건씩 ‘균등 샘플링’을 잡아 검정합니다. 핵심은 단 하나: p-value 옆에 효과 크기(Cohen’s d, Cramér’s V, η²)를 반드시 붙여서, “차이가 존재”와 “차이가 쓸모 있음”을 분리하라는 것.
결과가 더 재밌습니다. Free vs High의 플레이타임 차이는 p-value가 극도로 작지만 Cohen’s d는 -0.058, 추천 vs 비추천도 p-value는 압도적으로 유의하나 d=0.114. 카이제곱도 p는 0에 수렴하는데 Cramér’s V는 0.094로 관계가 약합니다. “통계적으로 맞다”는 결론이 “액션으로 옮길 가치가 크다”로 자동 변환되지 않는다는 경고죠. 이거 그대로 그로스 실무에 대입하면, ‘유의한 승리’에 팀 리소스를 태우는 순간 CAC는 오르고, 로드맵은 비대해지고, 진짜 임팩트 실험은 밀립니다.
그래서 저는 A/B를 이렇게 재정의해야 한다고 봅니다. 목표는 ‘유의성’이 아니라 ‘의사결정’입니다. 실무 체크리스트는 간단해요. (1) 최소 감지 효과(MDE)와 기대 임팩트를 먼저 못 박기, (2) 주 지표를 매출/활성/리텐션 같은 북극성에 연결하기, (3) p-value와 함께 효과 크기·신뢰구간·비용(개발/디자인/운영)을 같이 보기. “CTR 0.3%p 상승”이 우리 퍼널에서 실제로 유료전환까지 얼마나 전달되는지(다운퍼널 전이)를 계산하면, ‘의미 있는 A/B’만 남고 잡음 실험은 빠르게 걸러집니다.
여기서 “와 이거다!” 싶은 즉시 실행 소재가 하나 있습니다. dev.to의 「Screenshot API로 OG/Twitter Card 이미지 자동화」(mackmoneymaker)처럼, 링크 미리보기(og:image)를 HTML 템플릿으로 자동 생성하는 거예요. 이거 바이럴 될 것 같은데? Slack/Discord/LinkedIn/Twitter로 공유되는 순간, 썸네일은 클릭을 좌우합니다. 그런데 대부분은 기본 이미지거나, 수작업으로 만들어서 금방 낡죠. 자동화하면 ‘페이지/캠페인/세그먼트별’로 썸네일을 무한히 찍어낼 수 있고, 실험 속도는 미친 듯이 빨라집니다.
중요한 건, 이 실험이 ‘의미 있는 A/B’가 되기 쉽다는 점입니다. OG 이미지 실험은 개발 비용이 낮고(HTML/CSS 템플릿 + 렌더링 API + 캐싱), 지표가 상단 퍼널(CTR)이라 샘플이 빨리 쌓이며, 성과가 곧바로 획득(CAC)으로 연결됩니다. 예를 들어 (A) 기본 썸네일 vs (B) 제목+혜택+로고 포함, (C) 소셜 증거(숫자/후기) 포함 같은 변형을 돌리고, 단순 p<0.05가 아니라 “CTR 15% 상대 상승이 실제 가입 CVR까지 유지되는가?”를 보죠. 유저가 여기서 이탈할 것 같은데… 라는 구간(소셜 → 랜딩 → 가입)별 전이를 같이 보면, ‘클릭만 올리는 낚시’도 걸러낼 수 있습니다.
전망은 명확합니다. 앞으로 A/B는 더 많이, 더 쉽게, 더 자동으로 돌아갈 겁니다(생성형 디자인/템플릿/자동 렌더링 덕분에). 그래서 더더욱 “유의성 인플레이션”이 옵니다. 트래픽이 커질수록 p-value는 가벼워지고, 팀은 작은 승리에 취하기 쉬워져요. 살아남는 그로스 팀은 반대로 갑니다. 효과 크기 중심으로 우선순위를 정하고, OG 이미지 같은 저비용 실험으로 빠르게 학습하고, 임팩트가 검증된 것만 제품/마케팅 시스템에 ‘고정 자산’으로 편입합니다. 결론: 유의미한 A/B만 합시다. p-value가 아니라, 성장 그래프가 움직이게.