브라우저 음성 퍼널: 전사(ASR)를 로컬로 옮기면 무료→유료 전환이 가벼워진다

서버로 음성을 보내 전사하는 순간, 퍼널에 ‘숨은 결제 버튼’이 생깁니다. API 호출 비용이 COGS로 누적되고, 개인 대화/회의 음성이 외부로 나간다는 불안이 무료 체험 단계의 이탈을 키우죠. 이 마찰을 제거하는 가장 직선적인 방법이 브라우저에서 음성 전사를 끝내는 것입니다.

dev.to의 사례는 WebGPU/WebAssembly 기반 브라우저 AI가 어디까지 왔는지 보여줍니다. Whisper는 정확하지만 브라우저 탭 프리즈·GPU 의존·긴 처리시간으로 UX를 망치기 쉽습니다. 반면 NVIDIA Parakeet v3를 parakeet.js로 붙인 로컬 전사 파이프라인은 CPU에서도 속도가 나오고, 모바일에서도 메모리 풋프린트가 작아 “업로드 없이 바로 전사”를 현실로 만듭니다(출처: dev.to ‘Client side audio transcription…’).

그로스 관점에서 핵심은 기술 우열이 아니라 퍼널 비용과 신뢰의 재설계입니다. (1) 서버 전사 COGS가 0에 가까워지면 무료 티어 제한(분 수/파일 크기)을 줄일 수 있어 ‘체험 가치’가 커지고, (2) “파일이 기기를 떠나지 않는다”는 메시지는 온보딩에서 즉시 신뢰 신호가 됩니다. 즉 무료 체험→활성화 구간의 대표 마찰(업로드 대기, 개인정보 걱정, 사용량 제한)을 한 번에 낮춥니다.

여기에 스케일 포인트가 하나 더 있습니다. 로컬 전사는 첫 방문에 모델 다운로드가 필요하고, 긴 오디오에서 메모리 관리가 병목이 됩니다. dev.to 사례처럼 Cache API로 가중치를 캐싱해 2회차부터 즉시 사용하게 만들고, 오디오 버퍼/GC를 고려한 청크 처리로 탭 크래시를 방지하면 D1 리텐션 방어선이 생깁니다. 즉 “기술 구현”이 아니라 재방문 속도가 곧 리텐션 실험의 바닥 공사입니다.

시사점은 ‘전사’에서 끝나지 않습니다. 구글이 공개한 Gemini 3.1 Flash TTS는 오디오 태그로 톤/속도/감정을 지시하고, 다중 화자 대화를 한 번에 생성하는 쪽으로 TTS를 끌어올렸습니다(출처: AI타임스). 이건 제품팀에 새로운 채널을 줍니다. 텍스트 푸시/이메일 대신 음성 온보딩, 음성 리마인드, 개인화된 음성 요약이 가능해지고, 특히 다중 화자·연출(Director Mode)은 튜토리얼/가이드 콘텐츠를 ‘듣는 UX’로 바꿔 이탈 구간을 재공략할 수 있습니다.

실행 로드맵은 명확합니다. 1) 전사를 로컬로 옮겨 COGS 절감=무료 체험 확장(제한 완화) 2) 온보딩에서 “업로드 없음”을 전면에 배치해 Activation Rate를 올림 3) TTS를 붙여 핵심 행동(예: 회의록 공유, 하이라이트 생성)을 음성으로 안내/리마인드하며 D7 리텐션을 실험. 이때 트래킹은 최소한으로도 됩니다: model_download_success, first_transcription_latency, transcription_complete, share_export_srt, return_visit_cache_hit, tts_play 같은 이벤트만 잡아도 병목이 보입니다.

전망은 ‘로컬 퍼널’의 확장입니다. 브라우저 표준과 디바이스 성능이 좋아질수록, 음성 전사/요약/편집의 기본값이 서버가 아니라 클라이언트로 이동할 가능성이 큽니다. 결국 승부처는 모델이 아니라 퍼널 설계입니다. 로컬 전사로 신뢰와 비용을 확보하고, 고품질 TTS로 신규 인터랙션 면(듣는 온보딩·리인게이지먼트)을 열면, 음성은 기능이 아니라 전환율을 당기는 성장 레버가 됩니다.