실시간 음성 AI는 이제 “데모용 신기술”이 아니라, 성장 지표를 직접 흔드는 채널입니다. AITimes에 따르면 오픈AI가 ‘gpt-realtime-1.5’를 Realtime API로 공개했고, 초기 사용자 반응은 “차원이 다르다”에 가깝습니다. 중요한 건 모델 스펙보다도, 이게 전화/음성이라는 신규 획득 채널을 실무 레벨로 열었다는 점이에요. 여기서 CAC가 내려갈 냄새가 납니다.
맥락을 뜯어보면 핵심은 지연 시간과 안정성입니다. gpt-realtime-1.5는 STT→LLM→TTS로 이어지는 다단계 파이프라인 대신 음성을 바로 이해·생성하는 통합 구조를 강조합니다(출처: AITimes). 응답이 빨라지면 통화 초반의 어색함이 줄고, “인사하다 끊김” 같은 퍼널 손실이 눈에 띄게 감소합니다. 젠스파크의 알파 테스트에서 ‘인간 연결률’이 43.7%→66%로 상승했고, 대화 완료율도 33%→38%로 올랐다는 수치는(출처: AITimes) 상단 퍼널(연결)과 하단 퍼널(완료)이 동시에 개선되는 시그널입니다.
그로스 관점에서 이건 ‘콜(voice)’을 퍼포먼스 채널처럼 다룰 수 있다는 의미입니다. 예를 들어 로컬 비즈니스(병원·학원·식당·렌터카)나 B2B 리드(견적/데모)처럼 고의도 플로우는, 웹 폼보다 전화가 전환율이 높지만 인건비가 병목이었죠. 실시간 음성 에이전트가 그 병목을 풀면 콜 기반 랜딩(“지금 전화로 30초 견적”) 같은 신규 CTA가 생깁니다. “이거 바이럴 될 것 같은데?” 포인트도 있어요. 전화는 링크 공유가 아니라도, 고객이 ‘그 번호’를 저장하고 재통화하게 만드는 습관 채널이라 D7/D30 리텐션에 직격탄을 날릴 수 있습니다.
다만 모델 업그레이드만 믿고 가면 금방 벽을 만납니다. dev.to 글이 정확히 찌르는데, “AI가 멍청하다”의 80%는 모델 문제가 아니라 컨텍스트 문제라는 주장입니다. AGENTS.md 같은 컨텍스트 문서를 30~40줄만 잘 써도 결과가 ‘밤과 낮’으로 달라진다고 하죠(출처: dev.to). 이걸 음성 에이전트에 적용하면 효과는 더 큽니다. 통화는 텍스트보다 실수 비용(오예약, 오안내, CS 폭증)이 크니까요.
그래서 추천 조합은 명확합니다: Realtime API로 ‘전화 전환율’을 올리고, AGENTS.md로 ‘운영 비용’을 낮추는 2단 레버. AGENTS.md에는 최소한 이것만 넣어도 바로 실험 가능합니다. ① 우리 서비스 톤&매너(금지어 포함) ② 예약/환불/가격 정책 ③ 도구 호출 규칙(캘린더, CRM, 결제 링크 발송) ④ 실패 시 핸드오프 기준(사람 연결 조건) ⑤ 자주 터지는 예외(영업시간, 주소, 주차). 컨텍스트가 정리되면 hallucination이 줄고, 문제 발생률이 내려가며(젠스파크는 4.2%→2.1%, 출처: AITimes) CS 티켓과 리워크 비용이 같이 줄 여지가 큽니다.
바로 실행할 실험 설계도 단순합니다. AARRR로 보면 Acquisition은 ‘콜 유도’ 소재 테스트, Activation은 ‘첫 15초 인사→의도 파악’ 스크립트 최적화, Revenue는 ‘예약 확정/결제 링크 발송’까지 도달률로 잡으면 됩니다. 지표는 이렇게 잡아봅시다: (1) human connection rate (2) 대화 완료율 (3) 예약/견적 전환율 (4) 핸드오프 비율 (5) 통화당 비용 대비 매출(LTV 추정). “빨리 테스트해봐야 돼!” 단계에서는 2주만 돌려도 방향이 나옵니다.
전망은 더 공격적입니다. 협업툴 ‘플로우’가 단순 답변을 넘어 ‘워크플로우 단위’로 프로젝트를 설계하는 에이전트를 내놓은 것처럼(출처: 더퍼스트미디어/구글뉴스), 시장은 “말 잘하는 AI”에서 “일을 끝내는 에이전트”로 이동 중입니다. 실시간 음성은 그중에서도 가장 강력한 배포 채널이에요. 화면을 안 열어도 되고, 교육이 필요 없고, 고객이 이미 익숙한 UX(전화)니까요. 다음 승부처는 결국 하나입니다: 전화라는 신규 채널로 CAC를 얼마나 깎고, 고의도 플로우에서 Conversion rate를 얼마나 올릴 수 있느냐. 그리고 그 품질을 AGENTS.md 같은 컨텍스트 자산으로 얼마나 빠르게 스케일하느냐. 여기서 이기는 팀이, ‘음성 에이전트=성장 엔진’을 먼저 가져갑니다.