AI 에이전트 제품에서 ‘속도(지연시간)’와 ‘비용(토큰/인프라)’은 성능 지표가 아니라 그로스 지표입니다. 유저는 기다리는 순간 이탈하고, 우리는 느린 체인과 비싼 라우팅 때문에 CAC(운영비)가 새어 나갑니다. 그래서 요즘 제일 “와 이거다!” 싶은 주제는 에이전트 속도·비용 최적화 자체를 성장 실험으로 운영하는 겁니다.
먼저 속도. TokenPost/ PANews 보도에 따르면 OpenAI가 Responses API에 WebSocket 모드를 도입했고, 도구 호출이 20회 이상인 긴 체인 작업에서 실행 속도를 최대 40% 단축할 수 있다고 합니다. 핵심은 매 호출마다 HTTP로 왕복하는 대신 연결을 유지하고 증분 입력을 흘려보내면서, 체인이 길수록 누적 오버헤드를 깎는 구조예요. 게다가 ZDR(Zero Data Retention) 호환, previous_response_id 기반 저지연 컨텍스트 재연결, 단일 연결 최대 60분 같은 운영 포인트도 명시됐습니다.
이게 왜 그로스냐면, 에이전트 UX에서 “생각 중…”은 곧 퍼널의 friction입니다. 온보딩에서 첫 성공(aha moment)까지 30초가 18초가 되면, D1 전환이 오릅니다. 멀티스텝(검색→정리→작성→툴 실행) 워크플로우는 단계가 늘수록 지연이 복리로 쌓이는데, WebSocket은 그 복리를 역으로 줄여줍니다. “Conversion rate가 얼마나 오를까요?” 정답은 제품마다 다르지만, 최소한 체인이 길수록 체감 개선이 커져서 ‘고급 기능’일수록 전환 개선폭이 커질 가능성이 큽니다.
다음은 비용. dev.to의 Bifrost 글들은 한 문장으로 요약하면 “게이트웨이를 깔면 비용 최적화가 기능이 아니라 스위치가 된다”입니다. Bifrost는 vLLM/Ollama 같은 셀프호스트 모델과 OpenAI/Anthropic 같은 클라우드를 단일 OpenAI-compatible 인터페이스로 라우팅하고, 로드밸런싱·페일오버·(의미 기반)캐싱·거버넌스를 제공합니다. 특히 다른 글(‘OpenRouter 대안’)에서는 라우터 계층에서 생기는 지연 오버헤드(수십 ms) 와 마크업 비용(예: 5%) 같은 ‘숨은 세금’이 멀티스텝 에이전트에서 크게 불어난다고 지적하죠. 유저 입장에선 느려지고, 우리 입장에선 ARPU가 늘어도 마진이 줄어듭니다. “CAC가 너무 높아요”라는 말이 결국 여기서 나옵니다.
관측성은 더 직결됩니다. 또 다른 dev.to 글의 bifrost-monitor는 LangSmith/Helicone처럼 프록시나 외부 SaaS에 의존하지 않고, 파이썬 데코레이터 한 줄로 호출 시간·토큰·비용·에러를 로컬 SQLite에 기록합니다. 이게 왜 중요하냐면, 비용 절감은 ‘아껴야지’로는 안 되고 측정이 되는 순간 바로 실험 루프가 열리기 때문이에요. 캐시 토큰(읽기/생성)을 분리 추적해 “우리가 진짜로 절감하고 있나?”를 숫자로 확인할 수 있으면, 프롬프트 캐싱/모델 라우팅/리트라이 정책 같은 최적화가 곧바로 그로스 백로그가 됩니다. 빨리 테스트해봐야 돼요.
실행형 시사점은 간단합니다. (1) WebSocket으로 ‘체인 실행’의 기본 지연을 깎고, (2) AI 게이트웨이로 ‘모델/인프라 비용’을 라우팅하며, (3) 관측성으로 ‘속도·비용·품질’을 하나의 퍼널 지표로 묶는 것. 예를 들어: 무료 플랜은 셀프호스트/경량 모델로, 유료 플랜은 고성능 클라우드로 라우팅(게이트웨이 가상 키/버짓)하고, 체인 중간 단계는 WebSocket으로 스트리밍 처리해서 “기다림”을 분해합니다. 그 다음 실험은 AARRR로 설계하면 됩니다: Activation은 첫 결과까지의 시간(TTFR), Retention은 작업 완료율/재방문, Revenue는 단계별 모델 업그레이드(프리미엄 라우팅) 전환율로요.
전망은 명확합니다. 에이전트가 복잡해질수록(도구 호출↑, 체인 길이↑) 지연과 비용은 선형이 아니라 누적으로 커집니다. 그래서 WebSocket 같은 전송/세션 레벨 개선과, Bifrost류 게이트웨이·모니터링처럼 운영 레이어를 합친 ‘스택 단위 최적화’가 표준이 될 가능성이 큽니다. 제품팀 관점에서는 이제 “모델 성능”만 경쟁력이 아니고, 에이전트가 빨리 끝나고 싸게 돌아가서 더 자주 쓰이게 만드는 것이 해자가 됩니다. 이거 바이럴 될 것 같은데? 빠른 결과는 공유를 만들고, 낮은 비용은 무료체험을 늘리고, 둘 다 결국 성장으로 연결됩니다.