AI 에이전트가 이제 ‘데모’가 아니라 실제 워크플로우로 들어왔습니다. 이 순간부터 UX의 병목은 예쁜 UI가 아니라 속도(지연), 비용(토큰), 안전(프롬프트 인젝션) 3가지예요. 유저는 답이 늦으면 이탈하고, 과금이 튀면 팀이 멈추고, 한 번 털리면 브랜드 신뢰가 증발합니다. 전환율/리텐션/CAC가 기술 지표에 직결되는 국면, 와 이거다 싶습니다.
속도 쪽에선 geeknews가 소개한 Inception Labs의 Mercury 2가 상징적입니다. 자동회귀(한 토큰씩) 대신 diffusion 기반 병렬 정제로 5배+ 빠르고, 블랙웰 GPU에서 1,009 tok/s, p95 지연을 강조합니다. 더 중요한 포인트는 “OpenAI API 호환이라 인프라 수정 없이 교체 가능”이라는 점. 즉, 속도 개선이 곧바로 실험 가능(rollout 가능) 하다는 뜻입니다. 빨리 테스트해봐야 돼요.
맥락을 그로스 관점으로 해석하면 이렇게 바뀝니다. 에이전트는 보통 단발 채팅이 아니라 루프(계획→도구호출→검증→수정) 로 돈/시간을 씁니다. 여기서 지연은 누적되고, 지연 누적은 곧 완료율(Task completion rate) 하락으로 이어져요. Hacker News에서 나온 말처럼 “속도 자체가 품질의 한 축(Intelligence per second)”이 되는 이유가 이겁니다. 같은 정확도라도 더 빨리 반복하면, 유저가 체감하는 ‘똑똑함’이 올라갑니다.
비용은 dev.to의 Claude Code 워크플로우 글이 현실을 잘 보여줍니다. 핵심은 두 가지: 모델 스위칭(업/다운시프트) 과 캐시 히트율. 출력 토큰이 비싸고(대개 입력보다 3~5배), 캐시 리드는 훨씬 싸니(약 90% 할인) 습관만 바꿔도 40~60% 절감이 나옵니다. 이건 단순히 클라우드 비용 절감이 아니라, 곧바로 CAC를 낮추는 레버예요. “세일즈가 파일럿을 더 많이 깔아도 되는” 단가가 되거든요.
안전은 더 직접적입니다. dev.to의 프롬프트 인젝션 가이드는 Anthropic 시스템 카드 사례를 인용하면서, 컴퓨터 사용 환경에서 원샷 8% 성공, 무제한 시도 시 50%까지 올라간다고 지적합니다(코딩 환경은 0%로 대비). 결론이 날카로워요: 이건 모델 성능이 아니라 아키텍처 문제. 도구 접근 + 비신뢰 입력 + 민감 권한(‘lethal trifecta’)이 겹치면, 한 번의 인젝션이 결제/데이터/계정까지 뚫습니다. 전환율을 올리려다 사고 나면 LTV가 아니라 회사가 날아가요.
그럼 ‘에이전트 UX 성능지표’를 어떻게 설계할까요? 저는 3축을 한 대시보드로 묶습니다. (1) Latency KPI: TTFT, p95 완료시간, 루프당 평균 대기시간. (2) Token KPI: 작업당 총토큰, 출력/입력 비율, 캐시 히트율, 모델별 비용 기여도. (3) Safety KPI: 차단된 위험 행동 비율, 툴 호출 전 휴먼 승인율, 비신뢰 입력 출처 비중, 인젝션 의심 탐지율. 여기서 중요한 건 “모델 벤치마크”가 아니라 “퍼널 벤치마크”로 연결하는 겁니다: - Onboarding 첫 작업 완료율이 속도 개선으로 얼마나 오르나? - 무료→유료 전환 직전 구간에서 토큰 비용이 마찰이 되나? - 안전 게이팅이 과도해 완료율을 떨어뜨리나?
실험은 작게, 하지만 빠르게 갑니다. 예를 들어 Mercury 2 같은 고속 모델을 에이전트 루프의 ‘초안/수정’ 단계에만 투입하고, 최종 검증은 더 정확한 모델로 라우팅합니다(멀티모델 오케스트레이션). 동시에 Claude Code 글의 방식처럼 세션을 길게 가져가 캐시를 살리고, 출력 토큰이 폭발하는 구간(장황한 설명/중복 로그)을 UI 레벨에서 압축합니다. 마지막으로 인젝션 방어는 “학습으로 해결”이 아니라 권한 경계·액션 게이팅·입력 정화·출력 모니터링·폭발반경 격리의 계층형으로 설계합니다(출처: dev.to 가이드).
전망은 명확합니다. 에이전트가 메인스트림으로 갈수록, 경쟁은 ‘누가 더 똑똑한가’에서 ‘누가 더 빨리, 더 싸게, 더 안전하게 일을 끝내게 하느냐’로 이동합니다. 그리고 이 3가지는 하나의 그로스 레버로 연결됩니다. 속도가 올라가면 완료율이 올라가고, 비용이 내려가면 더 많은 사용 케이스를 열고, 안전이 확보되면 더 높은 권한(더 높은 가치)을 맡길 수 있습니다. 이거 바이럴 될 것 같은데? 결국 팀들이 공유하게 될 베스트 프랙티스는 “모델 스펙”이 아니라 “에이전트 UX KPI + 실험 루프”가 될 겁니다.