에이전트 SaaS, 모델보다 ‘비용×해결률’에서 승부 난다

에이전트 SaaS의 착각은 간단합니다. “더 좋은 모델이면 해결된다.” 하지만 B2B 운영 현장에선 모델 성능이 아니라 COGS(토큰·툴 호출 비용)와 해결률(문제를 끝까지 닫는 비율)이 AARRR 퍼널 전체를 결정합니다. 데모에서 똑똑해 보이는 에이전트가, 프로덕션에선 비싸게 떠들기만 하면 전환은 깨지고 리텐션은 무너집니다.

인터콤은 이 병목을 정면으로 찔렀습니다. 고객지원 특화 모델 Fin Apex 1.0로 “범용 프런티어 모델보다 낫다”를 주장한 포인트는 벤치마크 점수가 아니라 해결률 73.1%였습니다(aitimes 보도). 2%p 차이는 작아 보이지만, 주당 200만 건 문의를 처리하는 규모에선 곧바로 미해결 티켓, 인력 백업, 재문의율로 증폭됩니다. 게다가 비용을 기존 대비 1/5로 낮췄다는 건, 에이전트가 ‘기능’에서 ‘마진 구조’로 올라왔다는 신호입니다.

핵심은 도메인 특화와 사후 학습(RL)입니다. CS에서 중요한 건 정답 문장이 아니라 맥락 유지→정책 준수→감정 케어→클로징까지의 “업무 완결”인데, 인터콤은 수십억 건 응대 데이터와 결과 피드백을 학습 루프로 묶어 해결률을 밀어 올렸습니다. 결국 에이전트 SaaS의 경쟁력은 모델 선택이 아니라 해결률을 정의·계측·학습시키는 운영 체계로 귀결됩니다.

반면 그래놀라는 출발점이 달랐습니다. ‘회의록’은 쉽게 레드오션이 됩니다. 그래서 그래놀라는 회의 기록을 행동하는 에이전트로 확장합니다—후속 이메일 작성, 일정 조율, CRM 업데이트 같은 “회의 이후의 실행”을 자동화하겠다는 전략이죠(aitimes 보도). 이 방향이 중요한 이유는, 기능 추가가 아니라 퍼널 레버가 바뀌기 때문입니다. 회의록은 습관형 사용(리텐션)엔 강하지만, 예산을 여는 순간엔 “업무 성과” 증명이 필요합니다. 실행 에이전트는 그 증거를 만들 수 있습니다.

AARRR로 쪼개면, 두 사례는 실행 체크리스트를 줍니다. Acquisition: 그래놀라처럼 개인이 먼저 쓰고 팀으로 번지는 바텀업은 CAC를 구조적으로 낮춥니다. 여기서 레퍼럴은 “초대”가 아니라 공유 가능한 산출물(노트/액션아이템/티켓)입니다. Activation: 첫 10분 내 ‘와우’는 요약이 아니라 1개의 액션이 실제로 실행되는 경험입니다(메일 발송/티켓 생성/CRM 필드 업데이트). Retention: 해결률이 곧 리텐션입니다. 답변 만족이 아니라 “해결 완료”가 반복돼야 재사용이 생깁니다. Revenue: 인터콤이 보여준 1/5 비용 구조는 곧바로 가격 실험 자유도를 만듭니다(좌석당 과금 vs 해결 건당 과금 vs 성과 기반). Referral: 해결된 티켓/정리된 의사결정/자동화된 후속조치가 팀 내 전파를 유도합니다.

다만 비용은 ‘관리’가 아니라 ‘시스템’ 문제입니다. dev.to가 인용한 논지처럼, 에이전트가 대규모로 돌아가면 스프레드시트·쿼터 같은 인간 프로세스는 스케일하지 않습니다. 즉, 성장 단계에서 필요한 건 “아껴 써라”가 아니라 라우팅(저비용 모델로 기본 처리), 예산 하드리밋, 호출 단위 비용 계측, 캐싱, 정책 기반 게이트웨이 같은 인프라 레이어입니다. 비용이 통제되지 않으면, 해결률을 높일수록 손익이 악화되는 역설에 빠집니다.

전망은 분명합니다. 에이전트 SaaS는 곧 (1) 도메인 특화 모델/사후학습으로 해결률을 끌어올리는 진영과 (2) 데이터가 쌓이는 워크플로우를 장악해 ‘기록→실행’으로 확장하는 진영으로 양분될 겁니다. 승자는 “가장 똑똑한 에이전트”가 아니라, 가장 싸게(낮은 COGS) 가장 자주(높은 리텐션) 가장 끝까지(높은 해결률) 일을 닫는 제품입니다. 지금 당장 할 일은 하나입니다: 우리 에이전트의 North Star를 ‘정확도’가 아니라 해결률과 해결당 비용(Cost per Resolved Case)으로 바꾸고, 그 지표가 퍼널을 어떻게 움직이는지 실험 루프를 거는 것.

에이전트 SaaS, 모델보다 ‘비용×해결률’에서 승부 난다

출처