AI 에이전트가 ‘성장’에 진짜 기여하려면, 똑똑해지는 것보다 먼저 싸게 많이 실행할 수 있어야 합니다. 유저 획득 퍼널에서 가장 돈이 새는 구간은 광고비만이 아니에요. 랜딩/온보딩/결제 같은 핵심 플로우를 “하루에 몇 번이나” 실험하느냐가 CAC를 좌우합니다. 그런데 에이전트가 브라우저를 만지는 순간, 비용이 폭발합니다. dev.to의 Tappi 소개 글이 찌르는 핵심은 한 문장입니다: 브라우저는 토큰 용광로(token furnace)다.
핵심 이슈는 ‘모델 성능’이 아니라 페이지를 LLM이 이해하도록 어떻게 표현하느냐입니다. 글은 3가지 접근을 비교합니다. (1) 스크린샷 기반은 비전 처리에 상호작용 1회당 수천~1만 토큰이 들고, 클릭 좌표를 픽셀로 추정해야 해서 성공률도 흔들립니다. (2) DOM/접근성 트리 덤프는 정보가 너무 많아 페이지 한 장에 1.5만~5만+ 토큰이 쉽게 나가며 컨텍스트를 통째로 태워버립니다. (3) 그리고 “오, 이거다!” 싶은 지점이 컴팩트 엘리먼트 레퍼런스—즉, 클릭/입력 가능한 인터랙티브 요소만 인덱싱해 LLM에 주는 방식입니다.
여기서 Tappi가 주장하는 차별점은 단순히 포맷 예쁘게 만든 수준이 아니라, 구조적으로 ‘행동(action)’과 ‘읽기(read)’를 분리했다는 점입니다(출처: dev.to ‘Tappi is the Most Token-Efficient…’). 먼저 버튼/링크/입력창 같은 ‘할 수 있는 것’만 100~300토큰급으로 던지고, 텍스트가 필요할 때만 별도 호출로 ‘읽을 것’을 가져옵니다. 반면 경쟁 도구 상당수는 접근성 트리처럼 행동+비행동 정보를 한 덩어리로 섞어 보내서, LLM이 매번 “소설 한 권”을 읽게 만듭니다. 이 차이는 곧 페이지 상호작용 단가 차이로 직결됩니다.
그로스 관점에서 이게 왜 중요하냐고요? 토큰은 곧 변동비입니다. 변동비가 내려가면 (1) 에이전트 기반 QA/모니터링을 상시로 돌릴 수 있고, (2) 랜딩/가입/결제 플로우의 회귀(regression)를 빠르게 잡고, (3) A/B 테스트 전 “실험 준비 비용”을 낮춰서 더 자주 더 많이 실험할 수 있습니다. 즉 실험 속도↑ → 퍼널 마찰↓ → 전환율↑ → CAC↓의 레버가 생깁니다. 특히 유료 UA를 태우는 팀일수록, 전환율 0.2~0.5%p만 올라가도 CAC가 눈에 띄게 내려가죠. “빨리 테스트해봐야 돼!”가 가능해지는 인프라가 바로 토큰 효율입니다.
리텐션/수익화도 연결됩니다. 예를 들어 D1 리텐션을 깎아먹는 온보딩 에러(버튼 비활성, 약관 체크박스 누락, 결제창 로딩 실패)를 에이전트가 매시간 실제 브라우저에서 재현·탐지하면, 고객센터 티켓이 터지기 전에 막습니다. 또 가격/패키징 실험에서 중요한 건 ‘기획’이 아니라 실험 안정성인데, 토큰 비용이 낮아야 더 많은 시나리오(국가/디바이스/로그인 상태/쿠폰 적용)를 커버할 수 있습니다. “Conversion rate가 얼마나 오를까요?”라는 질문에 답하려면, 결국 더 많이 측정해야 하니까요.
시사점은 하나 더 있습니다. 에이전트 브라우저 자동화 시장이 커지는 만큼(기사에서는 2034년까지 급성장 전망을 언급), 앞으로는 ‘누가 더 똑똑하게 클릭하느냐’보다 누가 더 싸게, 더 신뢰성 있게, 더 많이 클릭하느냐가 경쟁력입니다. GitHub 스타 수가 높아도, 토큰 단가가 높으면 대규모 운영에서 CAC가 다시 올라갑니다. 반대로 컴팩트 레퍼런스 방식이 표준이 되면, 에이전트는 마케팅 팀의 조수에서 끝나지 않고 퍼널 운영의 자동화 레이어로 자리 잡을 가능성이 큽니다.
전망: 다음 스텝은 ‘토큰 효율’이 ‘정산 효율’과 만나면서 더 빨라질 겁니다. 최근 이더리움 ERC-8004처럼 에이전트가 신원/평판/검증 레지스트리를 갖고 자율 결제를 할 수 있다는 흐름(출처: coinreaders/코인텔레그래프 인용 요약)은, 장기적으로 에이전트가 스스로 툴 사용료를 지불하고 작업을 완료하는 모델을 가속할 수 있어요. 그때 가장 중요한 KPI는 멋진 데모가 아니라, “에이전트 1회 작업이 우리 LTV를 얼마나 올리고 CAC를 얼마나 내리느냐”입니다. 결국 이 게임은 기술이 아니라 유닛 이코노믹스로 판가름 날 겁니다.