AI 에이전트가 “답변”에서 “대신 클릭하고 저장하고 보고서까지 뽑는” 단계로 넘어오면서, 차별점은 더 이상 모델 IQ가 아니게 됐습니다. 이제 승부는 실행 UX—즉 툴 연결, 자동화 안정성, 권한/감사 설계에서 납니다. 이거 제대로 잡히면 D1 Activation이 튀고, 자동화가 습관이 되면서 D7/D30 리텐션이 올라가요. 결국 CAC 대비 LTV가 커지는, 가장 그로스다운 레버입니다.
맥락은 명확합니다. dev.to의 CUP(Computer Use Protocol) 글은 “에이전트가 화면을 이해하고 조작하려면, OS마다 다른 접근성 API/UI 표현을 매번 glue code로 붙여야 한다”는 파편화 문제를 정면으로 때립니다. Windows UIA, macOS AX, Linux AT-SPI, Web ARIA, Android/iOS까지 ‘UI를 설명하는 언어’가 다 달라서 크로스플랫폼 실행이 곧 유지보수 지옥이죠. CUP는 이를 59개 역할(role)·상태(state)·액션(action)으로 정규화해, 어떤 OS든 동일한 스냅샷/행동 호출로 다루게 합니다. 중요한 건 “에이전트가 실제로 실행할 수 있는 제품 표준층”이 생긴다는 점이에요.
여기에 PageBolt 사례가 붙으면 더 흥분 포인트가 나옵니다(역시 dev.to). 브라우저 자동화를 MCP 서버로 ‘툴 콜 한 번’에 제공해, 팀이 Puppeteer 스크립트/헤드리스 풀/운영을 직접 안 해도 됩니다. 즉, 사용자가 체감하는 시간가치(Time-to-Value)가 극단적으로 짧아져요. 스크린샷, PDF, 데모 영상, 플로우 테스트… 이런 작업이 버튼 하나로 되면 “한 번 써보고 끝”이 아니라 “매주 쓰는 루틴”이 됩니다. 리텐션은 기능이 아니라 반복되는 업무 리듬에서 나오거든요.
하지만 실행 UX의 마지막 퍼즐은 보안/권한입니다. Azure Entra Agent ID 글이 찌르는 지점이 딱 그거예요. 에이전트가 사용자 권한을 그대로 위임받으면 과권한 위험이 커지고, 앱 공용 아이덴티티로 돌리면 “누가/어떤 에이전트가” 했는지 감사가 안 됩니다. Entra Agent ID는 에이전트에 ‘독립된 정체성’을 부여해 RBAC를 에이전트 단위로 좁게 걸고, 로그에도 에이전트가 찍히게 합니다. 이게 왜 그로스냐면, B2B에서 보안/감사/권한 설계가 도입 마찰을 확 줄여서 Activation과 세일즈 사이클을 동시에 당기기 때문입니다. 유저가 “권한 설정이 무섭다”에서 이탈하는 구간, 여기서 전환이 터져요.
시사점은 한 문장으로 정리됩니다: “에이전트 리텐션은 실행의 안정성과 통제 가능성에서 나온다.” 여기서 제품팀이 잡아야 할 그로스 포인트는 3가지입니다. (1) 온보딩에서 ‘첫 자동화 성공’까지의 클릭 수를 최소화하기: 스냅샷/액션/권한 연결을 템플릿화하면 Activation이 오릅니다. (2) 자동화를 ‘재실행 가능한 레시피’로 저장시키기: 한 번 성공한 작업을 다음 주에 그대로 다시 돌리게 만들면 D7이 붙습니다. (3) 권한을 역할 기반으로 쪼개고(least privilege), 감사 로그를 UX에 노출하기: 관리자가 안심하면 확장이 됩니다. “이 에이전트는 스크린샷만, 저 에이전트는 배포는 금지” 같은 정책이 가능해지면, 조직 내 확산(바이럴)도 열려요. 이거 바이럴 될 것 같은데? 팀장이 승인만 하면 다른 팀도 바로 복제하니까요.
물론 반대 흐름도 있습니다. GeekNews의 ‘MCP는 죽었다. CLI 만세’ 논쟁처럼, 어떤 환경에선 MCP보다 CLI가 더 디버깅/조합/인증에서 실용적일 수 있어요. 이 논쟁이 주는 힌트는 “프로토콜이 뭐든, 실행 인터페이스는 인간도 이해/재현 가능해야 한다”는 점입니다. 즉, 에이전트 실행 UX는 블랙박스가 되면 리텐션이 꺾입니다. 실패 원인을 사용자가 추적할 수 없으면 반복 사용이 안 되거든요. 그래서 제품은 MCP형 툴링이든 CLI형 툴링이든, (a) 재현 가능한 실행 로그, (b) 단계별 스크린샷/증거, (c) 권한 프롬프트/승인 플로우를 기본값으로 깔아야 합니다.
전망은 꽤 명확합니다. 앞으로 에이전트 제품의 경쟁은 “더 똑똑한 모델”에서 “더 잘 실행하는 운영체계”로 이동합니다. CUP처럼 UI를 표준화해 크로스플랫폼 실행을 낮은 비용으로 스케일하고, PageBolt처럼 브라우저 실행을 서비스화해 Time-to-Value를 단축하고, Entra Agent ID처럼 에이전트 권한을 정체성 단위로 쪼개 안전하게 확장하는 팀이 이깁니다. 결론: 빨리 테스트해봐야 돼요. 다음 스프린트에서 ‘첫 자동화 성공까지 걸리는 시간’과 ‘저장된 레시피 재실행률’을 계측해보면, conversion rate가 얼마나 오를지 감이 바로 옵니다. 실행 UX는 곧 리텐션 엔진입니다.