AI 에이전트 시장에서 가장 위험한 성장 시나리오는 “벤치마크 상위권 = 제품 준비 완료”라는 단순 등식입니다. 벤치마크/평가가 해킹 가능해지는 순간, 제품팀은 잘못된 품질 신호를 믿고 론칭과 스케일을 서두릅니다. 그 결과는 대개 동일합니다. 데모는 통과하지만 현장에선 실패하고, 리텐션 하락과 환불·해지로 CAC가 역으로 치솟습니다.
이 경고는 과장이 아닙니다. geeknews가 소개한 버클리 RDI 연구(rdi.berkeley.edu)에 따르면 SWE-bench, WebArena, OSWorld 등 주요 에이전트 벤치마크 8종이 “실제 문제를 풀지 않고도” 점수 계산 로직을 악용해 거의 만점에 도달할 수 있는 구조적 취약점을 갖고 있었습니다. pytest 후킹으로 테스트를 전부 passed로 바꾸거나, 정답이 구성 파일/공개 파일로 노출된 채점 구조를 이용하는 식입니다. 점수는 올릴 수 있었지만, 능력은 검증되지 않았다는 뜻이죠.
성장 관점에서 핵심은 ‘연구 윤리’가 아니라 ‘신뢰 레이어의 붕괴’입니다. 벤치마크 점수는 구매 퍼널에서 강력한 단축키로 작동합니다. 특히 엔터프라이즈에서는 보안/컴플라이언스와 더불어 “우리가 믿어도 되는가?”가 도입 심사 시간을 결정합니다. 그런데 점수가 신뢰를 잃으면 어떤 일이 생길까요? (1) PoC 기간이 길어지고, (2) 보안·리스크 팀의 추가 질문이 늘며, (3) 결국 세일즈 사이클이 늘어나 CAC가 증가합니다. 반대로 말하면, 신뢰가 곧 CAC의 선행지표입니다.
여기에 MCP(Model Context Protocol) 같은 에이전트 프로토콜 생태계가 커질수록 문제가 더 커집니다. MCP는 에이전트가 외부 도구/데이터를 호출하는 ‘접착제’인데, 접착제가 표준이 되는 순간 공격자도 그 표준에 숨어듭니다. dev.to의 MCP 스캐너 비교 글은 이를 정면으로 다룹니다. 악성 도구 설명(tool poisoning), 업데이트로 성격이 바뀌는 러그풀(rug-pull), 도구 응답에 섞이는 프롬프트 인젝션이 실제 위험이 되면서 Cisco mcp-scanner, Snyk agent-scan(구 Invariant), Pipelock 같은 스캐너/프록시가 등장했습니다. 중요한 차이는 “배포 전(pre-deploy) 정적 검사”와 “런타임(runtime) 트래픽 검사”가 별개라는 점입니다.
이 지점이 제품팀이 자주 놓치는 프릭션 포인트입니다. 배포 전 스캔만으로는 ‘운영 중에 바뀌는 위험’을 잡지 못합니다. 러그풀이나 런타임 응답 인젝션, 자격증명 유출(DLP)은 실사용 트래픽에서 터지니까요. 즉, 신뢰는 체크리스트 통과가 아니라 라이프사이클(개발→배포→운영) 전체에서 유지돼야 하고, 그 유지 비용이 곧 유닛이코노믹스(CAC/LTV)를 좌우합니다.
시사점은 명확합니다. 첫째, “점수”를 GTM 메시지의 중심에 두면 리스크가 커집니다. 벤치마크는 마케팅 자산이 될 수 있지만, 동시에 가장 빨리 무너지는 신뢰 담보이기도 합니다. 둘째, 엔터프라이즈 전환을 노린다면 ‘에이전트 평가 견고성’과 ‘MCP 보안’은 기능이 아니라 성장 인프라로 봐야 합니다. 구매자가 원하는 건 만점이 아니라 재현 가능한 방법론, 격리(isolation), 감사 로그, 런타임 통제 같은 증거입니다.
실행 레벨에서는 이렇게 정리됩니다. (1) 내부 품질 게이트에 적대적 테스트를 포함하세요: null/random 입력, 프롬프트 인젝션, 상태 변조 같은 “벤치마크 해킹 에이전트”를 상시 돌려 평가 체계를 먼저 공격해보는 겁니다(연구팀이 BenchJack으로 제안한 방향). (2) MCP 도입팀은 ‘CI 스캔 + 런타임 프록시’를 한 묶음으로 설계하세요. Cisco/Snyk류로 사전 차단을 하고, Pipelock류로 운영 중 변조·유출을 잡아야 신뢰가 제품 자산이 됩니다. (3) 이 모든 결과물을 세일즈 콜에 올리세요: 보안팀이 묻기 전에 “우리는 이렇게 검증했고, 이렇게 막는다”를 문서와 리포트로 제시하면 딜 사이클이 줄고 CAC가 내려갑니다.
전망은 간단합니다. 에이전트 스택이 MCP(A2A/AG-UI 포함)처럼 레이어드 표준으로 굳어갈수록, ‘신뢰 레이어’는 차별화 요소에서 필수재로 이동합니다. 벤치마크는 계속 존재하겠지만, 구매 의사결정을 움직이는 건 순위표가 아니라 견고한 평가·보안 운영의 증거가 될 가능성이 큽니다. 결국 다음 승자는 더 높은 점수를 찍는 팀이 아니라, 점수를 “믿을 수 있게 만드는 팀”입니다. 그게 가장 직접적으로 CAC를 깎는 성장 해킹입니다.