에이전트 신뢰가 그로스다: Promptfoo 인수가 말해주는 것

AI 에이전트 제품에서 그로스가 막히는 지점은 의외로 모델 성능이 아니라 ‘신뢰 붕괴’다. 한 번의 탈옥, 한 번의 데이터 유출, 한 번의 애매한 실패가 온보딩의 기대를 공포로 바꾸고, PoC는 본계약으로 못 넘어간다. 그래서 OpenAI가 보안/테스트 스타트업 Promptfoo를 인수한 뉴스(출처: AI넷)는 단순 M&A가 아니라, 엔터프라이즈 확장의 병목이 어디인지 드러낸 신호다.

맥락을 그로스 언어로 번역하면 더 선명하다. 에이전트는 이제 “답변”이 아니라 “행동”을 한다. 내부 데이터와 워크플로우, 외부 API까지 붙는 순간 신뢰는 UX가 아니라 리스크 관리가 된다. Promptfoo가 하려는 일은 배포 전후에 프롬프트 인젝션, 정책 위반, 데이터 유출 같은 실패를 테스트/감지하고, 그 기록을 남겨 책임 소재를 만들게 하는 것—즉 신뢰성을 ‘측정 가능하게’ 만드는 일이다. dev.to의 실전 회고가 말하듯, 유저가 매일 의존하는 AI는 결국 guardrails와 observability가 제품의 일부가 된다.

여기서 중요한 포인트: 신뢰 레이어는 보안팀만의 비용이 아니라 퍼널 레버다. (1) Activation: 첫 7일 안에 “이거 써도 된다”는 확신이 들면 툴 연결/권한 부여/워크플로우 등록 같은 고마찰 액션을 유저가 완료한다. 반대로 실패가 숨겨져 있거나 원인을 설명 못 하면 재시도 대신 이탈한다. (2) Retention: 에이전트의 실패는 일반 SaaS 버그보다 감정 비용이 커서 D7/D30을 직접 깎는다. (3) Monetization: 엔터프라이즈는 ‘기능’보다 ‘감사 가능성(로그/추적) + 통제(권한/정책) + 준수’에 예산을 배정한다. 이 레이어가 갖춰지면 세일즈 사이클이 짧아지고 CAC가 내려가며, 다년 계약으로 LTV가 올라간다.

보안은 특히 “프롬프트 인젝션 + 크리덴셜”에서 돈을 태운다. dev.to의 공격 시나리오처럼 에이전트가 외부 문서를 읽는 순간 숨은 지시로 키 탈취/유출이 가능해진다. 해결책은 ‘비밀을 잘 저장’이 아니라, 애초에 에이전트 실행 컨텍스트에 크리덴셜이 들어오지 않게 하고(제로-노출), 호출 도메인을 allowlist로 묶으며, 응답에서 민감정보를 리댁션하는 구조적 방어다. 즉 보안은 설정값이 아니라 아키텍처다.

시사점은 실행으로 떨어져야 한다. AI 에이전트 팀이라면 다음을 “그로스 실험 항목”으로 당장 트래킹하라. ① 신뢰 지표: tool-call 성공률, fallback 빈도, 정책 위반/차단 건수, 재실행률, 유저 수정(override) 비율을 이벤트로 잡고 코호트로 본다. ② 가드레일 설계: 민감 액션은 confidence threshold + human-in-the-loop를 기본값으로, 실패 시 ‘안전한 실패’ UX(왜 멈췄는지/다음 액션)를 제공한다. ③ 크리덴셜/권한: 최소권한(least privilege), 도메인 allowlist, 키 비노출 프록시 등으로 “유출 가능성” 자체를 퍼널 밖으로 밀어낸다. ④ 거버넌스 패키징: 로그/감사/정책 템플릿을 온보딩 초기에 노출해 보안/IT 승인 시간을 줄인다.

전망은 명확하다. OpenAI가 Promptfoo를 ‘OpenAI Frontier’ 같은 에이전트 플랫폼에 통합하려는 방향은, 신뢰/보안/거버넌스를 플랫폼 기본값으로 만들어 엔터프라이즈 확장을 표준화하겠다는 뜻이다(AI넷 보도). 앞으로 에이전트 시장의 경쟁은 “누가 더 똑똑한가”에서 “누가 더 안전하게, 더 관측 가능하게, 더 빨리 승인받게 하는가”로 이동한다. 그로스 관점에서 결론은 하나: 신뢰 인프라에 투자하지 않는 팀은 기능을 추가할수록 CAC가 오르고 리텐션이 떨어진다. 신뢰는 브랜드가 아니라 시스템에서 나오고, 시스템은 결국 성장의 속도를 결정한다.