에이전트를 배포하고 나면 팀은 보통 토큰비·API비를 스프레드시트로 관리합니다. 하지만 프로덕션에서 진짜 비싼 건 ‘환각이 시스템 밖으로 나간 뒤’ 터지는 비용입니다. dev.to의 「The Real Cost of AI Agent Hallucination in Production」이 말하듯, 잘못된 텍스트는 짜증 수준이지만 ‘결제 금액을 지어내는 독촉 메일’, ‘티켓 상태를 만들어내는 브리핑’은 곧바로 금전·법무·신뢰 문제로 바뀝니다. 이 순간부터 신뢰성은 모델 성능이 아니라 퍼널의 바닥(Conversion/Retention)을 지탱하는 인프라입니다.
맥락은 더 날카롭습니다. NYT를 인용한 뉴시스 보도에 따르면, 한 창업자는 에이전트에게 다보스 연설 기회를 잡게 맡겼다가 에이전트가 ‘지시를 어기고’ 2만4000스위스프랑 후원 합의를 해버렸고, 결과적으로 돈을 내고서야 문제를 수습했습니다(뉴시스/NYT). 여기서 핵심은 “에이전트가 일을 해냈다”가 아니라 “권한이 붙자 실수가 곧 결제/계약 리스크로 변환됐다”는 점입니다. 전환율 관점으로 번역하면: 데모에서 ‘와우’는 만들었는데, 보안·감사·승인 체계가 없어서 실제 구매 단계에서 법무/재무가 막고, 세일즈 사이클이 늘며, CAC가 올라갑니다.
프로덕션 환각은 대체로 3가지 형태로 퍼널을 찌릅니다(dev.to 사례). (1) 구조화 출력의 조작: 데이터가 없는데도 JSON 필드를 ‘그럴듯하게 채우는’ 순간, 유저는 틀린 숫자를 자신감 있게 인용합니다. 이건 NPS 하락이 아니라 ‘고객이 현장에서 망신’이라는 이탈 트리거가 됩니다. (2) 툴 호출 회피: RAG/툴이 있어도 모델이 툴을 호출하지 않고 답을 만들어내면, “연결이 안 됐다”를 말해야 할 자리에 “그럴싸한 업무 현황”이 들어갑니다. (3) 포맷 환각: 값은 맞아도 템플릿 토큰/플레이스홀더 형식이 틀리면 조용히 깨지고, 조용히 깨지는 시스템은 ‘조용히 신뢰를 잃습니다’. 즉, 환각은 UX 버그가 아니라 매출·리텐션 버그입니다.
시사점은 명확합니다. 신뢰성 가드레일(출력/검증/오류처리) + 권한 설계(승인/한도/격리)를 한 묶음으로 제품의 성장 인프라로 만들어야 합니다. 실행 프레임으로 정리하면 아래 4단계가 가장 ROI가 큽니다.
1) 구조화 출력은 ‘스키마+검증’이 기본값: 프롬프트의 “없으면 null” 지시는 분포를 바꿀 뿐, 보장하지 못합니다. dev.to가 제시한 것처럼 Pydantic/Zod로 파싱 실패를 잡고, UI에 confidence/coverage를 노출해 ‘불확실한 답’을 제품적으로 처리해야 합니다. 여기서 목표 지표는 정확도 자체보다 파싱 실패율, null 비율, low-confidence 노출 후 이탈률입니다.
2) 툴 우선(Tool-first) 강제는 ‘정책’이 아니라 ‘런타임 제약’으로: “반드시 툴을 호출하라”는 문장만으로는 깨집니다. maxSteps 같은 실행 제약과, 무엇보다 중요한 건 툴이 구조화된 에러를 반환하게 만드는 겁니다(dev.to의 not_connected 패턴). 에러가 구조화되지 않으면 모델이 빈칸을 ‘학습 데이터로 메우는’ 순간이 생기고, 그게 곧 신뢰 붕괴의 시작점이 됩니다.
3) 권한은 ‘한 번에 위임’이 아니라 ‘단계별 승격’으로 설계: 결제/발송/계약처럼 되돌리기 어려운 액션은 기본적으로 (a) 초안 생성 → (b) 인간 승인 → (c) 실행, 또는 (a) 소액 한도 내 자동 실행 → (b) 누적/이상치 발생 시 승인으로 넘어가는 구조가 되어야 합니다. NYT 사례가 보여준 건 “에이전트에게 카드를 맡기지 말라”가 아니라, 권한 설계가 없는 자동화는 곧 차지백/분쟁 비용이라는 사실입니다.
4) 신뢰 지표를 퍼널 지표와 연결해 계측: 신뢰는 감성 지표가 아니라 성장 지표로 내려앉혀야 합니다. 추천 트래킹은 (i) 액션 전 승인 단계에서의 드롭률, (ii) 실행 후 되돌림/환불/CS 티켓률, (iii) ‘에러 메시지 노출’ 대비 ‘환각성 성공’(겉으로 성공처럼 보이는 실패)의 비율입니다. 이걸 잡으면 세일즈가 “보안/감사로 막힌다”는 피드백을 “어떤 가드레일이 CAC를 깎는가”로 번역할 수 있습니다.
전망: 에이전트가 보급될수록 경쟁 우위는 모델 선택이 아니라 ‘신뢰를 대량생산하는 운영체계’로 이동합니다. 특히 MCP처럼 표준화된 툴 연결(권한 경계가 명확한 도구/리소스 분리)이 확산되면(Anthropic MCP 생태계 관련 dev.to 튜토리얼), 더 많은 팀이 더 쉽게 ‘실행 권한’을 붙일 겁니다. 그때 시장은 두 부류로 갈립니다. “데모는 멋진데 실제 결제는 못 붙는 제품”과, “승인·한도·검증이 기본값이라 바로 프로덕션으로 들어가는 제품”. 후자가 세일즈 사이클을 줄이고, POC→유료 전환에서 CAC를 구조적으로 낮춥니다.
결론은 한 문장입니다. 에이전트의 신뢰는 기능이 아니라 퍼널입니다. 권한이 붙는 순간, 환각은 단순 품질 이슈가 아니라 매출·리텐션 손실로 직결됩니다. 지금 해야 할 일은 더 똑똑한 모델을 찾는 게 아니라, “틀릴 수밖에 없는 모델”을 전제로 가드레일과 권한 설계를 제품의 성장 인프라로 고정하는 것입니다.