AI 전사 도입, 성공 지표 뒤에서 조용히 커지는 운영 실패

HP가 OpenAI와 '프론티어' 파트너십을 전사 확대한다고 발표했다. 시범 운영 결과는 인상적이다. 보안팀이 한 달치 버그 수정을 하루 만에 끝냈고, 엔지니어 한 명이 몇 주 만에 43개 프로젝트에서 122개의 풀리퀘스트를 처리했다. 이 숫자만 보면 AI-First 전환의 교과서 사례처럼 보인다.

그런데 같은 시점, 다른 숫자가 있다. Sinch의 2,527명 시니어 의사결정자 설문에 따르면 기업의 74%가 고객 대면 AI 에이전트를 배포 후 롤백하거나 종료했다. AI 거버넌스가 가장 성숙한 조직에서 이 비율은 81%까지 올라간다. 가장 꼼꼼하게 들여다본 팀이 가장 많이 되돌렸다는 뜻이다. 잘 모니터링하지 않는 팀은 지금도 대시보드에서 성공을 자축하고 있을 가능성이 높다.

두 숫자는 같은 구조적 문제를 다른 각도에서 비추고 있다. HP 사례는 도입 성공이다. 롤백 74%는 운영 실패다. AI-First 전환을 논할 때 우리는 전자만 너무 많이 읽고, 후자는 충분히 읽지 않는다.

지표가 성공처럼 보일 때 실제로 무슨 일이 벌어지나

dev.to에 실린 한 글이 이 간극을 정확하게 찌른다. 동남아 모바일 뱅킹 앱에서 미결 티켓 문제를 해결하려다 챗봇, 전화 상담, 다시 챗봇 루프를 반복하다 결국 포기한 경험담이다. 그리고 그 포기가 회사 대시보드에는 '챗봇 디플렉션 성공'으로 기록됐다. 고객이 그냥 떠난 건데, 시스템은 그걸 해결로 읽었다.

이게 Goodhart's Law의 AI 버전이다. 디플렉션 비율은 측정하기 쉽고, 비용 절감과 직접 연결된다. McKinsey 2026 데이터 기준으로 AI 처리 티켓은 건당 $0.62, 인간 상담은 $7.40이니 경영진이 이 숫자를 좋아하는 건 당연하다. 문제는 디플렉션이 '고객 문제 해결'을 측정하지 않고 '고객이 더 이상 묻지 않음'을 측정한다는 것이다. Gartner 데이터에 따르면 셀프서비스 채널에서 완전히 해결되는 고객 이슈는 14%에 불과하다. 디플렉션 60%와 해결률 14%가 공존하는 대시보드가 지금 이 순간에도 수백 개 기업에 켜져 있다.

Laivly의 2026년 6월 연구는 재무적 손실을 수치로 보여준다. 응답자의 28%는 AI가 복잡한 지원 이슈를 처리하지 못해 직접적인 매출 손실이 발생했다고 답했고, 20%는 손실이 있다는 건 알지만 규모를 정량화할 수 없다고 했다. PwC 데이터는 더 냉정하다. 신뢰 붕괴 후 구매를 완전히 중단한 고객이 44%다. 이 이탈은 조용하다. 불만 접수도 없고, 경영진에게 올라가는 리포트도 없다.

문제는 모델이 아니라 아키텍처와 권한이다

챗봇 문제의 핵심을 짚는 대목이 있다. "더 큰 모델이 필요한 게 아니다. 기본 아키텍처의 문제다." 로그인한 사용자의 계정 ID, 거래 내역, 티켓 상태가 데이터베이스에 다 있는데, 봇에게 그걸 읽을 권한을 주지 않았고, 티켓 시스템에 연결하지 않았고, '14일째 미응답 티켓은 에스컬레이션한다'는 규칙을 심지 않은 것이다. 이건 AI 문제가 아니라 권한(permissions)과 배관(plumbing)의 문제다.

AI SRE 관점에서 이 구조는 더 근본적인 경고를 던진다. 또 다른 글에서 저자는 "$2짜리 문제를 $200에 해결했다"고 고백한다. AI 에이전트가 루프에 빠지거나 잘못된 경로를 확신 있게 반복할 때, 기존 클라우드 장애처럼 대시보드가 빨개지지 않는다. API는 정상이고, 레이턴시도 문제없고, 토큰 스트림은 완료됐다. 그런데 결과는 틀렸고, 비용은 계속 나갔다. 업타임이 100%여도 비용이 100배 나올 수 있는 게 AI 시스템의 실패 모드다.

HP 사례에서 진짜 주목할 것

다시 HP로 돌아오면, 프론티어 플랫폼이 단순한 AI 툴 도입이 아니라는 점이 눈에 띈다. "분산된 조직 내에서 AI 시스템이 어떤 데이터를 사용하고, 어떤 작업을 수행하며, 그 결과가 어떻게 평가되는지를 관리하는 통합 플랫폼"이라고 HP가 직접 정의했다. 이건 거버넌스 레이어다. 성공 사례로 포장됐지만, 실제로는 AI가 무엇을 보고, 무엇을 하고, 어떻게 평가받는지를 먼저 설계한 팀이 성과를 낸다는 걸 스스로 증명하고 있다.

테크 리드 입장에서 이 세 기사를 함께 읽으면 하나의 명확한 메시지가 나온다. AI-First 전환의 실패는 대부분 도입 단계가 아니라 운영 단계에서 발생한다. 그리고 그 실패는 조용하다. 지표는 초록색이고, 비용은 이미 청구됐고, 고객은 말없이 떠난다.

내일 당장 확인해야 할 것

실용적인 체크리스트로 정리하면 이렇다.

디플렉션율만 있고 해결률이 없다면: 지금 측정하는 숫자가 AI 성과가 아니라 AI 책임 회피를 측정하고 있다.
에이전트에 예산 상한과 에스컬레이션 규칙이 없다면: 루프 한 번이 예상치 못한 청구서로 돌아올 수 있다.
AI 도구 도입 판단 기준이 '기능 작동 여부'라면: '비용이 통제되는가', '틀렸을 때 어떻게 멈추는가'를 먼저 설계해야 한다.

전망은 명확하다. AI SRE는 선택이 아니라 필수 역할로 부상할 것이다. '모델이 살아있는가'가 아니라 '모델이 여전히 유용한가', '예산 안에서 올바른 방향으로 작동하는가'를 묻는 새로운 신뢰성 엔지니어링이 필요하다. HP처럼 성공 사례를 만들고 싶다면, 도입 발표 전에 운영 실패 패턴을 먼저 설계 안으로 끌어들여야 한다.

AI 전사 도입, 성공 지표 뒤에서 조용히 커지는 운영 실패

지표가 성공처럼 보일 때 실제로 무슨 일이 벌어지나

문제는 모델이 아니라 아키텍처와 권한이다

HP 사례에서 진짜 주목할 것

내일 당장 확인해야 할 것

출처