"AI 도입 비용은 늘었는데 핵심 지표는 그대로다." Fractional CTO들이 현장에서 반복해서 목격하는 패턴이다. 소프트웨어 라이선스비는 올라갔고, AI 도구 도입 보고서도 나왔다. 그런데 처리 시간, 오류율, 고객 응대 속도—실제로 움직여야 할 숫자들은 그대로다. 이걸 'AI 도입 갭'이라고 부른다. 도구를 샀다는 사실과 도구가 실제로 작동한다는 사실은 다른 얘기다.
그렇다면 AI 도입 ROI를 어떻게 증명할까. dev.to에 공개된 Fractional CTO 감사 프레임워크는 세 단계로 접근한다. 첫째, 자동화 후보 워크플로우를 명확히 매핑한다. 핵심 기준은 단순하다—높은 반복 빈도, 선형적 흐름, 낮은 판단 복잡도. 주 수백 번 발생하는 단순 반복 작업이 자동화 1순위다. 벤더 인보이스 처리가 교과서적 예시다. PDF 입력 → 데이터 추출 → 회계 시스템 입력이라는 흐름은 구조화된 입력, 반복 행동, 표준화된 출력 세 조건을 모두 갖춘다.
둘째, Human-in-the-Loop 경계를 설계한다. 여기서 많은 팀이 실수를 저지른다. AI가 90~95%의 반복 노동을 처리하게 하되, 최종 실행 승인은 사람이 쥐어야 한다. AI 추출 → 사람 검토 → 시스템 실행이라는 구조다. 이 구조가 없으면 AI 할루시네이션이 직접 프로덕션 시스템을 건드린다. '사람이 최종 게이트키퍼'라는 원칙은 효율과 신뢰성을 동시에 지키는 최소 방어선이다. 셋째, 데이터 인프라를 사전 감사한다. AI 파이프라인이 읽어야 할 정보가 직원 이메일, 로컬 드라이브, 비정형 채팅에 흩어져 있으면 에이전트는 아무것도 할 수 없다. 자동화 전에 데이터 중앙화가 먼저다.
그런데 여기서 멈추면 절반이다. ROI 프레임워크가 '무엇을 자동화할까'를 알려준다면, '자동화한 것이 실제로 신뢰할 수 있는가'라는 질문은 별도로 검증해야 한다. 같은 dev.to에 올라온 실험 리포트가 이 불편한 현실을 정면으로 다룬다. '프로덕션 에이전트'를 표방하는 ReAct 루프 아티클들이 제안하는 결정론적 제약 세 가지를 직접 실험한 결과, 세 가지 모두 의미론적 레이어에서 실패했다.
실험 1은 어휘 중복(lexical overlap) 기반 인터럽트 분류다. 에이전트 루프 중 사용자가 '그거 삭제해줘'라고 끼어들면, 이게 현재 작업의 연장인지 새 작업인지를 어휘 유사도 점수로 판별한다는 방식이다. 30개 레이블 쌍을 테스트한 결과 50% 오분류. '루프 엔진 글 계속 써줘'를 수행 중인데 '루프 엔진 글 삭제해줘'라고 하면 어휘 중복도가 0.615로 '같은 작업'으로 판정한다. 반대 명령을 연속으로 읽는 셈이다. 이건 엣지 케이스가 아니라 인시던트다.
실험 2는 temperature 0 평가자의 결정론 주장이다. 같은 프롬프트를 temperature 0으로 20번 돌렸을 때 일관성이 유지되는가. 수학 문제는 100%. 하지만 오픈엔드 출력은 70% 일치, 5가지 버전 산출, 최저 유사도 0.198. LLM-as-Judge가 판정 근거(reason, evidence)를 오픈 텍스트로 생성하는 이상, temperature 0은 결정론의 보증이 아니다. 기반이 흔들리면 그 위에 쌓은 10개의 결정론적 레이어도 함께 흔들린다.
실험 3은 페이즈 게이트의 '작업 완료' 판정이다. 스크립트 종료 코드 0, 파일 존재 여부, 파일 수 충족, 사용자 확인 기록—네 가지를 코드로 체크하면 완료를 '객관적 사실'로 전환할 수 있다는 주장이다. 8개 시나리오를 테스트했더니 게이트 통과율 100%, 내용 정확도 50%. '연구 브리프를 작성하라'는 요청에 '나는 오리야 꽥꽥'이 담긴 파일이 생성됐고, 게이트는 통과 판정을 냈다. exit 0은 프로세스가 안 죽었다는 뜻이지, 결과가 맞다는 뜻이 아니다.
두 소스가 가리키는 지점이 겹친다. ROI 감사 프레임워크는 '무엇을 자동화할지'의 기준을 준다. 하지만 에이전트 실험 리포트는 그 자동화가 실제로 작동한다고 믿을 근거가 충분한가를 묻는다. 어휘 유사도, temperature 0, 종료 코드—모두 '형식적으로는 결정론적'이지만 의미론적으로는 구멍이 뚫려 있다. AI가 완료 신호를 보냈다고 해서 작업이 완료된 게 아니다.
팀 리드 입장에서 이 두 가지를 엮으면 실행 순서가 명확해진다. ROI를 측정하기 전에, 측정 대상이 되는 자동화 자체가 신뢰할 수 있는지를 먼저 검증해야 한다. 구체적으로는 세 가지다. 첫째, 자동화 후보 워크플로우에서 Human-in-the-Loop 체크포인트를 설계하고, 그 지점에서 AI 출력을 사람이 실제로 검토한다. 둘째, 에이전트의 '완료' 판정을 맹신하지 말고, 내용 품질을 검증하는 별도 레이어를 붙인다. 셋째, 어휘 기반·temperature 기반의 결정론 주장을 팀 내부에서 직접 실험해보고, 오분류율을 측정한다.
AI-First 전환에서 ROI 증명은 결국 두 질문의 답을 동시에 가지고 있어야 한다. '이 프로세스를 자동화하면 얼마가 절감되는가'와 '이 자동화가 실제로 올바르게 동작하고 있는가'. 첫 번째 질문만 던지고 두 번째를 생략하면, 지표는 좋아 보이지만 어딘가에서 오리가 연구 브리프를 대신 쓰고 있을 가능성이 있다. 측정은 검증 이후의 일이다.