팀에 AI 도구를 도입하기로 결정했을 때, 대부분의 테크 리드가 가장 먼저 확인하는 건 구독 비용이다. 월 19달러냐 39달러냐. 그런데 최근 나란히 등장한 세 가지 신호는 그 질문 순서가 틀렸다고 말한다. 비용은 통제 구조 다음에 오는 문제다.
'무엇까지 허용할 것인가'가 먼저다
Microsoft가 공개한 ASSERT(AI 에이전트 작동 검증 프레임워크)와 ACS(AI 에이전트 런타임 거버넌스 표준)는 기술 사양처럼 보이지만, 실제로는 거버넌스 설계 원칙에 가깝다. ASSERT의 핵심 메시지는 이것이다. 기존의 유용성·관련성·유해성 같은 일반 지표로는 실제 업무 맥락에서 에이전트가 무엇을 해도 되고 무엇을 해선 안 되는지를 검증하기 어렵다는 것. 환불 기준, 사기 의심 대응, 승인 경계—이런 제품 고유의 행동 규칙은 별도로 정의하고 평가해야 한다. Microsoft 내부 검증 결과, ASSERT는 기존 방식 대비 점검 대상 시나리오를 1.5배 더 드러냈고, 강한 시스템과 약한 시스템의 차이를 4배 이상 선명하게 구분했다(ZDNet, 2026.06.04).
ACS는 한 단계 더 나아간다. 에이전트가 실행되는 과정에서 정책을 어디에, 어떻게 적용할지를 에이전트 생명주기 전반에 걸쳐 정의한다. 에이전트 시작, 사용자 입력, 모델 호출 전후, 도구 호출 전후, 최종 출력까지—8개 개입 지점에서 허용/경고/거부/상위 이관 판정을 내리는 구조다. 시스템 프롬프트만으로는 이 통제력을 확보할 수 없다. 프롬프트는 사용자 입력, 도구 결과, 공격자가 조작한 텍스트와 같은 흐름 안에 섞이기 때문에 강제력이 약하다. 통제는 아키텍처여야 한다는 것, 이미 여러 번 반복된 교훈이 이번에는 MS 수준의 표준으로 돌아왔다.
비용 충격은 통제 부재의 결과다
GitHub Copilot이 2026년 6월 1일 사용량 기반 과금으로 전환하면서 Day 1에 180달러 청구서를 받은 개발자가 나왔다(dev.to). 이유는 단순하다. 에이전트 모드에서 Copilot의 기본 라우팅이 프론티어 모델(Claude Opus, GPT-5)을 향하고 있었고, 아무도 그걸 바꾸지 않았다. 정액제일 때는 몰랐던 문제가 종량제로 전환되자 즉시 비용으로 가시화된 것이다.
실제 비용 구조를 보면 충격이 더 분명해진다. Claude Opus 기준으로 10개 파일을 처리하는 에이전트 단일 실행이 약 15달러, 하루 집중 사용 시 37.50달러다. Copilot Pro+ 월 크레딧($70 상당)이 하루 만에 소진될 수 있다. 반면 Gemini Flash 기준으로 동일 작업을 라우팅하면 비용은 50분의 1 수준이다. 문제는 모델 가격이 아니라 라우팅 기본값이다. 팀이 모델 선택 정책을 사전에 설계하지 않으면, 과금 구조가 그 공백을 채운다.
해법은 간단하지만 실행은 의식적이어야 한다. 단순 작업(테스트 작성, 리네임, 문서화)에는 Gemini Flash나 GPT-5 mini를, 기능 개발과 버그 수정에는 Sonnet이나 GPT-4o를, 아키텍처 리뷰처럼 실제로 복잡한 작업에만 Opus를 쓰는 정책. dev.to 분석에 따르면 이 라우팅 규칙만 적용해도 일반적인 팀의 청구액을 70% 줄일 수 있다. 추가로 GitHub 청구 설정에서 초과 지출 한도를 0달러로 고정하는 것은 팀 도입 즉시 해야 할 첫 번째 통제 조치다.
평가 프레임워크: 구독료가 아니라 총비용을 보라
더 근본적인 질문은 도구 선택 단계에서 나온다. dev.to에 올라온 AI 도구 평가 프레임워크는 그 질문을 냉정하게 정식화한다. 필자는 14개 AI 도구를 동시에 운영하다 월 400달러를 쓰면서 오히려 생산성이 떨어지는 경험을 했고, 거기서 실용적인 평가 기준을 뽑아냈다.
핵심은 구독료가 아닌 인지 오버헤드다. 도구를 열고 실제 작업에 진입하기까지 90초 이상 걸리면 그 시간은 매일 반복되는 세금이다. 컨텍스트 지속성—도구가 어제 대화를 기억하는가, 프로젝트 맥락을 유지하는가—은 벤치마크 사이트가 측정하지 않지만 실무에서 가장 직접적인 생산성 변수다. '델타-투-유저블'이라는 지표도 유용하다. AI가 뽑은 결과물을 실제로 쓸 수 있는 상태로 만들기까지 편집에 몇 분이 드는가. 15분 이상이면 그 도구는 도움이 아니라 편집 작업을 추가하는 것이다. 그리고 마지막으로 모트(Moat) 감사—모델을 빼면 무엇이 남는가. 구축한 컨텍스트, 통합 깊이, 워크플로우 자동화가 없다면 도구 교체 시 그동안의 투자가 모두 리셋된다.
테크 리드가 먼저 설계해야 할 것
세 신호가 한 방향을 가리킨다. AI 도구 도입의 실패는 대부분 도구 선택 단계가 아니라 통제 구조 부재에서 온다. 에이전트가 무엇을 할 수 있는지가 아니라 무엇까지 허용할 것인지를 먼저 정해야 한다. 모델 라우팅 정책 없이 종량제로 전환하면 비용이 통제권을 가져간다. 인지 오버헤드와 컨텍스트 지속성을 측정하지 않으면 월 구독료보다 훨씬 높은 숨은 비용을 매달 지불하게 된다.
테크 리드가 팀에 AI 도구를 들이기 전에 설계해야 할 것은 세 가지다. 첫째, 행동 경계—에이전트가 해도 되는 것과 해선 안 되는 것의 정의. 둘째, 모델 라우팅 정책—작업 복잡도에 따른 모델 선택 기준과 지출 한도. 셋째, 도구 평가 기준—구독료가 아닌 재진입 비용·컨텍스트 지속성·델타-투-유저블 기준의 총비용 계산. 이 세 가지가 없으면 도구는 생산성 레버가 아니라 통제되지 않는 비용 구조가 된다.
Microsoft의 ASSERT/ACS는 엔터프라이즈 수준의 거버넌스 표준이지만, 그 사고방식은 팀 규모와 무관하게 유효하다. 에이전트가 더 많은 권한을 갖기 전에, 통제 구조가 먼저 자리를 잡아야 한다. 그것이 내일 당장 써먹을 수 있는 판단 기준이다.