Copilot 종량제 시대, AI-First 팀의 도구 비용 설계법

미터기가 켜졌다

GitHub Copilot이 6월 1일부터 토큰 사용량 기반 종량제로 전환했다. 기존 구독 요금(Pro 월 $10, Business 월 $19/시트, Enterprise 월 $39/시트)은 그대로지만, 월 할당 AI 크레딧을 소진하면 추가 사용분이 곧바로 청구된다. 1 크레딧 = $0.01, 입력·출력·캐시 토큰을 합산해 모델별 API 단가로 환산하는 구조다. 코드 자동완성과 Next Edit Suggestions는 크레딧 소모 없이 무료로 남겨뒀지만, 에이전트형 작업은 얘기가 다르다.

개발자 커뮤니티의 반응은 격렬했다. GitHub 공식 커뮤니티 게시판에 댓글 400여 개, 비추천 900여 회가 쏟아졌다. TechCrunch가 인용한 사용자 사례에 따르면 에이전트형 코딩 세션 한 번에 $30~40이 청구됐다. "비용이 10~50배 뛸 수 있다"는 추산도 나왔다. 이건 단순한 가격 인상 불만이 아니다. 도구의 성격 자체가 바뀌는 신호다. '자연스럽게 쓰는 코딩 동반자'에서 '매 세션마다 비용을 의식해야 하는 미터기'로.

이건 Copilot만의 문제가 아니다

Antropic도 5월 14일 Claude 구독을 인터랙티브와 에이전트 SDK로 분리해 6월 15일부터 별도 미터링을 적용하기로 했다. 정액제로 굳어 보이던 AI 어시스턴트 가격이 빠르게 토큰·크레딧 기반으로 재편되는 흐름이다. 이유는 명확하다. AI 코딩 작업이 단순 자동완성을 넘어 에이전트형 장기 태스크로 이동하면서 토큰 소모량이 구독 단가로 감당할 수 없는 수준으로 급증했기 때문이다.

동시에 경쟁 구도도 격화되고 있다. CNBC 보도에 따르면 Google과 Microsoft가 AI 코딩 도구를 차세대 성장 사업으로 규정하고 개발자 확보 경쟁에 본격 진입했다. Google은 I/O에서 Gemini 3.5 Flash와 에이전트 병렬 운영 플랫폼 Antigravity 2.0을 공개했고, 월 $100 수준의 개발자 구독 서비스를 내놨다. Microsoft는 Build에서 Copilot 신규 코딩 모델을 발표할 예정이며, 가격 경쟁력을 차별화 포인트로 내세우고 있다. Cursor는 SpaceX와 협력 계약을 체결하며 존재감을 키웠다. Mordo Intelligence는 글로벌 AI 코딩 도구 시장이 올해 $93억에서 2031년 $300억으로 연평균 26% 성장할 것으로 전망한다. 선택지가 많아졌다는 뜻이고, 그만큼 팀의 도구 선택 기준이 더 중요해졌다는 뜻이기도 하다.

테크 리드가 지금 당장 해야 할 세 가지

첫째, 사용 패턴부터 분류하라. Copilot 종량제의 핵심은 '무엇을 쓰느냐'에 따라 비용이 완전히 달라진다는 점이다. 코드 자동완성은 무료다. 에이전트형 세션은 세션당 $30~40까지 나올 수 있다. 팀원 각자가 하루에 어떤 기능을 얼마나 쓰는지 로그를 뽑아보지 않으면 월말 청구서가 예산을 초과하는 걸 사전에 막을 방법이 없다. Microsoft가 비즈니스 고객에게 $30, 엔터프라이즈 고객에게 $70 상당의 추가 크레딧을 6~8월 프로모션으로 제공하는 건 그나마 숨 돌릴 여지지만, 프로모션은 프로모션이다. 구조적 해법이 아니다.

둘째, 태스크 유형별 모델 분리를 고려하라. dev.to에서 프리랜서 개발자가 10개 모델을 직접 벤치마킹한 결과는 팀 예산 설계에 즉시 적용 가능한 시사점을 준다. DeepSeek V4 Flash($0.25/M 출력 토큰)는 8.7점으로 가치 비율 34.8을 기록했다. Qwen3-Coder-30B($0.35/M)는 코드 특화 태스크에서 8.8점으로 프로덕션 코드 작업에 적합했다. 반면 DeepSeek-R1($2.50/M)은 9.4점이지만 가치 비율은 3.8에 불과했다. 알고리즘처럼 정말 어려운 문제에만 쓰는 게 맞다. Kimi K2.5는 $3.00/M에 9.0점—같은 예산으로 V4 Flash를 12배 더 쓸 수 있는 셈이다.

이 벤치마크가 가리키는 방향은 하나다. "최고 모델 하나로 모든 걸 해결하겠다"는 전략은 비용 구조상 성립하지 않는다. 일상적인 CRUD 작업, 버그 수정, 코드 리뷰는 저비용 모델로 처리하고, 복잡한 알고리즘이나 보안 감사처럼 정밀도가 중요한 태스크에만 프리미엄 모델을 투입하는 티어 전략이 필요하다. Copilot 안에서도 같은 논리가 적용된다. 자동완성은 무료로 쓰고, 에이전트 세션은 명확한 태스크 범위를 사전에 정의한 뒤 실행해야 크레딧 낭비를 막을 수 있다.

셋째, 도구 락인 리스크를 지금 평가하라. AI 코딩 도구는 이제 단순한 생산성 툴이 아니다. Forrester Research의 분석처럼 개발자가 특정 플랫폼에 진입하는 '관문' 역할을 한다. Copilot을 쓰면 GitHub 생태계로, Claude Code를 쓰면 Anthropic-AWS 생태계로, Gemini를 쓰면 Google Cloud로 자연스럽게 끌려간다. MongoDB CTO가 "더 나은 제품이 나오면 언제든 교체할 수 있어야 한다"며 복수 도구 병행 전략을 유지하는 이유가 여기에 있다. Snowflake CEO가 언급한 것처럼 생산성 높은 개발자 한 명이 연간 $5만 이상의 AI 도구 비용을 쓰는 시대가 됐다. 이 비용이 특정 클라우드 종속으로 이어지는지를 지금 점검해야 한다.

예산 설계를 재구조화할 시간

국내 대형 IT 기업과 SI 업체 상당수가 Copilot을 전사 표준 코딩 도구로 채택해 운영 중이다. 시트당 예산이 사실상 가변비로 전환된 지금, 분기 단위로 AI 도구 ROI를 재검토하지 않으면 예산 초과는 시간문제다. 측정해야 할 항목은 세 가지다. ① 팀원별 크레딧 소모 패턴(어떤 기능에 얼마를 쓰는가), ② 태스크 유형별 모델 효율(이 태스크에 이 모델이 맞는가), ③ 도구 생산성 향상치 대비 실제 청구 비용(ROI가 여전히 유효한가).

전망: 정액제 시대는 끝났다

에이전트형 AI가 코딩 워크플로우 전반으로 확산될수록 토큰 소모는 구조적으로 증가한다. 정액제는 단순 자동완성 시대의 가격 모델이었다. 에이전트가 장기 태스크를 수행하고, 컨텍스트 윈도가 수백만 토큰으로 확장되는 환경에서 정액제는 공급자 입장에서 지속 불가능하다. Copilot의 종량제 전환은 예외가 아니라 업계 표준이 될 것이다.

AI-First 팀에게 이 변화가 의미하는 건 명확하다. 도구 비용은 이제 고정 오버헤드가 아니라 팀의 개발 방식에 따라 달라지는 변수다. 어떤 태스크에 어떤 모델을 투입하고, 에이전트 세션의 범위를 어떻게 정의하느냐가 곧 팀의 월간 AI 청구서를 결정한다. 이걸 테크 리드가 설계하지 않으면, 시장이 알아서 팀 예산을 결정하게 된다.