방치된 기술 부채를 AI로 증명하라: 종량제 시대의 ROI 설계법

GitHub Copilot이 6월 1일부터 정액제를 종료하고 토큰 기반 AI Credits 체계로 전환했다. 개발자 커뮤니티의 반응은 격렬했다. GitHub 공식 공지에는 900개에 가까운 다운보트와 400개 이상의 댓글이 달렸고, "What a joke"라는 문장이 헤드라인을 장식했다. 월 29달러짜리 플랜이 750달러로 뛸 수 있다는 계산이 나왔고, 50달러가 3,000달러가 될 수 있다는 시뮬레이션도 등장했다.

분노의 본질을 냉정하게 짚어보자. 코드 자동완성(인라인 제안)은 여전히 무제한 무료다. 요금이 붙는 건 채팅, 에이전틱 워크플로우, 코드 리뷰다. 1 AI Credit = $0.01이고, 입력·출력·캐시 토큰 소비량 기준으로 과금된다. 문제는 Claude Opus 4.7 모델의 배율이 7.5x에서 27x로 뛰었다는 점이다. 프론티어 모델로 한 세션을 길게 돌리면 월 크레딧 한도가 한 번에 소진될 수 있다. 더 결정적인 건 타이밍이었다. GitHub이 5월 초에 미리보기 청구서를 공개했을 때, 숫자가 "아무것도 달라지지 않는다"는 공식 메시지와 정면으로 충돌했다. 신뢰가 무너진 건 요금 모델 때문이 아니라 그 간극 때문이었다.

그런데 이 반발의 이면에는 구조적 현실이 있다. 프론티어 모델 추론 비용은 소프트웨어가 과거에 저렴해지던 방식으로 저렴해지지 않는다. Copilot의 주간 컴퓨팅 비용은 2026년 1월 이후 거의 두 배로 뛰었다는 보도가 나왔다. 470만 명의 유료 구독자에게 프론티어 모델을 정액제로 제공하는 건 처음부터 프로모션이었다. Copilot은 그것을 다른 도구보다 더 갑작스럽게 끝냈을 뿐이다. 현재 Cursor는 월 20달러, Windsurf는 15달러로 대안 검색이 활발해진 이유가 여기 있다.

그렇다면 AI-First 팀 리드로서 지금 집중해야 할 질문은 하나다. 비용 모델이 바뀐 이 시점에, 우리 팀은 AI 도구의 ROI를 어떻게 증명할 것인가? 이 질문에 답하는 실증 사례 두 개가 최근 dev.to에 올라왔다.

첫 번째는 3개월 방치된 MCP 서버를 GitHub Copilot으로 48시간 안에 완성한 사례다. 개발자 zeroknowledge0x는 Dev.to API를 MCP 프로토콜로 래핑하는 devto-mcp 서버를 40% 지점에서 포기했다가 GitHub Finish-Up-A-Thon을 계기로 다시 꺼냈다. 코드베이스는 망가진 임포트, TODO 주석, 존재하지도 않는 패키지 의존성이 전부였다. 결과는 12개 도구를 갖춘 완성된 MCP 서버였다. 핵심 워크플로우는 단순했다. 첫 번째 도구(search_articles)를 직접 레퍼런스로 구현하고, 나머지 11개는 Copilot이 패턴을 복제하게 한 뒤 엣지 케이스를 직접 수정했다. 이 방식으로 12개 도구를 약 8시간에 완성했다. 추정 비교치는 20~25시간이었다. Copilot이 잘한 건 패턴 전파, API 지식, 그리고 엣지 케이스 선제 포착이었다. c++, c#, .net 같은 특수문자 태그의 URL 인코딩 이슈를 테스트 단계가 아니라 구현 중에 짚어낸 것이 그 예다.

두 번째 사례는 규모가 다르다. Malcolm McNeely는 Claude와 함께 2주 만에 .NET 위에 CQRS 프레임워크 Edict를 완성했다. Microsoft Orleans 기반으로 멱등성 키, 아웃박스 패턴, 트레이스 전파, 데드레터 프로젝션까지 갖춘 풀스택 프레임워크다. 구독료 기준으로 보통 팀이 손으로 짜면 몇 달이 걸릴 플러밍이다. 워크플로우는 명확했다. 각 기능은 이슈 트래커의 PRD로 시작하고, 수직 슬라이스로 분해한 뒤, TDD 방식으로 착지시켰다. 도메인 언어는 CONTEXT.md에 살고, 핵심 결정은 ADR로 남겼다. 같은 수정을 두 번 하면 프로젝트 스킬이나 분석기로 굳혔다. 중요한 건 그의 표현이다. "Claude는 강력한 구현 표면이지만, 강한 아키텍처 의견과 명확한 도메인 언어를 가진 인간이 없으면 쓸모없다." AI가 코드를 썼고, 사람이 설계를 했다.

두 사례를 함께 놓으면 공통 패턴이 보인다. AI가 대체한 건 타이핑과 패턴 복제다. 개발자가 유지한 건 설계 결정, 엣지 케이스 판단, 품질 게이트다. Copilot 사례에서 48시간의 대부분은 생성이 아니라 리뷰와 수정이었다. Edict 사례에서 Claude는 설계자가 아니라 구현 표면이었다. 종량제 전환 이후 AI 도구 선택 기준이 "기능"에서 "세션당 비용 대비 검증 가능한 산출물"로 옮겨가야 하는 이유가 여기 있다.

테크 리드 관점에서 이 시점에 팀에 요구해야 할 것은 세 가지다. 첫째, AI 도구 사용 패턴을 감사하라. 채팅과 에이전틱 워크플로우 중 어느 쪽이 실질 산출물을 만드는지 구분하지 않으면 청구서가 먼저 도착한다. 둘째, 방치된 기술 부채 목록을 꺼내라. 48시간 사례가 증명한 건 AI 도구가 '신규 기능 개발'보다 '패턴이 명확한 완성 작업'에서 ROI가 더 높다는 것이다. 셋째, 도구를 다변화하라. 정액제가 살아있는 Cursor와 Windsurf는 지금 이 순간 실질적인 대안이다. 단일 도구 의존은 벤더 락인인 동시에 예산 리스크다.

종량제 시대는 AI 도구를 쓰는 팀과 AI 도구를 관리하는 팀을 가르는 분기점이다. 미터기가 켜진 이상 "AI가 빠르다"는 말은 증거가 아니다. 48시간 안에 무엇을 완성했는지, 2주 안에 어떤 기술 부채를 청산했는지가 팀의 AI ROI를 증명하는 언어가 된다. 그 증거를 만드는 팀만 다음 도구 예산을 정당화할 수 있다.

방치된 기술 부채를 AI로 증명하라: 종량제 시대의 ROI 설계법

출처