엔터프라이즈 현장에서 AI 코딩 청구서가 폭발하고 있다. Axios 취재에 따르면 한 기업이 Claude Code에 월 5억 달러를 썼고, Uber는 2026년 Claude Code 예산을 4월에 소진해 직원 1인당 월 1,500달러로 상한선을 걸었다. Gartner 데이터는 기술 리더의 23%가 토큰 비용에만 월 200~500달러를 지출한다고 집계한다. 숫자만 보면 AI 코딩 도구가 생산성을 올렸는지, 청구서를 올렸는지 헷갈릴 지경이다.
문제의 구조는 단순하다. 대부분의 팀이 '하나의 모델 함정'에 빠져 있다. React 컴포넌트 스캐폴딩부터 분산 시스템 마이그레이션 설계까지 모든 태스크를 동일한 프론티어 모델에 돌린다. dev.to의 Claude Code 비용 분석 글이 지적하듯, 전체 코딩 태스크의 70~80%는 프론티어 수준의 추론이 필요 없다. 보일러플레이트, 테스트 스캐폴딩, 문서화, 단순 리팩터링은 5~10배 저렴한 모델에서도 동일한 품질이 나온다. 미슐랭 레스토랑 가격으로 토스트를 시켜 먹고 있는 셈이다.
해법은 태스크 레벨 라우팅이다. 태스크 복잡도에 따라 모델을 티어로 분류해 배정하는 방식이다. 아키텍처 결정·보안 코드 리뷰는 Tier 1(Opus/o3-pro), 스펙이 명확한 기능 구현·버그 수정은 Tier 2(Sonnet/GPT-4o), 보일러플레이트·테스트·문서화는 Tier 3(Haiku/Flash)으로 나누면 된다. 해당 글에서 소개된 5인 팀의 실제 수치는 설득력 있다. 월 10,200달러였던 청구서가 라우팅 도입 후 첫 달 4,800달러로, 3개월 뒤엔 3,100달러로 안정됐다. PR 리뷰 점수, 테스트 커버리지, 버그 발생률에서 회귀는 없었다. 비용 70% 절감, 품질 유지. 구현이 로켓 과학은 아니다. 태스크를 분류하는 규칙 기반 패턴 매칭으로 60%를 커버하고, 나머지는 저렴한 분류 모델이 판단하게 하면 된다.
그런데 비용 최적화와 반대편 극단에는 'AI로 주말에 앱을 출시했다'는 성공 서사가 있다. dev.to의 iOS 앱 주말 출시 후기에서 개발자는 Claude Code를 단일 AI 페어 프로그래머로 사용해 14시간 만에 SwiftUI 앱을 App Store에 올렸다. 월 20달러짜리 도구로. 데이터 모델, 위젯 익스텐션, 애니메이션, UI 테스트, App Store 메타데이터까지 전체 코드의 85%를 AI가 생성했다.
이 사례는 AI 코딩 도구의 가능성을 보여주지만, 동시에 그 한계도 정직하게 기록한다. AI는 App Group 인타이틀먼트를 두 타깃 모두에 추가하지 못했고, 위젯 프리뷰가 공유 컨테이너에 접근하다 크래시했다. Xcode 프로젝트 설정, 사이닝, 케이퍼빌리티 구성은 여전히 개발자 몫이었다. 핵심 통찰은 저자 스스로 남긴 문장이다. "AI는 내 스킬을 대체하지 않았다. 증폭시켰다." SwiftUI 기초를 이해하지 못했다면 Claude가 생성한 코드를 검토하거나 수정할 수 없었을 것이다.
여기서 세 번째 시각이 끼어든다. dev.to의 비판적 에세이 'AI는 소프트웨어가 아니라 자신감을 상품화했다'는 이 구조의 그림자를 가장 날카롭게 짚는다. 주말에 프로토타입을 만들 수 있다는 사실이 사람들로 하여금 프로덕션 소프트웨어를 만들 수 있다는 착각을 심어준다는 것이다. Figma는 주말에 데모로 만들 수 있다. 하지만 불안정한 네트워크 위에서 실시간 협업의 충돌을 해결하고, 엔터프라이즈 SSO와 플러그인 에코시스템을 지탱하는 수년 치 에지케이스는 만들 수 없다. AI 생성 코드는 단일 API, 단일 데이터베이스, 단일 해피패스에서는 훌륭하게 작동한다. 그런데 두 번째, 세 번째 외부 시스템과 연결이 붙고, 토큰 만료와 속도 제한과 부분 장애가 겹치면 조용히 무너진다.
세 기사가 겹치는 지점에서 AI-First 팀이 실제로 설계해야 할 것이 보인다. 첫째, 비용은 모델 선택이 아니라 태스크 분류 전략으로 제어해야 한다. 모델 상한선을 거는 것은 증상을 치료하는 것이고, 라우팅이 원인을 치료한다. 둘째, 속도는 올랐지만 병목은 이동했다. 코드 생성 속도가 빨라질수록 개발자의 판단력과 검증 구조가 새로운 한계선이 된다. AI가 생성한 코드를 '이해하고 검토하는 능력'이 없으면 속도 향상은 기술 부채 축적 속도 향상이 된다. 셋째, 데모와 프로덕션 사이의 거리를 팀이 명시적으로 측정해야 한다. 주말 앱 출시 성공담은 단순성을 의도적으로 선택한 결과다. 백엔드 없음, 서드파티 의존성 없음, 클라우드 없음. 그 단순성이 AI와의 시너지를 극대화했다.
앞으로 모델 성능이 올라갈수록 더 많은 태스크가 AI에 위임되고, 청구서는 계속 커진다. 동시에 데모 제작 비용이 낮아질수록 더 많은 사람이 프로덕션과 데모의 간격을 과소평가한다. AI-First 팀의 진짜 경쟁력은 빠르게 만드는 것이 아니다. 어떤 태스크에 어떤 모델을 쓸지 라우팅하고, AI가 생성한 결과물을 어디까지 신뢰할지 기준을 세우고, 데모가 프로덕션이 되기 위해 무엇이 더 필요한지를 정확히 아는 것이다. 속도는 AI가 올려준다. 비용과 품질 계산서는 여전히 팀이 받는다.