AI 코딩 도구, 써보니 진짜 남는 것과 버린 것: 비용·워크플로우·팀 역할 실전 정리

핵심 이슈: AI 코딩 도구의 허니문이 끝났다

AI 코딩 도구를 쓰는 개발자라면 한 번쯤 이런 경험이 있을 겁니다. 첫 달은 "세상이 바뀌었다"고 느꼈는데, 두 번째 달부터 슬슬 불편한 진실이 보이기 시작하는 거죠. 이번에 흥미로운 소스 네 개가 동시에 올라왔는데, 공교롭게도 전부 같은 이야기를 하고 있습니다. AI 코딩 도구는 분명히 강력하지만, '무엇에' 강력한지를 정확히 모르면 비용만 새는 구멍이 된다는 것.

20일 동안 12억 토큰을 소비하며 Anthropic 상위 1% 유저로 확인된 한 개발자는 Claude Code로 플러터 챗봇(2일), iOS 앱(2일), macOS 세션 매니저(2주)를 연달아 출시했습니다(dev.to, thinkerjack). 동시에 90일간 AI 도구 비용을 한 푼 단위로 추적한 또 다른 1인 개발자는 월 170달러에서 시작해 최종적으로 120달러까지 정리했습니다(dev.to, matthewhou). 이 두 사람이 독립적으로 도달한 결론이 놀랍도록 일치합니다.

남긴 것: "두 개면 충분하다"

90일 비용 추적자가 최종 남긴 도구는 딱 두 개, Claude Max(100달러)와 Cursor Pro(20달러)입니다. GitHub Copilot은 Cursor와 겹쳐서 탈락, Perplexity Pro는 무료 티어로 80% 커버 가능해서 다운그레이드, v0.dev는 3개월에 UI 2개 만들고 해지. "다섯 개를 얕게 쓰는 것보다 두 개를 깊게 쓰는 게 낫다"는 게 핵심 교훈이었습니다.

12억 토큰 유저 역시 도구 숫자가 아니라 운영 규율이 성패를 갈랐다고 말합니다. Skills(워크플로우 인코딩), Subagent(컨텍스트 분리), 계층적 knowledge 폴더(장기 기억), 그리고 컨텍스트를 200k 토큰 이하로 유지하는 하드 리밋 — 이 네 가지 규칙이 없으면 "새벽 2시의 동료"처럼 품질이 추락한다는 겁니다. AI한테 Claude Code를 쓰게 하는 게 아니라, AI를 운영하는 시스템을 짜는 게 진짜 일이었던 거죠.

버린 것: "AI가 못하는 일에 AI를 쓰지 마라"

두 실전 사용자가 공통으로 버린 것들이 있습니다. AI 커밋 메시지(what은 쓰지만 why는 못 씀), AI 생성 테스트를 메인 워크플로우로 쓰는 것(해피 패스만 두드려서 진짜 버그를 못 잡음), 그리고 복수 LLM 구독 병행(결국 하나만 쓰고 나머지는 죄책감 구독). 12억 토큰 유저도 "모델이 진짜 새로운 것(novel work)에는 추측만 한다"고 단언합니다. 학습 데이터에 없는 영역에서 AI는 여전히 빈 서랍을 여는 것과 같다는 의미입니다.

이 지점을 더 날카롭게 찌르는 소스가 있습니다. All-In 팟캐스트에서 Jason Calacanis가 AI 에이전트 하나당 하루 300달러, 가동률 10~20%라는 비용을 공개했고, Chamath Palihapitiya는 "우리 최고 개발자의 토큰 예산이 얼마냐"를 팀에 묻기 시작했습니다(dev.to, dannwaneri). 인간 엔지니어는 고정비에 시간이 갈수록 싸지지만(맥락 축적), 에이전트는 세션마다 맥락을 다시 세팅해야 하므로 시간이 갈수록 비싸진다는 비용 역전 구조가 드러난 겁니다.

시사점: AI-First 팀이 세팅해야 할 세 가지 기준

이 네 소스를 조합하면, AI 코딩 도구를 팀 레벨로 도입할 때 필요한 판단 기준이 세 가지로 압축됩니다.

첫째, '보일러플레이트 가속기'로만 ROI를 계산하라. AI 도구의 생산성 향상은 보일러플레이트, 문서화, 포맷 변환, 익숙한 문제 영역에서 압도적이고, 노벨한 설계·미묘한 디버깅·아키텍처 트레이드오프에서는 미미합니다. 팀의 업무 중 보일러플레이트 비중이 60%라면 ROI가 높고, 20%라면 구독료를 다시 계산해야 합니다.

둘째, 도구 수를 줄이고 운영 규율을 높여라. 병렬 세션 5개를 돌리면서 컨텍스트 모니터링 없이 쓰는 건, 회의 5개를 동시에 들어가면서 회의록을 안 쓰는 것과 같습니다. Skills로 반복 워크플로우를 인코딩하고, CLAUDE.md를 프로젝트별로 계층화하고, 200k 토큰 하드리밋을 걸고, 컨텍스트를 절대 압축하지 말고 새 세션을 여는 것 — 이런 운영 프로토콜이 도구 자체보다 중요합니다.

셋째, '미터기 위의 일'과 '미터기 아래 일'을 구분하라. Chamath의 질문 "최고 개발자의 토큰 예산은?"은 결국 "어떤 판단에 토큰을 쓸 가치가 있는가"로 귀결됩니다. 프로덕트 의사결정, 아키텍처 선택, 3년 전 장애의 맥락을 기억하는 것 — 이건 사람의 일입니다. 팀 리빌딩의 핵심은 AI를 더 많이 쓰는 게 아니라, AI에게 맡기면 안 되는 것을 정확히 아는 팀원을 남기는 것입니다.

전망: 미터기는 이미 돌아가고 있다

보조금 시대가 끝나고 있습니다. AI 모델의 실제 운영 비용이 가격에 반영되기 시작하면, "일단 다 AI한테 시키자"는 전략은 에이전트당 연 10만 달러짜리 청구서로 돌아옵니다. 남는 건 결국 두 개의 도구를 깊게 쓰고, 판단은 사람이 하고, 운영 규율로 비용을 통제하는 팀입니다. 미터기는 이미 돌아가고 있으니까요. 우리 팀이 해야 할 건 미터기를 끄는 게 아니라, 미터기 위에서 돌 가치가 있는 일이 뭔지 정의하는 겁니다.