타이포 하나, 2만 1천 토큰
README 한 줄 오타를 수정하는 데 2만 1천 토큰이 소모됐다. 버그도 아니고, 무한 루프도 아니다. dev.to에 공개된 분석에 따르면 이것이 에이전트 코딩의 정상 비용 구조다. Stanford Digital Economy Lab 측정치도 이를 뒷받침한다: 에이전트 태스크는 일반 코드 채팅 대비 약 1,000배의 토큰을 소비하며, 동일 태스크도 세션 진행 방식에 따라 비용이 최대 30배까지 벌어진다. 무거운 자동화를 돌리는 팀은 엔지니어 1인당 월 500~2,000달러를 쓴다는 보고도 있다.
왜 이렇게 많이 나가는가? 구조를 뜯어보면 세 가지 누수가 보인다. 첫째, 매 요청마다 전달되는 툴 스키마—실제 세션에서 쓰이는 툴은 두 개인데 14개 스키마를 매번 실어 보내면, 쓸 수 없는 스키마만으로 입력 토큰의 53%가 청구된다. 둘째, 컨텍스트 창에 쌓이는 날 JSON—grep 결과 60개를 raw JSON으로 두면 3,400 토큰이지만, 표 형식으로 변환하면 427 토큰으로 줄어든다. 정보 손실 없이. 셋째, 프론티어 모델의 전체 라우팅—"git stash가 뭐야?" 수준의 쿼리에 최상위 모델을 쓸 이유가 없다. 계측 결과 70~90%의 요청이 로컬 모델로 처리 가능한 단순·중간 복잡도였다.
실전 사례: Claude Code는 실제로 어떻게 쓰이나
macOS 실시간 회의 번역 앱을 Claude Code로 리파인한 사례는 에이전트 활용의 현실적인 그림을 잘 보여준다. 10분 후 번역이 멈추는 버그—Gemini Live API의 WebSocket 세션 제한이 원인이었는데, 기존 코드는 GoAway 시그널 처리, 무음 오디오 폐기, 잘못된 isRunning 상태 표시라는 세 가지 무결점 실패를 동시에 품고 있었다. Claude Code는 외부 인터페이스를 바꾸지 않고 지수 백오프 재연결, GoAway 선제 감지, 30초 핑 유지라는 세 겹 방어선을 추가해 해결했다.
더 주목할 부분은 기능 개발 방식이다. 요구사항 인터뷰 → 스펙 확정 → Subagent 구현 → Reviewer Subagent 즉시 검토 → Fix Subagent 수정 → 재검토 순의 닫힌 루프가 자동으로 돌아갔다. 자동 내보내기 기능에서 Reviewer Subagent가 "파일 저장 경로 메시지가 즉시 덮어써진다"는 한 줄짜리 로직 버그를 잡아냈다. 사람 눈으로는 쉽게 지나쳤을 결함이다. 에이전트의 속도를 취하면서 품질을 지키려면, 이 검증 루프 설계가 핵심이라는 걸 이 사례는 조용히 증명한다.
역할 재정의: "코드를 짜는" 개발자에서 "에이전트를 오케스트레이션하는" 개발자로
Synthetica DevNet류의 에이전트가 CRUD 마이크로서비스 전체를 프롬프트 하나로 생성하는 시대가 되면, 반복적인 구현 코딩의 가치는 급격히 낮아진다. 이미 업계는 이 방향으로 움직이고 있다. 문제는 "AI가 개발자를 대체하는가"가 아니라 "어떤 역할이 남고 어떤 역할이 변하는가"다.
남는 역할은 세 갈래다. 검증자: 생성된 코드의 보안 취약점, 성능 병목, 비즈니스 규칙 위반을 잡아내는 능력. 통합자: 에이전트가 만든 컴포넌트를 실제 엔터프라이즈 생태계에 붙이고 경계 케이스와 시스템 간 의존성을 처리하는 능력. 아키텍트: 프롬프트를 명확하게 설계하고, 에이전트가 이해할 수 있는 의도를 구조화하고, 전체 시스템 방향을 결정하는 능력. 프롬프트 엔지니어링이 "개발의 새 언어"가 된다는 말은 과장이 아니다—단, 이것만으로는 부족하고 시스템 설계와 비판적 검증 능력이 함께 있어야 한다.
팀 리드가 지금 당장 해야 할 세 가지
1. 비용 계측을 먼저 하라. 스키마/툴 결과/대화 카테고리별로 요청당 토큰을 로깅하지 않으면, 어디서 돈이 새는지 알 수 없다. 대부분의 팀이 자신의 지출 패턴에 대해 갖고 있는 직관은 틀려 있다.
2. 컨텍스트를 짧게, 세션을 깔끔하게 유지하라. 툴 결과를 컨텍스트에 raw로 쌓아두는 순간, 매 턴마다 같은 짐을 다시 실어 보내는 구조가 된다. JSON 압축, 불필요한 스키마 제거, 세션 조기 종료는 코드 한 줄 안 짜고도 비용을 절반 이하로 줄일 수 있는 방법이다.
3. 검증 루프를 팀 표준에 포함시켜라. Claude Code macOS 앱 사례에서 Reviewer Subagent가 잡아낸 한 줄짜리 버그처럼, 에이전트가 빠르게 만든 코드일수록 리뷰 레이어가 더 촘촘해야 한다. "에이전트가 만들었으니 대충 돌린다"는 팀 문화는 기술 부채를 에이전트 속도로 쌓는 것과 같다.
전망: 속도는 기본값, 비용과 역할은 팀이 설계해야 할 것
에이전트 코딩의 속도는 이제 기본값이다. 경쟁 우위는 거기서 오지 않는다. 토큰 비용 구조를 이해하고 낭비를 줄이는 팀, 검증 루프를 자동화해 품질을 지키는 팀, 그리고 개발자의 역할을 구현 코더에서 시스템 오케스트레이터로 전환시키는 팀이 실질적인 차이를 만들 것이다. 2만 1천 토큰짜리 타이포 수정은 에이전트가 나쁜 게 아니라, 그 구조를 이해하지 못한 팀이 치르는 수업료다.