AI 도구 숙련도, 토큰 수로는 절대 못 잡는다

팀에 AI 코딩 도구를 도입한 지 몇 달이 지났다. 그런데 '우리 팀이 AI를 잘 쓰고 있나?'라는 질문에 자신 있게 답할 수 있는 팀 리드가 얼마나 될까. 대부분은 토큰 사용량이나 Copilot 수락률 같은 숫자를 꺼낸다. 그리고 그 숫자가 뭔가를 말해주고 있다고 믿는다. 이 믿음이 문제의 시작이다.

토큰 많이 쓰는 사람이 잘 쓰는 사람이 아니다

dev.to에 올라온 AIQ Rank 팀의 분석은 이 착각을 정면으로 겨냥한다. 세션 로그를 직접 뜯어보니, 능숙한 개발자와 초보 개발자 모두 토큰을 태웠다. 심지어 초보자가 더 많이 태우는 경우도 있었다. 시니어는 100만 토큰으로 끝내는 작업을 주니어는 1000만 토큰으로 끌어간다. 고숙련 사용의 특징은 더 많은 소비가 아니라 더 적은 턴, 더 날카로운 프롬프트, 더 작은 컨텍스트 윈도우, 더 많은 사전 계획이다.

여기서 진짜 위험이 시작된다. 토큰 소비를 KPI로 삼는 순간, 인센티브가 뒤집힌다. 관련 없는 파일을 컨텍스트에 패딩하고, 점점 긴 프롬프트로 브루트포싱하고, 재사용 가능한 워크플로우 대신 채팅 모드에 영원히 머무르는 행동이 '열심히 쓰는 것'처럼 보이게 된다. 코드 줄 수와 커밋 횟수로 생산성을 재던 시절의 실수를 AI 시대에 그대로 반복하는 셈이다.

관찰 가능한 행동 패턴으로 측정을 바꿔야 한다

AIQ Rank가 제안하는 대안은 '얼마나 썼나'가 아니라 '어떻게 설정했나'를 보는 것이다. 세션 로그에서 관찰할 수 있는 여덟 가지 차원이 핵심이다. 커스터마이제이션(CLAUDE.md, 커스텀 훅 설정 여부), 병렬 에이전트 활용, 백그라운드 작업 위임, MCP 서버·플러그인 연결 폭, 플래닝 모드 사용, 설치한 스킬의 실제 사용 여부, 반복 작업용 커스텀 스킬 작성, 멀티태스킹 구조화. 이것들은 자기 보고가 아니라 세션 활동에서 직접 읽힌다. 게임하기 어렵다.

특히 눈여겨볼 것은 'MCP 연결 폭'이 숙련도 지표에 직접 들어간다는 점이다. 이건 단순한 도구 사용 횟수가 아니다. 얼마나 다양한 외부 도구와 데이터 소스를 AI 에이전트에 연결했느냐, 즉 환경 자체를 얼마나 구조화했느냐의 문제다.

MCP 통합 깊이가 숙련도의 구조적 기반이다

여기서 같은 날 dev.to에 올라온 MCP 딥다이브 분석이 맥락을 완성해준다. MCP(Model Context Protocol)는 AI 모델과 외부 도구 사이의 N×M 통합 문제를 해결하는 표준 프로토콜이다. 3개 모델에 4개 서비스를 연결하면 12개의 커스텀 통합 코드가 필요했던 구조를, MCP는 모델과 서비스 각각 한 번씩만 구현하면 되는 구조로 바꾼다.

중요한 것은 MCP가 단순 API 연결 레이어가 아니라는 점이다. Tools(AI가 실행할 수 있는 함수), Resources(읽기 전용 컨텍스트), Prompts(출력 구조 템플릿)라는 세 가지 프리미티브를 통해 에이전트가 외부 환경과 추론-실행-관찰 루프(ReAct 패턴)를 돌릴 수 있는 기반을 만든다. Sampling(서버가 LLM 추론을 역으로 요청), Elicitation(고위험 작업 전 사용자 확인 요청), Roots(파일 시스템 샌드박스 범위 제한) 같은 양방향 메커니즘은 자율 에이전트가 안전하게 작동하는 데 필요한 거버넌스 구조를 프로토콜 레벨에서 제공한다.

결국 AIQ Rank의 'MCP 연결 폭' 지표가 높다는 것은 단순히 플러그인을 많이 설치했다는 뜻이 아니다. 에이전트가 실제로 활용할 수 있는 실행 환경을 체계적으로 구성했다는 뜻이다. 이 환경 구성 능력이 병렬 에이전트 운용이나 백그라운드 작업 위임 같은 다른 고숙련 지표들과 함께 클러스터링된다는 사실은 우연이 아니다.

팀 리빌딩에 이걸 어떻게 적용하나

실용적인 시사점은 두 가지다. 첫째, 지금 당장 팀의 토큰 소비 상위 10%와 AIQ Rank 상위 10%를 비교해보라. 두 집합의 겹침이 생각보다 작을 것이다. 토큰을 많이 쓰는 사람이 채팅 모드로 브루트포싱하는 동안, 조용히 MCP를 연결하고 병렬 에이전트를 돌리는 사람이 실제 아웃풋에서 앞서 있을 가능성이 높다.

둘째, 숙련도 갭을 발견했을 때 교육 방향이 달라진다. '프롬프트를 더 잘 쓰는 법'이 아니라 '환경을 어떻게 구조화하는가'가 핵심 커리큘럼이 된다. CLAUDE.md 같은 프로젝트 레벨 설정, 재사용 가능한 커스텀 스킬 작성, MCP 서버 연결을 통한 에이전트 실행 환경 확장—이것들이 개인 숙련도를 팀 수준의 레버리지로 전환하는 실제 작업이다.

측정 기준이 팀 문화를 만든다

측정 지표는 중립적이지 않다. 무엇을 재느냐가 팀이 무엇을 향해 최적화하는지를 결정한다. 토큰 소비를 재면 팀은 토큰을 더 쓰는 방향으로 최적화된다. 환경 구성 깊이와 워크플로우 자동화 수준을 재면 팀은 더 적게 개입하면서 더 많은 아웃풋을 내는 방향으로 최적화된다. AI-First 팀 리빌딩의 출발점은 도구 선택이 아니라 측정 설계다. 무엇을 잘 쓰는 것인지 팀이 합의하기 전까지, 모든 교육과 도입 비용은 방향 없이 소모된다.