AI가 코드를 80% 짜는 팀, 개발자는 무엇을 하는가

숫자가 먼저다

2026년 5월, Anthropic의 코드베이스에 병합되는 코드의 80% 이상이 Claude에 의해 작성되고 있다. 2025년 2월 Claude Code 출시 이전의 한 자릿수 수치와 비교하면, 불과 1년 남짓 만에 코드 기여 주체가 사실상 뒤집혔다. 엔지니어 1인당 코드 병합량은 2024년 대비 8배 증가했다. Anthropic이 공개한 "When AI builds itself" 보고서의 핵심 수치들이다.

같은 기간 경쟁 지형도 요동쳤다. 지난 6월 샤오미가 공개한 MiMo Code는 SWE-Bench Pro에서 62%를 기록하며 Claude Code의 57%를 추월했다. Terminal Bench 2에서도 73% 대 68%로 앞섰다. MIT 라이선스 오픈소스다. 6개월 전만 해도 이 벤치마크에서 경쟁사와 5%p 차이를 벌리던 Claude Code가, 이번엔 추월을 허용했다. 코딩 에이전트 경쟁은 분기 단위로 순위가 바뀌는 레이스가 됐다.

두 숫자가 던지는 질문

이 두 데이터를 나란히 놓으면, 흥미로운 긴장이 생긴다. Anthropic 내부에서 코드의 80%를 AI가 짜는 동안, 외부에서는 그 AI를 앞지르는 오픈소스 도구가 등장했다. 테크 리드 입장에서 이 상황이 던지는 질문은 하나다: "어떤 도구를 고를 것인가"가 아니라, "도구가 코드의 주인이 된 팀에서 개발자는 무엇을 하는가."

Anthropic 보고서는 이 질문에 구체적인 단서를 제공한다. Claude의 역할 변화를 세 단계로 설명하는 대목이 특히 유용하다. 초기에는 "내보내기 버튼이 작동하지 않으니 고쳐달라"처럼 명확히 지정된 태스크를 처리했다. 그 다음 단계에서는 "네트워크가 과부하 시 느려지는 이유를 조사하라"처럼 목표를 주면 접근 방식을 스스로 설계하는 수준에 도달했다. 궁극적으로는 "다음 분기에 팀이 무엇을 구축해야 하는가"처럼 문제 자체를 선정하는 수준을 목표로 한다. 지금은 2단계와 3단계 사이다.

판단력이라는 병목

그러나 Anthropic이 명시적으로 인정하는 간극이 있다. Claude는 목표를 실행하는 능력에서는 숙련된 인간 연구자와 동등하거나 앞서지만, 목표를 선택하고 우선순위를 결정하는 판단력에서는 여전히 유의미한 격차가 존재한다. 수만 개의 훈련 작업을 멈춘 디버깅 이슈를 2시간 만에 해결하고, API 오류를 1/1000로 줄이는 800개 수정사항을 배포하고, 인간 연구자 2명이 일주일 동안 23%밖에 줄이지 못한 연구 격차를 800시간 누적 작업으로 97% 줄인다—이 모든 것이 가능하다. 그런데 그 작업이 왜 중요한지, 지금 해야 하는지를 결정하는 건 여전히 인간이다.

이것이 AI-First 팀에서 개발자 역할이 재편되는 실제 축이다. 코드 생성은 에이전트가 맡는다. 실행 루프도 에이전트가 돈다. 개발자가 집중해야 할 영역은 좁아지는 게 아니라 상위 레이어로 이동하고 있다. 무엇을 만들지 결정하는 제품 판단, 어떤 목표가 올바른지 검증하는 비판적 사고, 에이전트가 만든 코드가 시스템 전체에서 어떤 의미를 갖는지 읽어내는 아키텍처 감각—이 세 가지가 AI 시대 개발자의 핵심 역량이 된다.

팀 리빌딩의 실무 함의

팀을 재편하는 입장에서 이 변화는 세 가지 실천적 시사점을 갖는다.

첫째, 생산성 측정 기준을 바꿔야 한다. 코드 라인 수나 PR 머지 속도는 더 이상 개발자 기여의 지표가 아니다. Anthropic 자신도 "코드 라인 수는 완벽한 생산성 지표가 아니다"라고 명시했다. 대신 "얼마나 좋은 목표를 설정했는가", "에이전트의 출력을 얼마나 정확하게 검증했는가"가 측정 대상이 돼야 한다.

둘째, 온보딩 설계가 달라져야 한다. 신규 팀원에게 코딩 스킬보다 먼저 물어야 할 것은 "에이전트에게 올바른 컨텍스트를 어떻게 전달하는가", "에이전트의 판단이 틀렸을 때 어떻게 감지하는가"다. MiMo Code의 SWE-Bench Pro 추월이 보여주듯, 도구는 계속 바뀐다. 특정 도구 숙련도보다 도구를 다루는 구조적 사고가 팀의 자산이다.

셋째, 코드 리뷰의 의미가 바뀐다. Anthropic은 이미 모든 코드 변경에 Claude 자동 검토를 적용하고 있고, 이 자동 리뷰가 과거 버그의 1/3을 사전 차단할 수 있었음을 확인했다. 인간 리뷰어의 역할은 "코드가 올바른가"에서 "이 코드가 풀어야 할 문제를 실제로 풀고 있는가"로 이동한다.

4개월마다 두 배씩

마지막으로 속도 문제를 냉정하게 봐야 한다. Anthropic 보고서에 따르면 AI가 독자적으로 완료할 수 있는 작업의 복잡도는 약 4개월마다 두 배씩 증가하고 있다. 이 추세가 유지된다면 2026년 내에 숙련된 인간이 며칠에 걸려 하는 작업, 2027년에는 몇 주짜리 작업까지 AI의 능력 범위에 들어온다.

이 속도 앞에서 팀 리빌딩의 방향은 명확하다. AI가 더 많은 코드를 짤수록, 인간이 해야 할 일의 층위는 높아진다. 실행은 에이전트에게 넘기되, 방향을 설정하고 결과를 검증하고 실패를 해석하는 역량—이것이 AI-First 팀에서 개발자가 갈고닦아야 할 것이다. 도구 경쟁의 승자가 4개월마다 바뀌는 세계에서, 팀의 경쟁력은 어떤 도구를 쓰는가가 아니라 어떤 판단력으로 도구를 지휘하는가에 달려 있다.