AI가 코드의 80%를 짜는 팀, 남은 20%를 맡을 개발자를 어떻게 뽑나

숫자부터 직시하자

Google 신규 코드의 75%, Anthropic 코드베이스의 80% 이상이 AI가 작성했다. 2023년 GitHub Copilot이 사용자 코드의 46%를 담당한다고 밝힌 지 불과 2~3년 만에 벌어진 일이다. 이 속도라면 '개발자가 코드를 짠다'는 전제 자체가 2년 안에 완전히 뒤집힐 수 있다.

팀 리빌딩을 고민하는 테크 리드 입장에서 이 수치는 채용 공고의 JD(Job Description)를 다시 써야 한다는 신호다. 코딩 테스트 통과 능력이 채용의 핵심 게이트였다면, 이제 그 게이트가 무엇을 걸러내는지 다시 물어야 한다.

AI가 짠 코드, 진짜 문제는 양이 아니라 책임이다

Anthropic의 보고는 흥미로운 경고를 담고 있다. 코드 생산량이 기존 대비 8배 늘었지만, Anthropic 스스로 "코드 행 수는 품질이 아니라 양을 나타내는 지표"라고 못 박았다. 클로드 코드의 오픈엔드 태스크 성공률이 76%라는 수치도 뒤집어 읽으면 24%는 실패한다는 뜻이다.

더 핵심적인 문제는 이것이다. AI가 실험과 코드 작성을 빠르게 처리할수록, 인간의 확인과 판단이 전체 개발 파이프라인의 병목이 된다. Anthropic 내부에서는 이미 코드 리뷰가 새로운 병목으로 부상했다고 한다. 코드는 넘쳐나는데 그게 맞는지 판단할 수 있는 사람이 부족한 상황—이게 AI-First 팀이 실제로 맞닥뜨리는 현실이다.

장인 vs. 빌더라는 이분법은 틀렸다

Stack Overflow 블로그가 제시한 프레임이 이 문제를 잘 정리한다. '장인(artisan)'은 깊이 있는 숙련도로 견고한 것을 만드는 사람, '빌더(builder)'는 빠르게 무언가를 조립해내는 사람. AI의 등장으로 빌더의 진입 장벽이 사실상 사라졌다. vibe-coding 도구로 코드 한 줄 모르는 사람도 몇 시간 만에 작동하는 앱을 만들 수 있게 됐다.

그렇다면 장인은 사라지는가? 정반대다. IKEA 의자를 누구나 조립할 수 있는 건 숙련된 설계자가 부품을 검증했기 때문이다. Microsoft의 Scott Hanselman이 정확히 짚었다. "목표가 프로토타입인가, 수백만 명의 데이터를 위탁받는 뱅킹 플랫폼인가." AI 생성 코드는 전자에는 충분하지만, 디지털 인프라의 근간이 되는 후자는 여전히 코드를 진짜로 이해하는 사람의 손을 필요로 한다.

결국 이분법이 아니다. 장인이면서 빌더인 사람—AI를 능숙하게 다루면서도 그 결과물의 품질과 안전성을 판단할 수 있는 숙련도를 겸비한 사람이 다음 시대의 핵심 개발자다.

그래서 채용 기준을 어떻게 바꿔야 하나

실용적인 이야기를 하자. AI-First 팀 리빌딩 관점에서 내가 지금 당장 바꾸고 있는 채용 기준은 세 가지다.

첫째, 코딩 테스트보다 AI 협업 세션을 본다. 알고리즘 문제를 혼자 푸는 능력보다, AI와 페어 프로그래밍하는 과정에서 어떤 질문을 던지고 어떻게 결과물을 검증하는지가 더 중요해졌다. AI가 생성한 코드의 버그를 잡아낼 수 있느냐, 잘못된 보안 설계를 짚어낼 수 있느냐—이게 진짜 역량이다.

둘째, '취향(taste)'과 판단력을 측정한다. Major League Hacking의 Mike Swift가 말한 것처럼, 이제 가치는 "무엇을, 왜 만들지, 그리고 AI가 어떻게 만들게 할지 아는 것"에서 나온다. 기술 스펙을 주고 어떤 아키텍처 결정을 내리는지, 트레이드오프를 어떻게 설명하는지를 본다. AI에게 위임할 것과 직접 설계할 것을 구분하는 판단력이 핵심이다.

셋째, 코드 리뷰 역량을 1순위로 본다. Anthropic 사례에서 드러났듯, AI가 만든 코드가 쌓일수록 그것을 검토하고 승인할 수 있는 역량이 팀 전체의 병목이 된다. AI 생성 코드를 빠르고 정확하게 리뷰하는 능력—이게 앞으로 시니어 개발자의 핵심 가치가 될 것이다.

온보딩도 다시 설계해야 한다

채용 기준이 바뀌면 온보딩도 바뀐다. AI-First 팀에서 신규 합류자에게 가장 먼저 가르쳐야 할 것은 '우리 코드베이스의 AI 생성 비율이 얼마나 되는지, 어떤 컨텍스트에서 AI를 믿고 어떤 컨텍스트에서 의심해야 하는지'다. AI가 잘 처리하는 태스크와 실패하는 태스크의 경계를 빠르게 체득하게 하는 것이 기존의 '코드베이스 구조 파악'보다 더 중요해졌다.

Anthropic의 사례는 이 점에서도 시사적이다. 단순하고 명확한 태스크에서 80% 후반의 성공률을 보이는 AI가, 사양이 불명확한 오픈엔드 문제에서는 76%로 떨어진다. 이 차이를 이해하는 개발자와 그렇지 않은 개발자는 같은 AI 도구를 써도 전혀 다른 생산성을 낸다.

앞으로 6~18개월, 지금 설계해야 할 것

Anthropic은 AI가 자율적으로 처리할 수 있는 태스크 길이가 2024년 3월 4분에서 2025년 2월 90분, 2026년 초에는 720분으로 늘었다고 밝혔다. 2026년 안에 수일 단위 태스크도 가능해질 수 있다고 한다. 이 속도라면 지금 채용하는 개발자가 팀에 완전히 녹아드는 6~12개월 사이에 AI 역량의 판도가 또 한 번 뒤바뀔 수 있다.

그렇기 때문에 지금 채용에서 봐야 할 것은 현재 AI 도구를 얼마나 잘 쓰는가가 아니라, AI 능력이 빠르게 변할 때 자신의 역할을 스스로 재정의할 수 있는가다. 장인성과 빌더십을 동시에 갖춘 하이브리드 개발자란 결국, 도구가 바뀌어도 판단력을 잃지 않는 사람이다.

AI가 코드의 80%를 짜는 팀에서 나머지 20%를 맡을 사람은 단순히 '코드를 잘 짜는 사람'이 아니다. AI가 만든 80%가 제대로 작동하고 있는지 판단하고, 실패했을 때 어디서 무너졌는지 짚어내고, 다음 80%가 더 나은 방향으로 생성되도록 컨텍스트를 설계하는 사람이다. 그 사람을 알아보는 눈을 갖추는 것—그게 지금 테크 리드에게 가장 시급한 과제다.