코그니션의 AI 코딩 에이전트 '데빈(Devin)'이 1년 새 ARR 10배 성장, 기업가치 39조 원을 인정받으며 대규모 투자를 유치했다. 골드만삭스, NASA, 벤츠가 고객사로 이름을 올렸고, 최근 6개월 기준 기업 사용량은 매달 50%씩 늘고 있다. Claude Code, GitHub Copilot에 이어 자율형 AI 코딩 에이전트 시장이 폭발적으로 커지고 있다는 신호다. 전체 코드의 54%가 AI 생성이라는 최근 설문 결과도 이 흐름을 뒷받침한다.
그런데 여기서 아무도 안 묻는 질문이 있다. 어느 54%인가?
결제 플랫폼 CTO가 dev.to에 올린 글이 이 질문에 정면으로 답한다. FCA 인가를 받은 실제 결제 시스템을 운영하는 그는 1년 이상 AI 에이전트를 공격적으로 써온 결과를 솔직하게 공개했다. 결론은 명확하다. AI 에이전트는 코드의 80%에서 압도적으로 잘한다. 그리고 나머지 20%에서 조용히 망가진다.
AI가 잘하는 80%: 주니어 군단의 탄생
API 스캐폴딩, 서비스 보일러플레이트 생성, Zod 스키마 작성, 테스트 스텁 생성, 여러 레포에 걸친 패턴 마이그레이션. 이 작업들은 예측 가능하고 패턴을 따르며 구조적으로 반복된다. 이 CTO의 팀은 신규 마이크로서비스를 만들 때 에이전트에게 맡기면 모듈 구조, Docker 설정, Traefik 레이블까지 몇 분 안에 완성된다고 했다. 전에는 반나절짜리 작업이었다.
이 수준에서 AI 에이전트는 실제로 최고의 주니어 개발자다. 피로를 모르고, 에고가 없고, 단순 반복 작업에서 실수율이 거의 없다. 코그니션의 데빈이 39조 원 기업가치를 인정받은 이유도 여기 있다. 80%의 코드를 이전보다 훨씬 빠르게, 훨씬 싸게 생산할 수 있다는 명백한 ROI.
AI가 조용히 망가지는 20%: 판단의 영역
문제는 이 팀이 웹훅 핸들러를 에이전트에게 맡겼을 때 터졌다. 결제 플랫폼에서 웹훅은 '돈이 어디로 갔는지'를 결정하는 코드다. 에이전트가 작성한 핸들러는 깔끔했다. 테스트도 통과했다. 그런데 상태 전이 규칙을 조용히 무시했다.
결제는 pending → complete로 갈 수 있지만 complete → pending으로 돌아갈 수 없다. 이걸 아는 시니어 개발자는 그 가드를 당연히 넣는다. 돈이 역방향으로 움직였을 때 어떤 일이 벌어지는지 몸으로 알기 때문이다. 에이전트는 해피 패스를 아름답게 구현했고, 예외 케이스는 존재하지 않는 것처럼 처리했다.
이 CTO가 발견한 패턴은 일관적이었다. AI 에이전트는 완료에 최적화되어 있지, 정확성에 최적화되어 있지 않다. 에이전트는 '일어나야 하는 일'을 잘 구현한다. '일어나서는 안 되는 일'은 명시적으로 지시하지 않으면 거의 신경 쓰지 않는다. 결제 도메인에서 진짜 리스크는 바로 이 음수 케이스들이다. 웹훅이 두 번 오면? 이미 환불된 건에 환불 요청이 오면? 은행이 예상치 못한 상태 코드를 반환하면?
재사용성 문제도 있다. 팀이 수년간 표준화한 공유 유틸리티가 있어도 에이전트는 그냥 새로 짠다. 동작은 한다. 하지만 이제 동일 로직의 구현이 두 개가 됐다. 하나는 프로덕션에서 검증된 것, 하나는 방금 생성된 것. 아키텍처는 조용히 무너진다.
코드와 프로덕트의 차이: 판단
이 CTO의 프레임이 정확히 핵심을 찌른다. 주니어는 코드를 짠다. 프로덕트는 배포하지 않는다. 코드와 프로덕트의 차이는 판단이다. 어떤 상태 전이가 불법인지 아는 것, 재시도 로직에 특정 백오프 커브가 필요한 이유를 몸으로 아는 것, 웹훅 핸들러에 멱등성이 필요한 이유를 새벽 2시 장애 경험으로 아는 것.
이 지식은 훈련 데이터에서 나오지 않는다. 시스템을 수년간 운영하고, 장애를 디버깅하고, 머천트에게 정산이 왜 늦었는지 설명하는 과정에서 축적된다. 이게 20%의 실체다.
팀 리빌딩 관점에서 본 시사점
지금 많은 조직이 AI 도입을 이유로 시니어 헤드카운트를 줄이는 계산을 하고 있다. 코그니션의 데빈이 39조 원 기업가치를 받는 시대니 이해할 수 있는 충동이다. 하지만 이 CTO의 사례는 그 계산이 얼마나 위험한지를 보여준다.
시니어를 AI로 대체하면 속도와 조용한 재앙을 동시에 얻는다. 시니어에게 AI를 주면 군단을 거느린 아키텍트를 얻는다. 두 결과의 차이는 단기적으로 잘 보이지 않는다. 에이전트가 짠 웹훅 핸들러는 테스트를 통과하고 PR을 통과한다. 문제는 프로덕션에서, 그것도 최악의 타이밍에 터진다.
이 CTO 팀이 실제로 도입한 구조는 세 가지다. 첫째, 아키텍처를 에이전트가 읽을 수 있는 형식으로 만들었다. 문서가 아니라 에이전트가 무시할 수 없는 린트와 제약으로. 둘째, 음수 케이스 테스트를 전용으로 구축했다. 불법 상태 전이, 중복 웹훅, 멱등성 체크. 에이전트가 조용히 건너뛰는 바로 그 케이스들을 CI가 잡도록. 셋째, 돈에 닿는 코드는 시니어가 반드시 리뷰한다. 구문 체크가 아니라 판단 체크로.
2026년의 시니어 JD
54%가 AI 생성 코드인 지금, 2026년에는 그 비율이 70%, 80%를 넘어설 것이다. 코그니션 ARR이 1년 새 10배가 됐다는 건 시장이 이미 그 방향으로 달리고 있다는 뜻이다. 이 시대에 시니어 개발자의 직무기술서는 무엇이 돼야 할까.
AI가 짠 코드에서 누락된 음수 케이스를 찾아낼 수 있는가. 에이전트가 재발명한 바퀴를 발견하고 아키텍처를 지킬 수 있는가. 새벽 2시 장애 경험이 코드가 아닌 판단으로 남아 있는가. 이 질문들이 새 JD의 핵심이다.
80%는 이미 AI가 해결했다. 팀 리빌딩의 진짜 과제는 나머지 20%를 담당할 수 있는 사람을 알아보는 기준을 새로 세우는 것이다. 코드를 얼마나 빠르게 짜는지가 아니라, AI가 짠 코드에서 무엇이 빠졌는지를 얼마나 빠르게 보는지가 그 기준이 된다.