AI가 코드를 짜는 시대, 개발자가 설계해야 할 것

코드 생성 비용이 사실상 제로에 수렴하고 있다. Claude Code, GitHub Copilot, Cursor—어떤 도구를 쓰든 에이전트는 500줄짜리 PR을 1분 안에 뽑아낸다. 문제는 그 PR을 제대로 읽는 데 시니어 엔지니어가 1시간 이상 소요된다는 점이다. 생성과 검증 사이의 이 비대칭이, 지금 AI-First 팀 리빌딩에서 가장 먼저 직면하는 실질적 압력이다.

확률적 엔지니어링이라는 새로운 계약

소프트웨어 업계는 수십 년간 결정론적 계약 위에서 움직였다. 코드를 작성하고, 테스트하고, 배포하면 작동한다는 보장이 있었다. 버그는 재현 가능했고, 원인을 추적할 수 있었다. GeekNews에 공유된 '확률적 엔지니어링과 24/7 직원' 에세이는 이 계약이 조용히 깨지고 있다고 진단한다. AI 네이티브 팀에서 코드베이스는 이미 '작동한다고 믿는' 것으로 변화했다. 에이전트가 PR을 열고, 서로의 작업을 리뷰하고, 사람이 키보드를 한 번도 건드리지 않고 머지되는 일이 프론티어 팀에서는 이미 벌어지고 있다.

실패 모드는 극적이지 않다. 테스트 스위트를 10번 중 9번 통과하는 경합 조건, 스테이징에서는 완벽하지만 예상 못한 입력 분포에서 조용히 무너지는 기능, 1만 행 중 1행을 손상시키며 3주 후에야 발견되는 마이그레이션. 느리고 조용한 열화가 핵심 실패 패턴이다. 더 많은 코드가 생성될수록 개별 조각을 평가하는 데 필요한 컨텍스트는 증가하고, 리뷰는 생성보다 스케일링이 느리며, 출력량에 대해 선형보다 더 나쁘게 스케일링된다.

Jevons의 역설이 소프트웨어에서 재현된다

1865년 경제학자 윌리엄 스탠리 제번스는 증기기관 효율이 높아지면 석탄 소비가 줄어드는 게 아니라 오히려 늘어난다고 관찰했다. 효율이 엔진을 만들 가치가 있는 영역 자체를 확장했기 때문이다. 코드 작성 단위 비용이 제로에 수렴하는 지금, 소프트웨어도 동일한 현상을 겪고 있다. 팀은 덜 만드는 게 아니라 훨씬 더 많이 만들고, 훨씬 더 자주 배포한다. 에이전트 중심으로 재구조화한 팀이 1년 전 대비 3배, 5배, 10배 출력을 달성하는 사례가 보고되고 있다.

제번스의 두 번째 교훈이 더 중요하다. 공급이 폭발하면 선별(selection)이 핵심이 된다. 에이전트 함대를 올바른 문제로 지시하고, 출력에서 가치 있는 것을 필터링하고, 결과를 일관성 있는 것으로 통합하는 능력—이것이 지금 소프트웨어 개발에서 가장 레버리지 높은 역할이다. 작업의 가치는 더 이상 생산 노력이 아니라 방향 설정, 선별, 일관성으로 결정된다.

프롬프트 설계가 새로운 엔지니어링 스킬이 된 이유

이 맥락에서 Claude Code의 HTML 프롬프트 전략이 갖는 의미가 달리 보인다. 개발자 커뮤니티에서 공유된 실험에 따르면, <role>, <context>, <user_task> 같은 시맨틱 HTML 태그로 프롬프트를 구조화했을 때 Claude의 복잡한 멀티스텝 로직 해석 능력이 극적으로 개선됐다. 단순히 'AI를 잘 쓰는 팁'이 아니다. 의도를 머신이 읽을 수 있는 형태로 번역하는 능력이, 에이전트 출력의 품질과 예측 가능성을 결정하는 핵심 변수가 됐다는 의미다.

claude.md 파일을 프로젝트별로 정교하게 설계하는 커뮤니티 움직임도 같은 맥락이다. 코딩 스타일, 아키텍처 패턴, 라이브러리 사용 규칙을 사전 정의해두면 매번 긴 지시를 반복하지 않아도 일관성 있는 출력을 얻을 수 있다. 이건 프롬프트 엔지니어링이라는 개인 스킬의 문제가 아니라, 팀 차원의 에이전트 운영 설계 문제다. CLAUDE.md를 개인 프롬프트 노트로 쓰는 팀과, 팀 공유 운영 명세서로 버전 관리하는 팀 사이에는 이미 생산성 격차가 벌어지고 있다.

역할은 상승과 하강을 동시에 겪는다

'확률적 엔지니어링과 24/7 직원' 에세이가 가장 불편하게 짚는 부분은 역할 분화다. 'AI가 오면 모두가 레벨업한다'는 깔끔한 서사는 현실이 아니다. 최고의 엔지니어는 더 효과적인 PM으로, 최고의 PM은 시스템 아키텍트로, 최고의 아키텍트는 유통·성장·시장 구조를 고민하는 방향으로 이동한다. 이 그룹에게는 역사상 가장 레버리지 높은 업무 환경이다.

동시에 다른 방향의 분화가 일어난다. 많은 엔지니어가 스펙 작성자, 에이전트 출력 리뷰어, 에이전트 베이비시터로 전환된다. 의도를 프롬프트로 번역하고, 자신이 완전히 이해하지 못한 기준으로 에이전트 출력을 채점하는 역할이다. 이 중 일부는 실제로 중요한 작업이다. 하지만 일부는 새로운 용어로 포장된 2026년판 데이터 입력에 가깝다. 에이전트 함대를 효과적으로 운영하는 상위 3분의 1과 출력물을 관리하는 중간층 사이의 급여 격차는, 이전 시대의 엔지니어-영업 급여 격차보다 더 클 것이라는 전망이 나온다.

잃어버리는 근육을 의식해야 한다

팀 리드로서 가장 냉정하게 봐야 할 지점이 있다. 처음부터 AI에 의존해 온 주니어 엔지니어들이 빠르게 폴리싱된 코드를 출력하지만, 모델이 예상치 못한 방식으로 실패할 때 버그를 찾지 못하는 현상이 이미 현실화되고 있다. 새벽 2시에 스택 트레이스와 씨름하면서만 형성되는 시스템 내부 모델이 없기 때문이다.

취향(taste)은 AI 출력에 승인을 누른다고 생기지 않는다. 판단력(judgment)은 그럴듯한 답을 5초 만에 수용하는 행동으로 개발되지 않는다. 장인정신(craft)은 다른 에이전트의 작업을 리뷰한다고 획득되지 않는다. 소프트웨어 엔지니어링의 도제 모델—주니어가 작은 것을 출시하고, 시니어가 리뷰하고, 주니어가 그 피드백을 통해 감각을 흡수하는 구조—이 붕괴하고 있다. 다음 세대의 장인정신이 어디서 올 것인지, 대부분의 팀이 아직 이 질문을 진지하게 던지지 않고 있다.

지금 구축해야 할 스캐폴딩

현재 사용하는 모델이 앞으로 사용할 모델 중 가장 약한 모델이다. 이 방향성 베팅은 AI 인프라 레이어에서 관찰되는 것들로 충분히 뒷받침된다. 전략적 함의는 명확하다. 조직은 지금의 모델이 아니라, 아직 출시되지 않은 미래 모델을 흡수할 역량을 지금 구축해야 한다.

구체적으로는 세 가지다. 스펙 작성 문화를 지금부터 정밀하게 설계할 것. 에이전트 출력을 검증하는 리뷰 기준을 팀 단위로 명문화할 것. 그리고 의도적으로, 정기적으로, 중요한 무언가를 에이전트 없이 직접 만드는 훈련 의식을 팀 안에 유지할 것. 마지막 항목이 가장 반직관적으로 보이지만, 10년 후 판단력을 유지하는 팀과 그렇지 않은 팀의 차이를 만드는 것이 바로 이 근육이다.

24/7 직원이라는 개념은 약속이 아니라 재배치다. 에이전트가 밤새 코드를 생성하는 동안 아침에 무엇을 트리아지하고, 낮에 어떤 고레버리지 판단을 내리고, 저녁에 어떤 스펙을 함대에 넘길 것인지—이 루프를 설계하는 팀이 다음 역량 점프를 흡수한다. 도구가 성숙할 때까지 기다리는 팀은, 얼리 무버가 이미 아는 것을 첫 1년간 학습하는 데 소비하게 된다.

AI가 코드를 짜는 시대, 개발자가 설계해야 할 것

출처