AI가 AI를 만들고, AI가 코드를 심사하는 시대 — 그래서 우리 팀은 뭘 해야 하나요

핵심 이슈: AI가 코드를 쓰고, 고치고, 심사까지 한다

메타 CAIO 알렉산드르 왕은 최근 AI 임팩트 서밋에서 "2025년 말부터 재귀적 자기 개선(Recursive Self-improvement)의 시대가 시작됐다"고 선언했습니다(aitimes). 오픈AI가 GPT-5.3 코덱스를 출시하며 "자체 개발 과정에서 중요한 역할을 한 최초의 모델"이라고 밝힌 것도 같은 맥락입니다. AI가 자기 학습을 디버깅하고, 배포를 관리하고, 테스트 결과를 진단하는 루프에 진입한 겁니다.

동시에 개발 현장에서는 이미 AI가 코드를 '쓰는' 단계를 넘어 '심사하는' 단계로 넘어가고 있습니다. git-lrc라는 도구는 git commit 훅에 걸려 매 커밋마다 AI가 diff를 분석하고, 인라인 코멘트와 심각도 태그를 붙여줍니다(dev.to). AI가 생성한 코드를 또 다른 AI가 리뷰하는 구조가 이미 프로덕션 워크플로우에 들어온 셈이죠.

맥락 해석: '쓰는 AI'와 '잊는 AI' 사이의 간극

여기서 한 가지 불편한 진실이 있습니다. AI 코딩 에이전트는 놀라운 속도로 코드를 생성하지만, 자기가 왜 그렇게 짰는지를 금방 잊어버립니다. Claude Code 사용자 커뮤니티에서는 컨텍스트 윈도우가 차면 자동 압축(compaction)이 실행되면서 "아키텍처 결정의 이유", "이미 배제한 버그 가설", "세션 초반에 합의한 커스텀 패턴"이 증발한다는 보고가 200건 이상의 GitHub 이슈로 쌓여 있습니다(dev.to, anthropics/claude-code#7530). 개발자들이 CONTEXT.md를 수동으로 유지하거나, 압축 전 세션을 스냅샷하는 서드파티 도구를 쓰는 건 이 '망각'에 대한 자구책입니다.

재귀적 자기 개선이 거시적 차원의 이야기라면, 컨텍스트 유실은 미시적 차원의 현실입니다. AI가 AI를 개선하는 루프가 빨라질수록, 그 루프 안에서 컨텍스트가 소실되는 비용도 기하급수적으로 커집니다. 이건 단순한 UX 불편이 아니라, AI 코딩 도구에 대한 신뢰의 구조적 침식입니다. 신뢰가 무너지면 개발자는 AI와 협업하는 대신 AI의 한계를 우회하기 시작하고, 그 순간 생산성 향상이라는 전제가 흔들립니다.

시사점: 팀의 역할이 '작성자'에서 '검증자·설계자'로 재정의된다

AI-First 팀을 리빌딩하는 입장에서, 이 세 가지 흐름이 가리키는 방향은 명확합니다. 코드를 직접 치는 행위의 비중은 줄고, 세 가지 상위 역할의 비중이 급격히 커집니다.

첫째, 컨텍스트 아키텍트. AI가 잊지 않도록 세션 경계를 설계하고, 프로젝트의 의사결정 맥락을 구조화된 형태로 관리하는 역할입니다. CONTEXT.md를 쓰는 게 아니라, 팀 전체의 AI 세션 전략을 설계하는 겁니다.

둘째, AI 출력 검증자. git-lrc 팀이 "우리는 레이스카에 브레이크를 잊었다"고 표현했듯, AI가 생성한 코드에서 조용히 삭제된 유효성 검사 한 줄, 완화된 제약 조건 하나를 잡아내는 건 여전히 사람의 몫입니다. 커밋마다 AI 리뷰를 돌리되, 그 리뷰 결과를 해석하고 최종 판단하는 책임은 엔지니어에게 있습니다.

셋째, 루프 설계자. 앤트로픽 클로드 코드 책임자 보리스 체르니가 ASL4 — 모델이 재귀적으로 자기 자신을 개선하는 단계 — 에서 "훨씬 무서운 일이 일어날 것"이라고 경고한 건, 피드백 루프의 방향과 경계를 설정하는 역할이 점점 더 중요해진다는 뜻입니다. 팀 차원에서 AI 에이전트가 어디까지 자율적으로 움직이고, 어디서 사람이 개입하는지를 설계하는 것이 곧 아키텍처의 핵심이 됩니다.

전망: 코드 작성 속도가 아니라, 판단 속도가 경쟁력이 된다

메타의 왕 CAIO는 2026년에 경제 전반에서 대규모 에이전트 배포가 일어날 것으로 전망했습니다. 구글 딥마인드의 허사비스 CEO는 2030년 AGI를, 오픈AI의 알트먼 CEO는 2028년 말까지 "데이터센터 내부의 지적 능력이 외부를 넘어설 것"이라 예고했습니다. 이 타임라인이 정확하든 아니든, 방향성은 분명합니다.

AI가 AI를 만들고, AI가 AI 코드를 리뷰하는 루프가 가속될수록, 팀의 가치는 '얼마나 빨리 코드를 짜느냐'가 아니라 '얼마나 정확하게 판단하느냐'로 이동합니다. 컨텍스트를 보존하는 구조를 설계하고, AI 출력의 미세한 결함을 탐지하고, 재귀적 개선 루프의 경계를 통제하는 능력. 이것이 AI-First 시대에 팀을 리빌딩할 때 우리가 채용 기준에 올려야 할 진짜 역량입니다. AI는 이제 동료를 넘어 동료를 만드는 동료가 되고 있으니까요.

AI가 AI를 만들고, AI가 코드를 심사하는 시대 — 그래서 우리 팀은 뭘 해야 하나요

핵심 이슈: AI가 코드를 쓰고, 고치고, 심사까지 한다

맥락 해석: '쓰는 AI'와 '잊는 AI' 사이의 간극

시사점: 팀의 역할이 '작성자'에서 '검증자·설계자'로 재정의된다

전망: 코드 작성 속도가 아니라, 판단 속도가 경쟁력이 된다

출처