보리스 체르니 Anthropic 총괄이 최근 인터뷰에서 한 말이 묘하게 오래 남는다. "이제 Claude에게 직접 프롬프트를 입력하지 않는다." IDE를 지운 것도 모자라, 프롬프트 입력이라는 행위 자체가 사라졌다는 선언이다. 그가 묘사하는 현재 개발 방식은 단순하다. 스스로 구동되는 루프 시스템을 작성하고, 그 루프들을 관리한다. AI가 피드백을 분석하고 다음 행동을 결정하며 문제를 해결하는 주체가 되는 구조다. 이건 도구 활용 수준의 이야기가 아니다. 개발 패러다임 자체의 전환이다.
그런데 이 장밋빛 자율화 그림에는 아직 공식 매뉴얼에 없는 장면이 하나 있다. 프랑스 개발자 미셸 포레가 dev.to에 공유한 경험이 그것이다. 어느 날 밤 Claude Code 세션을 열어둔 채 잠들었더니, 다음 날 아침 에이전트가 혼자 9개의 커밋을 올려놓았다. 커밋 품질은 나쁘지 않았다. 각 아티팩트는 검증을 통과했고 작업도 유실되지 않았다. 그런데 세션 로그가 없었다. /close-session 명령어가 트리거되지 않았고, 외부 피드백 없이 에이전트가 5개 이상의 결정을 연속으로 내리는 동안 아무도 "잠깐, 다시 의심해봐"라고 말해주지 않았다.
이게 바로 reasoning drift 문제다. RLHF로 훈련된 모델은 프롬프터를 만족시키도록 학습되어 있다. 프롬프터가 자리를 비우면 마찰을 유발할 주체 자체가 사라진다. 에이전트는 틀린 게 아니라, 그냥 아무도 틀렸다고 말하지 않는 방향으로 계속 흘러간다. 포레는 이 비대칭을 메타-훅으로 교정하는 프로토타입을 실험 중이다. PostToolUse 훅이 사람 개입 없는 연속 에이전트 호출을 카운팅하다가 5회를 초과하면 강제로 falsify-before-fix 또는 close-session을 호출하는 구조다. 임계값 5는 측정값이 아니라 교리적 선택이다. 너무 낮으면 정상 세션에서도 방해가 되고, 너무 높으면 drift가 이미 완성된 뒤에 훅이 켜진다.
이 두 사례를 나란히 놓으면 하나의 설계 과제가 선명해진다. 루프를 '돌리는 것'은 이제 가능하다. 문제는 그 루프가 의도대로 흘러가고 있는지 판단할 수 있는 구조를 누가, 어떻게 설계하느냐다. 여기서 Spec-Driven Development(SDD)가 맞물린다. JetBrains와 DeepLearning.AI가 제안한 이 방법론의 핵심은 단순하다. 코드 작성보다 명세를 먼저 설계하라. 막연한 프롬프트와 구조화된 스펙의 차이는 AI 출력 품질에 직결된다. "로그인 시스템 만들어줘"와 "이메일·패스워드 검증 실패 시 INVALID_CREDENTIALS 반환, 비밀번호는 bcrypt 해싱, 5회 실패 시 15분 잠금"은 에이전트가 작동하는 검색 공간 자체를 다르게 만든다. SDD가 말하는 건 결국 이것이다. 에이전트의 자율성이 높아질수록 명세의 정밀도가 품질을 결정한다.
테크 리드 입장에서 이 세 흐름이 합쳐지는 지점은 명확하다. AI-First 팀에서 개발자의 핵심 역할은 명세 설계자 + 루프 관리자로 재정의된다. 코드를 짜는 것도, 심지어 프롬프트를 입력하는 것도 아니다. 루프가 올바른 방향으로 흐를 수 있도록 명세를 정밀하게 작성하고, 루프가 의도에서 벗어나는 순간을 포착하는 감지 구조를 설계하는 것이 핵심 업무가 된다. 체르니의 표현을 빌리자면 "루프를 작성하고 관리하는 것"이 일이다. 그리고 포레의 메타-훅이 보여주듯, 그 관리는 수동 감시가 아니라 구조로 풀어야 한다.
실행 관점에서 당장 팀에 적용해볼 수 있는 질문은 세 가지다. 첫째, 우리 팀의 에이전트 지시문은 프롬프트 수준인가, 스펙 수준인가. 엣지 케이스와 실패 시나리오, 제약 조건이 명시돼 있지 않다면 프롬프트다. 둘째, 에이전트가 사람 개입 없이 몇 번까지 연속 결정을 내릴 수 있도록 허용하고 있는가. 그 임계값을 설정해본 적이 있는가. 셋째, reasoning drift를 사후 코드 리뷰 말고 어떻게 사전에 감지할 것인가. 이 세 질문에 답이 없는 팀이라면, 자율 루프를 도입했다기보다 통제되지 않은 자율 루프를 허용한 것에 가깝다.
체르니가 인터뷰 말미에 남긴 말이 있다. "결국 모델에게 가르쳐야 할 마지막 영역은 가치(Values)"라고. 부모가 자녀에게 좋은 사람이 되는 법을 가르치듯, 개발자는 에이전트에게 어떤 결정이 좋은 결정인지를 가르치게 될 것이라는 전망이다. 당장 내일의 실무 언어로 바꾸면 이렇다. 명세가 바로 그 가치다. 스펙에 적힌 제약과 규칙과 엣지 케이스가 루프의 판단 기준이 된다. 명세를 잘 쓰는 개발자가 에이전트를 올바른 방향으로 정렬시키는 개발자다. 자율 루프 시대에 가장 비싼 역량은 코딩 속도가 아니라 명세 설계 능력이다.