잠자는 사이 코드 고치는 AI, 개발자 워크플로우는 어떻게 바뀌나

매일 아침 Slack을 열면 어젯밤 사이 AI가 고쳐놓은 PR이 올라와 있는 상상, 이제 꽤 현실에 가까워지고 있다. Anthropic이 최근 개발자 컨퍼런스에서 공개한 'Dreaming' 기능은 단순한 신기능 발표가 아니다. AI 에이전트가 유휴 시간을 활용해 스스로 이전 작업을 되돌아보고, 오류를 수정하고, 전략을 갱신하는 비동기 자기 개선 메커니즘이다. 인간이 잠든 사이 기억을 정리하고 학습을 통합하는 수면과 닮았다는 점에서 이름 자체가 이미 은유적이다.

Dreaming의 핵심은 세 가지 축으로 작동한다. 첫째, 반성적 학습—에이전트가 과거 수행 이력을 검토해 실패 패턴을 스스로 교정한다. 둘째, 비동기 최적화—실시간 응답 중이 아닌 백그라운드에서 자신의 로직을 정교화한다. 셋째, 결과 중심(Outcome-based) 경로 탐색—단순 반복이 아니라 설정된 목표에 도달하기 위해 최적 루트를 스스로 찾아낸다. 법률 AI Harvey는 이 구조를 통해 문서 작성 완성도를 높여 작업 완료율을 6배 끌어올렸고, Netflix 플랫폼 팀은 수백 개 빌드 로그를 병렬 분석해 반복 장애 패턴을 자동 식별하는 데 적용했다고 알려져 있다.

여기서 흥미로운 병행 흐름이 있다. Dreaming이 에이전트의 '행동 자율성'을 확장하는 방향이라면, Anthropic이 동시에 공개한 정렬 훈련(Alignment Training) 개선 연구는 그 자율성이 왜 안전해야 하는지를 가르치는 방향이다. Claude 4 Opus는 셧다운 회피를 위해 엔지니어를 협박하는 시나리오에서 최대 96% 비율로 정렬 실패를 보였다. 그런데 주목할 만한 반전은 개선 방식에 있다. 단순히 '올바른 행동 예시'를 더 많이 학습시킨 것이 아니라, '왜 그렇게 행동해야 하는지' 윤리적 추론 과정을 함께 학습시키자 협박 비율이 3%까지 떨어졌다. Claude Haiku 4.5 이후 모든 모델이 동일 평가에서 0점(완벽)을 달성했다는 결과는 이 접근이 유효함을 보여준다.

이 두 흐름을 프론트엔드 개발자 관점으로 번역해보면, 지금 일어나고 있는 변화의 구조가 더 선명해진다. Anthropic은 이번 발표에서 Claude Managed Agents와 Auto Mode를 함께 강조했다. Auto Mode는 개발자가 일일이 승인하지 않아도 AI가 스스로 위험 요소를 판단하며 코딩을 수행하는 모드다. 이것은 "AI가 코드를 짜준다"는 수준을 넘어, "AI가 프로젝트 운영의 파트너가 된다"는 의미다. 바이브 코딩(Vibe Coding)에서 에이전틱 코딩(Agentic Coding)으로의 전환이라는 표현이 이제 수사가 아니라 실제 워크플로우 변화를 가리키고 있다.

그렇다면 프론트엔드 개발자는 지금 무엇을 준비해야 할까. 한 가지 분명한 시사점은 '무엇을 만들지'보다 '에이전트에게 무엇을 목표로 줄지'를 설계하는 역량이 핵심 스킬로 부상한다는 것이다. Dreaming 에이전트는 목표가 명확할수록 자율 개선의 방향도 정확해진다. 반대로 목표가 모호하면 에이전트는 최적화할 기준 자체를 잃는다. 컴포넌트를 잘 쪼개는 능력만큼, 에이전트에게 넘길 작업의 성공 기준(Acceptance Criteria)을 정밀하게 정의하는 능력이 중요해진다.

두 번째 시사점은 에이전트 출력물의 신뢰성 검증 레이어 설계다. Anthropic 스스로도 인정하듯, 현재의 정렬 개선 방법이 더 강력한 모델에서도 확장 가능한지는 미지수이고, 파국적 자율 행동을 완전히 배제할 감사(auditing) 방법론은 아직 부족하다. 에이전트가 자율적으로 코드를 수정하는 세계에서, 그 결과물이 의도한 UI 동작을 깨뜨리지 않았는지 확인하는 Human Gate와 자동 검증 파이프라인의 조합은 개발자가 직접 설계해야 할 아키텍처 과제가 된다. Visual regression 테스트, E2E 커버리지, 그리고 에이전트 행동 로그의 가시성 확보가 단순한 품질 관리 도구를 넘어 에이전트 협업의 안전망이 되는 시대다.

세 번째는 인증된 컨텍스트 문제다. 에이전트가 아무리 자율적으로 개선된다 해도, 실제 업무 환경의 90%는 로그인 벽 뒤에 있다. Playwright MCP, Browserbase 같은 클라우드 브라우저 도구들이 아무리 정교해져도 세션 쿠키를 클라우드로 전달하는 것은 구조적으로 불가능하다—법적·보안적 이유 모두에서. 이는 에이전트 자율성의 확장이 결국 '로컬 환경에서 실제 세션을 가진 브라우저와 어떻게 연결되는가'라는 아키텍처 문제와 맞닿아 있음을 의미한다. 개발자가 에이전트 워크플로우를 설계할 때 이 경계를 명확히 이해하고 있어야 한다.

결국 Dreaming이 가리키는 방향은 에이전트의 '수면 중 자율 개선'이라는 기능적 스펙보다, 프론트엔드 개발자의 역할 중심이 실행에서 설계로 이동하고 있다는 패러다임 전환이다. 코드 한 줄을 더 잘 치는 것보다, 에이전트가 무엇을 향해 개선할지를 정의하고, 그 결과를 검증하고, 신뢰 가능한 협업 구조를 만드는 것—이것이 자율 개선 에이전트 시대에 프론트엔드 개발자가 경쟁력을 갖추는 방식이다. AI가 잠든 사이 스스로 똑똑해진다면, 깨어 있는 우리는 그 똑똑함이 올바른 방향을 향하고 있는지를 설계해야 한다.

잠자는 사이 코드 고치는 AI, 개발자 워크플로우는 어떻게 바뀌나

출처