자율 에이전트 IDE 시대, 개발자가 설계해야 할 '위임의 경계'

AI 코딩 도구의 진화는 오랫동안 하나의 방향으로 흘렀다. 자동완성이 똑똑해지고, 컨텍스트 윈도우가 넓어지고, 채팅 패널이 레포 전체를 읽기 시작했다. 그러나 본질적인 역학 관계는 바뀌지 않았다. 개발자가 운전하고, AI는 조수석에 앉아 있었다. 2025년 말부터 2026년 상반기에 걸쳐 등장한 두 가지 움직임—Google Antigravity와 Claude Fable 5—은 이 구도에 정면으로 도전한다. 그리고 두 도구가 동시에 던지는 질문은 같다. "핸들을 에이전트에게 넘긴다는 것이 실제로 무엇을 의미하는가?"

Google Antigravity: IDE를 '태스크 오케스트레이션 레이어'로 재정의하다

Google Antigravity는 2025년 11월 Gemini 3과 함께 출시됐다. 표면적으로는 AI 에디터처럼 보이지만, 설계 철학은 완전히 다르다. 기존 도구들이 에디터에 AI를 얹는 방식이었다면, Antigravity는 에이전트 실행을 전제로 IDE를 처음부터 다시 설계했다. 그 결과물이 두 개의 인터페이스다. Editor View는 익숙한 IDE 환경이고, Manager Surface가 진짜 새로운 부분이다. 여러 에이전트를 각각의 워크스페이스에서 비동기로 동시에 돌릴 수 있는 오케스트레이션 레이어다. 한 에이전트가 기능을 구현하는 동안 다른 에이전트가 버그를 재현하고 패치한다. 어느 쪽도 서로를, 그리고 개발자를 블로킹하지 않는다.

2026년 5월 Google I/O에서 공개된 Antigravity 2.0은 여기서 한 걸음 더 나갔다. Browser Subagent가 핵심이다. 실제 Chromium 인스턴스를 에이전트가 직접 제어해서 앱을 탐색하고, 클릭하고, 결과를 검증한다. 프론트엔드 개발자 입장에서 이 부분이 특히 흥미롭다. 변경사항을 확인하기 위해 개발 서버를 켜고 UI를 직접 클릭하는 반복 사이클—이 지루한 피드백 루프를 에이전트가 대신 처리하고, Artifacts(스크린샷, 작업 로그, 세션 녹화)로 증거를 돌려준다. 이터레이션 사이클이 실질적으로 압축되는 지점이다.

Claude Fable 5: '며칠 동안 실행된다'는 것의 실제 의미

한편 Anthropic은 2026년 6월 Claude Fable 5를 출시했다. Mythos 클래스의 첫 번째 공개 모델이다. 헤드라인 기능은 '장시간 비동기 실행'—이전 모델로는 불가능했던 멀티데이 작업을 지속할 수 있다는 것이다. 19페이지짜리 스펙 문서를 받아 9시간 반 동안 도구를 직접 빌드한 사례가 초기 커버리지에서 언급됐다. Vision 기능으로 자신의 코딩 결과물을 목표와 대조해 스스로 검증하는 것도 가능하다고 한다.

dev.to의 솔로 플러그인 개발자가 작성한 글은 이 기능에 대해 인상적일 정도로 냉정한 시각을 제시한다. 요약하면 이렇다. "언제 Fable을 쓰고 싶은가?"라는 질문이 "언제 며칠짜리 청구서를 받고 싶은가?"라는 질문과 분리되지 않는다. Fable 5의 가격은 입력 토큰 100만 개당 $10, 출력 토큰 100만 개당 $50다. 장시간 자율 실행은 계획, 코드, 테스트, 수정—모든 것을 출력 토큰으로 쌓는다. 프롬프트 캐싱 할인(입력 90%)이 있어도 출력 비용은 그대로다. "며칠 동안 실행된다"는 말은 동시에 "며칠 동안 과금된다"는 말이다.

위임의 경계: 두 도구가 함께 드러내는 설계 문제

두 도구를 나란히 놓으면 같은 질문이 수면 위로 올라온다. "에이전트에게 어디까지 맡길 것인가?" 이것은 기술 스펙의 문제가 아니다. 워크플로우 설계의 문제다.

Antigravity 팀 자체가 솔직하게 경고한다. 에이전트의 자율 실행이 가치 제안인 동시에 리스크다. Artifacts를 꼼꼼히 감사하지 않으면 검토되지 않은 변경사항이 코드베이스에 쌓인다. 데이터 모델이나 외부 API를 건드리는 작업일수록 더 그렇다. Manager Surface가 강력한 이유는 정확히 그것이 위험한 이유이기도 하다.

Claude Fable 5의 설계에서 비슷한 원칙을 발견할 수 있다. 사이버보안, 생물학, 화학 등 고위험 영역에서는 Fable 5가 자신의 응답을 차단하고 Claude Opus 4.8이 대신 답하도록 설계되어 있다. 가장 강력한 모델을 배포하기 위해 Anthropic이 선택한 방식은, 특정 도메인에서 의도적으로 능력을 제한하는 것이다. 에이전트의 강도가 높아질수록 설계의 핵심은 '무엇을 하게 하는가'가 아니라 '무엇을 하지 않게 하는가'로 이동한다.

프론트엔드/솔로 개발자에게 실제로 무엇이 바뀌는가

이 두 흐름이 가리키는 실무적 시사점을 정리하면 세 가지다.

첫째, 위임 가능한 작업의 종류를 먼저 정의해야 한다. Antigravity의 Manager Surface는 그린필드 컴포넌트 구현, 의존성 업데이트, 문서 생성 같은 '비동기로 처리 가능하고 검토 후 머지하면 되는' 작업에 맞다. 프로덕션 모노레포에서 매 diff가 중요한 작업은 여전히 Cursor나 VS Code가 더 적합하다고 Antigravity 자체 문서도 인정한다. 도구의 전환이 아니라 작업 유형별 도구 배치가 핵심이다.

둘째, 모델의 강도와 작업의 무게를 일치시켜야 한다. Claude Fable 5는 '한 사람이 며칠에 걸쳐도 끝내기 어려운 작업'을 위한 도구다. 대규모 마이그레이션, 스펙에서 전체 빌드—이런 작업을 주말에 걸어두는 용도다. 동기적 일상 작업은 Opus 클래스로 충분하고, 비용도 훨씬 친절하다. '가장 강력하니까 항상 쓴다'는 접근은 솔로 개발자의 예산이 버티지 못한다.

셋째, Artifacts 감사를 워크플로우의 일부로 설계해야 한다. 에이전트가 실행한 결과를 검토하는 단계는 '선택적 확인'이 아니라 '필수 게이트'로 구조화해야 한다. Antigravity의 Artifacts(스크린샷, 로그, 세션 녹화)는 이 감사를 가능하게 하는 인터페이스다. 이것을 적극적으로 활용하지 않으면 자율 실행의 속도 이득이 고스란히 기술 부채로 전환된다.

전망: '위임의 아키텍처'가 개발자의 핵심 역량이 된다

Google Antigravity의 Manager Surface와 Claude Fable 5의 장시간 실행 능력은 아직 성숙 단계에 있다. Antigravity는 공개 프리뷰 상태고, API 스펙과 가격이 출시 이후 여러 차례 바뀌었다. Browser Subagent의 복잡한 UI 인터랙션 안정성은 Playwright나 Cypress 수준에 아직 미치지 못한다. Fable 5의 자기 검증 기능은 검사하는 쪽과 검사받는 쪽이 같은 맹점을 공유할 수 있다는 근본적인 불확실성을 안고 있다.

그럼에도 방향은 분명하다. 에이전트의 자율 실행 능력은 계속 높아지고, 그에 비례해서 '무엇을 맡기고 무엇을 직접 볼 것인가'를 판단하는 능력의 가치도 올라간다. 핸들을 넘기는 기술이 아니라, 어디서 핸들을 되찾을지를 설계하는 능력—그것이 자율 에이전트 IDE 시대에 개발자에게 남는 역할이다.