Claude Managed Agents 실전 도입: 설계부터 거버넌스까지

Claude Managed Agents 실전 도입: 설계부터 거버넌스까지

'뇌와 손의 분리' 아키텍처가 팀 에이전트 설계의 기준이 되는 이유—그리고 Claude Code 버그 사태가 미리 보여준 운영 리스크

Claude Managed Agents 에이전트 아키텍처 Brain Hands 분리 멀티 에이전트 거버넌스 Claude Code 버그 Adaptive Thinking 에이전트 운영 AI-First 팀
광고

Anthropic이 2026년 4월 8일 공개한 Claude Managed Agents는 단순한 API 업데이트가 아니다. 에이전트를 프로토타입에서 프로덕션으로 올릴 때 팀이 반복해서 부딪히던 문제—상태 관리, 보안 샌드박스, 장기 세션 복구, 멀티 에이전트 조율—를 플랫폼 레벨에서 해결하겠다는 아키텍처 선언에 가깝다. aitimes 보도 기준으로 현재 퍼블릭 베타이며, 라쿠텐은 일주일 내 에이전트 배포, Asana는 'AI 팀원' 구현을 이미 완료했다고 밝혔다.

핵심 아키텍처: 뇌와 손을 분리하라

dev.to에 공개된 Anthropic 엔지니어링 포스트 'Scaling Managed Agents: Decoupling the brain from the hands'는 이 플랫폼의 설계 원칙을 세 컴포넌트로 정리한다.

  • Session(기억): 추가만 가능한 이벤트 로그. Claude의 컨텍스트 윈도우 바깥에 존재하며, 에이전트가 몇 시간을 실행해도 상태를 잃지 않는다.
  • Harness(뇌): 스테이트리스 오케스트레이터. Claude API를 호출하고, 툴 호출을 라우팅하며, Session에 결과를 기록한다. 스테이트리스이기 때문에 컨테이너가 죽어도 어떤 Harness 인스턴스든 Session을 이어받아 재개할 수 있다.
  • Sandbox(손): 컨테이너 기반 격리 실행 환경. 필요할 때만 프로비저닝되고, 쓰고 버리는 'cattle' 방식으로 관리된다.

인터페이스는 단 하나다: execute(name, input) → string. Harness는 Sandbox가 컨테이너인지, MCP 서버인지, 외부 API인지 알 필요가 없다. 이 단순한 계약이 멀티 에이전트 조율의 기반이 된다—Brain이 다른 Brain에게 Hand를 넘겨줄 수 있기 때문이다.

보안은 정책이 아니라 구조다

이 아키텍처에서 보안은 별도 레이어가 아니다. Brain/Hands 분리 자체가 보안을 강제한다. 자격증명(credentials)은 절대 Sandbox에 닿지 않는다. Git 토큰은 초기화 시 로컬 리모트에 와이어링되고, OAuth 토큰은 보안 볼트에 저장된다. Sandbox가 침해되더라도 크리덴셜은 안전하다. 이전에 발행한 아티클에서 다뤘던 '에이전트의 신뢰 반경이 곧 공격 반경'이라는 원칙을, 이 아키텍처는 설계 수준에서 구현한 셈이다.

성능 지표도 주목할 만하다. Anthropic이 공개한 수치에 따르면 컴포넌트 분리 이후 p50 TTFT(첫 토큰 응답 시간)는 약 60% 단축됐고, p95는 90% 이상 줄었다. 꼬리 지연(tail latency) 감소가 핵심이다—평균이 아니라 최악의 케이스가 개선돼야 프로덕션 SLA를 지킬 수 있다.

현실 직면: Claude Code 버그 사태가 미리 보여준 것

그런데 같은 시기, Claude Code 사용자 커뮤니티에서는 정반대의 신호가 터져 나왔다. dev.to에 올라온 커뮤니티 역공학 포스트에 따르면, 2026년 2~3월 Anthropic이 Claude Code에 세 가지 변경을 동시에 배포하면서 복합적인 장애가 발생했다.

  1. Adaptive Thinking 도입(2/9): 모델이 턴마다 사고 예산을 스스로 결정
  2. 기본 effort 레벨 변경(3/3): highmedium으로 조용히 하향
  3. thinking 히든 처리(2/12): UI에서 raw thinking을 숨기는 헤더 추가

세 변경이 맞물리자 에이전트는 API 버전을 날조하고, 커밋 SHA를 할루시네이션하고, 어려운 문제를 해결한 척 넘어가기 시작했다. 커뮤니티가 세션 로그를 분석했더니 fabrication이 발생한 턴에는 chain-of-thought 추론이 아예 없었다—thinking은 내부에서 일어났지만 redact 헤더 때문에 로그에 남지 않았고, 디버깅이 불가능해진 것이다.

현재까지 커뮤니티가 확인한 최우선 픽스는 CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1 환경변수 설정이다. Anthropic Claude Code 팀도 이를 공식 임시 워크어라운드로 인정했다.

팀에 주는 시사점: 에이전트를 '배포'하는 것과 '운영'하는 것은 다르다

두 소식을 나란히 놓으면 하나의 패턴이 보인다. Managed Agents는 에이전트를 더 빠르게 프로덕션에 올릴 수 있는 인프라를 제공한다. 하지만 Claude Code 사태는 모델 업데이트 한 번으로 에이전트의 행동이 조용히 달라질 수 있다는 사실을 적나라하게 드러냈다.

AI-First 팀이 에이전트를 통합할 때 설계해야 할 거버넌스 레이어는 크게 세 가지다.

① 관찰 가능성(Observability) 확보: Managed Agents의 Session 이벤트 로그는 단순한 상태 저장이 아니라 감사 추적(audit trail)이다. 모든 툴 호출과 의사결정이 기록되도록 설계하고, 팀 수준에서 이 로그를 정기적으로 리뷰하는 루틴을 만들어야 한다. Claude Code 사태에서 커뮤니티가 문제를 발견하는 데 시간이 걸린 이유는 thinking이 로그에서 사라졌기 때문이다.

② 모델 업데이트를 변수로 취급: AI 도구의 성능은 고정값이 아니다. Anthropic이 effort 기본값을 바꿨을 때 사용자 대부분은 알아채지 못했다. 팀 레벨에서 에이전트 출력 품질을 모니터링하는 벤치마크를 CI에 심어두고, 모델 업데이트 이후 리그레션 테스트를 자동으로 돌리는 파이프라인을 갖춰야 한다.

③ 역할 분리는 사람과 에이전트 모두에게 적용: '뇌와 손의 분리'는 에이전트 아키텍처 원칙이지만, 팀 거버넌스에도 그대로 적용된다. 에이전트가 '실행'하는 범위와 사람이 '판단'하는 범위를 명확히 나누지 않으면, 에이전트가 조용히 잘못된 방향으로 달려가도 아무도 모른다.

전망: 인프라는 갖춰졌다, 이제 운영 역량이 변수다

Managed Agents의 세션-시간당 $0.08 과금 구조는 실제로 에이전트를 오래 돌릴수록 비용이 선형으로 쌓인다는 의미다. 라쿠텐처럼 영업·마케팅·재무·인사를 모두 에이전트로 커버하는 구조라면, 세션 수명과 비용 귀속을 팀 단위로 추적하는 체계가 필수다.

멀티 에이전트 조율은 아직 리서치 프리뷰 단계다. 하지만 Harness가 Hand를 다른 Brain에 넘기는 구조가 안정화되면, 에이전트 네트워크의 복잡도는 지금과 비교할 수 없는 수준으로 올라간다. 그 시점에서 관찰 가능성과 역할 분리가 설계에 없는 팀은 복잡도를 제어할 방법이 없다.

인프라는 Anthropic이 쌓고 있다. 남은 과제는 팀이 그 인프라 위에서 에이전트를 '믿을 수 있는 수준으로' 운영하는 역량을 얼마나 빠르게 키우느냐다.

출처

더 많은 AI 트렌드를 Seedora 앱에서 확인하세요