에이전트가 30시간 일하는 팀, 사람은 무엇을 해야 하나

코딩 에이전트가 범용 에이전트가 된 날

Claude Code SDK가 Claude Agent SDK로 리브랜딩됐다. 이름 변경이지만 의미는 단순하지 않다. Anthropic이 자사 내부에서 딥 리서치, 비디오 제작, 노트 관리까지 거의 모든 에이전트 루프를 Claude Code의 인프라로 돌리고 있다는 사실을 공식화한 것이다. 코딩 도구가 일반 에이전트 인프라로 진화했다는 선언이다.

핵심 작동 패턴은 단순하다. Gather Context → Take Action → Verify Work → Repeat. velog의 Claude 블로그 되짚어보기 시리즈(#40)가 분석한 것처럼, 이 루프가 인공적으로 설계된 게 아니라는 점이 중요하다. 디지털 노동의 본질—파일 읽기, 도구 실행, 결과 검증—이 결국 같은 패턴이기 때문에, 코딩 에이전트의 인프라가 자동으로 모든 에이전트의 인프라가 된다. Anthropic은 이를 사내 도그푸딩으로 검증한 뒤 SDK로 외부에 공개했다.

30시간 자율 작업을 가능하게 한 것

'30시간 자율 작업'은 모델 혼자 만들어낸 게 아니다. Sonnet 4.5 + Context Editing + Memory Tool + Agent SDK의 결합이 만든 결과다. 각각 따로는 의미가 작지만 함께 쌓이면 새로운 카테고리를 만든다. 1년 전에는 30분 자율도 어려웠다. 지금은 30시간이 가능해졌다.

특히 Context Editing과 Memory Tool이 에이전트 인프라의 핵심 변수다. 동일 시리즈 #39가 분석한 것처럼, 장시간 에이전트의 가장 큰 적은 컨텍스트 윈도우 고갈이다. 1M 토큰 컨텍스트가 나온 지 한 달 만에 Anthropic 스스로 "1M도 부족하다"고 인정하며 내놓은 해법이 이 두 도구다. 컨텍스트 윈도우를 키우는 게 아니라 큐레이션하는 방향이다.

Context Editing: 불필요한 도구 호출 결과를 가지치기하는 감산(subtractive) 도구
Memory Tool: 세션 간 인사이트를 파일로 영속화하는 가산(additive) 도구

100턴 웹 검색 평가에서 토큰 사용량 84% 감소라는 수치는 성능 지표이기 전에 비용 지표다. 24시간 자율 에이전트가 경제성을 가지려면 토큰 비용이 통제되어야 하고, Context Editing이 그 통제를 가능하게 한다.

팀이 실제로 쓸 수 있는 인프라 변화인가

내일 당장 써먹을 수 있는가를 기준으로 보면, 이번 변화는 실질적이다. Agent SDK는 기존 Client SDK 대비 도구 루프 자동화 수준이 다르다. Client SDK는 개발자가 직접 도구 루프를 구현해야 했다. Agent SDK는 Claude가 도구를 자동 처리한다. 코드 한 줄로 멀티스텝 작업을 위임할 수 있다는 의미다.

Memory Tool의 설계 결정 중 주목할 것은 Anthropic 서버에 저장하지 않는다는 점이다. 클라이언트가 저장한다. 데이터 주권, 컴플라이언스(GDPR, HIPAA), 유연성이 이유다. 의료·금융·공공 도메인처럼 규제 산업에서 "데이터가 우리 환경에서만 머문다"는 보장 없이는 도입하지 않는다. 이 설계가 엔터프라이즈 수용성에 결정적으로 작용한다.

에이전트가 짠 코드, 팀이 디버깅할 수 있는가

여기서 불편한 질문을 해야 한다. 에이전트가 30시간 동안 자율로 작업한 결과물을 팀이 실제로 검증할 수 있는가?

현실은 냉정하다. Reddit에서 676개 추천을 받은 문장—"juniors on my team ship fast but can't debug anything they didn't actually write"—은 AI 에이전트가 코드를 짜는 팀에서 더 날카롭게 적용된다. 에이전트가 만든 코드는 직접 쓴 코드가 아니다. 그럴듯해 보이지만 경계 조건, 비동기 타이밍, 운영 환경 설정에서 무너지는 경우가 많다. velog의 주니어 개발자 디버깅 역량 분석이 정확히 짚은 지점이다.

만드는 속도가 빨라질수록 디버깅의 병목이 더 커진다. 구조는 이렇다:

코드 작성 → 에이전트가 담당, 속도 급등
코드 이해 → 여전히 사람이 담당, 속도 그대로
버그 추적 → 내가 쓰지 않은 코드라 더 어려워짐

에이전트가 30시간 동안 만든 코드를 팀이 30분 만에 이해하고 검증할 수 없다면, 속도 이득은 기술 부채로 전환된다.

AI-First 팀에서 실제로 중요해지는 역량

에이전트 시대에 팀원에게 기대하는 역량이 달라진다. AI-First 워크플로우를 운영하는 팀 리드 입장에서 실용적으로 정리하면 세 가지다.

첫째, 재현과 범위 좁히기. 에이전트가 만든 코드에서 버그가 나면 "어디서부터 봐야 할지 모르겠다"는 상태가 되면 안 된다. 재현 조건을 명시하고, 입력·상태·환경·의존성 중 어디서 깨졌는지 구조화할 수 있어야 한다. 에이전트가 빠르게 만든 만큼, 사람이 빠르게 범위를 좁혀야 한다.

둘째, 맥락 보존과 기록. Context Editing이 단기 작업 공간을 정리하고 Memory Tool이 장기 인사이트를 보존하듯, 팀원도 "디버깅 과정을 기록하는 사람"이어야 한다. 에이전트가 만든 코드가 팀에 많아질수록 맥락이 빠르게 사라진다. 증상, 재현 조건, 원인, 대응, 예방—이 다섯 가지를 남기는 습관이 팀의 자산이 된다.

셋째, 검증 루프 설계. Claude Agent SDK의 핵심 패턴인 Writer/Reviewer 구조—"새 컨텍스트가 코드 리뷰를 개선한다, Claude가 방금 자기가 쓴 코드에 편향되지 않기 때문이다"—는 팀에도 똑같이 적용된다. 에이전트가 만든 결과물을 별도의 눈으로 검증하는 구조를 팀이 설계해야 한다. 에이전트 검증을 또 다른 에이전트에게 맡기든, 사람이 맡든 간에.

팀 역할이 실제로 어떻게 바뀌는가

에이전트가 Gather Context → Take Action → Verify Work 루프를 자동으로 돌리기 시작하면, 팀의 역할은 세 가지로 재편된다.

위임 설계자: 어떤 작업을 에이전트에게 넘길 수 있는가, 경계를 어떻게 정의하는가
검증 책임자: 에이전트가 만든 결과물이 실제로 맞는가, 안전한가를 판단하는 사람
장애 대응자: 에이전트가 30시간 돌다가 멈췄을 때, 어디서 왜 멈췄는지 파고드는 사람

코드 '작성'은 에이전트가 담당하는 기본값이 된다. '이해'와 '추적'과 '판단'이 사람의 희소 역량이 된다.

지금 팀이 해야 할 것

Claude Agent SDK, Context Editing, Memory Tool은 지금 당장 팀의 에이전트 워크플로우에 통합할 수 있는 인프라 변화다. 특히 토큰 84% 절감은 ROI 계산에 즉시 반영할 수 있는 수치다.

하지만 인프라를 깔기 전에 팀이 먼저 점검해야 할 것이 있다. 에이전트가 30시간 동안 만든 결과물을 팀이 검증할 수 있는가. 이 질문에 "예"라고 답하지 못한다면, 에이전트 도입은 속도가 아니라 부채를 만든다.

에이전트가 코드를 짜는 시대에 팀이 준비해야 할 것은 더 좋은 도구가 아니다. 에이전트가 멈췄을 때 끝까지 파고드는 사람, 그리고 그 과정을 팀의 지식으로 남기는 구조다.