AI 에이전트와 3개월 일해보니 팀 워크플로우에 남은 것

3개월 후 남는 것은 결과물이 아니라 '기억 구조'다

에이전트를 팀 업무에 붙인 뒤 90일이 지나면 무엇이 남을까. 코드 줄 수도, 완료된 태스크 수도 아니다. 실제로 남는 건 에이전트가 팀의 기억을 어떻게 외부화했느냐의 흔적이다.

dev.to에 3개월 Claude Code 세션 전수 기록을 공개한 개발자의 사례가 이를 압축적으로 보여준다. 그는 매일 밤 에이전트가 당일 작업 로그를 요약 노트로 변환하고, 주 단위로 두 번째 에이전트가 그 노트들을 모아 '이번 주 내가 실제로 무엇을 했는가'를 정리하도록 체인을 설계했다. 세 번째 에이전트는 그 결과를 LinkedIn 초안으로 바꾼다. 핵심은 이것이 자동화 편의 기능이 아니라는 점이다. "일주일이 끝나고 누군가 뭘 만들었냐고 물어볼 때 기억이 나지 않았다"는 고백이 출발점이었다. 에이전트는 그의 기억 보조장치가 된 것이다.

장기 운영에서 드러나는 진짜 문제: 연속성

단기 데모에서 에이전트는 인상적이다. 문제는 다음 세션이다. 같은 프로젝트를 수 주에 걸쳐 에이전트와 작업하면 매 세션마다 컨텍스트가 리셋되고, 이전 회의에서 내린 결정은 사라지며, 에이전트는 "완료됐다"고 보고하지만 실제로 실행됐는지 검증할 방법이 없다. dev.to의 장기 에이전트 신뢰성 아키텍처 글은 이 문제를 '연속성의 실패'로 정의한다.

더 큰 컨텍스트 윈도우는 해결책이 아니다. 그건 문제를 뒤로 미룰 뿐이다. 이 글의 저자 팀은 수 주 프로젝트를 에이전트와 진행하면서 연속성을 유지하는 데 두 가지 채널이 필요하다는 결론에 도달했다.

첫 번째는 구조(Structure): 에이전트가 기억하든 안 하든 작동하는 결정론적 가드다. "완료"를 선언하려면 검증 가능한 아티팩트가 있어야 하고, 민감 정보가 트랜스크립트에 남으면 커밋이 차단되며, 상태는 손으로 쓴 메모가 아니라 레포지토리에서 직접 생성된다. 이 팀이 가드를 제거한 통제 실험에서 태스크 정확도가 100%에서 50%로 떨어졌다. 규율을 잊을 수 없게 만드는 것만으로 신뢰성이 두 배가 된 셈이다.

두 번째는 영혼(Soul): 에이전트가 세션을 시작하기 전 읽는 짧은 오리엔테이션 문서다. 무엇을 해야 하는지가 아니라 왜 이 작업이 중요한지, 이 팀이 어떤 판단 기준을 갖고 있는지를 담는다. 가드만 있는 에이전트는 규칙을 따르지만 규칙의 정신을 어긴다. 오리엔테이션이 있어야 에이전트가 무서운 플래그를 보고 패닉하는 대신 조사한다.

8개월 빌딩 현장에서 확인된 패턴: 기반은 사람이 짠다

8개월간 AI 시험 앱을 혼자 빌드한 개발자의 경험담(dev.to)은 또 다른 각도에서 같은 결론을 보여준다. 그는 초기에 Claude에 아키텍처 설계까지 맡겼다가 프로덕션에서 처참한 결과를 마주했다. 대시보드가 무작위 통계를 보여주고, JSON 5개 키를 요청했더니 2개만 저장되고, DB 테이블이 읽기 시도 중 무작위로 생성됐다.

그가 내린 결론은 명쾌하다. "코딩 에이전트가 핵심 아키텍처를 짜게 하면 유지보수 불가능한 코드가 나온다." 재건 이후 그의 워크플로우는 이렇다: 본인이 로그인 페이지를 짜면, 에이전트가 그것을 기반으로 회원가입 페이지를 만든다. 에이전트는 처음부터 생성하는 것이 아니라 정확한 출발점 위에서 정확하게 수정한다. 결과적으로 8개월 동안 AI 에이전트 사용 비용이 $0이었다. 모든 수정이 타겟팅되고 의도적이었기 때문이다.

테크 리드 관점: 장기 운영에서 진짜 투자해야 할 레이어

세 사례를 묶어서 보면 AI-First 워크플로우의 장기 운영에서 실제로 팀이 설계해야 할 레이어가 세 가지로 수렴된다.

첫째, 기억 외부화 파이프라인이다. 에이전트와의 작업 맥락은 터미널 스크롤백 안에서 죽는다. 이것을 버전 관리되는 구조화된 노트로 변환하는 파이프라인을 팀 단위로 설계해야 한다. 이는 개인 편의가 아니라 팀의 집단 기억을 유지하는 인프라 문제다.

둘째, 잊을 수 없는 규율(Unglamorous Guards)이다. 에이전트가 세션마다 리셋되더라도 팀의 컨벤션과 품질 기준이 강제되려면, 그 기준이 프롬프트가 아니라 파이프라인 훅과 커밋 체크 형태로 구조화되어야 한다. 신뢰성 실험에서 증명됐듯, 이 레이어의 유무가 에이전트의 실제 신뢰성을 결정한다.

셋째, 아키텍처 소유권의 명확한 경계다. 에이전트에게 무엇을 맡기고 무엇을 사람이 직접 짤지를 구분하는 기준이 없으면, 빠른 초기 속도가 나중에 리팩터링 비용으로 돌아온다. "기반은 사람이 짜고, 에이전트는 그 기반 위에서 정밀하게 확장한다"는 원칙이 8개월 실전에서 검증된 유일한 지속 가능한 분업 모델이다.

전망: 에이전트는 팀의 제도를 외부화하는 방향으로 진화한다

지금 시점에서 이 세 가지 패턴이 수렴하는 방향은 분명하다. 에이전트는 점점 더 팀의 제도와 기억을 외부화하는 인프라로 기능하게 된다. 오늘 당장 에이전트가 더 똑똑해지는 것보다, 팀이 에이전트 주변에 어떤 구조를 쌓느냐가 장기 운영의 승패를 가른다.

Claude Code든 어떤 에이전트든, 3개월 후 워크플로우에 남는 것은 그 에이전트가 짠 코드가 아니다. 에이전트가 팀의 판단과 규율과 기억을 얼마나 신뢰할 수 있는 형태로 외부화했느냐—그게 남는다.