SESSION.md 하나가 3시간을 살립니다: AI 에이전트 시대, 팀 워크플로우를 처음부터 다시 짜야 하는 이유

핵심 이슈: 에이전트는 왔는데 워크플로우가 없다

2026년 2월 현재, AI 코딩 도구의 패러다임이 '어시스턴트'에서 '에이전트'로 넘어갔다는 데 이견을 달 사람은 거의 없습니다. dev.to에 올라온 한 아티클("Stop Calling Them 'AI Assistants'—They're Agents Now")의 표현을 빌리면, 우리는 "코드를 하이라이트하고 핫키를 누르는" 시대에서 "기능을 설명하면 에이전트가 코드베이스를 읽고, 테스트를 돌리고, PR을 여는" 시대로 이동 중입니다. 문제는 도구가 에이전트로 진화하는 속도에 비해, 팀의 워크플로우는 여전히 어시스턴트 시절에 멈춰 있다는 점입니다.

저도 팀에 Claude Code를 본격 도입한 뒤 가장 먼저 부딪힌 게 이 갭이었습니다. 에이전트가 90분짜리 리팩토링을 수행하다가 컨텍스트 컴팩션(compaction)이 걸리면, 한 시간 전에 합의한 설계 결정을 깡그리 잊어버리고 이미 끝낸 작업을 되돌리는 참사가 벌어집니다. dev.to의 한 개발자("Day 3 with Claude Code")는 이 패턴으로 세 차례에 걸쳐 3시간을 날렸다고 고백했고요. 컴팩션이 파괴하는 건 랜덤한 정보가 아니라 거절한 접근법, 세션 중 합의한 코딩 컨벤션, 80% 진행된 미커밋 작업 같은 '판단의 맥락'입니다. 요약(summary)은 "무엇을 했는가"는 남기지만 "왜, 무엇을 하지 않기로 했는가"는 증발시킵니다.

맥락 해석: 세 개의 레이어를 동시에 업데이트해야 한다

1️⃣ 세션 컨텍스트 레이어 — SESSION.md와 커스텀 컴팩션

해법은 놀라울 정도로 단순합니다. 프로젝트 루트에 SESSION.md를 만들고 20~30분마다 Active Goal · Key Decisions · What NOT To Do · Current State를 갱신하는 것입니다. 이 파일은 컴팩션 이후 Claude가 가장 먼저 로드하는 '보험'이 됩니다. 여기에 /compact 명령어에 "rejected approaches, active decisions with reasoning, files being modified, in-progress task state를 반드시 포함하라"는 커스텀 프롬프트를 붙이면, 요약 품질이 극적으로 올라갑니다. 2분 투자로 수 시간을 지키는 셈이죠. 저는 이걸 팀 전체 규칙으로 내려서 모든 에이전트 세션에 SESSION.md 작성을 의무화했습니다. AI가 생성해준 코드를 기반으로 우리가 다듬는 협업 모델에서, 맥락 유실은 곧 팀 전체의 시간 손실이니까요.

2️⃣ 보안 레이어 — Claude Code Security가 바꾸는 리뷰 체인

Anthropic이 발표한 Claude Code Security(GeekNews 보도)는 이 워크플로우 재설계의 두 번째 퍼즐 조각입니다. 기존 SAST(정적 분석) 도구가 규칙 기반 패턴 매칭에 머물러 비즈니스 로직 오류나 접근 제어 결함을 놓치는 반면, Claude Code Security는 컴포넌트 간 데이터 흐름을 추적하고 다단계 자체 검증을 거쳐 거짓 양성을 줄입니다. Claude Opus 4.6으로 500개 이상의 오픈소스 취약점을 발견했다는 수치가 인상적인데, Hacker News 커뮤니티에서는 Semgrep 창업자까지 나서서 "혼동 행렬(confusion matrix)과 비용/취약점 단가가 공개되어야 진짜 비교가 가능하다"고 지적했습니다. 정당한 회의론이지만, 핵심은 인간 승인 없이 자동 수정되지 않는 설계입니다. 에이전트가 코드를 작성하고, 에이전트가 보안을 스캔하되, 최종 판단은 사람에게 남겨두는 구조 — 이것이 AI-First 팀의 보안 레이어가 가야 할 방향이라고 봅니다.

3️⃣ 역할 레이어 — Builder에서 Orchestrator로

세 번째 레이어는 사람의 역할 변화입니다. "AI Fatigue is Real" 담론을 분석한 dev.to 아티클은 개발자가 Creator에서 Reviewer로 전환되면서 결정 피로(decision fatigue)가 폭증한다고 경고합니다. LLM이 비결정적(non-deterministic)이라 같은 프롬프트에도 다른 코드가 나오고, 컨텍스트 윈도우 한계 때문에 프로젝트 전체를 조망하지 못해 DRY 위반과 기술 부채가 쌓인다는 분석은 뼈아프게 맞습니다. "테스트만 통과하면 코드 리뷰는 필요 없다"는 주장이 왜 위험한지도 명쾌하게 짚었고요 — 테스트 코드 자체가 LLM이 생성한 코드이므로, 리뷰 대상이 Production Code에서 Test Code로 이동할 뿐 리뷰 자체는 사라지지 않습니다.

그래서 저는 팀원들에게 이렇게 말합니다. "우리의 역할은 리뷰어가 아니라 오케스트레이터다." 에이전트에게 한 줄짜리 프롬프트를 던지는 게 아니라, 충분한 컨텍스트와 제약 조건을 설계하고, SESSION.md로 맥락을 보존하며, 보안 스캔 결과를 검증하고, 최종 아키텍처 판단을 내리는 것 — 이것이 2026년 개발자의 핵심 역량입니다.

시사점: AI-First 팀이 지금 바로 할 세 가지

SESSION.md + 커스텀 컴팩션 프롬프트를 팀 표준으로 도입하세요. 비용 제로, 효과 즉시입니다.
보안 레이어를 CI/CD에 내장하세요. Claude Code Security든 Semgrep+LLM 조합이든, "에이전트가 짠 코드를 에이전트가 검증하되 사람이 승인하는" 파이프라인이 필요합니다.
팀원의 역할을 재정의하세요. 코드를 직접 작성하는 시간 대비 프롬프트 설계·컨텍스트 관리·리뷰·아키텍처 판단에 쓰는 시간의 비율이 역전되고 있습니다. 온보딩 프로세스와 평가 기준을 이 변화에 맞춰 업데이트해야 합니다.

전망: 워크플로우가 곧 경쟁력이다

에이전트 도구의 성능은 빠르게 평준화될 겁니다. 진짜 차이를 만드는 건 그 도구를 팀 워크플로우에 얼마나 정교하게 통합했느냐입니다. SESSION.md 하나 없이 에이전트를 돌리는 팀과, 컨텍스트 보존→보안 자동 검증→오케스트레이션 리뷰라는 3단 파이프라인을 갖춘 팀 사이의 생산성 격차는, 에이전트가 강력해질수록 더 벌어질 수밖에 없습니다. AI 에이전트 시대, 도구를 바꾸는 건 쉽습니다. 워크플로우를 바꾸는 게 진짜 어렵고, 그래서 진짜 경쟁력입니다.