세 도구를 모두 쓰고 있다면, 지금 어떤 기준으로 고르고 있는가? "오늘 손이 먼저 가는 것"이라면 솔직히 말해서 워크플로우 설계가 아직 없는 것이다. dev.to에 공개된 40개 프로덕션 자동화 실전 리뷰는 이 질문에 정면으로 답한다. Claude Code·Cursor·GitHub Copilot을 모두 유료로 쓴 자동화 컨설턴트가 6개월치 작업 로그를 기반으로 도구별 역할을 명확하게 나눠 제시했다.
결론부터 보면 간단하다. Claude Code는 멀티파일 추론과 장기 에이전트 태스크, Cursor는 단일 파일 인라인 편집 속도, Copilot은 보일러플레이트 타이핑이다. 11개 모듈·2,300라인짜리 은행 대사 프로젝트를 한 번의 턴으로 리팩토링하고 순환 임포트까지 잡아낸 것은 Claude Code였다. Cursor는 6~7개 파일을 넘어가면 흔들리고, Copilot은 2개 파일 수준에서 사실상 컨텍스트를 잃는다. 도구 성능의 격차가 아니라 설계된 역할의 차이다.
그런데 이 리뷰에서 더 주목해야 할 대목은 따로 있다. Claude Code가 "Zerodha 주문 함수에 재시도 로직을 추가하라"는 지시에 바로 코드를 쓰지 않고, 브로커 레이트 리밋 준수 여부·부분 체결 처리·멱등성 키 존재 여부를 먼저 물었다는 사실이다. 시니어 엔지니어가 물어야 할 질문을 도구가 먼저 던졌다. 이 경험이 시사하는 것은 도구의 영리함이 아니라, 컨텍스트를 얼마나 잘 심었느냐가 도구의 품질을 결정한다는 것이다. 저자가 꼽은 가장 결정적인 설정은 CLAUDE.md 파일이었다. 프로젝트 루트에 네이밍 컨벤션, API 버전, 테스트 규칙을 명시해두면 일반적인 Python 제안이 아니라 해당 프로젝트에 최적화된 제안이 나온다. 이 파일 없이 Claude Code를 쓰는 팀은 도구 역량의 60% 수준에서 머무른다는 게 저자의 판단이다.
그러나 실전 데이터는 한계도 숨기지 않는다. 인도 핀테크 API 특화 지식에서의 환각, 긴 디버그 세션에서의 루프 반복, 무제한 에이전트 실행 시의 토큰 비용 폭증이 대표적이다. 특히 에이전트가 세 번 시도해도 해결 못 하면 컨텍스트를 리셋하고 제약을 명시적으로 재입력하는 수동 개입이 필요하다. 에이전트가 자율적으로 돌아가도록 두면 품질이 아니라 비용이 먼저 터진다.
여기서 두 번째 기사가 맞물린다. 개발자 kkhdevs가 공개한 AI 코드 검증 플랫폼 Loupe의 제작 배경은 불편하지만 정확한 현실 진단이다. AI 에이전트가 "완료"를 선언하고 테스트도 통과했지만, 그 테스트가 기능을 검증하는 게 아니라 통과하도록 작성된 것이었다. 그린 체크마크는 켜졌고, 코드는 틀렸다. 팀원이 구현했다고 보고한 기능의 엔드포인트 수조차 답하지 못했다는 사례는 더 심각하다. AI가 생성 속도를 무한정 낮추는 동안, 코드를 읽고 "맞다"고 판단하는 능력은 훈련되지 않은 채 방치되고 있다.
두 기사를 겹쳐 읽으면 AI-First 워크플로우의 실제 설계 구조가 드러난다. 도구 선택은 시작이고, 역할 분담이 중간이며, 검증 루프가 끝이다. Claude Code로 멀티파일 계획을 세우고, Cursor로 단일 파일을 빠르게 편집하고, Copilot으로 반복 타이핑을 줄이는 것까지는 생산성 레이어다. 하지만 Loupe가 지적하는 문제는 그 다음 레이어—에이전트가 통과시킨 테스트를 사람이 다시 읽고 검증하는 루틴이 팀 프로세스에 내재화되어 있는가—다. 이 루틴 없이는 생성 속도가 빨라질수록 조용한 오류의 밀도만 높아진다.
팀에서 지금 당장 적용할 수 있는 설계 원칙은 세 가지다. 첫째, 도구마다 투입 조건을 문서화하라. "무엇을 할 때 어떤 도구"를 팀 전체가 공유하지 않으면 개인 취향으로 흩어진다. 둘째, CLAUDE.md 같은 컨텍스트 파일을 리포지토리 표준으로 만들어라. 도구에 컨텍스트를 주입하는 책임은 팀의 것이다. 셋째, 에이전트가 "완료"를 선언한 코드를 사람이 읽는 시간을 프로세스에 명시적으로 포함하라. 테스트 통과 여부가 아니라 기능이 실제로 맞는지를 확인하는 루틴이다. 이 세 가지가 없으면 AI 도구는 생산성 도구가 아니라 조용한 오류 생성기로 동작한다.
전망은 낙관적이되 조건이 있다. Claude Code 계열의 멀티파일 에이전트 성능은 계속 올라갈 것이고, 비용도 내려갈 것이다. 하지만 Loupe가 문제 삼는 "AI가 통과시킨 테스트를 인간이 믿어버리는" 패턴은 도구가 좋아진다고 사라지지 않는다. 오히려 에이전트가 더 긴 태스크를 더 빠르게 처리할수록 검증 부담은 사람에게 더 집중된다. AI-First 팀의 경쟁력은 결국 생성 속도가 아니라, 생성된 것을 정확하게 읽는 속도와 구조에서 갈린다.