월 2,348만 원 써본 팀이 말하는 AI-First 개발 워크플로우의 현실

AI에 월 1,100만 원을 쓰는 팀의 계산법

"AI 비용의 10배만큼 수익을 만들면 예산은 무한이다." 위시켓 AIDP 사업부가 세운 기준입니다. 요즘IT 인터뷰에 따르면, 이 팀은 작년 3분기부터 사람의 코딩을 완전히 배제하고 Cursor AI를 메인 개발 환경으로 전환했습니다. 3개월 누적 AI 사용료 2,348만 원, 1월 한 달만 1,138만 원. 연간으로 환산하면 1.2억 원이 넘는 비용인데, 이 팀은 이걸 10배인 2억 원까지 끌어올리겠다고 합니다.

저는 이 숫자를 보면서 "드디어 실전 데이터가 나왔다"고 느꼈어요. 지금까지 AI-First를 얘기하는 팀은 많았지만, 실제로 얼마를 쓰고 어떤 ROI 기준을 적용하는지 공개한 곳은 거의 없었거든요. 핵심은 비용 자체가 아니라 '비용 대비 10배 수익'이라는 명확한 산식이 있다는 겁니다. AI 도구 도입을 "써볼까?" 수준에서 "투자 대비 수익 관리" 수준으로 끌어올린 거죠.

Plan → Build → Ship: 에이전트와 일하는 3단계 구조

이 팀의 워크플로우는 세 단계로 나뉩니다. 먼저 .cursor/rules 디렉토리에 아키텍처·코딩 컨벤션 등 표준 룰을 세팅합니다. 그다음 Cursor Plan 기능으로 에이전트에게 계획을 세우게 하고, Opus 4.5·4.6 같은 최상위 모델로 그 계획을 평가·수정합니다. 마지막 구현 단계에서는 Composer 1.5 모델로 빠르게 코드를 생성하죠.

여기서 인상적인 건 "계획이 잘 세워져 있으면, 낮은 수준의 모델이라도 에이전트 품질과 효율이 급격하게 올라간다"는 경험칙입니다. AI한테 물어보니까, 결국 프롬프트 엔지니어링이 아니라 계획 문서의 품질이 토큰 효율을 결정하더라고요. 비싼 모델은 '생각'에, 저렴한 모델은 '실행'에 쓰는 이 분업 구조가 월 1,100만 원이라는 비용에서도 ROI를 만들어내는 핵심 메커니즘인 셈입니다.

Cursor 규칙 시스템: '마법'이 아니라 '위생'의 문제

규칙 시스템을 제대로 쓰는 것도 중요합니다. dev.to에서 2개월간 Cursor 규칙을 대량 테스트한 개발자 nedcodes의 실험 결과가 이를 뒷받침해요. .cursorrules 단일 파일 시대는 끝났습니다. .cursor/rules/*.mdc 파일로 관심사별 분리하고, YAML 프론트매터에 alwaysApply: true를 반드시 설정해야 합니다. 이걸 빠뜨리면? 13번 테스트해봤는데 규칙이 단 한 번도 적용되지 않았다고 합니다.

더 흥미로운 발견이 있습니다. "깨끗하고 유지보수 가능한 코드를 작성하라"는 모호한 규칙은 무시됩니다. 반면 "중첩 if 블록 대신 early return을 사용하라"는 구체적 규칙은 100% 준수율을 보였어요. 그리고 상충하는 규칙 두 개가 동시에 존재하면 에이전트가 완전히 멈춥니다. 에러도 없이요. 규칙 시스템은 마법의 레시피가 아니라, YAML 콜론 하나까지 신경 써야 하는 위생(hygiene)의 문제입니다.

개발자의 역할 변화: 코더에서 PM으로

dev.to의 Ian Wilson은 AI 주도 코딩의 진화 단계를 이렇게 정리합니다. 브라우저 탭에 ChatGPT를 띄워놓는 단계 → IDE 안에서 에이전트와 협업하는 단계 → 모듈 전체를 생성하게 하는 단계 → 터미널 에이전트로 전환하는 단계 → 멀티 에이전트를 git worktree로 병렬 실행하는 단계. 위시켓 팀의 이홍주 리더도 "팀원들에게 PM, PL처럼 에이전트와 산출물을 관리하라"고 가이드한다고 말합니다.

이건 제가 팀원들에게 AI-First 마인드를 심어줄 때 가장 강조하는 부분이에요. "관리하지 않아도 결과는 나온다. 다만 삥삥 돌게 되고, 토큰 소모량도 커지고, 기술 부채가 쌓인다." 에이전트가 코드를 쓰는 시대에 개발자의 가치는 타이핑 속도가 아니라, 계획의 정밀도와 결과물의 검증 능력에서 나옵니다.

E2E 테스트까지: AI가 디버깅 루프를 닫는다

AI-First 워크플로우가 코드 생성에서 끝나면 절반짜리입니다. dev.to의 nikolarss0n은 110개의 실패하는 Playwright E2E 테스트를 2시간 만에 수정했는데, 테스트 코드를 단 한 줄도 직접 작성하지 않았습니다. MCP(Model Context Protocol) 기반으로 DOM 스냅샷, 네트워크 요청, 콘솔 로그를 온디맨드로 끌어오고, 기존 Page Object Model 패턴을 따라 누락된 호출을 추가하는 방식이죠. 체크아웃 테스트에서 국가 드롭다운 미선택을 찾아 수정하는 데 AI 사고 시간 12초.

이거 자동화하면 우리가 더 중요한 일에 집중할 수 있어요. 테스트 깨짐을 추적하고 셀렉터를 수정하는 데 쏟던 시간을 사용자 경험 설계에 돌릴 수 있다는 뜻이니까요. AI가 생성해준 코드를 AI가 테스트하고, 깨지면 AI가 수정하는—이 디버깅 루프의 완결이 진짜 AI-First 워크플로우의 완성형입니다.

시사점: AI 비용은 '지출'이 아니라 '투자 프레임'으로 관리하라

네 가지 소스를 엮어보면 하나의 그림이 보입니다. 위시켓은 비용 기준(10배 ROI)을 세웠고, Cursor 규칙 시스템은 에이전트 품질의 토대를 제공하며, 개발자 역할은 코더에서 에이전트 매니저로 이동하고, E2E 테스트 자동 수정이 피드백 루프를 닫습니다. 이 네 조각이 맞물릴 때 비로소 "사람이 코딩하지 않는 팀"이 작동합니다.

다만 현실적인 주의점도 있습니다. Cursor 규칙의 YAML 타이포 하나가 전체 규칙을 무력화시키고, "코드 정리" 한마디에 모든 주석이 삭제되며, 상충 규칙은 에이전트를 정지시킵니다. AI-First는 "AI에 맡기면 끝"이 아니라, 규칙 위생·계획 품질·산출물 검증이라는 새로운 종류의 엔지니어링 규율을 요구합니다.

기획 단계부터 AI를 끼면 훨씬 효율적이에요. 하지만 그 효율은 공짜가 아닙니다. 월 2,348만 원이라는 숫자가 증명하는 건, AI-First 전환에는 비용과 규율 모두에 대한 경영진 레벨의 커밋먼트가 필요하다는 것입니다. 규칙 파일 하나 잘못 쓰면 토큰이 날아가는 세계에서, 진짜 경쟁력은 도구가 아니라 그 도구를 운영하는 시스템에 있습니다.