AI-First 팀의 3대 함정: 피로·비용·보안을 넘는 법

생산성은 올랐는데, 왜 팀이 무너지는가

지난 글 'AI 코딩 에이전트, 팀에서 굴리는 법'에서 세션 관리와 비용 구조를 다뤘습니다. 그때 저는 꽤 낙관적이었어요. "3계층 메모리와 병렬 세션 매니저만 잘 세팅하면 된다"고요. 그런데 한 분기가 지나고 나니, 도구를 잘 세팅하는 것만으로는 부족하다는 걸 체감합니다. 진짜 문제는 사람이었습니다. AI-First 팀 운영에서 지금 가장 시급한 세 가지 함정 — 피로, 비용, 보안 — 을 정리해 봤습니다.

함정 1: '생산성의 역설'이 팀원을 태운다

엔지니어 시단트 카레라가 쓴 'AI 피로감(AI Fatigue)은 실재한다'라는 글이 개발자 커뮤니티에서 큰 공감을 얻었습니다(aitimes 보도). 그는 "지난 분기에 경력 중 가장 많은 코드를 배포했지만, 동시에 가장 극심한 피로를 느꼈다"고 고백했어요. AI 덕분에 한 문제를 푸는 시간은 줄었지만, 동시에 6개 문제를 오가며 맥락을 전환하는 인지적 부하가 폭증한 겁니다.

UC 버클리 연구진이 200여 명 규모 기술 기업을 8개월간 추적한 결과도 같은 결론입니다. AI를 의무화하지 않았는데도 직원들은 "더 많은 일이 가능하니까" 자발적으로 업무 범위를 확장했고, 점심시간·회의 틈새까지 작업을 밀어 넣었습니다. PM이 코드를 짜고, 연구원이 엔지니어링을 맡는 '역할 침범'이 일상화되면서, 초기의 흥미가 식자마자 번아웃이 폭탄처럼 터졌습니다.

이건 우리 팀에서도 똑같이 벌어지고 있는 일이에요. AI-First 팀이라면 "AI를 언제 멈춰야 하는지"를 정하는 것이 가장 중요한 팀 규칙이 되어야 합니다. 카레라가 제안한 '5계명'이 꽤 실용적인데요:

3회 시도 규칙: 프롬프트 수정은 3번까지만. 개선 안 되면 직접 짜는 게 빠릅니다.
70% 법칙: AI 결과물은 완성본이 아니라 원재료. 완벽을 기대하면 검토 지옥에 빠집니다.
첫 1시간은 AI 없이 사고: 매일 아침 설계와 판단을 사람의 뇌로만 하는 시간을 확보하세요.

저는 여기에 팀 차원의 '인지 부하 버짓'을 추가하고 싶어요. 스프린트 플래닝에서 태스크 수를 산정할 때, AI가 가속시킨 만큼 더 많은 태스크를 채우는 것이 아니라 맥락 전환 횟수에 상한을 두는 겁니다. AI가 지치지 않는다고 해서 우리도 지치지 않는 건 아니니까요.

함정 2: 프리미엄 모델 쿼터가 수요일이면 바닥난다

두 번째 함정은 비용입니다. dev.to의 한 개발자(Dor Amir)가 자신의 사용 로그를 분석해 봤더니, 프롬프트의 약 55%가 "이 JSON 정리해줘", "이 에러 설명해줘" 같은 단순 작업이었습니다. 그런데 이 요청들이 전부 Opus나 GPT-4급 프리미엄 모델로 가고 있었어요. 수요일이면 주간 쿼터가 바닥나는 이유가 여기에 있었습니다.

그래서 그는 NadirClaw라는 오픈소스 LLM 라우터를 만들었습니다. OpenAI Chat Completions API를 그대로 쓰는 로컬 프록시로, 요청을 약 10ms 만에 분류해서 자동 라우팅합니다:

요청 난이도	비율	라우팅 대상
단순 (요약/포맷/번역)	~55%	Gemini Flash, Ollama (무료/저가)
중간 (함수 작성/디버깅)	~25%	중간 티어 모델
복잡 (리팩터링/아키텍처)	~15%	Sonnet 급 프리미엄
추론 집약 (트레이드오프)	~5%	Opus / GPT-class 추론 모델

2주 운용 결과, 프리미엄 쿼터가 한 주 내내 유지됐고, 전체 프롬프트의 60%가 무료·저가 모델로 이동했는데 체감 품질 저하는 없었다고 합니다.

이전 글에서 "세션이 길어질수록 비용은 제곱으로 뛴다"고 썼는데, 라우터는 그 문제의 입구를 막아주는 셈이에요. 저는 팀원들에게 이 방식을 권하고 있습니다. "모든 프롬프트가 평등하지 않다"는 인식이 AI-First 팀의 비용 문화를 바꿉니다.

함정 3: AI 에이전트가 열어준 '공격 표면'

세 번째는 보안입니다. dev.to의 AI Coding Tip 시리즈에서 다뤄진 '악성 스킬(Malicious Skills)' 문제는 AI-First 팀이 간과하기 가장 쉬운 함정이에요. AI 에이전트는 셸 명령을 실행하고 파일을 관리하는 관리자 권한을 갖고 있습니다. 공격자들은 이제 YouTube·Solana·Google Workspace 같은 유명 서비스의 이름을 달고 레지스트리에 악성 스킬을 올립니다. 실제로 연구진이 341개의 악성 스킬이 사용자 데이터를 탈취하고 있었다는 사실을 밝혀냈습니다.

대응은 생각보다 단순합니다. AI 에이전트를 전용 Docker 컨테이너 안에서 실행하고, 게이트웨이를 127.0.0.1에 바인딩하며, 새 스킬은 반드시 소스 코드 리뷰를 거치는 것. 특히 숨겨진 curl 명령, base64 인코딩 문자열, 난독화된 코드를 잡아내는 보안 스캐너를 CI에 통합하면 대부분의 공급망 공격을 사전에 차단할 수 있습니다.

시사점: 무신사가 코딩테스트에서 AI 활용을 '필수화'한 이유

흥미롭게도, 이 세 가지 함정을 모두 꿰뚫는 사례가 국내에서 나왔습니다. 무신사의 2차 코딩테스트는 수강신청 시스템의 백엔드 구현 과제인데, CLAUDE.md 또는 AGENTS.md 작성과 프롬프트 이력 제출이 필수입니다. AI를 사용하되 "어떻게 활용했는지"를 평가하겠다는 거예요. 백엔드 경험이 없어도 괜찮다며 "May AI be with you"라고까지 적어놨습니다.

이건 단순한 채용 트렌드가 아니라, AI-First 팀에 필요한 역량이 바뀌고 있다는 신호입니다. "AI를 얼마나 잘 쓰는가"뿐 아니라 "AI를 언제 멈추는가", "비용을 어떻게 통제하는가", "보안 경계를 어디에 긋는가"를 아는 사람이 필요하다는 것이죠.

전망: 지속 가능한 AI-First 운영의 세 기둥

정리하면, AI-First 팀의 지속 가능성은 결국 세 기둥 위에 서 있습니다.

피로 관리 — 인지 부하 버짓을 설정하고, AI 속도에 인간의 리듬을 맞추지 않기
비용 최적화 — LLM 라우터로 프롬프트를 등급별 분류하고, 프리미엄 쿼터를 전략적으로 배분하기
보안 경계 — 에이전트 런타임을 격리하고, 스킬·플러그인의 공급망을 코드 리뷰로 검증하기

카레라 엔지니어의 말이 계속 맴돕니다. "AI를 언제 멈춰야 하는지 아는 것이 진정한 실력이다." AI-First는 AI를 가장 많이 쓰는 팀이 아니라, AI와 사람의 경계를 가장 잘 설계하는 팀이 이기는 게임입니다. 도구를 세팅하는 것은 시작일 뿐이고, 피로·비용·보안이라는 세 함정을 넘는 운영 체계를 만드는 것이 진짜 AI-First입니다.