AI가 짠 코드, 누가 어떻게 지키나

생성은 쉬워졌다. 검증은 아직이다

AI 코딩 도구가 Tier 3 '에이전트 팀' 수준에 도달했다는 건 이미 기정사실이다. dev.to에 공개된 AI Dev Tool 성숙도 모델에 따르면, 2026년 3월 기준으로 Claude Code(19/25), Cursor(20/25), GitHub Copilot(16/25) 모두 멀티 파일 편집과 자율 태스크 실행이 가능한 Tier 3에 위치한다. 에이전트 기능은 이제 차별점이 아니라 기본 스펙이다.

문제는 그 다음이다. AI가 만들어낸 코드를 누가, 어떻게 검증하는가. 이 질문에 답하지 않은 채 도구 선택 논쟁에만 머무르는 팀은 빠른 속도로 기술 부채를 쌓고 있다. 파이프라인의 앞단은 점점 자동화되는데, 뒷단—코드 품질과 보안 검증—은 여전히 사람의 직관에 의존한다. 그 갭이 지금 가장 위험한 구간이다.

도구 선택의 진짜 기준: 성숙도 모델이 말하는 것

성숙도 모델의 핵심 발견은 세 가지다. 첫째, SWE-bench 점수 상위 6개 모델이 0.8점 차이로 수렴하면서 모델 인텔리전스는 더 이상 차별 요소가 아니다. 승부는 '워크플로우 락인'에서 난다. CLI 중심 팀이라면 컨텍스트 이해에서 5/5를 받은 Claude Code, IDE 중심이라면 전 영역 균형형인 Cursor, 티켓 기반 엔터프라이즈라면 통합과 신뢰성에서 앞서는 Copilot이 현실적 선택이다.

둘째, 자율성이 가장 높은 Devin은 신뢰성 점수 2/5를 받았다. 이건 중요한 신호다. 자율성과 신뢰성은 지금 반비례 관계에 있다. 에이전트가 더 많이 할수록 검증 없이 배포되는 코드도 늘어난다. 셋째, Tier 4(완전 자율 개발)에 도달한 도구는 아직 없다. 최고 점수가 20/25인 현실에서 AI를 '동료 개발자'로 착각하는 팀이 가장 먼저 리뷰를 포기한다.

AI 생성 코드의 패턴 문제: vibecheck가 잡는 것들

도구를 골랐다면, 생성된 코드를 걸러야 한다. CodeRabbit 데이터에 따르면 AI 생성 PR은 사람 PR보다 1.7배 많은 이슈를 포함하고, Veracode는 AI 코드 샘플의 45%에서 보안 취약점을 발견했다. 그런데 기존 린터는 이 문제를 잡지 못한다.

ESLint는 문법과 스타일을 체크한다. 하지만 AI 도구가 반복적으로 만들어내는 패턴—빈 catch 블록, as any 남용, 하드코딩된 API 키, 자명한 주석, 120줄짜리 함수—은 린터의 레이더 밖에 있다. 이 갭을 겨냥해 만들어진 vibecheck는 JS/TS와 Python 대상 24개 룰을 zero-config로 실행한다. npx @yuvrajangadsingh/vibecheck . 한 줄이면 된다. 오프라인, 로컬 전용, LLM 호출 없이 regex 기반으로 동작하기 때문에 CI 파이프라인에 붙여도 빠르다.

실용적인 포인트는 --staged 모드다. 전체 코드베이스가 아니라 커밋 직전의 변경분만 스캔한다. pre-commit 훅에 한 줄 추가하면 AI가 생성한 코드가 리포지토리에 들어오기 전에 걸러진다. ESLint와 경쟁하는 도구가 아니라 AI-specific 패턴을 잡는 보완 레이어다. 둘 다 써야 한다.

MCP 보안: 5,618개 서버 스캔이 드러낸 것

코드 품질 문제는 그나마 통제 가능하다. 훨씬 덜 알려진, 그리고 훨씬 심각한 문제는 MCP(Model Context Protocol) 레이어다. 5,618개 MCP 서버를 스캔한 결과, 기본 보안 검사를 통과한 서버는 143개—2.5%에 불과하다. 나머지 97.5%는 '검토 필요' 혹은 '평가 불가' 상태다.

MCP 서버는 에이전트가 데이터베이스, 파일 시스템, 클라우드 인프라에 접근하는 통로다. 2026년 3월 Microsoft가 패치한 CVE-2026-26118은 CVSS 8.8짜리 SSRF 취약점으로, 공격자가 AI 에이전트를 통해 악성 URL을 주입하면 Azure 관리 ID 토큰이 유출된다. 이건 이론이 아니다. 실제 패치가 나온 실제 공격 벡터다.

스캔에서 발견된 취약점들의 공통점이 있다. FAISS 임의 파일 읽기/쓰기, TorchServe의 SnakeYAML RCE, Ollama의 Stored SSRF—모두 SSRF, 경로 순회, 인젝션, 역직렬화 취약점이다. 2010년대 웹 보안의 고전적 패턴이 2026년 AI 인프라에 그대로 재현되고 있다. URL을 받는 MCP 서버 중 36.7%가 아웃바운드 요청을 검증하지 않는다.

왜 이런 일이 생기나. MCP 서버 개발자는 대부분 시스템 엔지니어와 ML 엔지니어다. 공격면은 익숙한데, 방어자가 다르다. 그리고 MCP 스펙 자체에 보안 리뷰, 의존성 감사, 취약점 공시 요구사항이 없다. 누군가 GitHub에 올리면 디렉터리에 등록되고, 수천 개의 에이전트가 그걸 호출한다. 신뢰 모델이 "GitHub에 있으니 괜찮겠지"인 것이다.

내일 당장 실행할 수 있는 검증 파이프라인

세 기사가 수렴하는 지점을 정리하면, AI-First 파이프라인의 검증 레이어는 세 단계로 구성된다.

1단계: 도구 적합성 평가. 성숙도 모델의 5개 축(컨텍스트 이해, 자율성, 멀티에이전트, 외부 통합, 신뢰성)으로 팀 워크플로우에 맞는 도구를 고른다. 자율성 점수가 높을수록 검증 레이어가 더 촘촘해야 한다는 걸 전제로 선택한다.

2단계: 코드 패턴 검증. ESLint 위에 vibecheck를 pre-commit 훅과 CI PR 스캔으로 추가한다. AI 생성 코드 특유의 패턴을 코드베이스에 합류하기 전에 걸러내는 것이 목표다.

3단계: MCP 인프라 보안 감사. 현재 사용 중인 MCP 서버를 protodex.io에서 조회하고 Green 등급만 프로덕션에 남긴다. 의존성을 버전 핀닝하고, URL을 받는 서버에는 프라이빗 IP 및 클라우드 메타데이터 엔드포인트(169.254.169.254) 차단 allowlist를 적용한다. 서버에는 최소 권한 원칙을 강제한다.

결국 '검증'이 다음 경쟁력이다

도구 선택 논쟁은 이미 끝물이다. 상위 도구들의 SWE-bench 점수가 수렴했듯, 어떤 도구를 쓰느냐보다 생성된 결과물을 어떤 구조로 검증하느냐가 팀의 실질적 품질을 결정한다. AI가 코드를 빠르게 만들수록 그 코드가 만드는 보안 부채와 품질 부채도 빠르게 쌓인다. 속도의 이득을 지키는 건 검증 파이프라인이다.

낙관적으로 보면, 이 세 레이어—성숙도 기반 도구 선택, AI 패턴 감지 린터, MCP 보안 스캔—모두 지금 당장 팀에 심을 수 있는 수준이다. 이론이 아니라 npx 한 줄, 훅 한 줄, URL 한 번 검색으로 시작된다. 냉정하게 보면, 이 파이프라인 없이 AI를 프로덕션에 연결한 팀은 이미 청구서를 받고 있거나, 아직 모르고 있거나 둘 중 하나다.