AI가 만든 코드, 믿기 전에 검증하는 법

AI가 코드를 '잘' 만들어줄수록, 우리는 점점 더 위험한 습관을 갖게 된다. 그 자리에서 보면 완벽해 보이는 코드를 그냥 배포하는 것. dev.to에 올라온 한 글은 이 현상에 정확한 이름을 붙였다. plausible wrongness—기술적으로는 틀리지 않았지만, 실제 환경에서는 완전히 망가지는 결과물.

가장 흔한 사례는 모바일 반응형이다. ChatGPT나 Claude에게 랜딩 페이지를 만들어달라고 하면, 1440px 모니터에서는 나무랄 데 없는 HTML이 나온다. 헤딩도 깔끔하고, 버튼 위치도 적절하고, 폼 필드도 잘 정렬되어 있다. 그런데 390px 스마트폰에서 열어보면? 헤딩이 화면 밖으로 넘치고, CTA 버튼은 하단 내비게이션 바에 반쯤 가려지고, 폼 필드는 손가락으로 탭하기도 어려울 만큼 작아진다. AI는 당신이 요청한 것에만 최적화된다. 당신의 유저가 어떤 기기로 접속하는지, 375px에서 히어로 섹션이 어떻게 무너지는지는 알 방법이 없다.

이 문제가 개발자에게는 상대적으로 덜 치명적인 이유는 피드백 루프가 짧기 때문이다. 생성 → 브라우저 열기 → 창 크기 조절 → 모바일 확인 → 수정. 이 사이클이 자연스럽게 돌아간다. 하지만 AI 도구를 쓰는 비개발자에게는 이 루프가 아예 존재하지 않는다. 채팅창에서 HTML이 그럴듯해 보이면 그게 끝이다. 문제는 누군가 폰으로 열어봤을 때 터진다. 그리고 그 '누군가'는 대부분 고객이다.

생성과 디버깅 사이, 아무도 설계하지 않는 단계가 있다. 바로 프리뷰—그것도 실제 모바일 환경에서의 프리뷰다. AI 코드 논의는 항상 '어떻게 만들까'와 '왜 안 되지'에만 집중한다. 그 사이에서 '실제로 어떻게 보이는가'를 확인하는 단계는 누구도 워크플로우에 명시적으로 집어넣지 않는다. 이 검증 스텝의 부재가 plausible wrongness를 프로덕션까지 밀어 올린다.

문제는 HTML 반응형에만 국한되지 않는다. 문서(docs)에서도 동일한 구조적 결함이 작동한다. Mintlify가 2026년 3월에 공개한 트래픽 분석에 따르면, 개발자 문서 요청의 45.3%가 이미 AI 코딩 에이전트에서 발생하고 있다. Claude Code와 Cursor 두 에이전트가 봇 트래픽의 95.6%를 차지한다. 인간 독자와 AI 에이전트가 거의 동등한 비율로 문서를 소비하는 시대가 된 것이다.

이 맥락에서 '문서가 틀리면 어떻게 되나'의 파급력이 전혀 다른 차원이 된다. 예전에는 새 팀원 한 명이 잘못된 문서를 보고 삽질하는 수준이었다. 지금은 하나의 stale한 API 문서 페이지가 팀 전체의 Cursor 자동완성에 오염된 정보를 주입한다. 단일 지점의 오류가 수천 개의 코드 제안으로 증폭된다. Stripe의 Developer Coefficient 연구에 따르면 개발자들은 주당 평균 17.3시간을 과거의 실수를 수습하는 데 쓰고 있으며, 그 상당 부분이 "문서를 믿었는데 틀렸더라"에서 비롯된다.

AI는 문서를 쓰는 데는 탁월하지만, 문서가 코드와 일치하는지 판단하는 데는 구조적으로 취약하다. 2026년 벤치마크 기준으로 프런티어 모델의 환각(hallucination) 비율은 3~19% 수준이다. 그런데 RAG(Retrieval-Augmented Generation) 방식으로 실제 코드 diff나 스키마 같은 검증된 소스를 앵커로 제공하면 환각이 최대 70~80%까지 줄어든다. AI의 역할을 '문서 생성'이 아니라 '코드와 문서의 차이 탐지'로 재정의하면, 정확도가 극적으로 올라간다는 뜻이다.

이를 실무에 적용하는 가장 현실적인 방법은 PR 워크플로우에 문서 검증을 바인딩하는 것이다. 매 PR마다 CI가 diff를 분석해 관련 위키 페이지의 변경 초안(delta)을 자동 생성하고, 리뷰어가 코드와 문서를 나란히 보며 승인하거나 수정한다. 문서 업데이트가 병합 조건이 되는 구조다. 핵심은 AI가 전체 문서를 새로 쓰는 게 아니라 '변경된 부분만 최소한으로 업데이트하는 델타'를 생성한다는 것이다. 리뷰어가 읽어야 할 분량이 300줄이 아니라 30줄이 될 때, 이 프로세스는 비로소 팀이 실제로 지속할 수 있는 워크플로우가 된다.

한편 MCP 서버 기반의 자동 배포 도구 사례는 또 다른 각도의 검증 문제를 보여준다. 로컬에서 완벽하게 동작하는 앱을 VPS에 올리는 반복적인 작업을 AI 에이전트에게 위임한 이 시도는, 도구가 생성한 Docker 설정과 nginx 구성, Let's Encrypt 인증서 발급까지 에이전트가 직접 실행하게 만든다. 편의성은 분명하다. 동시에 이 개발자가 강조한 점이 인상적이다. 배포 전 보안 감사를 직접 의뢰했고, 실제 버그 두 개가 발견되어 수정했다는 것. AI 에이전트에게 서버 접근 권한을 줄 때도 '사용 전 검증'은 생략할 수 없는 단계였다.

세 사례를 관통하는 패턴은 하나다. AI가 생성한 결과물은 그 자체로 완성이 아니라 검증의 출발점이다. 모바일 반응형 프리뷰, RAG 기반 문서 정합성 체크, 보안 감사—도구가 달라도 단계의 본질은 같다. AI의 속도를 유지하면서 품질을 보장하는 유일한 방법은 '생성 이후'를 워크플로우로 설계하는 것이다.

앞으로 AI 코딩 도구는 점점 더 자율적으로 행동할 것이다. 에이전트가 코드를 쓰고, 배포하고, 문서까지 업데이트하는 파이프라인은 이미 실험 단계를 벗어나고 있다. 이 흐름에서 개발자의 역할은 코드를 직접 작성하는 것에서 AI 결과물을 검증할 수 있는 시스템을 설계하는 것으로 이동한다. plausible wrongness를 걸러내는 구조를 갖춘 팀과 그렇지 않은 팀—그 격차가 AI 도구의 보급과 함께 더 빠르게 벌어질 것이다.

AI가 만든 코드, 믿기 전에 검증하는 법

출처