AI가 짠 코드를 믿기 전, 검증 레이어를 먼저 설계하라

AI 코딩 에이전트의 맹점: 속도와 이해 사이의 구조적 간극

"앱이 배포 후 왜 느려졌죠?"라고 Claude에게 물으면 돌아오는 답은 예측 가능하다. "DB 쿼리를 확인하고, 함수를 프로파일링하고, 레이턴시를 모니터링하세요." 정확하지만, 쓸모없다. LLM은 당신이 실제로 무엇을 바꿨는지 알지 못한다. dev.to의 한 분석이 이 문제를 정확히 짚는다. LLM은 코드베이스를 볼 수 없고, 변경 사항을 추적할 수 없으며, 의존성 연쇄를 따라갈 수 없다. 결국 30초면 찾을 문제를 4시간 동안 추측으로 디버깅하게 된다.

이건 LLM이 멍청해서가 아니다. 구조적인 문제다. AI 코딩 에이전트는 4분 만에 인증 플로우 200~400줄을 완성한다. 하지만 개발자가 그 코드를 동일한 속도로 이해할 수 있는 도구는 현재 존재하지 않는다. 생성 속도와 이해 속도 사이의 간극이 벌어지는 만큼, 그 안에 취약점이 조용히 자리를 잡는다.

코드 리뷰를 통과하는 보안 취약점의 구조

가장 위험한 버그는 "틀려 보이는" 코드가 아니다. 위 분석에서 예시로 든 두 가지 코드를 보자. 하나는 서버 사이드 세션을 무효화하지 않는 로그아웃 핸들러, 다른 하나는 파라미터화 쿼리 대신 문자열 연결을 쓰는 검색 함수다. 둘 다 언뜻 보면 정상이다. 둘 다 코드 리뷰를 통과했다. 둘 다 SAST 도구와 린터에 걸리지 않았다. 그리고 둘 다 보안 사고로 이어질 수 있다.

여기서 핵심을 짚어야 한다. AI가 생성한 보안 취약점은 기존 도구가 잡아내도록 훈련된 "알려진 나쁜 패턴"과 다른 유형으로 등장한다. 문법적으로 완벽하고, 구조적으로 깔끔하며, 테스트 스위트도 통과한다. 단지 상태(state)에 대한 가정 하나가 틀렸을 뿐이다. 사람이 코드를 내면화할 시간이 있었다면 잡아냈을 바로 그 가정이.

검증 레이어 설계: 세 가지 실행 패턴

그렇다면 어떻게 막을 것인가. 현장에서 바로 적용할 수 있는 검증 레이어는 세 축으로 구성된다.

첫 번째, 실시간 코드 내러션(Narration). 리뷰가 아니라 생성 시점의 설명이 필요하다. 에이전트가 코드를 작성하는 동안, 병렬 프로세스가 해당 코드의 의도와 보안 관련 동작을 실시간으로 설명하는 구조다. 개발자의 주의가 코드에 집중된 바로 그 순간에 개입하는 것이 핵심이다. Overseer가 이 접근 방식을 구현한다. 파일 변경 감지 → diff → LLM 분석 → 라이브 내러션 파이프라인으로, 보안 스캐너가 아니라 이해 보조 도구로 포지셔닝한다.

두 번째, 반증 기반 자동 검증. "올바르게 보인다"는 판단만으로는 부족하다. ishvacerto는 다른 접근을 택한다. VERIFIED(모든 입력 통과), REFUTED(실패 입력 명시), ABSTAIN(검증 불가 명시)의 세 가지 답만 내놓는다. 특히 ABSTAIN이 중요하다. 확인할 수 없을 때 합격 도장을 찍지 않는 도구가 신뢰할 수 있는 도구다. CI 파이프라인에 직접 연결할 수 있고(ishvacerto my_function.py, REFUTED 시 exit 1), 레퍼런스 구현과의 차이 분석도 지원한다. HumanEval 164개 문제에서 정상 코드 오탐 0건은 의미 있는 수치다.

세 번째, 코드 그래프 기반 의존성 맵. AI 에이전트가 대형 코드베이스에서 반복적으로 실패하는 이유는 세션마다 코드베이스 구조를 처음부터 재구성하기 때문이다. dev.to의 코드그래프 분석에 따르면, 이 오리엔테이션 단계가 컨텍스트 윈도우의 가장 큰 소비 요인이다. 코드베이스를 지식 그래프로 모델링하면 에이전트가 파일을 탐색하는 대신 구조를 쿼리할 수 있다. 한 서비스에 의존하는 35개 커맨드 목록을 쿼리 한 번으로 얻고, 권한 체크 없이 비즈니스 로직에 접근하는 API 엔드포인트 4개를 정확히 추출하는 것이 가능해진다. 보안 감사가 파일 리딩이 아닌 그래프 쿼리로 수행될 때, 누락된 엣지(missing edge)가 곧 보안 구멍(security hole)으로 가시화된다.

시사점: 도구 선택 이전에 설계 원칙이 먼저다

AI 코딩 에이전트를 팀에 붙이기로 결정했다면, 지금 당장 팀원들에게 한 가지 질문을 던져보라. "우리 프로덕션 코드베이스에 있는 AI 생성 코드 중, 갑자기 설명하라고 하면 설명할 수 있는 비율이 얼마나 됩니까?" 이 질문에 "전부"라고 답할 수 없다면, 그건 개발자 역량 문제가 아니다. 툴링 공백이다.

세 도구가 다루는 문제는 사실 하나로 수렴한다. LLM은 컨텍스트 없이는 구체적인 질문에 답할 수 없다. 검증 없이 배포된 AI 생성 코드는 구조적으로 이해되지 않은 채 운영된다. 코드그래프 없는 에이전트는 세션마다 같은 구조를 처음부터 재발견한다. 이 세 가지 공백을 워크플로우에 설계해서 닫는 것이 검증 레이어 설계의 핵심이다.

전망: 검증 도구 생태계가 빠르게 성숙한다

지금은 각 문제에 대응하는 도구들이 파편화된 형태로 등장하는 단계다. Overseer 류의 실시간 내러션, ishvacerto 류의 반증 기반 검증, 코드그래프 류의 구조 인덱싱이 개별적으로 존재한다. 앞으로 12~18개월 안에 이 세 레이어를 통합한 검증 파이프라인이 AI 코딩 도구의 표준 구성 요소로 자리 잡을 가능성이 높다. 더 나은 LLM이 나오는 것만큼, 실제 코드베이스 컨텍스트를 LLM에 정확히 주입하는 인프라가 중요해진다.

내일 당장 실행할 수 있는 것부터 시작하라. AI 생성 코드가 머지되는 PR에 ishvacerto를 CI 게이트로 붙이는 것, 코드 리뷰 시 "이 코드가 생성된 맥락"을 함께 문서화하는 것, 핵심 서비스의 의존성 맵을 코드그래프로 구축하는 것. 이 세 가지를 검증 레이어의 출발점으로 삼을 수 있다. 사고가 나기 전에 닫을 것인가, 사고가 난 후에 뒤늦게 설계할 것인가—그 선택만 남아 있다.