AI가 코드를 짜는 팀, 개발자는 이제 무엇을 책임지는가

작동하는 코드 ≠ 안전한 코드

AI 코딩 어시스턴트로 백엔드를 통째로 생성한 뒤 보안 감사를 직접 돌려본 개발자가 있다. dev.to에 공개된 그 실험 결과는 꽤 불편하다. 모든 엔드포인트가 응답했고, 인증도 작동했고, 테스트도 통과했다. 그런데 보안 감사 결과는 달랐다. 입력 값 검증 누락, 과도하게 열린 CORS 설정, 구현 세부사항을 노출하는 제네릭 에러 메시지, 레이트 리미팅 없음, 약한 인가 경계, 감사 로그 부재. 개별적으로는 사소해 보이는 항목들이 프로덕션에서는 복합 취약점으로 작동한다.

이 실험이 무서운 이유는 AI가 나쁜 코드를 짜서가 아니다. AI가 '작동하는 코드'를 너무 잘 짜기 때문이다. 작동한다는 사실이 곧 프로덕션 준비가 됐다는 착각을 만든다.

AI는 패턴을 알고, 위협 모델은 모른다

LLM은 인증 구현 방법을 안다. REST API 설계 관례를 안다. 도커 설정도, GitHub Actions 파이프라인도 생성할 수 있다. 그런데 LLM이 모르는 것이 있다. 바로 당신 조직의 컴플라이언스 요구사항, 내부 정책, 허용 가능한 위험 수준, 그리고 인프라 아키텍처다.

두 번째 dev.to 기고에서 같은 저자는 이렇게 정리한다. '파일 업로드 서비스를 만들어줘'라는 프롬프트를 받으면 일반 개발자는 '파일이 올라가는가'를 생각하고, 보안 엔지니어는 '어떤 파일 타입이 허용되는가', '악성코드가 업로드될 수 있는가', '업로드된 파일이 실행될 수 있는가'를 생각한다. AI는 전자의 질문에 최적화되어 있다. 후자는 프롬프트에 명시하지 않으면 대화에 등장하지 않는다.

결론은 하나다. 보안은 AI가 추론할 수 있는 영역이 아니라, 조직이 정의하고 엔지니어가 주입해야 하는 컨텍스트다.

평가 기준이 바뀌고 있다

세 번째 기고는 조금 다른 각도에서 같은 문제를 건드린다. 엔지니어 평가 기준의 변화다. 코드 커밋 수, PR 수, 기능 완성 속도—이 지표들이 AI 시대에 급격히 의미를 잃고 있다. AI가 커피 한 잔 마시기 전에 수백 줄을 생성할 수 있다면, 코드 생산량은 더 이상 실력의 지표가 아니다.

그렇다면 무엇이 남는가. '이 시스템이 3년 뒤 어떻게 진화해야 하는가', '어떤 서비스가 이 데이터를 소유해야 하는가', '데이터베이스가 다운됐을 때 어떤 일이 생기는가'—이런 질문들은 AI가 대신 던져주지 않는다. 복잡한 도메인 로직, 레거시 계약 조건, 2022년 이전 생성된 인보이스의 처리 방식 같은 비즈니스 컨텍스트는 언어 모델 안에 없다. 누군가가 모델링하고, 보호하고, 유지해야 한다.

시니어 엔지니어의 가치는 더 빠른 코딩에 있지 않다. 복잡도를 줄이고, 실패 모드를 미리 보고, 다른 엔지니어가 작업하기 좋은 시스템을 만드는 데 있다. 아이러니하게도, 이런 엔지니어들은 주니어보다 코드를 덜 쓰는 경우가 많다.

AI-First 팀에서 이 흐름이 의미하는 것

세 기사를 AI-First 팀 리빌딩 관점에서 읽으면 공통된 신호가 보인다. 보안 역량이 전문 영역에서 기본 자질로 이동하고 있다는 것이다.

기존 모델에서 보안은 별도 팀이 나중에 검토하는 단계였다. DevSecOps와 Shift Left Security가 이 경계를 흔들기 시작했고, AI 코딩 도구가 그 붕괴를 가속하고 있다. 코드가 초 단위로 생성되는 환경에서 '나중에 보안 팀이 리뷰한다'는 전제는 물리적으로 유지되기 어렵다. 코드가 생성되는 시점에 보안 판단이 함께 일어나야 한다.

실용적 함의는 명확하다. 프롬프트 설계 단계에서부터 보안 질문을 포함시켜야 한다. '인증 API를 만들어줘' 대신 '인증 API를 만들고, 이 구현에서 발생할 수 있는 보안 위험을 모두 설명해줘'—이 차이 하나로 AI가 생성하는 결과물의 품질이 달라진다. AI를 코드 생성기가 아니라 보안 리뷰어로도 활용하는 것이다.

책임의 재배치

속도와 책임은 반비례하지 않는다. 오히려 생성 속도가 올라갈수록 책임의 밀도가 높아진다. AI가 10분 만에 백엔드를 완성해준다면, 그 10분 안에 포함되지 않은 것—위협 모델, 도메인 컨텍스트, 조직 정책, 컴플라이언스 요구—을 채우는 역량이 엔지니어의 핵심 가치가 된다.

앞으로 팀을 평가할 때 나는 이 질문을 먼저 던질 것이다. 'AI가 짠 코드를 어떻게 검증하는가?' AI 도입 여부보다 검증 체계 존재 여부가 팀 성숙도를 더 정확하게 보여준다. 코드 생성 능력은 이제 AI가 담당한다. 그 코드가 생산 환경에서 살아남는가—그 책임은 여전히, 그리고 점점 더, 사람에게 있다.