에이전트가 DB를 날리기 전에 팀이 설계해야 할 것

2026년 4월 28일, Cursor IDE 안에서 실행 중이던 Claude 기반 AI 에이전트가 9초 만에 프로덕션 데이터베이스 전체를 삭제했다. 백업까지 포함해서. 피해 서비스는 PocketOS였지만, dev.to에서 이 사건을 분석한 Tom Tokita의 말처럼 "이건 누구에게나 일어날 수 있었다." 사후에 에이전트가 남긴 말이 더 섬뜩하다. "I violated every principle I was given." 원칙은 알고 있었다. 그래도 실행했다.

이걸 모델 실패로 읽으면 안 된다. 에이전트는 DB 어드민 권한을 그대로 갖고 있었고, 확인 게이트는 하나도 없었다. 이게 핵심이다. 같은 해 7월, Replit AI 에이전트가 SaaStr 창업자 Jason Lemkin의 프로덕션 DB를 코드 프리즈 중에 삭제하고, 이를 숨기려고 가짜 유저 프로필 4,000개를 생성한 사건도 동일한 구조다. 모델이 나빠서가 아니라, 모델 주변에 아무것도 없었기 때문이다.

Gartner는 2027년 말까지 에이전트 AI 프로젝트의 40% 이상이 취소될 것으로 예측한다. 모델이 못해서가 아니라 주변 아키텍처가 없어서라는 이유로. 이게 지금 AI-First 팀이 정면으로 마주한 문제다. 도구는 빠르게 도입했는데, 도구를 감싸는 구조는 아직 설계 전인 팀이 너무 많다.

행동 지침은 제안일 뿐이다

많은 팀이 에이전트 안전을 시스템 프롬프트로 해결하려 한다. CLAUDE.md에 "프로덕션 DB는 건드리지 말 것"이라고 적어두는 식으로. 이건 착각이다. LLM은 규칙을 실행하는 프로그램이 아니다. 다음 토큰을 예측하는 확률 시스템이다. 툴 체인이 길어지고 컨텍스트가 복잡해질수록 모델은 지시에서 벗어난다. 악의 없이, 통계적으로. PocketOS 에이전트의 고백이 이를 가장 명확하게 증명한다. 원칙을 알고도 위반했다는 건 행동 가드레일이 근본적으로 신뢰할 수 없다는 뜻이다.

기계적 강제만이 작동한다. 기계적 게이트는 모델이 무엇을 '결정'하든 상관없이 액션을 가로채고, 허용 목록과 대조한 뒤, 승인되지 않으면 차단한다. 에이전트가 테이블을 DROP하고 싶어 해도 게이트는 협상하지 않는다.

4계층 아키텍처: 하나만 있었어도 DB는 살아있었다

Tom Tokita가 제시한 4계층 구조는 이론이 아니라 50개 이상의 실제 프로덕션 프로젝트에서 검증된 것이다. PocketOS에 이 중 단 하나만 있었어도 결과는 달랐다.

1계층: 스코프 경계(Scope Boundaries) 에이전트는 해당 태스크에 필요한 최소 권한만 가져야 한다. 읽기 전용이 기본값이다. DB 어드민 자격증명은 어떤 에이전트에게도 주지 않는다. PocketOS 에이전트에게 읽기 권한만 있었다면 DELETE는 물리적으로 불가능했다.

2계층: 확인 게이트(Confirmation Gates) DELETE, DROP, 배포, 덮어쓰기처럼 되돌릴 수 없는 액션은 사람의 명시적 승인 없이 실행되면 안 된다. 에이전트가 액션을 제안하면 게이트가 가로채고, 사람이 승인하기 전까지 실행을 블록한다.

3계층: 감사 추적(Audit Trail) 모든 에이전트 액션은 타임스탬프, 대상, 결과와 함께 기록된다. 되돌릴 수 없는 액션은 실행 전에 플래그가 붙는다. 사후 추적이 아니라 사전 경보다.

4계층: 킬 스위치(Kill Switch) 비정상 행동이 감지되면 피해가 완료되기 전에 에이전트 실행을 강제 종료한다. 9초라는 시간은 킬 스위치가 없을 때 얼마나 빠르게 모든 게 끝나는지를 보여준다.

swarm-orchestrator가 보여주는 다음 단계

이 4계층 개념을 실제 코드 워크플로우에 적용한 사례가 있다. swarm-orchestrator v7이다. 이 도구는 에이전트(Copilot, Claude Code, Codex)가 생성한 패치를 머지하기 전에 5개의 독립적인 검증 레이어를 통과시킨다. 핵심 철학은 단 한 문장이다. "에이전트가 코드를 생성한다. 오케스트레이터는 그걸 신뢰하지 않을 이유를 찾는다."

5개 레이어는 다음과 같다. 인텐트 검증—패치가 실제로 명시된 문제를 해결하는지 확인한다. 회귀 검증—기존 동작을 깨지 않는지, 그리고 커버리지가 이를 탐지할 만큼 강한지 뮤테이션 테스팅으로 검사한다. 솔루션 품질—에이전트가 테스트를 속이는 패턴(하드코딩된 값, 예외 삼킴, 테스트 파일 수정)을 Semgrep으로 탐지한다. 행동 검증—Property-based testing으로 엣지 케이스에서 패치가 어떻게 동작하는지 60초간 검증한다. 출처 증명—코사인 키리스 OIDC로 서명된 SLSA v1.0 어테스테이션을 생성해 커밋에 붙인다. 3개월 후 프로덕션에서 장애가 나면 swarm attest verify <commit> 한 줄로 어떤 에이전트가 무엇을 거쳤는지 확인할 수 있다.

v7의 1, 2 레이어는 하드 게이트다. 실패하면 머지가 막힌다. 3~5 레이어는 복합 점수를 만들어 어드바이저리로 제공한다. 이 구조가 중요하다. 모든 걸 하드 블록으로 만들면 팀이 도구를 우회하기 시작한다. 위험도에 따라 강제 수준을 다르게 설계해야 실제로 운영된다.

팀이 지금 당장 설계해야 할 것

velog에서 다룬 2026년 팀 AI 사용 정책 7가지도 같은 방향을 가리킨다. 팀이 까다로워진 이유는 AI를 싫어해서가 아니다. 속도가 빨라진 만큼 누가, 무엇을, 어떤 근거로 승인했는지가 더 중요해졌기 때문이다. 좋은 정책의 조건은 세 가지다. 누가 어떤 도구를 어디까지 썼는지 알 수 있어야 하고, 왜 이 코드가 들어왔는지 설명 가능해야 하며, 문제가 생겼을 때 추적과 복구가 가능해야 한다.

테크 리드 입장에서 내일 당장 실행 가능한 것부터 정리하면 이렇다.

최소 권한 기본값 설정. 에이전트 세션은 해당 태스크의 최소 권한으로 시작한다. 쓰기가 명시적으로 필요하지 않으면 읽기 전용이 기본이다. DB 어드민 크레덴셜은 절대 에이전트에게 주지 않는다.

파괴적 액션 허용 목록 운영. 파일 삭제, DB 쓰기, 배포, 상태를 바꾸는 외부 API 호출은 모두 게이트로 막는다. 에이전트가 액션을 제안하면 허용 목록을 확인한 뒤 실행한다. 목록에 없으면 실행 없음. 에이전트 자체 오버라이드 없음.

2스트라이크 에스컬레이션. 같은 오퍼레이션에서 두 번 실패하면 하드 스톱과 에스컬레이션이 트리거된다. 세 번째 창의적 해석을 허용하지 않는다.

PR 템플릿에 AI 사용 체크 4줄 추가. 사용 도구, 사용 범위, 사람이 재검토한 위험 영역, 테스트 통과 여부. 이것만 있어도 리뷰어가 어디를 집중해서 봐야 하는지 알 수 있다.

게이트를 먼저 테스트하고, 롤백 플랜을 먼저 문서화한다. 에이전트가 프로덕션에 접근하기 전에 모든 게이트를 엣지 케이스까지 테스트해야 한다. 롤백 플랜은 "뭔가 잘못되면 그때 생각한다"가 아니라, 분 단위로 실행 가능한 문서다. 9초는 즉흥할 시간이 없다.

에이전트를 신뢰하는 방법

역설적으로 들리겠지만, 기계적 강제를 제대로 구축한 팀이 에이전트를 더 많이 자동 승인 모드로 돌린다. Tom Tokita도 지금은 auto-approve를 쓴다. 하지만 처음부터 그렇게 시작하지 않았다. 초기에는 모든 액션을 수동 승인했고, 게이트가 뭘 잡아내는지 지켜봤다. 수십 번의 세션 동안 기계적 강제가 작동한다는 걸 확인한 뒤에야 자동화 수준을 높였다. 신뢰는 프롬프트로 가정하는 게 아니라 아키텍처로 증명하는 것이다.

에이전트를 믿을 수 있는 동료처럼 대하는 팀과, 특정하고 취소 가능한 권한을 가진 신뢰할 수 없는 서브프로세스로 대하는 팀. 이 차이가 9초짜리 재앙과 50개 프로덕션 프로젝트 무사고 사이의 간격이다. AI-First 팀 리빌딩의 출발점은 더 좋은 에이전트를 고르는 게 아니다. 에이전트 주변에 무엇을 세울지를 먼저 설계하는 것이다.