에이전트를 믿기 전, 팀이 설계할 신뢰 검증 구조

숫자부터 직시하자

현재 리더보드 1위 모델인 Claude Opus 4.8이 Senior SWE-Bench에서 기록한 pass@1 점수는 24.0%다. 달리 말하면, 시니어 엔지니어 수준의 실제 PR 과제를 줬을 때 이 모델이 '제대로 풀었다'고 인정받는 비율은 네 번 중 한 번이 채 안 된다. GPT-5.5는 16.0%, Claude Sonnet 5는 19.4%다. 최고 모델도 76% 이상 실패한다.

Snorkel AI가 공개한 Senior SWE-Bench는 기존 벤치마크가 측정하지 못했던 것을 잡아내려 한다. 과제는 '잘 정리된 주니어용 스펙'이 아니라 자연어로 된 불완전한 요구사항, 런타임 로그를 뒤져야 하는 버그 리포트, 평균 11개 파일을 건드리는 멀티스택 기능 PR이다. 평가 기준도 테스트 통과 여부만이 아니다. 코드베이스 관행 준수, 불필요한 코드 증가(Bloat < 2×), 상대적 품질 점수(Rel. taste > 2/5)까지 포함한다. 요컨대 "동작하는 코드"가 아니라 "팀에 합류한 엔지니어가 올렸을 법한 코드"를 기준으로 삼는다.

"더 나은 모델"은 문제의 절반만 해결한다

Claude Fable 5에 대한 개발자 반응은 실제로 이전과 다르다. Andrej Karpathy는 "모델이 이해하고 그냥 간다(The model gets it and it will just go)"고 표현했고, Ethan Mollick은 수십 페이지 스펙을 주고 몇 시간 돌렸을 때의 결과물이 이전 모델과 차원이 달랐다고 썼다. Fable의 1M 토큰 컨텍스트 윈도우와 긴 세션 지속력은 분명히 실질적인 개선이다.

하지만 CodeRabbit의 105개 코드 리뷰 EP 평가는 다른 각도를 보여준다. Fable 5의 actionable precision은 32.8%로, Opus 4.8의 35.5%보다 낮았다. 커버리지는 비슷하지만 노이즈가 더 많다는 뜻이다. 에이전트가 더 오래, 더 깊이 생각할수록 리뷰 코멘트가 늘어나고, 그 코멘트를 사람이 걸러내는 비용도 같이 늘어난다. Karpathy 본인도 "코드를 안 보고 싶은 유혹이 어느 때보다 크다"고 인정하면서, 바로 그 다음 문장에서 "절대 그러지 마라"고 경고했다.

세션이 죽는 순간, 워크플로우가 드러난다

50명 이상의 개발자를 대상으로 한 인터뷰 연구는 현장의 마찰을 다른 방식으로 포착한다. "AI 세션이 중간에 끊겼을 때 어떻게 하나요?"라는 질문에 가장 강한 반응이 나왔다. 정교한 워크플로우를 가진 시니어 개발자들은 AGENTS.md, git diff, 별도 상태 노트 같은 자체 도구를 이미 만들어뒀다. 반면 기술적 맥락이 없는 사용자들은 "처음부터 다시 설명해야 한다는 게 너무 지친다"고 표현했다. 더 중요한 발견은 따로 있다. 대부분의 응답자가 자발적으로 같은 말을 했다: 채팅 히스토리는 믿을 수 없다. 실패한 시도, 틀린 가정, AI가 자신 있게 말했지만 결국 틀렸던 것들이 뒤섞여 있기 때문이다.

이 세 가지 데이터 포인트—벤치마크 성능, 실사용 노이즈, 세션 상태 신뢰성—는 같은 문제를 서로 다른 각도에서 가리킨다. 에이전트가 더 강력해질수록 팀이 설계해야 할 검증 구조의 범위도 넓어진다.

팀이 지금 당장 설계해야 할 것

에이전트 출력의 신뢰 레이어를 모델 선택과 분리하라. Fable를 쓰든 Opus를 쓰든, 에이전트가 생성한 결과물을 팀이 어느 지점에서 어떤 기준으로 검증할지는 별개의 설계 문제다. Senior SWE-Bench의 평가 구조—런타임 정합성 + 코드베이스 관행 준수 + bloat 제한—는 팀이 자체 리뷰 게이트를 설계할 때 참조할 수 있는 실질적인 프레임이다.

세션 상태를 채팅 밖에 보존하라. 인터뷰 연구에서 가장 효과적인 워크플로우를 가진 개발자들이 공통적으로 하는 것은 하나다. 실제로 작동하는 상태—변경된 파일, git diff, 검증된 결정 사항—를 채팅 히스토리와 분리해서 관리한다. AI 세션이 죽어도 복구 비용을 최소화하는 구조다.

모델 역할을 태스크 성격에 따라 분리하라. Fable를 "모든 코딩 작업의 단일 에이전트"로 쓰면 비용과 노이즈가 동시에 올라간다. 실용적인 패턴은 명확하다. Fable(또는 최상위 모델)은 계획 수립, 아키텍처 검토, 복잡한 리팩터에 쓰고, 스펙이 확정된 구현 루프는 더 빠르고 저렴한 모델에 맡긴다. 이 분리 자체가 팀의 설계 의사결정이어야 한다.

전망: 벤치마크는 계속 올라가고, 신뢰 설계는 팀 몫으로 남는다

Senior SWE-Bench의 점수는 모델이 업데이트될수록 천천히 오를 것이다. Fable 이후에도 더 강한 모델이 나올 것이고, 각 릴리즈마다 "이번엔 다르다"는 반응이 따라올 것이다. 하지만 리더보드 1위가 24%에서 40%로 올라가도 구조적 질문은 바뀌지 않는다. 나머지 60%는 누가 잡나?

에이전트를 믿는다는 건 모델 성능을 신뢰하는 것이 아니다. 에이전트가 틀렸을 때 팀이 그것을 잡아낼 수 있는 구조를 신뢰하는 것이다. 그 구조는 벤더가 만들어주지 않는다. 지금 당장 팀이 설계해야 한다.