AI 에이전트 벤치마크, 숫자 뒤의 함정을 해부한다

근거는 있나요? — 벤치마크 숫자가 말해주지 않는 것

오픈AI와 패러다임(Paradigm)이 공개한 EVMbench, 홍콩대 연구팀이 내놓은 ClawWork. 두 벤치마크 모두 AI 에이전트의 역량을 '정량적으로 측정하겠다'는 야심 찬 시도입니다. 그런데 데이터 분석가로서 가장 먼저 던지는 질문은 하나입니다. 이 숫자를 신뢰해도 되나요?

1. EVMbench — N=120이면 충분한가요?

EVMbench는 스마트컨트랙트 취약점에 대한 AI 에이전트의 세 가지 역량 — 탐지(Detect), 패치(Patch), 공격(Exploit) — 을 평가합니다. 블록미디어 보도에 따르면 GPT-5.3-Codex는 공격 모드에서 72.2%의 성공률을 기록했고, 6개월 전 GPT-5의 31.9% 대비 두 배 이상 뛰었습니다. 숫자만 보면 인상적이죠.

하지만 샘플 사이즈가 120개 취약점입니다. 40건의 실제 감사 사례에서 엄선했다고는 하지만, 공격 모드만 놓고 보면 태스크당 성공/실패의 이항분포(binomial distribution)를 가정할 때 95% 신뢰구간의 폭이 상당히 넓습니다. 예컨대 72.2%가 120개 중 공격 태스크가 전체의 1/3인 40개에서 측정되었다면, 단순 Wald 구간만 잡아도 ±14%p 수준입니다. 베이스라인(GPT-5) 31.9%와의 차이가 통계적으로 유의한지, paired test를 거친 것인지 — 이 부분은 원 논문의 실험 섹션을 직접 확인해봐야 합니다.

더 중요한 건 태스크 난이도의 분포입니다. 120개 취약점이 실제 DeFi 생태계 전체의 취약점 유형을 대표(representative)하는지가 관건입니다. 리인트런시(reentrancy), 오라클 조작, 접근 제어 미비 등 취약점 카테고리별 비율이 실제 해킹 사건 분포와 어떻게 다른지 — 이른바 selection bias 문제를 짚지 않으면 "AI가 스마트컨트랙트 보안을 혁신한다"는 결론은 과잉 일반화(overgeneralization)입니다.

한 가지 긍정적인 점은, 러스트(Rust) 기반 전용 하네스(Harness)로 에이전트 행동을 결정론적으로 재현(deterministic replay) 할 수 있게 설계했다는 것입니다. 벤치마크의 가치는 SOTA 달성이 아니라 재현 가능성(reproducibility)에서 출발하니까요. 다만 "탐지"와 "패치" 모드에서 모델들이 여전히 어려움을 겪고 있다는 점은 솔직하게 보고된 셈이라, ablation 관점에서 모드별 성능 격차가 어디서 발생하는지를 추적할 좋은 베이스라인이 될 수 있습니다.

2. ClawWork — 평가자가 피평가자를 채점하는 구조

ClawWork은 프레임 자체가 흥미롭습니다. AI 에이전트에게 $10의 초기 자본을 주고, LLM 호출 비용이 실시간으로 차감되는 환경에서 업무를 수행해 수익을 올리도록 합니다. '정확도(accuracy)' 대신 '경제적 생존(economic viability)'이라는 측정 축을 제시한 것이죠.

그런데 여기서 데이터 분석가의 경보가 울립니다. 품질 점수(0.0~1.0)를 산출하는 평가자가 GPT-4o이고, 평가 대상 중 상당수도 OpenAI 계열 모델입니다. 이건 correlation이 아니라 아예 평가자-피평가자 간 오염(contamination) 가능성의 문제입니다. 마치 학생이 자기 시험을 자기가 채점하는 것과 구조적으로 다르지 않아요. 긱뉴스(GeekNews) 소개 글에서도 이 한계를 명시하긴 했지만, 커뮤니티 검증이 부족한 상태에서 "$10K in 7 hours"라는 헤드라인은 오해를 부르기에 충분합니다.

또한 GDPVal 데이터셋의 220개 태스크가 44개 직군을 커버한다고 하지만, 직군당 평균 5개 태스크입니다. 이 정도로 해당 직무의 경제적 가치를 대표한다고 말할 수 있을까요? BLS(미 노동통계국) 시간당 임금을 곱해 Payment를 산출하는 방식도, 태스크 품질 점수의 미세한 변동이 수익에 선형적으로 반영되는 단순 모델이라 실제 노동시장의 비선형적 보상 구조와는 거리가 있습니다.

3. 시사점 — 벤치마크는 '무엇을 측정하는가'가 '점수'보다 중요하다

두 벤치마크를 나란히 놓으면, AI 에이전트 평가의 공통 함정이 보입니다.

샘플 사이즈: EVMbench 120개, ClawWork 220개 — 통계적 검정력(statistical power)이 충분한지 항상 의심하세요.
데이터 대표성: 실제 공격 벡터 분포, 실제 직무 분포와 얼마나 일치하는지가 일반화의 전제입니다.
평가자 독립성: LLM이 LLM을 평가하는 구조에서 자기 일관성 편향(self-consistency bias)이 점수를 부풀릴 수 있습니다.
프로덕션 괴리: 격리된 로컬 Anvil 환경에서의 공격 성공률 72.2%가, 메인넷의 MEV 봇과 경쟁하고 가스 비용을 감당하는 실전에서도 유지될까요?

벤치마크의 진짜 가치는 높은 점수를 자랑하는 데 있지 않습니다. 어떤 조건에서 모델이 실패하는지를 드러내는 것이 핵심입니다. EVMbench가 탐지·패치 모드의 낮은 성능을 솔직히 보고한 점, ClawWork이 "시뮬레이션 환경의 등가 수익"임을 명시한 점은 올바른 방향입니다. 하지만 미디어가 이를 소비할 때 맥락이 소거된 숫자만 남는 것이 진짜 위험이죠.

전망 — '평가의 평가'가 필요한 시대

앤트로픽이 경고한 대로 AI 에이전트의 공격 역량은 빠르게 성장하고 있고, 오픈AI는 방어 도구로의 전환을 위해 $10M 규모의 사이버보안 그랜트까지 준비했습니다. 깃허브도 에이전틱 워크플로를 프리뷰로 내놓으며 실무 자동화에 AI를 투입하고 있고, 의료 영역에서도 LangGraph 기반의 폐쇄 루프 에이전트가 실험되고 있습니다. AI 에이전트의 영역은 확장되고 있지만, 측정의 엄밀성은 그 속도를 따라가지 못하고 있습니다.

앞으로 필요한 건 벤치마크의 벤치마크 — 즉, 평가 프레임워크 자체의 신뢰도를 메타 분석하는 커뮤니티입니다. 교차 검증을 위한 독립적 재현 실험, 평가자 모델의 편향 정량화, 태스크 분포의 대표성 감사(audit)가 동반되어야 "72.2%"든 "$10K"든 의미 있는 숫자가 됩니다. 숫자는 거짓말하지 않지만, 맥락 없는 숫자는 거짓말보다 위험합니다.