AI 벤치마크 수치, 근거는 있나요? SOTA 이면의 통계적 함정

헤드라인 숫자부터 의심하는 습관

Google이 Gemini 3 DeepThink를 공개하며 HLE(Humanity's Last Exam) 벤치마크 48.4%를 달성했다고 발표했습니다. GPT-5.2의 34.5%, Claude Opus 4.6의 40%를 넘어선 수치라 업계가 들썩이는 건 당연합니다. ARC-AGI-2에서 84.6%, 국제물리올림피아드 시뮬레이션 87.7%, 국제화학올림피아드 82.8%까지—숫자만 보면 압도적이죠(KM Journal 보도 기준).

그런데 데이터 분석가로서 첫 번째 질문은 이겁니다: 샘플 사이즈가 충분한가요? HLE는 PhD 수준 문제를 모아 놓은 벤치마크인데, 전체 문제 수가 몇 개인지, 도메인별 분포가 어떤지, 난이도 보정이 되어 있는지에 대한 정보가 공개 보도에는 빠져 있습니다. 48.4% 대 40%의 차이가 통계적으로 유의한지 판단하려면 최소한 문항 수와 신뢰구간(confidence interval)이 필요합니다. 100문항짜리 시험에서 8.4%p 차이는 약 8문제 차이일 뿐이고, 이항 분포 가정 하에서 p-value가 0.05 아래로 떨어지지 않을 수도 있습니다.

베이스라인 없는 비교는 비교가 아니다

'SOTA 달성'이라는 표현을 볼 때마다 저는 베이스라인부터 찾습니다. HLE에서 external tool 없이 48.4%를 기록했다고 하지만, 베이스라인이 뭔지가 불분명합니다. 랜덤 추측(random baseline)의 기대값은 얼마인지, 인간 전문가 패널의 평균 점수는 어떤지, 그리고 이전 Gemini 3(DeepThink 이전) 버전의 동일 벤치마크 점수는 몇인지—이 세 가지가 없으면 48.4%라는 절대값만으로는 '추론 능력의 도약'을 주장하기 어렵습니다. Ablation study 결과가 공개되지 않은 SOTA 발표는 마케팅이지 과학이 아닙니다.

같은 맥락에서 ARC-AGI-2의 84.6%도 재검증이 필요합니다. 기존 모델이 50~60% 범위라고 언급되지만, '기존 모델'이 어떤 버전의 어떤 설정(temperature, prompt engineering, few-shot 여부)인지에 따라 수치가 크게 달라집니다. 동일 조건(apple-to-apple) 비교인지가 핵심인데, 이 정보는 보도에 포함되어 있지 않습니다.

벤치마크 성능의 세 가지 구조적 함정

벤치마크 수치를 곧이곧대로 신뢰하기 어려운 이유를 세 가지로 정리해 보겠습니다.

첫째, 데이터 누수(data leakage) 가능성입니다. dev.to의 Gauthier Piarrette가 잘 정리했듯이, ML 모델 학습에서 가장 은밀한 오류는 '미래의 데이터로 과거를 학습하는 것'입니다. 벤치마크 문항이 사전 학습 코퍼스에 포함되었을 가능성—이른바 contamination 문제—은 대형 언어 모델 평가에서 반복적으로 제기되는 이슈입니다. point-in-time join 하나 잘못하면 수억 개의 feature 값이 오염되듯, 벤치마크 한 문항만 학습 데이터에 섞여도 정확도 수치가 왜곡됩니다. 오프라인 지표가 좋아 보이는데 실제 추론(inference) 시 성능이 떨어진다면, 이것이 첫 번째 의심 포인트입니다.

둘째, 재현성(reproducibility) 문제입니다. Sonia Bobrik이 dev.to에서 지적한 것처럼, AI가 만들어낸 분석 결과는 '자신감 넘치는 서사(confident narrative)'와 '검증된 결과(verified result)' 사이의 간극이 큽니다. 벤치마크 결과도 마찬가지입니다. 동일한 모델 체크포인트, 동일한 프롬프트, 동일한 디코딩 전략으로 제3자가 재현했을 때 같은 수치가 나오는지가 중요합니다. 노트북의 statefulness 문제—특정 실행 순서에서만 결과가 나오는 현상—가 벤치마크 파이프라인에서도 동일하게 발생할 수 있습니다. 재현 불가능한 SOTA는 SOTA가 아닙니다.

셋째, 모델 드리프트와 '행동 드리프트(behavioral drift)' 문제입니다. Hollow House Institute가 분석한 것처럼, 진짜 위험한 드리프트는 모델 자체의 성능 변화가 아니라 모델을 둘러싼 의존성과 사용 패턴의 변화입니다. 벤치마크에서 금메달급 점수를 받은 모델이 실제 연구 현장에 배포되면, 사용자들은 점차 모델 출력을 비판 없이 수용하기 시작합니다. Google은 DeepThink가 peer review에서 인간 리뷰어가 놓친 논리적 불일치를 잡아냈다고 주장하는데, 이 주장이 실제 운영 환경에서 검증되기도 전에 '모델이 전문가보다 낫다'는 신뢰가 형성되면, 그것이 바로 거버넌스 부채(governance debt)의 시작입니다.

실제 운영 환경에서도 이 성능이 나올까요?

결국 가장 중요한 질문은 이것입니다: 벤치마크 점수와 프로덕션 성능 사이의 갭은 얼마나 큰가? Google은 AI Ultra 플랜 구독자에게 우선 제공하고, 이후 연구자 및 기업 고객에게 API 접근을 확대할 계획이라고 합니다. 하지만 통제된 벤치마크 환경과 실제 운영 환경은 완전히 다른 세계입니다. Latency, throughput, 비용 효율성, 그리고 다양한 도메인의 long-tail 쿼리에 대한 robustness—이 지표들이 공개되지 않은 상태에서 HLE 점수만으로 모델의 우월성을 판단하는 건 F1-score만 보고 모델을 배포하는 것과 같습니다.

이건 correlation이지 causation이 아닙니다. 벤치마크 고득점과 실제 문제 해결 능력 사이에는 상관관계가 있을 수 있지만, 인과관계가 입증된 것은 아닙니다. 높은 벤치마크 점수가 더 나은 연구 지원을 보장하는지, 더 정확한 코드 생성을 의미하는지, 더 안전한 의사결정을 이끄는지—각각에 대해 별도의 평가가 필요합니다.

전망: 벤치마크 리터러시가 경쟁력이 되는 시대

AI 벤치마크 경쟁이 가속화되는 건 분명한 추세입니다. 그러나 숫자를 생산하는 속도가 숫자를 검증하는 속도를 앞지르고 있다는 점이 우려됩니다. 데이터 분석가의 관점에서 제안하자면: 벤치마크 결과를 받아들이기 전에 최소한 문항 수와 신뢰구간, 데이터 오염 검증 방법론, 제3자 재현 결과, 그리고 프로덕션 환경 성능 지표 네 가지를 확인하세요. pd.DataFrame에 숫자를 넣기 전에 데이터의 출처와 품질을 확인하는 것처럼, 모델 성능 수치도 동일한 엄밀함으로 다뤄야 합니다. 화려한 리더보드 순위보다, 재현 가능한 evidence가 진짜 신뢰의 기반입니다.