수능 만점 AI의 함정: LLM 벤치마크는 무엇을 측정하고 있는가

근거는 있나요? 구글의 Gemini 3.1 Pro가 한국 수능에서 만점을 달성했다는 소식이 퍼졌습니다. 순천향대 구유겸 학생이 자체 구축한 시스템으로 측정해 깃허브에 공개한 결과입니다. 동시에 ARC-AGI-2 벤치마크에서 77.1%를 기록하며 GPT-5.2(52.9%)와 Claude Opus 4.6(68.8%)을 제쳤다는 공식 발표도 나왔죠. 숫자만 보면 압도적입니다. 하지만 데이터 분석가로서 저는 이 숫자들의 '측정 방법론'부터 뜯어봐야 한다고 생각합니다.

수능 만점, 그 샘플 사이즈를 이야기하자

먼저 수능 벤치마크부터 짚겠습니다. 기사를 꼼꼼히 읽으면, 실제로는 전 과목 만점이 아닙니다. 물리1에서 43점, 사회문화에서 47점을 기록했고, '실제 수능처럼 탐구 2개를 선택하면 450/450이 가능하다'는 조건부 해석입니다. 이건 cherry-picking이라고 불러도 무방한 구조입니다. 탐구 4과목 중 만점인 2과목만 골라 '만점 가능'이라 선언하는 건, 5-fold cross validation에서 가장 좋은 fold만 보고하는 것과 본질적으로 같습니다.

더 근본적인 문제는 n=1이라는 점입니다. 수능은 1년에 한 세트, 과목당 20~30문항입니다. 국어 45문항, 수학 30문항 — 이 정도 샘플에서 만점과 1~2개 오답의 차이는 통계적으로 유의미하지 않을 가능성이 큽니다. 국어 만점(100점)과 1문항 오답(97~98점)의 차이가 모델의 '지능'을 변별하는 신호인지, 단순 노이즈인지 구분하려면 최소한 복수의 시험 세트에 대한 반복 측정과 신뢰구간이 필요합니다. 이 평가에서 seed를 바꿔 여러 번 돌린 결과(multiple runs)는 보고되지 않았습니다.

ARC-AGI-2의 77.1%, 베이스라인 대비 얼마나 의미 있는가

kmjournal과 dev.to 기사에 따르면, Gemini 3 Pro의 ARC-AGI-2 점수는 약 31~35%였고 3.1 Pro가 77.1%를 달성했다고 합니다. 2배 이상의 점프 — 인상적입니다. 하지만 이 벤치마크의 문항 수, 난이도 분포, 그리고 테스트 세트가 학습 데이터에 오염(data contamination)되지 않았다는 검증이 함께 제시되어야 합니다. ARC-AGI-2가 '암기가 아닌 추론'을 측정한다는 주장 자체는 설계 의도이지, 실증된 결론이 아닙니다.

자체 제작 AGI 벤치마크가 던지는 더 날카로운 질문

흥미로운 대비 사례가 있습니다. dev.to에 공개된 한 개발자의 AGI 벤치마크 프로젝트는 reasoning, metacognition, epistemic calibration, contradiction awareness 등 11개 인지 차원을 분리 측정합니다. 이 프레임워크에서 Claude가 0.875, GPT가 0.812, Gemini는 0.708로 오히려 최하위를 기록했습니다. 물론 이 벤치마크 역시 재현성과 평가자 간 신뢰도(inter-rater reliability)에 대한 검증이 부족합니다. 하지만 핵심 메시지는 유효합니다: 무엇을 측정하느냐에 따라 순위는 완전히 뒤집힙니다.

이 개발자가 지적한 것처럼, 현재 리더보드가 보상하는 것은 memorization, pattern matching, dataset familiarity입니다. 수능 만점이라는 결과도 이 프레임에서 자유롭지 않습니다. 수능은 정형화된 문제 유형, 제한된 출제 범위, 명확한 정답이 있는 closed-ended test입니다. 이건 LLM이 가장 잘하는 영역이지, '지능'을 증명하는 영역이 아닙니다.

시사점: 벤치마크는 '측정 도구'이지 '증명서'가 아니다

정리하겠습니다. Gemini 3.1 Pro의 성능 향상은 실재합니다. 이미지 인식 정답률 95.8%, ARC-AGI-2에서의 점프, SWE-Bench 80.6% — 이 수치들은 엔지니어링적 진보의 증거입니다. 하지만 이를 '수능 만점 = 인간 수준 지능'이나 'AGI에 근접'이라는 내러티브로 포장하는 순간, correlation을 causation으로 오독하는 함정에 빠집니다.

실제 프로덕션 환경에서 이 성능이 나올까요? 수능 풀이 시스템은 '시스템 프롬프트 없이, 외부 도구 없이' 진행되었다고 합니다. 통제된 실험 조건이라는 점에서 긍정적이지만, 역설적으로 이는 실제 사용 환경과 동떨어진 조건이기도 합니다. Ablation study — 예컨대 이미지 해상도를 낮추면? 문제를 paraphrase하면? 출제 연도를 섞으면? — 이런 robustness 테스트 없이 단일 세트 만점은 모델의 일반화 능력에 대해 거의 아무것도 말해주지 않습니다.

전망: 벤치마크 리터러시가 필요한 시대

앞으로 LLM 경쟁이 심화될수록, 각 기업은 자사 모델이 1위를 차지하는 벤치마크를 선별적으로 발표할 것입니다. 소비자와 의사결정자에게 필요한 것은 점수 자체가 아니라 벤치마크 리터러시 — 이 테스트가 무엇을 측정하고, 샘플은 충분한지, 재현 가능한지, 그리고 내 use case에 전이 가능한(transferable) 지표인지를 판단하는 능력입니다. 수능 만점 AI는 좋은 헤드라인이지만, 좋은 근거는 아닙니다.