수능 만점 AI의 함정: LLM 벤치마크는 무엇을 측정하고 있는가

수능 만점 AI의 함정: LLM 벤치마크는 무엇을 측정하고 있는가

450점 만점과 77.1%라는 숫자가 증명하는 것, 그리고 증명하지 못하는 것 — 벤치마크 설계의 통계적 맹점을 해부합니다.

LLM 벤치마크 Gemini 3.1 Pro 수능 만점 AI ARC-AGI-2 벤치마크 리터러시 데이터 오염 AI 성능 측정 통계적 유의성
광고

근거는 있나요? 구글의 Gemini 3.1 Pro가 한국 수능에서 만점을 달성했다는 소식이 퍼졌습니다. 순천향대 구유겸 학생이 자체 구축한 시스템으로 측정해 깃허브에 공개한 결과입니다. 동시에 ARC-AGI-2 벤치마크에서 77.1%를 기록하며 GPT-5.2(52.9%)와 Claude Opus 4.6(68.8%)을 제쳤다는 공식 발표도 나왔죠. 숫자만 보면 압도적입니다. 하지만 데이터 분석가로서 저는 이 숫자들의 '측정 방법론'부터 뜯어봐야 한다고 생각합니다.

수능 만점, 그 샘플 사이즈를 이야기하자

먼저 수능 벤치마크부터 짚겠습니다. 기사를 꼼꼼히 읽으면, 실제로는 전 과목 만점이 아닙니다. 물리1에서 43점, 사회문화에서 47점을 기록했고, '실제 수능처럼 탐구 2개를 선택하면 450/450이 가능하다'는 조건부 해석입니다. 이건 cherry-picking이라고 불러도 무방한 구조입니다. 탐구 4과목 중 만점인 2과목만 골라 '만점 가능'이라 선언하는 건, 5-fold cross validation에서 가장 좋은 fold만 보고하는 것과 본질적으로 같습니다.

더 근본적인 문제는 n=1이라는 점입니다. 수능은 1년에 한 세트, 과목당 20~30문항입니다. 국어 45문항, 수학 30문항 — 이 정도 샘플에서 만점과 1~2개 오답의 차이는 통계적으로 유의미하지 않을 가능성이 큽니다. 국어 만점(100점)과 1문항 오답(97~98점)의 차이가 모델의 '지능'을 변별하는 신호인지, 단순 노이즈인지 구분하려면 최소한 복수의 시험 세트에 대한 반복 측정과 신뢰구간이 필요합니다. 이 평가에서 seed를 바꿔 여러 번 돌린 결과(multiple runs)는 보고되지 않았습니다.

ARC-AGI-2의 77.1%, 베이스라인 대비 얼마나 의미 있는가

kmjournal과 dev.to 기사에 따르면, Gemini 3 Pro의 ARC-AGI-2 점수는 약 31~35%였고 3.1 Pro가 77.1%를 달성했다고 합니다. 2배 이상의 점프 — 인상적입니다. 하지만 이 벤치마크의 문항 수, 난이도 분포, 그리고 테스트 세트가 학습 데이터에 오염(data contamination)되지 않았다는 검증이 함께 제시되어야 합니다. ARC-AGI-2가 '암기가 아닌 추론'을 측정한다는 주장 자체는 설계 의도이지, 실증된 결론이 아닙니다.

자체 제작 AGI 벤치마크가 던지는 더 날카로운 질문

흥미로운 대비 사례가 있습니다. dev.to에 공개된 한 개발자의 AGI 벤치마크 프로젝트는 reasoning, metacognition, epistemic calibration, contradiction awareness 등 11개 인지 차원을 분리 측정합니다. 이 프레임워크에서 Claude가 0.875, GPT가 0.812, Gemini는 0.708로 오히려 최하위를 기록했습니다. 물론 이 벤치마크 역시 재현성과 평가자 간 신뢰도(inter-rater reliability)에 대한 검증이 부족합니다. 하지만 핵심 메시지는 유효합니다: 무엇을 측정하느냐에 따라 순위는 완전히 뒤집힙니다.

이 개발자가 지적한 것처럼, 현재 리더보드가 보상하는 것은 memorization, pattern matching, dataset familiarity입니다. 수능 만점이라는 결과도 이 프레임에서 자유롭지 않습니다. 수능은 정형화된 문제 유형, 제한된 출제 범위, 명확한 정답이 있는 closed-ended test입니다. 이건 LLM이 가장 잘하는 영역이지, '지능'을 증명하는 영역이 아닙니다.

시사점: 벤치마크는 '측정 도구'이지 '증명서'가 아니다

정리하겠습니다. Gemini 3.1 Pro의 성능 향상은 실재합니다. 이미지 인식 정답률 95.8%, ARC-AGI-2에서의 점프, SWE-Bench 80.6% — 이 수치들은 엔지니어링적 진보의 증거입니다. 하지만 이를 '수능 만점 = 인간 수준 지능'이나 'AGI에 근접'이라는 내러티브로 포장하는 순간, correlation을 causation으로 오독하는 함정에 빠집니다.

실제 프로덕션 환경에서 이 성능이 나올까요? 수능 풀이 시스템은 '시스템 프롬프트 없이, 외부 도구 없이' 진행되었다고 합니다. 통제된 실험 조건이라는 점에서 긍정적이지만, 역설적으로 이는 실제 사용 환경과 동떨어진 조건이기도 합니다. Ablation study — 예컨대 이미지 해상도를 낮추면? 문제를 paraphrase하면? 출제 연도를 섞으면? — 이런 robustness 테스트 없이 단일 세트 만점은 모델의 일반화 능력에 대해 거의 아무것도 말해주지 않습니다.

전망: 벤치마크 리터러시가 필요한 시대

앞으로 LLM 경쟁이 심화될수록, 각 기업은 자사 모델이 1위를 차지하는 벤치마크를 선별적으로 발표할 것입니다. 소비자와 의사결정자에게 필요한 것은 점수 자체가 아니라 벤치마크 리터러시 — 이 테스트가 무엇을 측정하고, 샘플은 충분한지, 재현 가능한지, 그리고 내 use case에 전이 가능한(transferable) 지표인지를 판단하는 능력입니다. 수능 만점 AI는 좋은 헤드라인이지만, 좋은 근거는 아닙니다.

출처

더 많은 AI 트렌드를 Seedora 앱에서 확인하세요