LLM 벤치마크의 거짓말: 수치가 숨기는 세 가지 추론 실패

'잘 한다'는 게 정확히 무슨 뜻인가요?

GPT-5가 MMLU에서 90점대를 찍고, Gemini가 HumanEval 최고점을 갱신했다는 뉴스가 쏟아지는 와중에, 세 편의 arXiv 논문이 불편한 질문을 동시에 던졌습니다. '그 벤치마크, 실제 추론 실패를 제대로 측정하고 있나요?' 구글 리서치, 독립 연구자 자야데브 빌라(Jayadev Billa), 네덜란드 트벤테 대학교(University of Twente) 팀이 각각 발표한 실험 결과는 서로 다른 도메인을 다루지만, 하나의 공통 결론으로 수렴합니다. 현재 벤치마크는 모델이 '무엇을 못 하는지'를 구조적으로 숨기도록 설계되어 있다는 것입니다.

사례 1: 알면서도 못 꺼낸다 — 지식 회수 실패율 70%

구글 리서치 팀은 GPT-5, Gemini-3-Pro 등 최첨단 모델 13개를 대상으로 약 450만 건의 응답을 분석했습니다(Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality). 결과부터 말하면, GPT-5와 Gemini-3-Pro는 테스트된 사실의 95~98%를 이미 파라미터 내에 저장하고 있었습니다. 냉장고는 거의 꽉 차 있었던 셈입니다.

그런데도 추가 추론 없이는 25~33%의 질문에서 오답을 냈고, GPT-5.2 기준으로 오류의 70% 이상이 '몰라서'가 아닌 '꺼내지 못해서' 발생했습니다. 연구팀은 이 두 실패 유형을 각각 'Empty Shelves(학습 미비)'와 'Lost Keys(회수 실패)'로 명명했습니다.

이건 단순한 학습 데이터 부족 문제가 아닙니다. 모델 사이즈를 키워도 회수 실패율은 함께 줄지 않았다는 점이 핵심입니다. 스케일링 법칙(Scaling Law)에 대한 맹신을 다시 돌아봐야 할 대목입니다.

역방향 질문 하나로 정확도가 8.9%p 추락

회수 실패는 두 가지 조건에서 특히 두드러졌습니다. 첫째, 희귀 정보입니다. Gemini-3-Flash 기준으로 인기 정보의 저장율은 99.5%, 희귀 정보도 94.5%로 큰 차이가 없었습니다. 그런데 실제 답변 가능 비율은 84.7% 대 63.3%로, 21.4%p라는 격차가 벌어졌습니다. 저장율 격차(5%p)와 회수율 격차(21.4%p) 사이의 불일치가 바로 문제의 본질입니다.

둘째, 질문 방향입니다. GPT-5에게 "오아시스(Oasis)가 처음 공연한 장소는?"이라고 물으면 정답률 82.9%이지만, "보드워크 클럽(Boardwalk Club)에서 처음 공연한 밴드는?"으로 방향만 바꾸면 74%로 떨어집니다. 반면 객관식 보기를 주면 역방향도 정방향과 비슷한 수준으로 회복됩니다. 모델은 알고 있다. 다만 꺼내는 경로가 학습되지 않았을 뿐입니다.

연구팀이 개발한 평가 도구 'WikiProfile'은 이 두 실패 유형을 분리해 측정합니다. 2,150개 사실 × 10개 질문(저장 확인·회수 확인·객관식) 구조로, 두 AI 채점자 간 일치율 98.2%를 달성했습니다. 기존의 '맞으면 1점, 틀리면 0점' 방식으로는 이 구분이 불가능합니다. 기존 벤치마크가 왜 무기력한지를 역설적으로 증명하는 도구이기도 합니다.

사례 2: 음성 AI는 당신의 말보다 텍스트를 10배 더 믿는다

연구자 자야데브 빌라의 ALME(Audio-LLM Modality Evaluation) 벤치마크는 8개 언어, 57,602개 실험 자극을 사용해 음성과 텍스트가 충돌할 때 AI가 어느 쪽을 따르는지를 측정했습니다(When Audio-LLMs Don't Listen: A Cross-Linguistic Study of Modality Arbitration).

지표는 TDR(Text Dominance Ratio, 텍스트 우세 비율)입니다. Gemini 2.0 Flash를 기준으로, 두 텍스트 출처가 충돌할 때 TDR은 1.6%에 불과했습니다. 그런데 같은 조건에서 음성이 등장하자 TDR이 16.6%로 10배 치솟았습니다. '음성을 기반으로 답하라'고 명시적으로 지시해도 이 편향은 사라지지 않았습니다.

더 불편한 사실은, 이 편향이 음성 품질 문제가 아니라는 점입니다. 음성 직접 처리 방식의 정확도(97.2%)는 음성→텍스트 변환 후 처리 방식(93.9%)보다 오히려 높았습니다. 정보량은 음성이 더 많은데, 판단 과정에서는 텍스트를 선택한다는 뜻입니다.

모델별 TDR 격차와 언어별 불균형

4개 모델의 TDR을 비교하면 격차가 극적입니다.

모델	TDR
Gemini 2.0 Flash	16.6%
GPT-4o Audio	23.2%
Ultravox	48.8%
Qwen2-Audio	63.2%

Qwen2-Audio는 '음성을 기반으로 답하라'는 지시에도 세 번 중 두 번 텍스트를 따랐습니다. 여기에 더해 Qwen2-Audio에서는 나중에 제시된 선택지를 선호하는 최근 편향(Recency Bias, 27.6%) 도 확인됐습니다. 이건 LLM 평가 설계 시 반드시 통제해야 할 교란 변수입니다.

언어별 불균형도 심각합니다. Gemini 기준 영어 TDR은 8.1%인데 중국어는 31.8%, 일본어는 30.2%입니다. 비라틴 문자 언어에서 일관되게 TDR이 높게 나타나며, 이는 훈련 데이터 분포의 편향(Training Data Distribution Bias) 을 강하게 시사합니다. 이건 correlation이지 causation이 아니지만, 방향은 충분히 의심스럽습니다.

실용적 시사점도 하나 나왔습니다. 프롬프트에 '텍스트가 오류를 포함할 수 있다'고 쓰는 것보다 '텍스트는 의도적으로 변조됐다'고 쓰면 TDR이 19%→3.8%로 80% 감소했습니다. LoRA 파인튜닝도 TDR을 49.4%→25.5%로 낮추는 데 효과적이었습니다. 반면 음성 어댑터만 학습시키면 TDR이 오히려 26.5% 상승했습니다. 텍스트 편향은 음성 처리 레이어가 아닌 언어 모델의 추론 레이어에 박혀 있다는 뜻입니다.

사례 3: 1977년 텍스트 게임이 SOTA 모델을 무너뜨렸다

트벤테 대학교 연구팀은 Claude Opus 4.5, Claude Sonnet 4.5, ChatGPT 5.2, Gemini 3 등 6개 LLM을 1977년 텍스트 어드벤처 게임 Zork에 투입했습니다(Playing With AI: How Do State-Of-The-Art Large Language Models Perform in the 1977 Text-Based Adventure Game Zork?). 기본 프롬프트와 게임 매뉴얼 수준의 고급 프롬프트, 각 5회, 총 40회 실험입니다.

결과: 전 모델 평균 완료율 10% 미만. 최고 성적인 Claude Opus 4.5도 350점 만점에 약 75점(약 21%)에 그쳤습니다.

Zork가 적절한 테스트베드인 이유가 있습니다. 패턴 매칭이 통하지 않습니다. 공간을 머릿속으로 지도화하고, 이전 실패를 기억해 전략을 수정하고, 아이템 간 인과관계를 추론해야 합니다. 기존 NLP 벤치마크가 보상하는 능력과 게임 클리어에 필요한 능력이 다르다는 것을 드러내는 설계입니다.

Extended Thinking을 켜도 점수가 오르지 않았다

이번 실험에서 가장 의미심장한 발견은 두 가지입니다.

첫째, Extended Thinking 활성화 여부가 게임 성과에 유의미한 차이를 만들지 않았습니다. Claude의 확장 사고, ChatGPT의 확장 사고, Gemini의 사고 모드를 각각 켰지만 세 모델 모두 마찬가지였습니다. 앞서 구글 리서치의 WikiProfile 실험에서 Thinking이 회수 실패의 40~65%를 보완했다는 결과와 대조적입니다. Thinking이 효과적인 태스크 유형이 따로 있다는 뜻이고, 현재 어떤 상황에서 Thinking을 써야 하는지 AI 스스로 판단하는 능력은 아직 미완성입니다.

둘째, 상세한 게임 설명을 제공해도 성적이 오르지 않았습니다. 정보를 보유하는 것과 상황에 맞게 적용하는 것은 다른 능력입니다. ChatGPT 5.2는 이미 비어 있는 우편함을 반복해서 여는 행동을 보였고, Claude Opus 4.5는 어두운 구간에서 필요한 랜턴을 경로 표시용으로 버려 스스로 막힌 상황을 만들었습니다. 연구팀이 지목한 핵심 결핍은 메타인지(Metacognition), 즉 '내가 지금 잘 하고 있는가'를 스스로 점검하는 능력입니다.

'Lost in the Middle' 현상도 겹쳤습니다. 대화가 길어질수록 앞선 실패 기록을 효과적으로 참조하지 못해 같은 실수를 반복했습니다. 컨텍스트 윈도우가 길다고 해서 긴 컨텍스트를 잘 활용하는 건 아닙니다.

세 실험이 수렴하는 하나의 결론

세 연구는 서로 다른 각도에서 같은 맹점을 찌릅니다.

WikiProfile: 맞고 틀림의 이진 분류는 '왜 틀렸는지'를 숨긴다
ALME(TDR): 단일 모달리티 정확도는 멀티모달 판단 편향을 숨긴다
Zork: 언어 생성 능력 지표는 적응적 문제 해결 능력을 숨긴다

현재 SOTA 경쟁에서 주로 쓰이는 벤치마크들—MMLU, HellaSwag, HumanEval 등—은 대부분 단일 턴, 단일 모달리티, 정답 유무 이진 평가 구조입니다. 그 구조 자체가 특정 실패 유형을 탐지하지 못하도록 설계되어 있습니다. Ablation study나 에러 유형 분해(Error Decomposition) 없이 종합 점수만 비교하는 방식으로는 모델이 실제로 어디서 무너지는지 알 수 없습니다.

전망: 벤치마크 설계 자체를 재설계해야 한다

모델 크기와 학습 데이터를 늘리는 방향만으로는 세 실험이 드러낸 문제들을 해결하기 어렵습니다. 회수 실패는 스케일로 해결되지 않았고, TDR 편향은 아키텍처 레벨의 문제이며, 메타인지 결핍은 데이터 양의 문제가 아닐 수 있습니다.

앞으로 ML 실무자와 연구자들에게 필요한 질문 목록은 명확해졌습니다.

저장(Storage)과 회수(Recall)를 분리해서 측정하고 있는가?
멀티모달 태스크에서 모달리티 간 편향(Modality Bias)을 통제했는가?
다중 턴, 적응적 문제 해결이 필요한 시나리오를 평가에 포함했는가?
Extended Thinking이 해당 태스크 유형에서 실제로 효과적인가 검증했는가?
언어·인구집단 간 성능 격차를 서브그룹 분석으로 공개하고 있는가?

'SOTA 달성'이라는 헤드라인 뒤에는 항상 '어떤 벤치마크에서, 어떤 에러 유형을 제외하고, 어떤 언어 분포에서'라는 조건이 따라붙어야 합니다. 벤치마크가 측정하지 않는 것은, 모델이 숨길 수 있는 것입니다.