LLM 벤치마크 숫자, 근거 있나요?

근거는 있나요? 최근 AI 업계에서 쏟아지는 성능 수치를 볼 때마다 가장 먼저 드는 질문입니다. xAI가 Grok 4.20 베타를 공개하며 '환각률 12%에서 4.2%로 감소'를 내세웠고, 구글은 Gemini 3.1 Pro가 ARC-AGI-2에서 77.1%를 달성했다고 발표했습니다. 숫자 자체는 인상적합니다. 하지만 이 숫자들을 pandas DataFrame에 담아놓고 실제로 뜯어보면, 빈 컬럼이 너무 많습니다.

환각률 '12%→4.2%'—베이스라인부터 의심해야 합니다

MDIR 아키텍처를 소개한 dev.to 글에서 인용된 12%라는 환각률 베이스라인은 어디서 온 수치일까요? 어떤 데이터셋에서 측정했는지, 환각(hallucination)의 정의는 무엇이었는지, 샘플 사이즈는 얼마였는지 일절 명시되지 않았습니다. 환각률이라는 지표 자체가 업계 표준 메트릭이 아닙니다. 사실 관계 오류(factual error)인지, 논리적 비약(logical inconsistency)인지, 출처 없는 생성(unsupported generation)인지에 따라 측정값은 극적으로 달라집니다. Precision과 Recall을 구분하듯, 환각도 유형별로 나눠서 보고해야 의미가 있습니다. 게다가 MDIR은 '설계 문서(design document)'이지 논문이 아니라고 저자 스스로 밝히고 있습니다. Ablation study 결과도, 재현 가능한 실험 코드도 없는 상태에서 65% 감소라는 상대적 개선폭이 독립적으로 돌아다니고 있는 셈입니다.

ARC-AGI-2 77.1%—벤치마크 하나가 추론 능력 전체를 대변할 수 있나요?

구글이 아웃소싱타임스를 통해 보도된 내용에 따르면, Gemini 3.1 Pro는 ARC-AGI-2에서 77.1%를 기록했습니다. 기사에서는 이를 '경이적인 점수'라고 표현합니다. 하지만 여기서 짚어야 할 것이 있습니다. 첫째, 이전 버전인 3 Pro의 ARC-AGI-2 점수가 공개되지 않았습니다. '두 배 이상 개선'이라는 표현은 있지만, 베이스라인 수치 없이 배수를 논하는 건 improvement = (new - old) / old에서 분모를 숨기는 것과 같습니다. 둘째, ARC-AGI-2는 추론 능력 중에서도 '시각적 패턴 추론'에 특화된 벤치마크입니다. 이 점수가 '복잡한 코딩부터 금융 분석까지'의 에이전트 성능을 보장한다는 건 correlation을 causation으로 읽는 것입니다. 셋째, few-shot 조건인지, chain-of-thought를 허용했는지, 시도 횟수(pass@k)는 몇 회인지—실험 조건이 빠져 있으면 77.1%라는 숫자는 맥락 없는 스칼라 값에 불과합니다.

프로덕션에서도 이 숫자가 나올까요?

dev.to에 게시된 'LLMs Are Not Deterministic' 글이 이 질문에 정확히 답합니다. LLM은 확률적 시퀀스 예측기(probabilistic sequence predictor)입니다. 벤치마크에서 temperature 0으로 고정하고 단일 프롬프트에 단일 호출로 뽑은 점수와, 실제 운영 환경에서 다양한 사용자 입력·다양한 컨텍스트 길이·다양한 도메인이 섞인 조건의 성능은 구조적으로 다를 수밖에 없습니다. 이 글의 저자가 말하듯, '데모 한 번은 마법처럼 보이지만, 그 아키텍처를 실사용자에게 배포하는 순간 현실이 찾아옵니다.' 실제 프로덕션에서는 생성-평가-재생성-포맷팅의 제어 루프(control loop)가 필요하고, 사용자가 보는 '답변 하나' 뒤에는 여러 번의 모델 호출이 숨어 있습니다. 벤치마크 점수는 이 시스템 비용을 전혀 반영하지 못합니다.

Base model 실험이 보여주는 불편한 진실

Mistral 7B의 base model과 instruct model을 비교한 실험('Hello'를 입력했더니 애니메 리뷰가 나온 사례)은, 우리가 벤치마크로 측정하는 성능이 사실 alignment 이후의 행동이라는 점을 상기시킵니다. Base model은 토큰 예측기일 뿐이고, alignment(SFT, RLHF)이 '추론 능력을 부여'하는 것인지, 이미 잠재된 능력을 '표면으로 끌어올리는' 것인지는 여전히 열린 질문입니다. 이 구분이 중요한 이유는, 벤치마크 점수 향상이 모델 자체의 지능 향상인지 alignment 파이프라인의 최적화인지에 따라 일반화 성능(generalization)에 대한 기대치가 완전히 달라지기 때문입니다.

시사점: 벤치마크 숫자를 읽는 프레임워크

정리하면, LLM 성능 지표를 읽을 때 최소한 다섯 가지를 확인해야 합니다. (1) 베이스라인은 무엇인가 — 상대적 개선폭은 분모 없이 무의미합니다. (2) 메트릭 정의는 명확한가 — '환각률'처럼 정의가 모호한 지표는 연구마다 다르게 측정됩니다. (3) 실험 조건이 공개되었는가 — temperature, pass@k, few-shot 조건 없는 점수는 해석 불가입니다. (4) 재현 가능한가(reproducibility) — 설계 문서와 피어리뷰 논문의 증거 수준은 다릅니다. (5) 프로덕션 갭을 인정하는가 — 벤치마크는 컴포넌트 성능이고, 실사용은 시스템 성능입니다.

전망: 숫자가 아니라 '숫자의 맥락'이 경쟁력이 되는 시대

앞으로 모델 성능 발표는 더 잦아질 것이고, 수치는 더 커질 것입니다. 하지만 실무에서 ML 파이프라인을 운영해본 사람이라면 압니다. Jupyter 노트북에서 validation accuracy 0.95를 찍는 것과 프로덕션에서 p99 latency 안에 동일한 정확도를 유지하는 것은 완전히 다른 문제라는 걸. 토큰 가격이 싸다고 AI가 싼 것이 아니듯, 벤치마크 점수가 높다고 AI가 똑똑한 것이 아닙니다. 진짜 경쟁력은 그 숫자 옆에 붙어야 할 신뢰구간(confidence interval), 실험 조건, 그리고 프로덕션 검증 결과에 있습니다. 다음번에 'SOTA 달성'이라는 헤드라인을 보면, 먼저 실험 섹션부터 펼쳐보세요. 거기에 답이 있거나, 혹은 답이 없다는 사실 자체가 답이 됩니다.