벤치마크 숫자의 함정: '+16.2%p 향상'과 '69% 할루시네이션'을 읽는 법

근거는 있나요?—이번 주 쏟아진 숫자들

이번 주만 해도 AI 업계에서 인상적인 숫자가 세 번 쏟아졌습니다. 알리바바가 Qwen 3.5를 공개하며 "디코딩 처리량 19배 개선, 비용 60% 절감"을 주장했고(aitimes), SkillsBench 논문은 큐레이션된 에이전트 스킬이 "평균 +16.2%p 성능 향상"을 가져온다고 발표했으며(arXiv, Hacker News 토론), Stanford 연구는 법률 LLM의 할루시네이션율이 "69~88%"에 달한다고 경고했습니다(dev.to/CoreProse). 세 숫자 모두 '팩트'처럼 유통되고 있지만, 데이터 분석가의 시선에서 보면 각각 다른 종류의 빈칸을 품고 있습니다.

Qwen 3.5: '19배'의 베이스라인은 무엇인가

397B 총 파라미터 중 17B만 활성화하는 고희소성 MoE 구조, 선형 어텐션과 하이브리드 어텐션의 결합—아키텍처 자체는 흥미롭습니다. 그런데 "디코딩 처리량 최대 19배 개선"이라는 수치를 볼 때 가장 먼저 물어야 할 질문은 "베이스라인이 뭐였나요?"입니다. 이전 세대 Qwen 3 대비인지, 동일 FLOPs 기준인지, 배치 사이즈와 시퀀스 길이 조건은 어떤지에 따라 19배는 완전히 다른 이야기가 됩니다.

더 중요한 점은 GPT-5.2, Claude Opus 4.5, Gemini 3 Pro 대비 "일부 지표에서 우위"라는 표현입니다. 어떤 벤치마크의 어떤 지표인지를 밝히지 않은 채 '일부 우위'를 강조하는 건, 실험 설계 관점에서는 cherry-picking의 전형적 신호입니다. 알리바바가 딥시크와의 비교를 공개하지 않은 점도 의미심장합니다. 실제 운영 환경에서의 latency, throughput, cost-per-token을 독립적으로 재현할 수 있는 데이터가 공개되기 전까지, 이 숫자들은 마케팅 메트릭에 가깝습니다.

SkillsBench: +16.2%p는 '평균의 함정'을 품고 있다

SkillsBench는 11개 도메인, 84개 태스크, 7,308개 실행 경로로 구성된 꽤 체계적인 벤치마크입니다. 큐레이션된 스킬(절차적 지식 패키지)을 주입하면 평균 +16.2%p 통과율이 올라간다는 결과 자체는 흥미롭지만, 분포를 들여다보면 이야기가 달라집니다.

헬스케어 도메인은 +51.9%p, 소프트웨어 엔지니어링은 +4.5%p—도메인 간 편차가 거대합니다. 84개 태스크 중 16개(약 19%)는 오히려 성능이 하락했습니다. 평균 +16.2%p라는 숫자만 보면 "스킬을 넣으면 무조건 좋다"고 오해하기 쉽지만, 이건 correlation이지 causation이 아닙니다. 스킬이 효과를 발휘하는 조건—모델의 사전 지식이 부족한 도메인, 2~3개 모듈로 구성된 집중형 스킬—을 분리해내야 실무적 가치가 있습니다.

더 결정적인 발견은 자체 생성 스킬(Self-Generated Skills)이 평균적으로 효과가 없거나 오히려 -1.3%p 하락했다는 점입니다. Hacker News 토론에서 여러 실무자가 지적했듯, 이 실험에서 모델은 외부 자료 접근이나 탐색 없이 자신의 잠재 지식만으로 스킬을 생성해야 했습니다. 자기 출력을 다시 입력하는 순환 구조에서 품질이 떨어지는 건 예측 가능한 결과입니다. 이를 "LLM이 스스로 학습한다"는 내러티브로 확장하면 오해가 됩니다.

샘플 사이즈도 짚어야 합니다. 84개 태스크, 5회 반복은 통계적으로 견고한 결론을 내기에 여전히 작은 편입니다. 특히 도메인당 태스크 수가 불균형하다면, 헬스케어의 +51.9%p가 몇 개의 태스크에서 나온 것인지 확인할 필요가 있습니다.

법률 LLM 할루시네이션 69-88%: '프로덕션 환경'의 무게

Stanford 연구가 보고한 법률 LLM 할루시네이션율 69~88%는, Kenosha 검사의 AI 생성 허위 판례 인용 사건과 맞물려 충격적으로 읽힙니다. 하지만 여기서도 실험 조건을 확인해야 합니다. 이 수치는 "targeted legal queries"—즉 할루시네이션을 유발하기 쉬운 질의 세트에서 측정된 것입니다. 실제 법률 실무 워크플로우의 전체 쿼리 분포에서의 할루시네이션율과는 다를 수 있습니다.

그렇다고 이 숫자를 가볍게 볼 수는 없습니다. Precision-Recall 관점에서 보면, 법률 분야는 False Positive의 비용이 극단적으로 높은 도메인입니다. 존재하지 않는 판례를 인용하는 건 단순한 정확도 하락이 아니라, 법정 제재와 규제 위반으로 직결됩니다. EU AI Act의 최대 3,500만 유로 벌금은 이 비용을 수치화한 것이나 다름없습니다.

Chinchilla의 교훈: 크기가 아니라 효율을 측정하라

dev.to의 "Why Bigger Language Models Don't Always Perform Better" 아티클은 Chinchilla와 LLaMA 논문을 통해, 파라미터 수 경쟁이 compute-optimal 관점에서 비효율적이었음을 상기시킵니다. Qwen 3.5의 397B/17B MoE 구조도 결국 같은 질문에 답하는 셈입니다: "활성 파라미터 대비 성능은 얼마인가?"

이 관점에서 진짜 의미 있는 지표는 총 파라미터 수가 아니라, 토큰당 활성 FLOPs 대비 벤치마크 성능, 실제 추론 비용당 품질입니다. Qwen 3.5가 1조 파라미터급 Qwen3-Max-Base와 "동급 성능"이라 주장하면서 60% 비용 절감을 말한다면, 그 비교의 조건—동일 벤치마크, 동일 평가 방법론, 동일 하드웨어 환경—을 투명하게 공개해야 합니다.

시사점: 벤치마크를 읽는 체크리스트

네 건의 소스를 관통하는 교훈은 명확합니다. 어떤 SOTA 주장이든 다음을 먼저 확인하세요:

베이스라인은 무엇인가? — 개선 수치의 분모가 불분명하면, 분자는 의미 없습니다.
분포를 보여주는가? — 평균 +16.2%p 뒤에 숨은 도메인별 편차와 성능 하락 케이스를 확인하세요.
재현 가능한가? — 오픈웨이트 공개는 좋지만, 벤치마크 조건과 평가 코드까지 공개되어야 독립 검증이 가능합니다.
프로덕션에서도 유효한가? — 법률 AI의 69% 할루시네이션이 실험실 조건인지, 실제 워크플로우 조건인지에 따라 대응 전략이 달라집니다.
비용-성능 트레이드오프를 정량화했는가? — "19배 빨라졌다"보다 "토큰당 $X에서 F1-score Y를 달성한다"가 의사결정에 필요한 정보입니다.

전망: 벤치마크 리터러시가 경쟁력이 되는 시대

모델 출시 속도가 빨라질수록, 숫자 자체보다 숫자를 읽는 능력이 더 중요해지고 있습니다. SkillsBench가 보여준 것처럼, 잘 설계된 벤치마크 하나가 "스킬 넣으면 무조건 좋다"는 내러티브와 "조건부로만 효과가 있다"는 현실을 동시에 드러냅니다. Qwen 3.5의 인상적인 숫자들도, 독립적 재현과 ablation study 결과가 나오기 전까지는 가설(hypothesis)에 머물러야 합니다.

pandas로 결과 테이블을 열었을 때, .describe()를 먼저 찍고 .mean()만 보지 않는 것—그게 이 시대에 벤치마크를 읽는 최소한의 예의입니다.