로컬 LLM 벤치마크, 그 숫자를 믿을 수 있나요?

벤치마크 숫자 뒤에 숨은 질문

'95% 정확도'라는 숫자를 보면 무엇이 먼저 떠오르시나요? 저는 자동으로 이런 질문이 튀어나옵니다. 샘플 사이즈가 얼마였나요? 테스트 분포가 실제 운영 환경과 같았나요? 베이스라인 대비 얼마나 개선된 건가요?

최근 벨로그(velog)에 올라온 두 편의 실험 포스트가 이 질문들을 정면으로 건드렸습니다. 하나는 로컬 LLM 에이전트 플랫폼 'Xoul'이 6개 모델을 실전 시나리오로 비교한 벤치마크이고, 다른 하나는 LG Aimers 8기 참가자가 EXAONE 4.0 1.2B 모델을 GPTQ로 양자화하며 겪은 처참한 재현 실패기입니다. 두 사례 모두 '숫자'보다 '방법론'이 훨씬 더 많은 이야기를 담고 있습니다.

평가 지표를 바꾸면 순위가 바뀐다

Xoul 벤치마크가 흥미로운 이유는 평가 기준 자체를 바꿨기 때문입니다. MMLU, HumanEval, HellaSwag 같은 학술 벤치마크 대신, 실제 에이전트 워크플로—자산 리밸런싱 보고서 작성, 반도체 시장 리서치, VM 서버 점검, 여행 일정 계획, 코드 분석—5개 복합 시나리오에 39개 검증 항목을 구성했습니다. 핵심은 '도구를 호출했는가'가 아니라 '결과물에 올바른 정보가 포함됐는가' 를 기준으로 채점했다는 점입니다.

결과가 흥미롭습니다. 35B MoE 모델인 Qwen3.5-35B-A3B가 79%로 꼴찌였고, 8B 모델인 Qwen3-8B Q8이 92%로 3위를 기록했습니다. 파라미터 크기와 성능이 정비례하지 않는다는 것—이건 correlation이지 causation이 아닙니다. 에이전트 태스크에서는 도구 체이닝 안정성과 지시 준수율이 순수 파라미터 크기보다 중요하다는 해석이 더 타당합니다.

단, 이 벤치마크에는 명확한 한계가 있습니다. 5개 시나리오, 39개 항목—절대적인 샘플 사이즈가 작습니다. 통계적 유의성을 따지면 모델 간 2~3점 차이는 노이즈 범위일 수 있습니다. 시나리오 다양성 편향도 존재합니다. 금융·IT·여행에 치우쳐 있어, 다른 도메인에서의 일반화 성능(generalization)은 미지수입니다.

양자화 실험이 폭로한 재현 불가능성

LG Aimers 8기 참가자의 EXAONE 4.0 양자화 실험은 더 직접적인 경고를 담고 있습니다. 참가자는 로컬에서 lm-eval 라이브러리로 gsm8k Accuracy를 PerfNorm 대리 지표로, vLLM 벤치마크 스크립트로 SpeedNorm을 측정했습니다. 그런데 이 자체 평가 스크립트는 실제 대회 서버 점수와 전혀 상관이 없었습니다.

같은 모델을 대회 서버에 재제출했을 때 0.6점이었던 점수가 0.5점으로 떨어졌습니다. 이건 단순한 운이 아닙니다. 평가 환경의 비결정성(non-determinism), 서버 부하 변동, 내부 데이터셋과 gsm8k의 분포 차이—이 모든 요인이 겹쳤을 때 로컬 실험 결과가 프로덕션 환경에서 얼마나 무의미해질 수 있는지를 보여줍니다. 실제 운영 환경에서도 이 성능이 나올까요? 라는 질문이 얼마나 중요한지를 이보다 잘 보여주는 사례가 없습니다.

W4A16과 W8A16 양자화 비교에서도 trade-off가 선명합니다. 4비트는 모델 크기를 줄이지만 PerfNorm이 급락하고, 8비트는 성능을 유지하지만 SpeedNorm이 떨어집니다. 참가자는 입출력 레이어를 FP16으로 남기고 중간 레이어만 부분 양자화하는 방식으로 균형점을 찾았지만, Ablation study 없이 레이어 선택의 근거가 '직관'에 의존했다는 점은 아쉽습니다.

데이터 윤리 문제가 벤치마크 신뢰성을 더 흔든다

성능 지표 이야기를 하다 보면 반드시 짚어야 할 게 있습니다. 그 모델이 무엇으로 학습됐는가 입니다.

BI KOREA 보도에 따르면, 익명의 개발자 'Peter Omallet'로 추정되는 인물이 Anthropic의 Claude와 나눈 약 15만 건의 대화를 무단 수집해 Hugging Face에 공개했습니다. 549개 세션, 1,510억 개 입력 토큰 규모입니다. 수집 도구 'DataClaw'는 개인정보를 자동 삭제한다고 주장하지만, 대화 맥락에 녹아든 제3자 정보나 기업 기밀까지 완벽히 차단하기는 기술적으로 어렵다고 전문가들은 경고합니다.

이 사건이 벤치마크 논의와 연결되는 이유가 있습니다. 로컬 LLM이 이렇게 수집된 대화 데이터로 파인튜닝됐다면, 그 모델의 성능 지표에는 데이터 편향(bias)이 이미 내포되어 있습니다. 특정 사용자 집단의 대화 패턴이 과대 대표됐을 수 있고, Claude 특유의 응답 스타일이 학습 데이터에 녹아들었을 가능성도 있습니다. 벤치마크 점수가 95%라 해도, 그 점수가 편향된 데이터 분포 위에서 측정됐다면 신뢰할 수 있는 숫자가 아닙니다.

군사 AI 계약이 드러내는 '안전 장치'의 측정 불가능성

OpenAI의 미 국방부 기밀 네트워크 AI 배포 계약도 같은 맥락에서 읽힙니다. 샘 알트먼은 '대규모 감시 금지'와 '자율 무기의 인간 책임' 원칙이 계약에 포함됐다고 밝혔습니다. 그런데 이 원칙들은 어떻게 측정하나요? Precision, Recall, F1-score로 수치화할 수 있는 지표가 아닙니다.

'인간의 책임'이 얼마나 담보됐는지를 평가하는 명확한 메트릭이 없다는 것, 그리고 계약 내용에 대해 국방부가 공식 입장을 내지 않았다는 것—이건 블랙박스 모델의 해석 가능성(interpretability) 문제와 구조적으로 동일합니다. 이 모델은 해석 가능한가요? 라는 질문이 군사 영역에서는 단순한 기술 질문이 아니라 윤리적 책임의 문제가 됩니다. 구글 딥마인드를 포함한 수백 명의 AI 연구자들이 연대 서명으로 우려를 표명한 이유입니다.

시사점: 숫자보다 방법론을 먼저 물어야 합니다

세 가지 사례에서 공통된 패턴이 보입니다.

첫째, 평가 지표는 설계자의 의도를 반영합니다. Xoul이 '결과물 정확성'으로 지표를 바꾸자 모델 순위가 완전히 뒤집혔습니다. 어떤 지표로 측정하느냐가 어떤 모델이 '좋은' 모델인지를 결정합니다.

둘째, 로컬 실험과 프로덕션 환경 사이의 gap을 과소평가하면 안 됩니다. EXAONE 양자화 실험처럼, 로컬에서 0.6점을 찍은 모델이 서버에서 0.5점이 나오는 일은 흔합니다. 이 gap을 좁히려면 평가 환경을 최대한 동일하게 맞추고, 반복 측정으로 분산을 측정해야 합니다.

셋째, 데이터 품질 문제는 성능 지표보다 먼저 해결해야 합니다. Claude 대화 무단 수집 사건은 AI 학습 데이터의 출처와 편향성 문제를 다시 수면 위로 올렸습니다. SOTA를 달성했다는 발표 앞에서 '어떤 데이터로 학습했나요?'를 먼저 물어야 하는 이유입니다.

전망: '재현 가능한 벤치마크'가 다음 경쟁 축이 된다

로컬 LLM 생태계가 빠르게 성숙하면서, 벤치마크 방법론 자체가 경쟁력이 되는 시대가 오고 있습니다. Xoul처럼 task-specific 에이전트 벤치마크를 공개하고, 테스트 코드와 결과를 함께 공개하는 방식—이것이 재현 가능성(reproducibility)을 담보하는 최소 조건입니다.

양자화 실험 측면에서는, 대회 서버와 로컬 환경의 gap을 줄이기 위한 표준화된 평가 파이프라인의 필요성이 더 커질 것입니다. vLLM 기반 추론 환경이 사실상 표준으로 자리 잡고 있는 만큼, 동일 환경에서의 반복 측정과 신뢰 구간 공개가 벤치마크 신뢰성의 기준이 되어야 합니다.

그리고 데이터 윤리 측면에서—Claude 대화 무단 수집 사건과 OpenAI의 군사 계약이 동시에 보여주는 것은, AI 성능을 둘러싼 경쟁이 결국 누가 더 많은 고품질 데이터를 윤리적으로 확보하느냐의 싸움으로 수렴한다는 점입니다. 이 싸움에서 '데이터 주권'은 더 이상 추상적인 개념이 아닙니다. 다음 벤치마크를 볼 때, 숫자보다 그 숫자를 만든 데이터의 출처를 먼저 물어보는 습관이 필요한 이유입니다.