'88% 정확도'는 믿어도 되나—ML 실험 수치를 해부하는 법

숫자 하나가 모든 것을 말해주진 않는다

'88% 정확도'라는 문장을 보면 무엇이 떠오르는가? 대부분은 '꽤 잘 작동하는 모델'이라고 생각할 것이다. 하지만 데이터 분석가로서 반사적으로 드는 질문은 다르다. 어떤 데이터로 측정했는가? 베이스라인은 무엇인가? 프로덕션 환경에서도 이 숫자가 나오는가?

최근 공개된 세 가지 사례—Amazon 리뷰 NLP 분류 모델, NPB 야구 베이지안 예측 백테스트, LLM 벤치마크 리더보드—는 ML 실험 수치를 어떻게 읽어야 하는지에 대한 교과서적인 대비를 보여준다.

사례 1: '88% 정확도'의 해부

dev.to에 공개된 Amazon 리뷰 분류 프로젝트는 TF-IDF + 로지스틱 회귀 조합으로 50,000개 테스트 셋에서 88% 정확도를 달성했다. Precision 0.89/0.88, Recall 0.88/0.89, F1-Score 0.88/0.89로 클래스 간 균형도 양호하다. 표면적으로는 완벽해 보인다.

그런데 여기서 멈춰야 한다. 데이터셋이 완벽히 균형 잡혀 있다(balanced)는 조건이 이 수치를 상당 부분 설명한다. 현실의 감성 분류 태스크는 대부분 불균형 데이터다. 부정 리뷰가 긍정 리뷰의 10분의 1에 불과한 실제 커머스 환경에서 같은 모델을 돌리면 어떻게 될까? Accuracy는 여전히 높게 나오겠지만, 정작 중요한 부정 리뷰 탐지 Recall은 곤두박질칠 가능성이 높다.

또 하나의 질문: 베이스라인 대비 얼마나 개선됐는가? 모든 샘플을 'Positive'로 예측하는 더미 분류기의 정확도는 이 균형 데이터셋에서 정확히 50%다. 88%는 50%p의 개선이니 인상적이다. 하지만 BERT 기반 모델을 파인튜닝하면 93~95%까지 올라가는 태스크라면, TF-IDF + 로지스틱 회귀의 88%는 오히려 낮은 숫자일 수 있다. 저자 본인도 'Next steps: BERT-based model'을 언급했다. 이 숫자는 여정의 시작이지 끝이 아니다.

그리고 결정적으로—이것은 correlation이지 causation이 아니다. 모델이 'terrible'이라는 단어와 부정 레이블 사이의 패턴을 학습했다고 해서, 그 모델이 리뷰의 의도를 이해한다고 볼 수는 없다. 도메인 드리프트가 발생하는 순간, 즉 새로운 카테고리 상품이 등장하거나 인터넷 신조어가 쏟아지면, 이 88%는 데이터 드리프트 앞에서 조용히 무너질 수 있다.

사례 2: MAE ±0.00의 역설—정직한 백테스트가 더 믿음직하다

dev.to에 공개된 NPB(일본프로야구) 베이지안 예측 모델은 정반대의 교훈을 준다. 파크 팩터 보정을 추가한 후 백테스트 결과를 솔직하게 공개했는데, MAE 변화량이 정확히 ±0.00이다. 개선이 없다.

그런데 이 논문이 흥미로운 이유는 바로 이 정직함 때문이다. 저자는 MAE가 개선되지 않은 이유를 구조적으로 설명한다. 파크 팩터 보정이 득점(RS)과 실점(RA)을 동시에 조정하기 때문에 그 비율—피타고라스 승률의 핵심 인자—이 상쇄된다는 것이다. 이건 ablation study 수준의 자기비판이다.

그렇다면 왜 보정을 채택했는가? 80% 신뢰구간 커버리지가 86.5%에서 87.5%로 1%p 개선됐고, 개념적으로 더 올바른 모델이며, Vantelin Dome과 Rakuten Mobile Park의 2026년 리노베이션 이후 파크 팩터가 급변할 때 보정의 효과가 커질 것이라는 forward-looking 논리다. 지금 당장 성능이 나오지 않아도 파이프라인에 통합하는 결정—이것이 MLOps 관점에서 훨씬 성숙한 접근이다.

8시즌, 96개 팀-시즌 데이터는 샘플 사이즈로 충분한가? 스포츠 예측에서 시즌 간 분산이 매우 크다는 점(2021년 50% CI 커버리지 참조—Yakult와 Orix의 최하위→우승 반전은 어떤 모델도 예측 불가)을 감안하면, 8년은 패턴 추출에 한계가 있다. 그러나 저자가 이 한계를 명시적으로 언급했다는 점에서 신뢰도가 올라간다. 수치를 부풀리지 않고 한계를 공개하는 것 자체가 재현 가능성(reproducibility)의 신호다.

사례 3: LLM 벤치마크—점수 세탁의 구조적 문제

LLM 벤치마크 신뢰성 문제는 더 근본적이다. 브런치에 소개된 ALL Bench 프로젝트가 지적하는 핵심은 단순하다: 제출하지 않은 벤치마크를 평균에서 제외하면, 낮은 점수를 숨길수록 평균이 올라간다. 이건 데이터 수집 설계의 치명적 결함이다.

Hugging Face의 공식 Open LLM Leaderboard는 오픈소스 모델만 다루고, LMArena는 인간 선호도 기반이라 객관적 수치가 없으며, Artificial Analysis는 속도·가격에 특화돼 있다. 폐쇄형 모델(GPT, Claude, Gemini)과 오픈웨이트 모델을 동일 기준으로 비교하는 단일 플랫폼이 없었다는 것이다.

ALL Bench의 해결책은 미제출 항목을 0점 처리 후 10개 지표 합산 평균을 내는 방식이다. 단순하지만 강력한 편향 제거 장치다. 여기에 추론(GPQA Diamond, AIME 2025), 코딩(SWE-bench Verified), 지시이행(IFEval) 외에 메타인지 점수(FINAL Bench)를 추가한 것도 주목할 만하다. '정답을 맞히는 능력'보다 '틀렸을 때 스스로 수정하는 능력'이 실제 업무에서 더 중요하다는 관점—이것은 기존 벤치마크가 측정하지 못했던 차원이다.

그러나 질문은 계속된다. ALL Bench 자체의 데이터 소스(Artificial Analysis Intelligence Index v4.0, arXiv, Chatbot Arena ELO)가 얼마나 독립적인가? 서로 다른 기준으로 측정된 수치를 합산하는 것이 통계적으로 유효한가? 메타 평가 도구 자체도 평가가 필요하다.

사례 4: Data-Free Knowledge Distillation—보이지 않는 데이터의 분포 문제

TA-DFKD(Teacher-Agnostic Data-Free Knowledge Distillation) 논문 리뷰(velog)는 조금 다른 각도에서 같은 주제를 건드린다. 원본 데이터 없이 모델을 압축하는 DFKD 방법론에서, 동일한 95% 정확도의 Teacher 모델을 사용해도 증류 결과가 완전히 다를 수 있다는 것이 핵심 문제의식이다.

이유는 Out-of-Distribution 공간의 결정 경계 때문이다. Teacher 모델들은 실제 데이터에서 동일한 성능을 보이지만, 그 모델이 한 번도 본 적 없는 노이즈 공간에서의 결정 경계는 가중치 초기화와 학습 순서에 따라 완전히 다르게 형성된다. 생성기가 이 '빈 공간'의 버그를 파고들어 Mode Collapse를 일으키면, Student 모델은 실제 유의미한 Feature가 아닌 Teacher의 취약점 구조만을 학습하게 된다.

이는 ML 성능 평가의 근본적 질문으로 이어진다: 테스트 셋 정확도 95%는 그 모델의 내부 구조가 올바르다는 것을 보장하지 않는다. 같은 Accuracy를 가진 두 모델이 완전히 다른 방식으로 세상을 표현하고 있을 수 있으며, 그 차이는 분포 밖 데이터에서 비로소 드러난다. 프로덕션 환경은 항상 분포 밖이다.

시사점: ML 수치를 읽는 다섯 가지 질문

네 가지 사례가 공통적으로 가리키는 방향은 하나다. 숫자 자체보다 숫자가 만들어진 조건이 더 중요하다. 실험 수치를 마주했을 때 반드시 물어야 할 질문을 정리하면 다음과 같다.

1. 데이터 분포가 현실을 반영하는가? 완벽히 균형 잡힌 50:50 데이터셋에서 나온 88%와 실제 불균형 데이터에서 나온 88%는 전혀 다른 의미를 가진다. 클래스 분포, 시간적 분포, 도메인 분포를 확인하라.

2. 베이스라인 대비 얼마나 개선됐는가? 절대 수치보다 상대적 개선량이 의미 있다. 가장 단순한 Naive 모델 대비, 이전 모델 대비 비교가 없다면 그 수치는 맥락을 잃는다.

3. 측정 지표가 비즈니스 목표와 연결되는가? Accuracy가 높아도 실제로 중요한 클래스의 Recall이 낮다면 무의미하다. ROC-AUC, F1, NDCG 등 태스크에 맞는 지표를 선택했는지 확인하라.

4. 한계가 명시적으로 공개됐는가? NPB 베이지안 모델처럼 개선이 없는 결과도 정직하게 공개하는 것, 2021년 50% 커버리지 이유를 명시하는 것—이런 투명성이 재현 가능성의 신호다. 좋은 수치만 보고하는 논문·프로젝트는 더 의심해야 한다.

5. 프로덕션 환경에서도 이 성능이 유지되는가? 테스트 셋은 여전히 통제된 환경이다. 데이터 드리프트, OOD 입력, 분포 변화—이 모든 것이 배포 이후 기다리고 있다. 모니터링 파이프라인과 재학습 트리거가 설계돼 있지 않다면, 그 수치는 출시일에만 유효하다.

전망: '좋은 숫자'에서 '신뢰할 수 있는 숫자'로

ML 커뮤니티는 지금 두 가지 방향에서 동시에 압박을 받고 있다. 한쪽에서는 LLM 벤치마크 점수 세탁처럼 숫자를 부풀리려는 인센티브가 작동하고, 다른 한쪽에서는 ALL Bench처럼 평가 방법론 자체를 개혁하려는 시도가 등장한다. TA-DFKD 논문은 '같은 Accuracy'가 얼마나 다른 내부 구조를 숨길 수 있는지를 이론적으로 보여준다.

88%라는 숫자는 나쁘지 않다. 하지만 그것이 전부라면 충분하지 않다. 좋은 ML 실험은 좋은 숫자를 만드는 것이 아니라, 그 숫자가 어떤 조건에서, 어떤 데이터로, 어떤 베이스라인 대비 나왔는지를 함께 제시하는 것이다. 신뢰할 수 있는 AI는 신뢰할 수 있는 평가에서 시작한다.