'벤치마크 마법'을 해부한다: 경량 모델 4종의 성능 주장 검증기

근거는 있나요? — 경량 모델 성능 주장의 해부학

최근 온디바이스 AI와 경량 아키텍처 영역에서 '놀라운 성능'을 내세우는 발표가 쏟아지고 있습니다. 카카오테크의 Kanana Nano 발표에서는 Meta의 MobileLLM 논문을 근거로 "1B 이하 모델이 Llama 7B 수준의 Function Calling 능력을 보인다"고 언급했고, ICLR 2024에 게재된 Modern TCN 논문은 합성곱 기반 모델로 시계열 예측 SOTA를 달성했다고 주장합니다. 앤트로픽의 소넷 4.6 역시 OSWorld 벤치마크 역대 최고, 기업 문서 QA에서 소넷 4.5 대비 15%p 향상이라는 수치를 제시합니다. 데이터 분석가로서 먼저 던질 질문은 하나입니다: 베이스라인 대비 얼마나 개선되었고, 그 측정은 재현 가능한가요?

1. Kanana Nano와 MobileLLM: 1B 모델의 Function Calling, 샘플은 충분한가

카카오테크 발표를 정리한 velog 글에 따르면, 온디바이스 AI의 킬러 유스케이스로 Function Calling을 제시하면서 MobileLLM 논문을 핵심 근거로 들었습니다. "1B 이하 모델이 Llama 7B 수준의 Function Calling"이라는 문장은 매력적이지만, 여기서 '수준'이 정확히 어떤 메트릭인지가 빠져 있습니다. Function Calling 평가는 보통 정확한 파라미터 추출 정확도(Exact Match), 호출 성공률, 그리고 hallucinated parameter 비율로 나뉘는데, 어떤 벤치마크 셋에서 몇 개의 tool schema로 평가했는지가 핵심입니다.

더 중요한 문제는 프로덕션 환경과의 괴리입니다. 발표에서는 "사용자 대화 기반 도메인 판단 → 맥락 추출 → Tool Calling 실행"이라는 파이프라인을 제시하면서, 맥락 추출 능력 평가에 'LLM-as-a-Judge' 방식의 F4 지표를 사용했다고 합니다. LLM-as-a-Judge는 평가 비용을 줄여주는 실용적 방법이지만, 평가자 모델 자체의 bias가 결과에 전이되는 문제가 잘 알려져 있습니다. 학습 데이터를 대형 모델의 정답으로부터 구축하고, 평가도 대형 모델에 맡기면 — 결국 teacher 모델의 분포를 학습하고 teacher 모델이 채점하는 순환 구조가 됩니다. 이것은 correlation이지 실제 사용자 만족도와의 causation이 아닙니다.

2. Modern TCN: SOTA라 쓰고, ablation을 읽는다

ICLR 2024에 게재된 Modern TCN 논문은 "합성곱이 시계열에서 밀린 이유는 구조가 낡았기 때문"이라는 명쾌한 테제를 세웁니다. DWConv로 시간 축을, ConvFFN으로 변수 축을 분리 처리하고, 큰 커널로 Effective Receptive Field(ERF)를 확보하는 설계는 아키텍처적으로 설득력이 있습니다. 문제는 실험 섹션의 깊이입니다.

논문 리뷰 글에서도 실험 결과를 "Modern TCN 좋다~"로 요약한 것이 상징적인데, 실제로 확인해야 할 것은 (1) 장기 예측(long-horizon)과 단기 예측에서의 MSE/MAE 분해, (2) 데이터셋별 성능 편차의 크기, (3) 커널 사이즈 증가에 따른 파라미터 수와 추론 latency의 trade-off입니다. 논문 스스로도 "향후 더 긴 시퀀스, 다양한 도메인에서의 일반화 및 모델 경량화, 추론 최적화"를 과제로 남겼습니다. 즉, SOTA는 특정 벤치마크 셋 조건에서의 스냅샷이지, 실제 운영 환경의 스트리밍 시계열에서 동일 성능을 보장하지 않습니다. 데이터 드리프트가 발생하는 프로덕션 파이프라인에서 이 모델의 재학습 주기와 비용은 얼마인가요?

3. 소넷 4.6의 '15%p': 누구의 데이터, 어떤 조건에서

이코노믹데일리 보도에 따르면, 박스(Box) CTO는 "실제 기업 문서에 대한 심층 추론과 QA에서 소넷 4.5보다 15%p 높은 성능"을 언급했습니다. 15%p는 인상적인 숫자이지만, 어떤 메트릭의 15%p인지(Accuracy? F1? 사용자 만족도 점수?), 평가 셋의 규모와 도메인 분포는 공개되지 않았습니다. 기업 내부 문서 QA는 도메인 특이성이 극도로 높아, 한 기업의 벤치마크가 일반화되기 어렵습니다. OSWorld 벤치마크의 '역대 최고' 역시 — 이 벤치마크 자체의 태스크 구성이 얼마나 실제 업무를 대표하는지에 대한 외부 검증은 아직 충분하지 않습니다.

시사점: 벤치마크 리터러시가 기술 선택의 핵심 역량이 된다

세 가지 사례를 관통하는 패턴이 있습니다. 성능 주장의 granularity가 갈수록 낮아지고 있다는 것입니다. "7B 수준", "SOTA 달성", "15%p 향상" — 모두 headline으로는 완벽하지만, pandas DataFrame으로 재현해볼 수 있는 수준의 정보는 제공하지 않습니다. 이것은 비단 이 세 사례만의 문제가 아니라, AI 업계 전반의 '벤치마크 인플레이션' 현상입니다.

프로덕션에 모델을 배포하는 엔지니어와 PM에게 필요한 것은 단일 숫자가 아니라, 조건부 성능 프로파일입니다. 어떤 입력 분포에서, 어떤 latency 제약 하에서, 어떤 실패 모드가 발생하는지. Kanana Nano가 실제 한국어 SNS 대화에서 도메인 오분류율이 얼마인지, Modern TCN이 금융 시계열과 기상 시계열에서 성능 편차가 얼마나 되는지, 소넷 4.6의 100만 토큰 컨텍스트에서 needle-in-a-haystack 정확도가 위치별로 어떻게 변하는지 — 이런 질문에 답할 수 있어야 진짜 '검증'입니다. Ablation study 없는 SOTA는 마케팅이고, 신뢰구간 없는 15%p는 일화(anecdote)입니다.