'40% 향상'을 믿기 전에 물어야 할 ML 통계 질문들

'40% 향상'이라는 숫자, 그냥 믿으시겠습니까?

기술 뉴스를 읽다 보면 하루에도 몇 번씩 마주치는 문장이 있습니다. "기존 대비 40% 향상", "더 작은 모델이 더 큰 모델을 능가". 흥미롭고 설득력 있어 보이지만, 저는 이런 숫자를 볼 때마다 반사적으로 키보드에 손이 갑니다. Jupyter 노트북을 열기 전에 먼저 던져야 할 질문들이 있거든요.

최근 며칠 사이에 딱 두 가지 사례가 동시에 눈에 들어왔습니다. 하나는 Lila-E8이라는 40M 파라미터 트랜스포머 아키텍처 발표(dev.to), 다른 하나는 OpenAI Responses API의 WebSocket 모드 도입으로 복잡한 체인 작업 속도를 40% 단축했다는 소식(tokenpost.kr)입니다. 두 사례 모두 '40%'라는 같은 숫자를 내세우고 있다는 것, 우연치고는 꽤 의미심장합니다.

Lila-E8: E8 격자가 진짜 마법인가, 마케팅인가

dev.to에 게재된 Lila-E8 발표를 처음 읽었을 때 느낌은 솔직히 '흥미롭다'보다 '체크리스트를 꺼내야겠다'에 가까웠습니다. 핵심 주장은 이렇습니다. E8 Root System Lattice를 어텐션 메커니즘에 직접 구현한 40M 파라미터 모델이, 표준 아키텍처의 60M 파라미터 베이스라인보다 낮은 손실(Train Loss 0.37, Val Loss 0.44~0.53)을 달성했다는 것입니다.

수학적 배경 자체는 흥미롭습니다. E8 격자는 8차원에서 가장 밀도 높은 구 패킹(sphere packing)을 구현하는 구조로, 정보 이론적으로 최적 코딩 효율을 갖는다는 이론적 근거가 있습니다. 하지만 이론적 우아함이 곧 실증적 성능으로 이어지는 건 아닙니다. 바로 여기서 통계적 질문들이 쌓이기 시작합니다.

첫째, 베이스라인이 공정한가요? 발표에서 '표준 60M 베이스라인'이 구체적으로 어떤 모델인지 명시되지 않았습니다. 하이퍼파라미터 튜닝 수준, 학습률 스케줄, 데이터 증강 방식이 동일한 조건에서 비교된 것인지 알 수 없습니다. 베이스라인을 일부러 약하게 설정하는 cherry-picking은 SOTA 발표에서 가장 흔한 함정입니다.

둘째, TinyStories 하나로 일반화를 주장할 수 있나요? TinyStories는 어린이 수준의 단순한 서사 텍스트 데이터셋입니다. 이 단일 벤치마크에서의 낮은 손실이 다른 도메인, 다른 태스크에서도 재현된다는 보장은 없습니다. Generalization gap을 측정하려면 최소한 held-out 도메인 몇 개에서의 성능 비교가 있어야 합니다.

셋째, Ablation study는 어디 있나요? E8 구조가 기여한 부분과 다른 설계 결정(레이어 수, 임베딩 차원, 학습 스케줄 등)의 기여를 분리하려면 Ablation이 필수입니다. 'Geometric Resonance'라는 표현은 멋있지만, 이것이 측정 가능한 지표로 정의되지 않는다면 마케팅 언어에 불과합니다.

WebSocket 40%: 조건이 뭔가요?

OpenAI의 WebSocket 모드 발표는 상대적으로 더 검증 가능한 주장입니다. 하지만 '약 40% 단축'이라는 수치도 조건을 뜯어봐야 합니다. tokenpost.kr 보도에 따르면 이 수치는 20회 이상 도구 호출이 필요한 긴 체인 작업에 한정된 조건입니다.

HTTP 폴링 방식과 WebSocket 지속 연결을 비교할 때, 연결 수립(handshake) 오버헤드가 반복될수록 WebSocket의 이점이 커지는 건 프로토콜 특성상 당연한 결과입니다. 즉, 이 40%는 최적의 시나리오에서 측정된 상한값일 가능성이 높습니다. 단순한 단일 API 호출이나 10회 미만의 체인에서는 개선폭이 훨씬 작거나 오히려 WebSocket 연결 관리 비용이 추가될 수 있습니다.

프로덕션 환경에서 확인해야 할 것들이 있습니다. 단일 WebSocket 연결의 최대 지속 시간이 현재 60분으로 제한되어 있다는 점, ZDR(Zero Data Retention) 호환성이 특정 엔터프라이즈 계약 조건과 충돌할 수 있다는 점, 그리고 동시 연결 수가 많아질 때 서버 사이드 리소스 소비가 어떻게 변하는지가 실제 운용 비용에 영향을 줍니다. 레이턴시 개선 수치는 cold start가 포함된 end-to-end 측정인지, warm connection 상태의 측정인지에 따라 크게 달라집니다.

데이터 품질 없이 아키텍처 혁신도 없다

velog에 정리된 머신러닝 전처리 기법을 함께 보면, 파라미터 효율성 논의의 또 다른 축이 보입니다. MinMaxScaler, StandardScaler 선택부터 SMOTE를 통한 클래스 불균형 처리까지, 이 모든 전처리 결정은 모델 성능에 아키텍처만큼이나 직접적인 영향을 미칩니다.

예를 들어 SMOTE로 소수 클래스를 오버샘플링할 경우, 검증 세트에 합성 데이터가 포함되지 않도록 반드시 split 이후에 적용해야 합니다. 이 순서가 뒤바뀌면 Val Loss가 실제보다 낙관적으로 나타나는 data leakage가 발생합니다. Lila-E8의 Val Loss 0.44~0.53이라는 범위 자체도, 어떤 데이터 분할 전략과 전처리 파이프라인을 사용했느냐에 따라 해석이 달라집니다.

이것이 핵심입니다: MinMaxScaler는 이상치에 민감하고, StandardScaler는 분포가 심하게 치우친 경우 충분하지 않을 수 있으며, SMOTE는 적용 시점과 검증 방법론이 결과를 왜곡할 수 있습니다. 전처리 선택 하나가 Precision과 Recall 수치를 수십 퍼센트 바꿀 수 있다는 걸 생각하면, 아키텍처 혁신 주장을 데이터 파이프라인과 분리해서 평가할 수 없습니다.

SOTA 발표 앞에서 꺼내야 할 체크리스트

두 사례를 통해 정리하면, '40% 향상'류의 주장을 마주쳤을 때 확인해야 할 질문 목록은 대략 이렇습니다.

베이스라인이 공정하게 설정되었나? 동일한 데이터, 동일한 튜닝 조건인지 확인.
측정 조건이 명시되었나? WebSocket 40%처럼 특정 시나리오(20회 이상 도구 호출)에만 적용되는 수치인지.
단일 벤치마크인가, 다중 벤치마크인가? TinyStories 하나로 일반화를 주장하는 건 무리.
Ablation study가 있나? 어떤 구성 요소가 성능에 기여했는지 분리 실험 필요.
재현 가능한가? random_state 고정, 코드 공개, 데이터 버전 명시 여부.
프로덕션 조건과 같은가? 실험실 환경의 latency와 실제 운영 환경의 throughput은 다릅니다.

전망: 숫자보다 방법론을 먼저 읽어야 하는 시대

Lila-E8의 AGPLv3 오픈소스 공개와 Colab 노트북 제공은 긍정적입니다. 재현 가능성의 기본 조건인 코드와 체크포인트가 공개되어 있기 때문에, 커뮤니티가 직접 검증할 수 있는 길이 열려 있습니다. 실제로 E8 기하학을 어텐션에 적용한다는 아이디어 자체의 탐구 가치는 부정하지 않습니다. 다만 'Scaling is a trap. Geometry is the new Scale' 같은 선언적 언어가 실험 섹션보다 앞에 오는 발표는, 논문 리뷰어의 시선으로 한 번 더 읽을 필요가 있습니다.

결국 중요한 것은 이것입니다. 이건 correlation이지 causation이 아닐 수 있습니다. E8 격자를 썼더니 손실이 낮아진 것이, E8 격자 때문에 낮아진 것인지 아직 증명되지 않았습니다. 샘플 사이즈가 충분한지, 베이스라인 대비 개선이 통계적으로 유의한지, 실제 운영 환경에서도 이 성능이 나오는지. 이 세 질문에 답이 나오기 전까지, '40%'는 그냥 숫자입니다.