2.5배 빠르고, 73% 압축됐다—경량 AI 수치, 어떤 조건에서 나온 숫자인가

'빠르다'는 주장, 베이스라인이 뭔가요?

구글이 발표한 Gemini 3.1 Flash-Lite의 핵심 수치는 두 가지다. 외부 분석 기관 Artificial Analysis의 벤치마크 기준으로 첫 번째 토큰 생성 속도(TTFT) 2.5배 향상, 전체 출력 속도 약 45% 향상. 가격은 입력 토큰 100만 개당 0.25달러—상위 라인업인 Gemini 3.1 Pro 대비 최대 1/8 수준이다.

여기서 반드시 짚어야 할 것이 있다. 비교 대상이 '이전 모델인 Gemini 2.5 Flash'라는 점이다. 즉 이건 동일 성능 등급 내 세대 간 비교지, Pro급 모델과의 정면 비교가 아니다. 비용 1/8 비교는 아예 다른 성능 티어 간 수치다. 이 두 숫자를 같은 문단에 나열하면 독자는 무의식적으로 '비슷한 성능에 1/8 가격'이라고 읽게 된다. 하지만 기사 본문에도 명시돼 있듯, Flash-Lite와 Pro는 서로 다른 use case를 겨냥한 라인업이다.

TTFT는 전체 latency가 아니다

2.5배 빠른 TTFT(Time To First Token)는 체감 응답성 측면에서는 의미 있는 지표다. 실시간 챗봇이나 검색 인터페이스처럼 첫 글자가 뜨는 속도가 UX를 결정하는 환경에서는 특히 그렇다. 그러나 TTFT는 throughput과 별개다. 긴 문서를 생성하거나 배치 처리를 해야 하는 워크로드에서는 전체 토큰 생성 속도(tokens/sec)가 더 중요한 지표다.

45% 향상된 '전체 출력 속도'가 어떤 입력 길이, 어떤 출력 길이 조건에서 측정됐는지 기사에는 나오지 않는다. LLM latency는 입력 컨텍스트 길이, 출력 길이, 배치 사이즈, 동시 요청 수에 따라 비선형적으로 달라진다. 단일 측정값 하나로 '2.5배 빠르다'고 말하는 건 충분하지 않다. Artificial Analysis 벤치마크가 구체적으로 어떤 조건을 설정했는지 원본 데이터를 확인해야 한다.

벤치마크 점수는 얼마나 믿을 수 있나

Gemini 3.1 Flash-Lite는 Arena.ai 리더보드에서 Elo 1432점, GPQA Diamond 86.9%, MMMU Pro 76.8%를 기록했다. 숫자만 보면 인상적이다. 그런데 이 수치들을 볼 때 던져야 할 질문이 있다.

첫째, Elo 점수는 상대 비교 지표다. 어떤 모델들과 대결했는지, 평가 시점의 풀(pool)이 어떻게 구성됐는지에 따라 절대값이 달라진다. 둘째, GPQA Diamond와 MMMU Pro는 각각 과학 추론과 멀티모달 이해를 측정하는데, 이 두 태스크가 '번역, 콘텐츠 검열, 요약, 고객 서비스 자동화'라는 구글이 내세운 실제 타겟 use case와 얼마나 상관관계가 있는지는 별개 문제다. 벤치마크 성능과 프로덕션 성능 사이의 gap은 이 업계에서 반복적으로 확인된 현상이다.

셋째, 초기 사용 기업(라티튜드, 카트휠, 웨어링)의 긍정적 평가는 n=3의 선택 편향된 샘플이다. 이건 데이터가 아니라 testimonial이다.

73% 압축—PPL 6.81 vs 6.06, 이 차이는 얼마나 큰가

노타가 업스테이지 Solar 100B에 적용한 MoE 양자화 결과는 숫자 자체는 인상적이다. 191.2GB → 51.9GB, 압축률 72.8%. 그리고 Perplexity(PPL)가 원본 6.06에서 6.81로 유지됐다는 주장이다.

PPL 6.06 대 6.81—이게 작은 차이처럼 보이지만, Perplexity는 지수 스케일이다. PPL이 e^loss로 정의되기 때문에 절대값 차이보다 상대적 변화율로 봐야 한다. (6.81 - 6.06) / 6.06 ≈ 12.4% 증가다. 언어 모델에서 이 정도 PPL 상승이 downstream task—분류, 요약, 코드 생성—에서 어떤 영향을 미치는지는 태스크마다 다르다. 노타 측은 '일부 범용 기법이 성능을 5배 이상 저하시키는 것과 대조적'이라고 언급했는데, 이 비교군이 정확히 어떤 방법론인지 명시돼 있지 않다. Ablation study 결과가 공개돼야 이 주장을 검증할 수 있다.

온디바이스 배포 조건: '할 수 있다'와 '잘 된다'는 다르다

51.9GB 모델을 로봇이나 자율주행 차량에 탑재하겠다는 비전은 방향성은 맞다. 그런데 현실적 조건을 따져보자. 51.9GB는 여전히 소비자급 GPU 하나(VRAM 24GB)로는 감당이 안 된다. 로봇·자율주행 환경의 엣지 디바이스 메모리 제약은 보통 수 GB 수준이다.

물론 노타의 발표는 '온디바이스 기반 마련'이라는 표현을 쓰고 있고, 이것이 최종 배포 형태라고 주장하지는 않는다. 하지만 보도 프레임은 '로봇·자율주행 AI 탑재 길 열어'라는 헤드라인을 달았다. 기술적 가능성의 증명과 실제 운영 환경에서의 배포는 다른 단계다. 어떤 하드웨어 스펙을 가정했는지, 추론 latency 측정 결과는 어떻게 되는지가 빠져 있다.

손실함수로 이해하는 압축의 본질적 트레이드오프

모델 압축과 양자화의 핵심은 결국 손실함수(Loss Function) 설계다. 학습 과정에서 모델은 예측값과 실제 정답 사이의 오차를 최소화하도록 파라미터를 조정한다. 양자화는 이 파라미터의 정밀도를 낮추는 것—FP32를 INT8이나 INT4로 줄이면 메모리는 아끼지만, 표현 가능한 수치의 범위와 해상도가 줄어들면서 손실이 누적된다.

노타의 MoE 양자화가 차별화되는 지점은 '중요한 부분의 정밀도는 유지하고 덜 중요한 부분만 압축'한다는 선택적 접근이다. 이는 레이어별, 전문가(expert)별 중요도를 다르게 평가해 압축 강도를 차등 적용하는 방식으로, PPL 유지의 핵심 메커니즘이다. 이 접근의 타당성은 feature importance 분석과 동일한 논리—모든 파라미터가 출력에 동등하게 기여하지 않는다는 가정—에 기반한다. 이 가정 자체가 태스크와 도메인에 따라 달라질 수 있다는 점을 간과하면 안 된다.

경량화 경쟁이 우리에게 요구하는 것

Gemini Flash-Lite와 Solar 압축 기술, 그리고 조만간 출시를 예고한 GPT-5.4까지—2026년 경량·고효율 모델 경쟁은 속도가 붙었다. 이 흐름에서 ML 엔지니어와 의사결정자가 갖춰야 할 시각은 하나다. 숫자의 측정 조건을 먼저 묻는 습관.

'X배 빠르다'—어떤 하드웨어에서, 어떤 배치 사이즈로, 어떤 입출력 길이 조건에서?
'Y% 압축했다'—어떤 downstream task에서 성능을 검증했고, 어떤 도메인 데이터로 평가했나?
'비용 1/N'—동일 품질 출력 기준인가, 아니면 다른 성능 티어 간 가격 비교인가?

경량 모델의 가치는 '싸고 빠르다'는 절대값이 아니라, 특정 use case에서 충분한 품질을 낮은 비용으로 제공할 수 있는가에 있다. 이것은 correlation이 아닌 causation을 확인하는 문제다. 벤치마크 수치가 높다고 해서 당신의 프로덕션 환경에서 그 성능이 나온다는 보장은 없다. A/B 테스트를 설계하고, 실제 트래픽으로 검증하고, 통계적 유의성을 확인하는 과정—그것이 '경량 모델 도입'의 진짜 시작점이다.