AI 성능 '개선' 주장, 근거는 충분한가: 숫자 뒤의 편향과 측정의 함정

핵심 이슈: 측정하지 않은 것은 개선이 아니다

근거는 있나요? AI 모델의 '성능 향상'을 논할 때 가장 먼저 던져야 할 질문입니다. 최근 두 가지 흥미로운 사례가 이 질문의 중요성을 정반대 방향에서 동시에 보여주고 있습니다. 하나는 RLHF(인간 피드백 강화학습)와 탐욕적 디코딩이 텍스트의 의미 밀도를 체계적으로 파괴한다는 '의미적 절제(Semantic Ablation)' 현상이고, 다른 하나는 구글이 Gemini 3 Flash에 탑재한 에이전틱 비전(Agentic Vision)이 기존 모델 대비 시각 인식 품질을 "5~10% 향상"시켰다는 주장입니다.

한쪽은 정성적 품질이 눈에 띄게 저하되고 있다고 경고하고, 다른 한쪽은 정량적 성능이 유의미하게 개선되었다고 선언합니다. 데이터 분석가의 눈에는 두 주장 모두 같은 검증 프레임워크 위에 올려놓아야 할 대상입니다.

맥락 해석 ①: 의미적 절제 — 측정 가능한 열화인가, 수사적 비유인가

The Register를 통해 확산된 '의미적 절제' 개념은 직관적으로 강력합니다. RLHF 과정에서 모델이 '안전하고 도움되는' 토큰에 높은 보상을 부여받으면, 출력 분포가 가우시안 중심으로 수렴합니다. 희귀 토큰(빈도 1/10,000)이 흔한 동의어(1/100)로 치환되고, type-token ratio(어휘 다양성 지표)는 반복 정제를 거칠수록 붕괴합니다. 이른바 '은유 정화 → 어휘 평탄화 → 구조 붕괴'의 3단계 침식 과정입니다.

그런데 여기서 통계적 의심을 제기해야 합니다. 이 열화가 실제로 어떤 코퍼스에서 어떤 샘플 사이즈로 측정되었는가? 기사에서 인용된 개념은 설득력 있는 프레임이지만, 구체적인 실험 조건이 제시되지 않습니다. 퍼플렉시티(perplexity) 감소, type-token ratio 변화, 엔트로피 감쇄 — 이 지표들은 모두 정량적으로 측정 가능합니다. 그러나 베이스라인 모델(base model) 대비 RLHF 모델의 어휘 다양성 차이를 통제된 실험에서 몇 회 반복 측정했는지, ablation study 결과가 어떤지는 불분명합니다. Hacker News의 한 개발자가 multi-agent 파이프라인에서 "3단계부터 모든 문장이 같은 리듬과 어휘를 갖는다"고 보고한 것은 흥미로운 관찰이지만, N=1 사례 연구에 해당합니다. Correlation은 보이되, controlled experiment를 통한 causation 검증은 아직 부족합니다.

맥락 해석 ②: 에이전틱 비전의 '5~10%' — 무엇의 5%인가

구글 에이전틱 비전에 대한 한국강사신문의 칼럼은 기술의 작동 원리를 잘 설명합니다. Think-Act-Observe 루프를 통해 AI가 이미지를 능동적으로 크롭하고, 코드를 작성해 선명도를 높이며, 자가 검산 과정까지 수행한다는 구조입니다. 그리고 핵심 결론으로 "기존 모델 대비 시각 인식 품질을 5~10% 향상"이라는 수치가 등장합니다.

여기서 데이터 분석가라면 반드시 물어야 합니다. 베이스라인이 무엇이었나요? Gemini 2 Flash 대비인지, GPT-4V 대비인지, 아니면 자체 이전 버전 대비인지에 따라 5~10%의 의미는 완전히 달라집니다. 어떤 벤치마크에서 측정했나요? 시각 인식 품질이라는 표현은 Accuracy, Precision, Recall, IoU, 혹은 자체 정의 메트릭 중 어디에 해당하는지가 불분명합니다. 샘플 사이즈와 테스트 데이터셋의 분포는요? 계기판 판독, 문서 OCR, 객체 카운팅 등 시연 사례는 인상적이지만, 이것이 체리피킹된 데모인지 대규모 벤치마크 결과인지를 구분해야 합니다. 5%와 10% 사이의 편차 자체가 측정의 불확실성을 암시합니다.

시사점: '개선'과 '열화'를 동일한 잣대로 검증하라

두 사례를 나란히 놓으면 AI 모델 평가에서 반복되는 구조적 문제가 드러납니다. 정성적 열화(의미적 절제)에는 구체적 측정 지표가 부족하고, 정량적 개선(에이전틱 비전)에는 측정 조건의 투명성이 부족합니다. 이것은 동전의 양면입니다. RLHF가 어휘 다양성을 얼마나 희생시키는지를 type-token ratio, Shannon entropy, distinct-n 지표 등으로 체계적으로 측정하는 연구가 필요하고, 에이전틱 비전의 5~10% 향상이 실제 운영 환경(프로덕션)에서도 재현 가능한지를 독립된 벤치마크에서 검증해야 합니다.

실무적으로 시사점을 정리하면 이렇습니다. 첫째, AI 생성 텍스트를 파이프라인에 넣는 조직이라면, 반복 정제에 따른 어휘 다양성 변화를 모니터링 메트릭에 포함해야 합니다. pandas로 토큰 분포를 추적하고, 특정 임계치 이하로 type-token ratio가 떨어지면 경고를 보내는 것은 어렵지 않습니다. 둘째, 벤더가 내세우는 '성능 N% 향상'을 수용하기 전에 반드시 베이스라인 정의, 평가 메트릭, 테스트 데이터 분포, 통계적 유의성(p-value 혹은 신뢰 구간) 네 가지를 확인해야 합니다.

전망: 신뢰할 수 있는 AI 평가를 위한 '측정 문해력'

'SOTA 달성'이라는 선언이 일상화된 시대에, 우리에게 부족한 것은 더 좋은 모델이 아니라 더 엄격한 측정 문해력(measurement literacy)입니다. 의미적 절제 개념을 명명한 것은 의미 있는 첫 걸음이지만, 이것이 '사고의 JPEG'라는 비유에 머무르지 않으려면 재현 가능한 실험 설계로 뒷받침되어야 합니다. 에이전틱 비전의 Think-Act-Observe 루프가 기존 단일 패스 추론보다 우월한 것은 직관적으로 그럴듯하지만, latency-accuracy trade-off, 추론 비용, 그리고 edge case에서의 실패 모드까지 공개되어야 '개선'이라고 부를 수 있습니다.

결국 질문은 하나로 수렴합니다. "실제 운영 환경에서도 이 성능이 나올까요?" 이 물음 앞에서 정직하게 답할 수 있는 조직만이 AI 성능 주장의 신뢰 위기에서 살아남을 것입니다.