AI 성능 주장의 근거를 묻다: 벤치마크 이면의 통계적 함정 4가지

근거는 있나요? 이번 주 AI 커뮤니티를 달군 세 가지 소식 — OpenAI가 발표한 GPT-5.2의 이론물리학 공식 도출, cgrep의 토큰 95.2% 절감 벤치마크, NotumAi의 SAM 2 기반 오픈소스 어노테이션 도구 — 은 모두 인상적인 성능 지표를 전면에 내세웁니다. 하지만 ML 실무자라면 숫자를 보기 전에 실험 설계(experimental design)를 먼저 들여다봐야 합니다. 화려한 수치 이면에 반복적으로 등장하는 통계적 함정 네 가지를 교차 분석해 봅니다.

함정 1 — 샘플 사이즈와 재현 가능성의 부재

OpenAI는 GPT-5.2 Pro가 글루온 산란 진폭에서 'single-minus 트리 수준 진폭이 0이 아니다'라는 새로운 공식(Eq.39)을 제안하고, 내부 scaffolded 모델이 약 12시간의 추론 끝에 동일한 결과를 독립 도출했다고 보고했습니다(GeekNews 보도). Berends–Giele 재귀 관계와 soft theorem 검증을 통과했다는 점은 분석적으로 견고해 보입니다. 그러나 데이터 분석가의 관점에서 질문은 명확합니다: 이 결과는 재현 가능한가요? 동일 프롬프트를 다른 시점·다른 시드에서 실행했을 때 같은 공식이 도출될 확률은 얼마인지, ablation study가 없습니다. '12시간 추론 1회'는 n=1 실험입니다. 물리학 동료 검증(peer review)이 아직 완료되지 않은 arXiv preprint 단계라는 점도 신뢰 구간을 넓게 잡아야 하는 이유입니다.

Nima Arkani-Hamed와 Nathaniel Craig 같은 저명 물리학자의 긍정적 평가가 인용되었지만, 이건 전문가 의견(expert opinion)이지 통계적 검증이 아닙니다. Correlation과 causation을 구분하듯, '인상적인 단순화'와 'AI가 실질적으로 새로운 물리를 발견했다'는 서로 다른 주장입니다. 인간 연구진이 작은 n 값에 대해 손으로 계산한 Eq.29–32를 먼저 제시했고, GPT-5.2가 이를 단순화한 것이라면 — 이것은 패턴 인식(pattern recognition)에 가까운 것인지, 진정한 귀납적 추론(inductive reasoning)인지 구분하는 엄밀한 실험이 필요합니다.

함정 2 — 베이스라인 선택의 편향

cgrep은 AI 코딩 에이전트의 토큰 소비를 줄이기 위해 BM25 검색과 tree-sitter AST 분석을 결합한 로컬 코드 검색 도구입니다(GitHub 프로젝트). PyTorch 코드베이스 기준 6개 시나리오에서 토큰 95.2% 절감(127,665 → 6,153 tokens), 검색 지연 58.2배 개선(1,321ms → 22.7ms)이라는 수치를 내세웁니다. 20.75배 축소라니, 대단한 숫자입니다.

하지만 베이스라인이 grep입니다. 단순 문자열 매칭 도구를 baseline으로 놓고 구조적 코드 검색 도구와 비교하면, 당연히 압도적 차이가 납니다. 이건 logistic regression을 baseline으로 두고 transformer 모델이 SOTA를 달성했다고 주장하는 것과 구조적으로 같습니다. 더 의미 있는 비교 대상은 Language Server Protocol(LSP) 기반 검색, Sourcegraph의 코드 인텔리전스, 혹은 최소한 ripgrep + ctags 조합이어야 합니다. 또한 6개 시나리오라는 샘플 사이즈는 통계적 유의성을 주장하기엔 턱없이 부족합니다. p-value는커녕 신뢰 구간조차 제시되지 않았습니다. 다양한 언어·코드베이스 규모·검색 패턴에 대한 일반화 성능(generalization) 데이터가 없으면, 이 벤치마크는 'cherry-picked scenario'라는 의심에서 자유로울 수 없습니다.

함정 3 — 프로덕션 환경과 벤치마크의 괴리

NotumAi는 Meta의 SAM 2(Segment Anything Model 2)를 백엔드에 탑재한 오픈소스 이미지 어노테이션 도구입니다(dev.to 소개). 로컬 GPU에서 실시간 세그멘테이션을 수행하고, COCO·YOLO·Pascal VOC 형식으로 내보내기를 지원합니다. 개인정보 보호와 로컬 실행이라는 설계 철학은 매력적입니다.

그런데 실제 운영 환경에서도 이 성능이 나올까요? SAM 2는 SA-1B 데이터셋 기반으로 학습되었는데, 의료 영상·위성 사진·산업 검수 이미지처럼 도메인 특화 데이터(domain-specific data)에서의 세그멘테이션 정확도(mIoU, boundary F1)는 별도 보고가 없습니다. 또한 'AI-Assisted'라는 표현은 어노테이터의 수정률(correction rate)이 얼마인지를 함께 제시해야 의미가 있습니다. 클릭 한 번으로 완벽한 마스크가 생성된다는 인상은 주지만, precision과 recall이 실제 데이터셋 구축에서 어떤 수준인지에 대한 정량적 근거가 빠져 있습니다.

함정 4 — 평가 주체와 지표의 자기참조 문제

흥미로운 보너스 사례로, 한 한국 농부가 스마트폰만으로 AI 할루시네이션 감지용 스크립팅 언어 GarlicLang을 만들었다는 이야기가 있습니다(dev.to 보도). 44개 테스트 중 42개 통과, 2개는 의도적 실패라고 합니다. 주목할 점은 ChatGPT가 이 프로젝트를 6.0/10으로 평가했다는 부분입니다. AI가 AI로 만든 코드를 AI가 평가한 것입니다. 이건 모델이 자기 출력을 자기가 채점하는 자기참조 평가(self-referential evaluation)로, 독립적 검증과는 거리가 멉니다. on hallucination 키워드의 개념은 신선하지만, 이 도구 자체의 할루시네이션 탐지 precision/recall은 어떻게 측정하나요?

시사점: 숫자를 읽기 전에 실험 설계를 읽자

네 사례를 관통하는 공통 패턴이 있습니다. 인상적인 숫자는 항상 존재하지만, 그 숫자를 신뢰할 수 있게 만드는 메타데이터 — 샘플 사이즈, 베이스라인 선택 근거, 재현 프로토콜, 독립 검증 여부 — 는 거의 항상 부족합니다. 이것은 이 프로젝트들의 가치를 부정하는 게 아닙니다. GPT-5.2의 물리학 협업은 흥미롭고, cgrep의 AST 기반 접근은 실용적이며, NotumAi의 로컬 어노테이션 철학은 시의적절합니다.

다만 ML/AI 커뮤니티가 성숙해지려면, SOTA 발표에 대한 우리의 기본 질문 세트도 표준화되어야 합니다. Pandas DataFrame을 열 때 df.describe()를 먼저 치듯이, 어떤 성능 주장 앞에서도 "베이스라인은 무엇인가요? 샘플 사이즈는 충분한가요? 재현 가능한가요? 프로덕션에서도 동일한가요?"를 먼저 물어야 합니다. 화려한 벤치마크 숫자가 논문의 abstract를 장식하는 시대, 진짜 경쟁력은 실험의 투명성(transparency)에 있습니다.