70% 복제율, 0.34Wh, 마진 0.05—AI 성능 숫자, 근거를 뜯어봅니다

AI가 내놓는 숫자, 그 숫자의 신뢰구간은 어디에 있나요?

최근 며칠 사이 눈에 띄는 숫자 세 개가 AI 커뮤니티를 관통했습니다. 제미나이 2.5가 '해리 포터와 마법사의 돌'을 76.8% 정확도로 재현했다는 스탠포드·예일 연구팀의 탈옥 테스트 결과, 샘 올트먼이 제시한 ChatGPT 쿼리당 에너지 0.34Wh라는 방어 수치, 그리고 Computer Vision 임베딩 평가에서 불안정 샘플을 가려내는 마진 0.05 임계값. 세 숫자 모두 인상적이지만, 데이터 분석가로서 첫 번째 질문은 늘 같습니다—근거는 있나요?

70% 복제율: 샘플 사이즈와 방법론을 먼저 봐야 합니다

aitimes 보도에 따르면, 스탠포드·예일 연구팀은 13권의 도서를 대상으로 탈옥(jailbreak) 기법을 활용해 여러 LLM의 저작물 암기율을 측정했습니다. 그록 3이 70.3%, 제미나이 2.5가 76.8%라는 수치는 분명 충격적입니다. 하지만 통계적으로 몇 가지를 짚어야 합니다.

첫째, n=13입니다. 13권의 도서가 전체 훈련 코퍼스를 대표한다고 할 수 있을까요? 이 책들은 '왕좌의 게임', '헝거 게임', '호빗' 등 전 세계적 베스트셀러입니다. 인터넷에 가장 많이 복제·인용된 텍스트일 가능성이 높고, 이는 곧 훈련 데이터에 과대 대표(over-represented)되어 있을 확률과 직결됩니다. 이 샘플에서 측정한 암기율을 "AI 모델이 책을 통째로 외운다"는 일반 명제로 확장하려면, 최소한 인기도 분포별 층화 샘플링(stratified sampling)이 필요합니다.

둘째, '복제율'의 정의가 불분명합니다. 76.8%가 토큰 단위 일치율(token-level exact match)인지, BLEU 스코어인지, ROUGE-L인지에 따라 해석이 완전히 달라집니다. 연속된 n-gram이 76.8% 일치하는 것과 전체 문서에서 개별 토큰이 76.8% 겹치는 것은 저작권 법리에서도 다른 무게를 가집니다. 재현 가능성(reproducibility)을 위해 정확한 메트릭 정의와 프롬프트 전문 공개가 필수적입니다.

셋째, 탈옥이라는 실험 조건 자체의 생태적 타당도(ecological validity) 문제입니다. 앤트로픽이 반박한 것처럼, 고도의 탈옥 기법이 일반 사용자의 실제 사용 패턴을 반영하는지는 별개의 질문입니다. 이건 모델의 '능력(capability)'과 '행동(behavior)'을 구분해야 하는 문제이고, 저작권 소송에서는 후자가 더 관건이 됩니다. 그렇다고 이 연구의 가치가 없다는 말이 아닙니다—다만 이 숫자를 들고 causation을 주장하기엔 correlation의 경계가 아직 모호합니다.

0.34Wh의 함정: 평균은 분포를 숨깁니다

뉴스스페이스 보도에서 올트먼은 ChatGPT 쿼리당 에너지를 0.34Wh로 제시하며, 이를 "오븐 1초" 수준이라고 표현했습니다. 데이터 분석가가 이 숫자를 받으면 곧바로 떠오르는 질문이 있습니다: 이건 mean인가요, median인가요? 분포는 어떤 모양인가요?

"안녕하세요"라고 묻는 쿼리와 복잡한 코드 생성을 요청하는 쿼리의 에너지 소비 차이는 수십 배에 달할 수 있습니다. 평균 0.34Wh라는 숫자는 우측 꼬리(right tail)가 긴 분포에서 중앙값보다 훨씬 높은 mean일 수도, 반대로 경량 쿼리가 대다수인 분포에서의 median일 수도 있습니다. 분포를 숨긴 평균은 기술적 주장이 아니라 마케팅입니다.

더 중요한 것은 올트먼이 쿼리당 단위 비용(marginal cost)과 시스템 총량(aggregate cost)을 전략적으로 분리했다는 점입니다. GPT-4급 모델 훈련에 50~63GWh가 소모된다는 추정치와, IEA가 전망한 데이터센터 전력 소비 650~1,050TWh(2026년)라는 매크로 수치 사이에서, 쿼리당 0.34Wh는 '나무 한 그루'를 보여주는 것에 불과합니다. 이건 A/B 테스트에서 전환율만 보여주고 통계적 유의성(p-value)을 생략하는 것과 본질적으로 같은 구조입니다.

마진 0.05: 프로덕션에서 이 임계값이 유효한가요?

dev.to에 게재된 임베딩 분석 방법론은 실무적으로 매력적인 프레임워크를 제시합니다. 1-NN 평가로 혼동 쌍(confusion pair)을 찾고, 마진(2nd nearest - 1st nearest distance)으로 불안정 샘플을 탐지한 뒤, 이를 스프린트 티켓으로 전환하는 루프. "메트릭이 티켓이 되지 않으면 노이즈"라는 원칙은 MLOps 실무에서 반복적으로 검증된 좋은 패턴입니다.

하지만 여기서도 데이터 분석가의 의심은 멈추지 않습니다. margin < 0.05라는 임계값은 어떤 근거로 설정되었나요? 유클리디안 거리 기반 마진 0.05는 임베딩 차원 수, 정규화 여부, 데이터셋 규모에 따라 완전히 다른 의미를 가집니다. 512차원 정규화 임베딩에서의 0.05와 2048차원 비정규화 임베딩에서의 0.05는 아예 다른 우주입니다. Ablation study 없이 제시된 하이퍼파라미터는 레시피가 아니라 일화(anecdote)입니다.

또한 이 방법론이 프로덕션에서 실제로 작동하려면, 임베딩 공간의 시간적 안정성(temporal stability)이 전제되어야 합니다. 모델 재학습이나 피처 스토어 업데이트 시 임베딩 분포가 드리프트하면, 이전 스프린트에서 설정한 마진 임계값이 무효화됩니다. 데이터 드리프트 모니터링 없는 마진 분석은 어제의 지도로 오늘을 항해하는 것과 같습니다.

시사점: 숫자를 발표하는 사람이 아니라 숫자를 검증하는 사람이 필요합니다

세 가지 사례가 공통적으로 가리키는 문제는 하나입니다. AI 산업에서 숫자의 생산 속도가 숫자의 검증 속도를 압도하고 있습니다. 76.8% 복제율은 샘플 설계의 한계를 밝히지 않은 채 헤드라인이 되고, 0.34Wh는 분포 없이 평균만으로 방어 논리가 되며, 마진 0.05는 도메인 맥락 없이 범용 임계값처럼 제시됩니다.

MLOps 관점에서 실질적으로 필요한 것은, 모든 성능 주장에 신뢰구간(confidence interval), 샘플 설계(sample design), 실험 조건(experimental condition)을 병기하는 문화입니다. 논문의 실험 섹션을 먼저 읽는 습관, 베이스라인 대비 개선폭을 묻는 습관, "이 결과가 프로덕션에서도 재현되나요?"라고 의심하는 습관—이 습관이 모델 성능보다 먼저 개선되어야 할 것입니다.