74.4%, 77.1%, 73% — 그 숫자에 신뢰구간을 붙여본 적 있나요?

근거는 있나요? 이번 주 눈에 띈 세 가지 숫자를 먼저 나열하겠습니다. AI 콘텐츠 탐지 시스템이 내놓는 "73% likely AI-generated"라는 confidence score, Step 3.5 Flash의 SWE-bench Verified 74.4%, 그리고 Gemini 3.1 Pro의 ARC-AGI-2 77.1%. 셋 다 70%대입니다. 셋 다 '꽤 좋다'는 인상을 줍니다. 하지만 이 숫자들이 실제로 의미하는 바는 전혀 다르고, 각각에 붙어야 할 오차 범위와 맥락은 어디에도 명시되어 있지 않습니다.

탐지 시스템의 73%: Precision인가, Recall인가

dev.to에 공개된 AI Provenance Tracker 프로젝트는 Perplexity, Burstiness(문장 길이의 변동계수), 어휘 풍부도(type-token ratio)를 weighted averaging으로 결합해 AI 생성 여부를 판정합니다. 저자는 "73% likely AI-generated"라고 말하는 것이 정직하다고 했는데, 여기서 첫 번째 질문을 던져야 합니다. 이 73%는 무엇의 73%인가요? 시스템 전체의 accuracy인지, 개별 샘플에 대한 posterior probability인지, 아니면 단순히 weighted sum의 출력값인지에 따라 해석이 완전히 달라집니다.

코드를 보면 confidence = sum(s * w for s, w in zip(signals, weights))로 계산하고 0.5 threshold로 이진 판정합니다. 가중치는 ML 모델 0.40, Perplexity 0.25, Burstiness 0.20, 어휘 0.15인데, 이 가중치의 튜닝 근거가 "experimentation"이라는 한 단어로 끝납니다. 검증 데이터셋의 크기는? 클래스 분포는? cross-validation을 했나요? 저자 스스로도 인정했듯이 단일 신호는 쉽게 무력화됩니다 — 편집된 AI 텍스트는 Perplexity를 속이고, 과도한 JPEG 압축은 FFT에서 false positive를 만들죠. 앙상블이 해답이라는 직관은 맞지만, 앙상블의 가중치가 체계적으로 최적화되지 않았다면 그건 그냥 휴리스틱입니다.

더 근본적인 문제는 베이스라인입니다. Burstiness의 변동계수가 AI 텍스트에서 0.2~0.3이고 인간 텍스트에서 0.4~0.5라는 주장의 샘플 사이즈는 얼마인가요? 어떤 장르(학술, 소셜미디어, 뉴스)의 텍스트였나요? GPT-4o로 생성한 텍스트와 Claude로 생성한 텍스트의 분포가 같을까요? 데이터 드리프트는 이미 현실입니다 — 저자도 탐지 로직을 세 번이나 업데이트했다고 고백했으니까요.

SWE-bench 74.4%: 절대 점수의 함정

Step 3.5 Flash는 196B 파라미터 중 11B만 활성화하는 Sparse MoE 구조로, SWE-bench Verified에서 74.4%를 기록했습니다. 인상적인 숫자지만, Hacker News 댓글에서 이미 날카로운 지적이 나왔습니다. Terminal-Bench 2.0의 51.0%에 대해 "리더보드 최고점이 75%인데, 51%는 SOTA의 약 2/3 수준"이라는 코멘트가 있었고, 한술 더 떠서 "TerminalBench는 터미널과 거의 관련 없고, 대부분 랜덤 도구 문법 암기 테스트"라는 비판도 나왔습니다.

벤치마크의 절대 점수는 그 자체로는 거의 아무것도 말해주지 않습니다. 74.4%가 의미를 갖으려면 최소한 세 가지 맥락이 필요합니다: (1) 동일 조건에서의 베이스라인 모델 점수, (2) 해당 벤치마크의 이론적 상한과 인간 수준 점수, (3) 점수의 분산 또는 신뢰구간. Step 3.5 Flash가 평균 벤치마크 81.0으로 GLM-4.7(78.5)이나 DeepSeek V3.2(77.3)보다 높다고 하지만, "평균 벤치마크 점수"라는 개념 자체가 이미 Simpson's paradox의 냄새를 풍깁니다. Reasoning, Coding, Agentic 세 카테고리의 가중치는 누가 정했나요?

ARC-AGI-2 77.1%: '추론 2배 향상'의 실체

Gemini 3.1 Pro가 ARC-AGI-2에서 77.1점을 기록하며 "이전 모델 대비 추론 능력 2배 이상 향상"이라고 ZDNet이 보도했습니다. 여기서 "2배"라는 표현이 어디서 온 것인지 역추적해볼 필요가 있습니다. 만약 이전 모델이 약 35~38점이었다면 산술적으로는 2배가 맞지만, ARC-AGI-2의 점수 스케일은 선형적으로 해석 가능한 지표인가요? RMSE가 절반으로 줄었다는 것과 accuracy가 2배 올랐다는 것은 완전히 다른 이야기입니다. ARC-AGI-2는 논리 패턴 해결 능력을 측정하는 벤치마크인데, 각 문제의 난이도 분포와 점수 산출 방식에 대한 이해 없이 "2배"라는 배수 비교는 오해를 유발합니다.

진짜 물어봐야 할 질문들

이 세 사례를 관통하는 패턴은 명확합니다. 숫자는 넘쳐나는데 신뢰구간은 없습니다. AI 탐지 시스템은 Precision/Recall/F1-score 대신 단일 confidence 값을 보여주고, LLM 벤치마크는 단일 실행 결과를 SOTA라고 발표하며, 성능 향상 배수는 분모가 무엇인지 밝히지 않습니다.

실제 프로덕션 관점에서 더 중요한 질문은 이렇습니다. Step 3.5 Flash의 SWE-bench 74.4%가 재현 가능(reproducible) 한가요? 동일 태스크를 10번 돌리면 분산은 얼마인가요? 128K 컨텍스트에서의 디코딩 비용이 1.0x라는 효율성 수치는 어떤 하드웨어 baseline 기준인가요? Gemini 3.1 Pro의 ARC-AGI-2 점수는 few-shot 설정이었나요, zero-shot이었나요? AI 탐지 시스템은 어떤 분포의 텍스트에 대해 그 가중치가 최적인가요?

전망: 숫자를 읽는 리터러시가 경쟁력이 됩니다

모델 릴리스의 주기가 빨라질수록 벤치마크 점수는 더 빠르게 소비되고 있습니다. Hacker News의 한 유저가 "파라미터 수보다 tokens per dollar/sec가 중요하다"고 한 건 정확한 지적입니다. 또 다른 유저가 "벤치마크 우위가 실제로 의미 있는지 의문이며, 지시 따르기·긴 문맥 추론·비환각성을 더 중요하게 본다"고 한 것도 같은 맥락입니다. 이건 correlation이지 causation이 아닙니다 — 벤치마크 점수가 높다는 것은 해당 벤치마크 태스크에서의 성능이 높다는 것이지, 프로덕션 환경에서의 가치가 높다는 것이 아닙니다.

결국 모델을 평가하는 사람의 통계적 리터러시가 모델 자체의 성능만큼 중요해지는 시대입니다. Ablation study 결과는 어떤가요? 샘플 사이즈가 충분한가요? 베이스라인 대비 얼마나 개선되었나요? 이 세 질문을 던지지 않으면, 우리는 숫자에 속는 것이 아니라 숫자를 해석하지 않는 것입니다.