AI 성능 측정의 사각지대: 숫자가 말해주지 않는 것들

근거는 있나요? AI 모델 성능을 논할 때 제가 가장 먼저 던지는 질문입니다. 최근 쏟아지는 벤치마크 스코어, SOTA 달성 발표, 그리고 AGI 도달 시점 예측까지 — 화려한 숫자들이 넘쳐나지만, 정작 그 숫자가 무엇을 측정하지 못하는지에 대한 논의는 놀라울 정도로 부족합니다. 네 가지 최근 사례를 교차 분석하면, AI 성능 측정 체계 자체에 구조적 사각지대가 존재한다는 결론에 도달합니다.

코사인 유사도는 부등호를 모른다

dev.to에 공유된 RAG 실패 사례 분석이 이 문제의 가장 직관적인 출발점입니다. 보험 데이터베이스 위에 구축된 챗봇에 "$1,000 이상의 보험 청구"를 물었더니, $847, $654, $423짜리 결과가 자신 있게 반환되었습니다. 20개 스마트폰 데이터셋으로 재현 실험을 했을 때, "2024년 출시 폰"이라는 쿼리에 대한 constraint satisfaction은 0%였습니다. 메타데이터 필터링을 추가하자 100%로 뛰었고요.

여기서 데이터 분석가로서 주목하는 건 실패의 원인이 LLM의 추론이 아니라 임베딩 공간의 구조적 한계라는 점입니다. 임베딩 모델은 "$499"와 "$999"를 '가격'이라는 시맨틱 범주로 근접하게 배치하지만, $499 < $999라는 순서 관계(ordinal relationship)는 인코딩하지 않습니다. Cosine similarity가 높다고 해서 numerical constraint를 만족한다는 보장이 없는 거죠. Retrieval 단계의 Precision이 0%에 가까운 상황에서, 그 위에 올라간 Generation이 아무리 정교해도 의미가 없습니다. 베이스라인 자체가 깨져 있는 셈입니다.

벤치마크가 측정하지 못하는 문화적 편향

측정 도구 자체의 편향 문제는 셀렉트스타의 CAGE 프레임워크가 정면으로 다룹니다. ICLR 2026 메인 컨퍼런스에 채택된 이 논문은, 기존 AI 안전성 벤치마크가 영미권 데이터셋의 단순 번역(DirTrans)·의역(Adapt)에 의존하고 있어 비영어권 문화의 위험 시나리오를 제대로 포착하지 못한다는 점을 실증했습니다. Meta의 Llama 3.1, Alibaba의 Qwen 2.5, Google의 Gemma 2, LG의 EXAONE 등을 대상으로 문화 맞춤형 레드티밍을 수행한 결과, 기존 대비 높은 공격 성공률(ASR)을 기록했다고 합니다.

데이터 품질 관점에서 이건 심각한 이슈입니다. 벤치마크 자체에 문화적 편향이 내재되어 있다면, 그 벤치마크에서 높은 점수를 받은 모델이 실제 다국어 환경에서 안전하다고 말할 수 있을까요? 특히 크메르어처럼 데이터가 절대적으로 부족한 언어 환경에서도 범용성을 확인했다는 점은, 기존 평가 파이프라인의 coverage gap이 얼마나 컸는지를 역설적으로 보여줍니다. 다만, 19,000건 중 상위 28% 채택이라는 수치는 ICLR의 전반적 수락률이지, CAGE 자체의 성능 검증 강도를 의미하지는 않으므로 혼동하지 말아야 합니다.

"들쭉날쭉한 지능"이라는 정직한 고백

데미스 허사비스가 AI 임팩트 서밋에서 AGI 미달의 세 가지 이유로 꼽은 것 — 지속 학습(Continual Learning) 부재, 장기 계획(Long-term Planning) 능력 결여, 그리고 들쭉날쭉한 지능(Jagged Intelligence) — 은 사실상 현재 모델 평가 체계의 맹점을 목록화한 것입니다. 수학 올림피아드 금메달 수준의 문제를 풀면서 같은 문제를 다른 방식으로 제시하면 기본적인 계산에서 실수하는 현상. 이건 correlation이지 causation이 아닙니다 — 벤치마크 점수가 높다는 것과 그 능력이 robust하게 일반화된다는 것은 전혀 다른 주장입니다.

실제 운영 환경에서도 이 성능이 나올까요? Jagged Intelligence가 의미하는 건, 동일 모델이 테스트셋 분포에서 벗어난 입력에 대해 예측 불가능한 성능 저하를 보인다는 것입니다. F1-score 0.95를 기록한 모델이 프로덕션에서 edge case를 만나 0.3으로 추락하는 상황 — 이건 벤치마크 테이블에는 절대 나타나지 않습니다.

상전이인가, 측정 착시인가

가장 통계적으로 흥미로운 퍼즐은 창발 능력(Emergent Abilities)입니다. Jason Wei 외 연구진(Google Research, Stanford, DeepMind)의 2022년 TMLR 논문이 정리한 이 현상 — 모델 스케일이 특정 임계점을 넘으면 랜덤 수준에서 갑자기 성능이 급등하는 상전이(phase transition) — 은 스케일링과 성능 간의 비선형 관계를 제기합니다. 논문 스스로도 인정하듯, 왜 그 임계점이 그 지점인지, 다음에 어떤 능력이 창발할지는 예측할 수 없습니다.

하지만 여기서 ablation study 관점의 질문을 던져야 합니다. 논문이 지적한 것처럼, Exact Match 같은 이진 평가 지표가 창발의 '급등'을 과장하고 있을 가능성이 있습니다. Cross-entropy loss로 보면 작은 모델에서도 성능이 서서히 개선되고 있었으니까요. 이건 능력이 '갑자기 나타난' 게 아니라, 측정 방식이 연속적 개선을 이산적 점프로 왜곡한 측정 착시(measurement artifact) 일 수 있다는 뜻입니다. 실제로 PaLM 62B가 GPT-3 175B보다 적은 파라미터로 먼저 창발을 보인 사례는, 스케일 단독이 아닌 데이터 품질·아키텍처·학습 전략의 복합 효과를 시사합니다.

측정 체계를 측정해야 할 때

네 가지 사례가 수렴하는 지점은 명확합니다. 우리는 모델의 능력을 측정한다고 믿지만, 실제로는 측정 도구의 한계를 측정하고 있는 경우가 너무 많습니다. 코사인 유사도는 수치 제약을 무시하고, 영미권 중심 벤치마크는 문화적 위험을 놓치고, 단일 태스크 점수는 일반화 성능을 보장하지 않으며, 이진 평가 지표는 연속적 학습을 불연속적 도약으로 왜곡합니다.

실무적 시사점은 이렇습니다. RAG 파이프라인에서 메타데이터 필터링을 추가하듯, 평가 파이프라인에도 다층적 검증 레이어가 필요합니다. 단일 지표가 아닌 constraint satisfaction rate, cultural coverage ratio, robustness under distribution shift, 연속적 성능 곡선 분석 등을 병행해야 합니다. CAGE가 문화별 레드티밍 자동화로 벤치마크의 coverage를 넓힌 것은 올바른 방향이지만, 이것이 하나의 프레임워크로 해결될 문제가 아닙니다.

허사비스가 AGI까지 2030년이라는 타임라인을 제시했지만, 그 추정의 근거는 딥마인드의 20년 계획이 '순조롭게 진행 중'이라는 정성적 판단입니다. 샘플 사이즈가 충분한가요? N=1 기업의 내부 로드맵을 일반화하기엔 불확실성이 너무 큽니다. 지금 우리에게 더 절실한 건 AGI 도달 시점을 예측하는 것이 아니라, 현재 모델의 성능을 정직하게 측정하는 방법론을 확립하는 것입니다. 숫자가 말해주지 않는 것을 볼 줄 알아야, 숫자가 말해주는 것도 신뢰할 수 있게 됩니다.