숫자는 많은데 근거가 없다: AI 성능 주장의 통계적 허점 점검

근거는 있나요?

최근 한국 스타트업 야타브가 AI 보안 솔루션 AEGIS v4.0을 공개하며 흥미로운 숫자를 내놓았습니다(전자신문 보도). GPT-4o, Claude, Gemini, Grok 등 주요 LLM의 평균 방어율이 57%에 불과하며, AEGIS를 적용하면 Claude와 Grok은 100% 완벽 방어, 치명적 위협은 전량 차단, 오탐률은 0%, 처리 시간은 0~3ms라는 겁니다. 데이터 분석가의 본능이 즉각 반응합니다: 이 숫자들의 통계적 근거는 어디에 있을까요?

57%라는 숫자가 성립하려면

방어율 57%는 공격 시나리오 N건 중 차단 성공 건수를 나눈 값일 텐데, 가장 먼저 물어야 할 질문은 단순합니다. N이 얼마인가요? 보안 감사 보고서를 표방하면서도 공개된 기사에는 테스트 셋의 규모, 공격 유형별 분포, 난이도 가중치, 그리고 반복 실험 횟수가 보이지 않습니다. Academic/Research Framing 공격에서 차단율이 40%까지 떨어진다는 언급은 있지만, 이 40%가 10건 중 4건인지, 1000건 중 400건인지에 따라 해석은 완전히 달라집니다. 샘플 사이즈가 충분하지 않으면 57%든 40%든 신뢰구간이 넓어져서 사실상 의미 없는 숫자가 됩니다.

'100% 차단'과 '오탐률 0%'의 함정

Claude 44% → 100%, Grok 60% → 100%로 개선됐다는 주장은 인상적이지만, 모델 평가에서 100%라는 수치는 오히려 의심의 출발점입니다. Precision이 1.0이고 False Positive가 0이라는 건, 테스트 셋이 모델이 이미 잘 방어할 수 있는 패턴으로만 구성되었거나, 테스트 규모가 극도로 작다는 가능성을 시사합니다. Recall은 어떤가요? 즉, 야생(in-the-wild)에서 실제로 마주칠 다양한 공격 변종 중 얼마나 포착할 수 있는지에 대한 지표가 빠져 있습니다. 보안 영역에서 오탐률 0%는 '완벽한 시스템'이 아니라 '테스트가 불완전한 시스템'의 신호일 수 있습니다.

결정론적 방어라는 프레이밍에 대한 질문

야타브는 AEGIS의 핵심을 결정론적(Deterministic) 방어 — 확률적 판단 대신 패턴 매칭 기반 사전 차단 — 라고 설명합니다. 이 접근은 알려진 공격 패턴에 대해 높은 Precision과 낮은 Latency를 달성하기 유리합니다. 0~3ms라는 처리 시간이 이를 뒷받침하죠. 하지만 결정론적 시스템의 고전적 약점은 Adversarial 변종에 대한 일반화 성능입니다. 규칙 기반 차단은 패턴 데이터베이스에 없는 새로운 공격에 취약하고, 이를 평가하려면 최소한 unseen attack set에 대한 ablation study가 필요합니다. 보고서에 이런 실험이 포함되어 있는지 확인할 수 없다는 점이 아쉽습니다.

ML 실무에서 반복되는 같은 패턴

이 문제는 야타브만의 이야기가 아닙니다. ML 커뮤니티 전반에서 실험 설계의 투명성 부족은 만성적입니다. Velog에 올라온 시계열 데이터의 GAF 변환 튜토리얼이나, SK 네트웍스 AI 캠프의 KMeans·SVD 실습 회고를 보면, 알고리즘 자체의 구현은 점점 접근성이 좋아지고 있습니다. silhouette_score를 호출하고, SVD의 특이값 k개로 이미지를 재구성하는 코드는 10줄이면 됩니다. 그러나 "이 k가 왜 50인가요?", "이 클러스터링 결과를 어떤 외부 지표로 검증했나요?"라는 질문에 답하는 과정은 코드 10줄보다 훨씬 어렵습니다. GAF로 변환한 이미지에 CNN을 올렸을 때 정확도 92%를 달성했다고 해도, 베이스라인 대비 얼마나 개선된 건지, 교차검증은 했는지, 데이터 누수(leakage)는 없는지 확인하지 않으면 그 92%는 허상입니다.

모티프 사례가 보여주는 바람직한 방향

대조적으로, 과기정통부 독자 AI 파운데이션 모델 사업에서 모티프테크놀로지스가 정예팀으로 선정된 과정(AI타임스 보도)은 상대적으로 검증 구조가 명시적입니다. 평가위원들이 "적은 파라미터와 제한된 데이터에서 글로벌 수준 성능을 달성했다"고 언급한 부분은, 비록 구체적 벤치마크 수치는 공개되지 않았지만, 최소한 글로벌 리더보드라는 외부 베이스라인 대비 비교가 이루어졌음을 시사합니다. 물론 여기에도 "어떤 리더보드의 어떤 태스크에서 몇 위인가요?"라는 후속 질문은 필요합니다.

시사점: 숫자를 발표하는 사람이 아니라 검증하는 사람이 되자

정리하면, AI 성능 주장을 접할 때 데이터 분석가가 던져야 할 체크리스트는 명확합니다:

샘플 사이즈와 테스트 셋 구성 — 몇 건으로 테스트했고, 공격 유형의 분포는 어떠한가?
베이스라인 비교 — 기존 솔루션 대비, 또는 네이티브 모델 대비 어떤 조건에서 비교했는가?
지표의 완전성 — Precision만 보고 Recall을 빠뜨리지 않았는가? Accuracy만 보고 class imbalance를 무시하지 않았는가?
재현 가능성 — 코드와 데이터를 공개하고, 제3자가 동일 결과를 얻을 수 있는가?
일반화 성능 — 프로덕션 환경의 unseen 데이터에서도 이 숫자가 유지되는가?

AEGIS가 MIT 라이선스로 오픈소스를 공개한 것은 좋은 출발입니다. 이제 커뮤니티가 이 코드를 가져다 독립적인 레드팀 테스트를 수행하고, 공개된 57%와 100%라는 숫자의 재현 가능성을 직접 확인할 차례입니다. Correlation은 causation이 아니듯, 보도 자료의 숫자는 증거가 아닙니다. 증거는 재현 가능한 실험에서만 나옵니다.