49% 탐지율, 28% 오탐률, 11% 거부율—AI 성능 숫자, 근거를 뜯어봅니다

근거는 있나요?—이번 주 세 가지 숫자의 해부

이번 주 눈길을 끈 AI 관련 수치가 셋 있습니다. 49%(AI 백도어 탐지율), 11%(LLM의 비영어권·저학력 사용자 질문 거부율), 그리고 "랜덤 서치가 강화학습과 경쟁한다"는 주장입니다. 세 숫자 모두 헤드라인만 보면 인상적이지만, 실험 설계와 통계적 맥락을 한 꺼풀 벗기면 이야기가 완전히 달라집니다.

1. 백도어 탐지 49%—Precision은 얼마입니까?

Quesma 연구팀이 공개한 BinaryAudit 벤치마크(GitHub: QuesmaOrg/BinaryAudit)에서 Claude Opus 4.6은 49%의 탐지율(Recall)을 기록했습니다. 얼핏 "절반은 찾았다"로 읽히지만, 함께 보고된 오탐률(False Positive Rate) 28%가 문제의 핵심입니다. 깨끗한 바이너리 10개 중 약 3개를 '감염됐다'고 잘못 보고한다는 뜻이니까요. 보안 도구로서 실전 배포 기준인 오탐률 0.001% 이하와 비교하면 네 자릿수 이상의 격차입니다.

더 흥미로운 건 모델 간 trade-off입니다. GPT 계열은 거짓 양성률 0%로 안정적이지만 탐지율은 18%에 그쳤고, Gemini 3 Pro는 탐지율 44%를 올렸지만 오탐률이 가장 높았습니다. 이걸 ROC 커브 위의 한 점으로 놓으면, 어떤 모델도 AUC 관점에서 '쓸 만한' 구간에 도달하지 못했습니다. Hacker News 댓글에서 논문 저자 스스로도 "입문 수준 과제"라고 인정했고, 난독화를 적용하면 탐지율이 즉시 0%로 떨어질 것이라는 지적이 나왔습니다. 베이스라인이 "비난독화 C 바이너리"라는 점을 기억해야 합니다.

가장 눈에 띄는 실패 사례는 Claude Opus 4.6이 execl("/bin/sh", ...)라는 명백한 쉘 실행 호출을 찾아놓고도 "정상 DHCP 스크립트 실행"으로 오판한 케이스입니다. 이건 탐지 모델의 전형적 약점인 contextual reasoning 실패입니다. Feature를 추출하는 능력(탐지)과 그 Feature의 의미를 해석하는 능력(판단) 사이에 갭이 있다는 것이죠. Ablation 관점에서 보면, 이 모델은 '패턴 매칭'은 되지만 '위협 모델링'은 안 되는 상태입니다.

2. LLM의 정보 불평등—교차성이 만드는 편향의 곱셈

MIT 건설적 커뮤니케이션 센터(CCC)의 연구는 GPT-4, Claude 3 Opus, Llama 3 등이 사용자의 학력·영어 숙련도·출신 국가에 따라 차별적 성능을 보인다고 보고합니다. Claude 3 Opus의 경우, 저학력 비영어권 사용자의 질문 거부율이 11%로, 대조군(3.6%)의 약 3배였습니다.

여기서 짚어야 할 건 '교차성(intersectionality)'의 데이터입니다. 저학력 그리고 비영어권이라는 두 변수가 곱해졌을 때 성능 하락이 가장 극심했다는 건, 단순한 언어 번역 문제가 아니라 alignment 데이터셋의 분포 편향을 가리킵니다. 학습 데이터가 서구권 고학력자의 언어 패턴에 치우쳐 있으니, RLHF 과정에서 "이런 질문은 위험하다"는 필터가 특정 인구 집단에 과도하게 발동되는 셈입니다.

특히 핵에너지·해부학 같은 객관적 사실에 대해서도 이란·러시아 사용자에게는 답변을 거부하면서 미국 사용자에게는 정확한 정보를 제공하는 패턴은, 이게 correlation이 아니라 정렬 알고리즘에 내재된 구조적 causation임을 시사합니다. 기업이 이 모델을 고객 응대에 도입한다면, 사용자 배경에 따른 서비스 품질 편차는 측정 가능한 법적 리스크가 됩니다.

3. 랜덤 서치 vs. 강화학습—SOTA의 베이스라인 문제

Dev.to에 소개된 "Simple Random Search Provides a Competitive Approach to Reinforcement Learning" 논문은 자극적인 주장을 담고 있습니다. 하이퍼파라미터 공간에서 단순 랜덤 서치가 정교한 강화학습 알고리즘과 경쟁할 수 있다는 것이죠.

이건 사실 ML 커뮤니티에서 반복적으로 등장하는 "강력한 베이스라인" 논쟁의 연장선입니다. Bergstra & Bengio(2012)가 이미 "Grid Search보다 Random Search가 효율적"이라 증명한 바 있고, 이번 연구는 그 논리를 정책 학습(policy search) 영역으로 확장합니다. 핵심 질문은 이겁니다: 비교 대상인 강화학습 알고리즘이 충분히 튜닝되었나요? 원본 소스의 품질 점수가 0.55로 낮아 원논문의 실험 섹션을 직접 확인하기 어려웠지만, 이런 류의 연구에서는 베이스라인(RL 알고리즘)의 하이퍼파라미터 설정이 결과를 좌우합니다.

세 숫자가 교차하는 지점: 측정의 정직함

백도어 탐지의 49%는 Recall만 부각하고 Precision을 숨기면 '가능성'이 되지만, Precision-Recall 곡선 전체를 그리면 '미달'이 됩니다. LLM 편향의 11% 거부율은 평균값 뒤에 숨은 교차 편향의 증폭 효과를 드러내고, 랜덤 서치의 경쟁력은 베이스라인 설정의 엄밀성에 전적으로 의존합니다.

세 사례 모두 같은 교훈을 줍니다. "숫자를 발표할 때, 그 숫자가 유효한 조건도 함께 발표하라." 샘플 사이즈는 충분한지, 분포는 대표성이 있는지, 베이스라인 대비 상대적 개선인지 절대 수치인지—이 질문들을 빠뜨린 성능 보고서는 마케팅이지 과학이 아닙니다.

전망: 프로덕션 환경에서도 이 성능이 나올까요?

AI 백도어 탐지는 "비전문가의 1차 스크리닝 도구"로는 가치가 있지만, 28% 오탐률을 안고 SOC(보안 운영센터) 파이프라인에 넣는 순간 알림 피로(alert fatigue)가 보안 자체를 무력화합니다. LLM 편향은 개인화 메모리 기능이 강화될수록 드리프트가 아닌 고착화로 전환될 위험이 있고, 이를 모니터링할 fairness 메트릭의 프로덕션 파이프라인이 시급합니다. 그리고 랜덤 서치의 교훈은 역설적으로 이렇습니다—복잡한 모델을 도입하기 전에, 단순한 베이스라인을 먼저 이기세요. 그 베이스라인조차 못 이긴다면, 문제는 알고리즘이 아니라 데이터입니다.