임계값 0.01의 선택: AI 안전 탐지 시스템이 맞닥뜨린 윤리적 Trade-off

'플래그 처리'와 '경찰 신고' 사이, 그 간격의 이름은 임계값

오픈AI의 오용 탐지 시스템은 2025년 6월, 캐나다 브리티시컬럼비아주 총기 난사 사건의 용의자 계정을 정상적으로 탐지했습니다. 시스템은 작동했습니다. 그런데 8명이 숨졌습니다.

이 아이러니의 핵심은 모델 성능이 아닙니다. 문제는 에스컬레이션 임계값(escalation threshold)—즉 "탐지됨(flagged)"에서 "신고함(reported)"으로 넘어가는 경계선이 어디에 그어져 있느냐입니다. 오픈AI는 해당 계정이 "신뢰할 수 있는 구체적·임박한 위협" 기준에 미달한다고 판단해 차단에서 멈췄습니다. AI타임스와 블룸버그 보도에 따르면, 내부에서 약 10명의 직원이 경찰 신고를 주장했지만 임원진이 제동을 걸었다고 합니다.

이건 알고리즘 문제가 아니라 임계값 설계 문제입니다

ML 관점에서 이 사건을 분해하면 전형적인 Precision-Recall Trade-off 구조입니다.

임계값을 낮추면(Recall 우선): 위험 계정 탐지율이 올라가지만 False Positive—즉 무고한 사용자를 위험인물로 오인하는 사례—가 폭증합니다. ChatGPT 월간 사용자가 수억 명인 플랫폼에서 오탐률 0.001%만 돼도 수천 건의 허위 신고가 쏟아집니다.
임계값을 높이면(Precision 우선): 신고의 정확도는 올라가지만 이번처럼 실제 위협을 놓치는 False Negative 비용을 현실에서 치릅니다.

오픈AI가 선택한 임계값은 Precision을 극단적으로 높인 쪽이었습니다. 그 근거는 "즉각적이고 신뢰할 만한 심각한 신체적 위해"라는 문언적 기준이었는데, 이는 사실상 사후 검증 불가능한 주관적 레이블입니다. '임박한 위협'을 정량화할 Feature가 존재하는지, 해당 Feature의 기여도를 Ablation study로 검증했는지—공개된 정보는 없습니다.

앤트로픽의 증류 탐지: 다른 종류의 임계값 문제

같은 시기, 앤트로픽은 다른 종류의 탐지 임계값 문제에 맞서고 있었습니다. 뉴스스페이스 보도에 따르면, 딥시크·문샷AI·미니맥스가 2만4천여 개의 가짜 계정으로 1,600만 건 이상의 대화를 생성해 클로드의 출력을 증류(distillation) 학습 데이터로 수집했다는 겁니다.

이 탐지 문제는 분포 이탈(Distribution Shift) 관점에서 흥미롭습니다. '하이드라 클러스터' 구조—계정 차단 시 즉시 대체 계정 투입—는 탐지 모델이 특정 계정 ID에 과적합(overfitting)하는 취약점을 정확히 공략한 전략입니다. 앤트로픽은 이제 행동 지문(behavioral fingerprint) 시스템을 가동 중이라고 밝혔는데, 이는 계정 식별자가 아닌 쿼리 패턴·시퀀스 분포를 Feature로 쓰는 접근입니다. 그런데 이 경우에도 임계값 문제는 동일하게 남습니다. 탐지 분류기의 Decision Boundary를 너무 좁히면 정상적인 헤비 유저가 차단되고, 너무 넓히면 증류 공격이 통과합니다.

미니맥스가 신모델 출시 24시간 만에 트래픽의 절반을 전환했다는 데이터 포인트는 탐지 시스템의 레이턴시 문제도 드러냅니다. 배치 분석으로는 이미 늦다는 뜻입니다. 실시간 스트리밍 추론 기반 이상 탐지가 아니면 대응 자체가 사후약방문이 됩니다.

Gemini 76.8%, Grok 70.3%—암기율 수치의 함정

디지털투데이가 인용한 스탠퍼드·예일대 연구는 또 다른 지표를 던집니다. Gemini 2.5가 《해리포터》 원문을 76.8% 정확도로 복제했고, Grok 3은 70.3%를 재현했다는 것입니다.

잠깐—76.8% 정확도는 무엇을 기준으로 측정한 걸까요? ROUGE 스코어인지, 문자 단위 exact match인지, 의미적 유사도(BLEU, BERTScore)인지에 따라 이 숫자의 의미는 완전히 달라집니다. 연구 원문을 직접 보지 않으면 이 수치가 '암기'를 증명하는지 '고품질 패러프레이징'을 보여주는 건지 판단하기 어렵습니다. 앤트로픽이 반박에서 "탈옥 기법을 적용해야만 재현된다"고 지적한 것도 같은 맥락—실험 조건의 재현 가능성(reproducibility)과 일반화 성능(generalization)을 분리해서 봐야 합니다.

그러나 ML 원리상 memorization 자체는 부정할 수 없습니다. LLM은 훈련 데이터에서 반복 출현하는 시퀀스를 낮은 perplexity로 저장합니다. 특히 저작권 있는 텍스트가 웹에 광범위하게 복제되어 있을수록 모델 가중치에 더 깊이 인코딩될 가능성이 높습니다. "패턴 학습이지 저장이 아니다"라는 업계의 주장은 기술적으로 맞는 말이지만, 그 패턴이 특정 시퀀스를 99%+ 확률로 재생성할 수 있다면 사용자 관점에서 그 차이가 의미 있는지는 별개의 질문입니다. 이건 correlation이 아니라 causation 수준의 문제입니다.

세 사건이 공유하는 구조: 탐지는 됐는데 왜 실패했나

세 건의 사례를 나란히 놓으면 패턴이 보입니다.

사례	탐지 여부	실패 지점
OpenAI 총격 사건	탐지됨	에스컬레이션 임계값
Anthropic 증류 공격	사후 탐지	실시간 탐지 레이턴시
LLM 암기 문제	실험적 검증	안전장치 우회 가능성

세 경우 모두 탐지 모델 자체의 성능이 문제가 아닙니다. 문제는 탐지 결과를 어떤 기준으로 어떤 행동으로 연결하느냐—즉 임계값 설계와 Post-detection 프로토콜입니다. 이 부분은 ML 엔지니어가 혼자 결정할 수 없습니다. 법률, 윤리, 비즈니스 리스크, 사회적 비용이 동시에 얽혀 있기 때문입니다.

시사점: 임계값은 기술 결정이 아니라 가치 결정입니다

오픈AI의 에스컬레이션 임계값을 낮추면 캐나다 사건은 막을 수 있었을지도 모릅니다. 하지만 그 임계값을 얼마나 낮춰야 하는지, 그 과정에서 얼마나 많은 False Positive를 허용할 것인지는 ROC 커브 위의 점 하나를 어디에 찍느냐의 문제이고, 그것은 본질적으로 사회가 합의해야 할 윤리적 결정입니다.

캐나다 AI 장관이 오픈AI를 소환한 것, 앤트로픽이 정부 및 타 AI 랩과의 정보 공유를 강조한 것—이 두 움직임은 임계값 설계의 책임을 더 이상 개별 기업 내부에 두지 않겠다는 신호로 읽힙니다. 안전 탐지 시스템의 임계값을 설계할 때 어떤 Loss Function을 최소화할 것인지, 누가 그 결정을 내릴 것인지—이것이 지금 AI 업계가 회피하고 있는 진짜 질문입니다.

전망: 외부 감사 없는 임계값은 신뢰할 수 없습니다

앞으로 두 가지 방향의 압력이 동시에 강해질 것입니다. 하나는 규제—캐나다의 온라인 위해 법안처럼 에스컬레이션 기준을 법으로 명문화하려는 시도입니다. 다른 하나는 기술적 투명성—탐지 시스템의 Precision/Recall 지표, 임계값 설정 근거, 오탐/미탐 사례 통계를 외부 감사 기관에 공개하는 요구입니다.

두 압력 모두 타당합니다. 그러나 규제가 임계값을 고정해버리면 공격자는 바로 그 경계 아래에서 움직입니다. 앤트로픽의 증류 탐지 사례처럼 탐지 시스템과 공격 전략은 서로를 학습하는 적대적 게임(adversarial game)입니다. 정적인 임계값은 정적인 공격만 막습니다.

결국 필요한 것은 임계값을 고정하는 규정이 아니라, 임계값 변경의 거버넌스 절차—누가, 어떤 데이터 근거로, 어떤 이해관계자 합의를 거쳐 그 숫자를 바꿀 수 있는지—를 제도화하는 것입니다. 그 숫자 하나가 사람의 목숨과 직결된다는 사실을 우리는 이미 확인했습니다.