핵심 이슈: '레드라인'을 지킨 쪽이 계약을 잃었다
머신러닝 모델을 평가할 때 가장 먼저 묻는 질문이 있습니다. "베이스라인 대비 얼마나 개선되었나요?" 그런데 군사 AI 맥락에서는 이 질문 자체가 달라집니다. 성능 지표가 '정확도'가 아니라 '얼마나 덜 위험한가'로 바뀌기 때문입니다.
이번 사태의 팩트는 단순합니다. Anthropic은 ①완전 자율무기 사용 금지, ②국내 대규모 감시 금지라는 두 가지 사용 제한 조항을 협상 내내 고수했고, 결국 미 국방부로부터 '공급망 위험 기업'으로 지정됐습니다. 반면 OpenAI는 동일한 원칙을 '계약 조항'으로 포함시키는 방식으로 국방부와 계약을 체결했습니다. geeknews와 vietnam.vn 보도에 따르면, 샘 알트먼은 "국내 감시 금지와 무력 사용에 대한 인간의 책임 원칙"을 계약에 명시했다고 발표했습니다.
표면적으로는 두 회사의 원칙이 거의 동일합니다. 그렇다면 결과가 왜 이렇게 달랐을까요? 근거는 있나요?
맥락 해석: 이건 윤리의 문제가 아니라 '집행 가능성'의 문제입니다
데이터 분석가 관점에서 이 사태를 보면, 핵심 변수는 원칙의 내용이 아니라 집행 메커니즘의 설계입니다. Anthropic은 모델 레벨에서 하드코딩된 제한을 고집했고, OpenAI는 계약서에 원칙을 명시하되 기술적 안전장치와 현장 파견 엔지니어로 모니터링하겠다는 구조를 제안했습니다.
이를 ML 파이프라인 언어로 번역하면 이렇습니다.
- Anthropic 접근법: 학습 단계 또는 시스템 프롬프트 레벨에서 특정 use case를 하드 필터링 → 모델이 해당 요청 자체를 거부
- OpenAI 접근법: 모델은 배포하되, 운영 레이어에서 모니터링 + 인간 감독(human-in-the-loop) 파이프라인 구성
어느 쪽이 더 안전한지는 사실 ablation study 없이는 판단할 수 없습니다. 하드 필터는 False Positive(합법적 요청을 차단)를 높이고, 소프트 모니터링은 False Negative(위험 요청을 통과시킬 가능성)를 높입니다. 군사 맥락에서 False Negative의 비용은 측정 불가능하다는 게 문제의 본질입니다.
더 중요한 맥락이 있습니다. OpenAI가 캐나다 총기 난사 사건(브리티시 컬럼비아, 9명 사망)에서 이미 이 문제를 경험했다는 점입니다. AI타임스 보도에 따르면, OpenAI의 위험 탐지 시스템은 2025년 6월 용의자의 계정에서 "총기 개조 관련 기술적 요청과 공공장소 보안 취약점 질문"을 감지해 계정을 차단했습니다. 그러나 경영진은 이를 '임박한 위협'으로 분류하지 않았고, 법 집행 기관에 신고하지 않았습니다. 용의자는 새 계정을 만들어 시스템을 우회했습니다. 이것이 바로 소프트 모니터링의 False Negative 사례입니다.
시사점: AI 윤리 가이드라인의 재현 가능성 문제
논문에서 SOTA(State-of-the-Art)를 주장할 때 반드시 묻는 질문이 있습니다. "실제 운영 환경에서도 이 성능이 나올까요?" AI 윤리 정책도 마찬가지입니다. 레드라인은 프로덕션 환경에서 재현 가능한가요?
세 가지 데이터 포인트가 이 질문에 답을 줍니다.
첫째, 레드라인의 정의 자체가 모호합니다. 국방부는 "연방법과 정책상 국내 감시와 자율무기 사용은 이미 금지되어 있다"고 주장합니다. 그렇다면 Anthropic의 제한 조항은 중복 규제인가요, 아니면 법의 빈틈을 막는 추가 안전장치인가요? 이 둘을 구분하는 기준 데이터가 공개되지 않았습니다.
둘째, Google 직원들의 내부 움직임은 이 문제가 Anthropic만의 이슈가 아님을 보여줍니다. geeknews 보도에 따르면, Google 직원들은 DeepMind를 포함한 AI 부문이 Pentagon 프로젝트에 관여하지 않도록 레드라인 설정을 요구하고 있습니다. 이는 상관관계(correlation)가 아닙니다. AI 개발자 커뮤니티 전반에서 군사 AI 안전 기준에 대한 인식이 구조적으로 변화하고 있다는 인과적 신호입니다.
셋째, Anthropic의 IPO 계획과 3,800억 달러 밸류에이션은 흥미로운 역설을 만듭니다. 국방부 계약(최대 2억 달러)은 전체 매출(140억 달러)의 약 1.4%에 불과합니다. 그러나 정책 갈등이 투자자 신뢰에 미치는 영향은 이 수치로 설명되지 않습니다. CEO 다리오 아모데이가 "원칙을 고수한 이후에도 회사 가치와 매출은 성장했다"고 언급한 것은 단순한 PR이 아닙니다. 이건 윤리 정책이 비즈니스 지표와 negative correlation이 아닐 수 있다는 데이터 포인트입니다.
전망: '측정 불가능한 지표'를 어떻게 최적화할 것인가
이 사태의 진짜 ML 문제는 여기서 시작됩니다. 우리는 보통 손실 함수(loss function)를 정의하고 최적화합니다. 그런데 군사 AI의 안전 기준은 손실 함수를 정의하는 것 자체가 불가능합니다.
- 완전 자율무기의 오탐율(false positive rate)이 0.1%라면 허용 가능한가요?
- 대규모 감시 시스템의 정밀도(precision)가 99%라면 윤리적으로 정당화되나요?
- 인간 감독자가 파이프라인에 있으면 human-in-the-loop로 충분한가요, 아니면 human-on-the-loop가 되어 실질적 통제권을 잃는 건 아닌가요?
이 질문들에 대한 통계적 유의성(statistical significance)을 계산할 방법은 현재 존재하지 않습니다. Anthropic이 "현재의 AI 모델은 완전 자율무기에 사용할 만큼 신뢰할 수 없다"고 밝힌 것은 바로 이 측정 불가능성에 대한 솔직한 인정입니다.
OpenAI의 캐나다 사건 대응은 하나의 시나리오를 미리 보여줬습니다. 탐지 시스템은 작동했지만, 분류 임계값(threshold)이 잘못 설정되어 있었고, 신고 프로토콜이 부재했습니다. 이 시스템이 군사 환경에 배포된다면, 임계값을 누가 설정하고, 오분류에 대한 책임은 누가 집니까?
앞으로 주목해야 할 변수는 세 가지입니다. ①Anthropic의 법적 대응이 '공급망 위험' 지정의 법적 근거를 흔들 수 있는가, ②OpenAI가 실제로 배포한 군사 시스템의 성능 지표를 어떤 방식으로든 공개할 의무가 생기는가, ③Google 내부의 레드라인 요구가 실제 정책 변화로 이어지는가. 이 세 가지 중 어느 하나도 현재는 측정 가능한 데이터가 없습니다.
결국 이건 correlation도 causation도 아닙니다. 우리가 아직 측정 방법을 모르는 문제입니다. 그리고 그것이 가장 위험한 종류의 AI 배포입니다.