AI 모델은 지금 안전한가: 증류 공격·군사 배포·벤치마크 수치의 데이터 해부

근거는 있나요? 세 가지 사건, 하나의 질문

2026년 초, AI 안전성을 둘러싼 세 가지 사건이 거의 동시에 터졌다. Anthropic의 증류 공격 공개, Claude의 이란 공습 실전 투입, 그리고 6인 스타트업 Poetiq의 ARC-AGI-2 벤치마크 신기록. 언뜻 별개처럼 보이는 이 세 사건은 ML 데이터 분석가 관점에서 하나의 공통 질문으로 수렴한다. "이 모델의 동작을 우리는 실제로 통제하고 있는가?"

증류 공격: 1,600만 건 합성 데이터의 품질 문제

먼저 숫자부터 짚자. Anthropic이 공개한 증류 공격 규모는 MiniMax 1,300만 건, Moonshot AI 340만 건, DeepSeek 15만 건으로 총 1,600만 건 이상의 대화가 생성됐다. 24,000개의 가짜 계정이 동원됐다.

데이터 분석가로서 첫 번째로 드는 의문은 이 데이터의 품질이다. 증류(distillation)는 교사 모델(teacher)의 출력 분포를 학생 모델(student)에게 전이하는 기법인데, 이 과정에서 필연적으로 분포 왜곡(distribution shift)이 발생한다. Claude의 응답 패턴을 그대로 복제했다면, Claude가 가진 편향(bias)과 오류 패턴도 함께 전이됐을 가능성이 높다. 베이스라인 대비 성능 개선을 측정하기 전에, 복제된 모델의 데이터 드리프트 수준부터 측정해야 한다.

특히 DeepSeek의 접근 방식은 기술적으로 주목할 만하다. "완성된 응답의 내부 추론 과정을 단계별로 써달라"는 요청으로 Chain-of-Thought(CoT) 학습 데이터를 대량 생성했다. 이건 단순한 출력 복제가 아니라 추론 과정 자체를 레이블로 삼는 정교한 feature engineering에 해당한다. 더 눈길을 끄는 건 "정치적으로 민감한 질문에 대한 검열 안전 대안"을 요청한 부분이다. 이는 특정 도메인에서 의도적으로 safety guardrail을 제거하는 방향의 파인튜닝 데이터를 생성한 것이다. Safety alignment를 타겟으로 한 adversarial data poisoning에 가깝다.

한편 Anthropic의 발표 타이밍도 짚어야 한다. 미국 정부의 AI 칩 수출 통제 논의가 뜨거운 시점에 공개됐고, CEO 다리오는 "증류 공격은 수출 통제의 근거를 강화한다"고 명시적으로 연결했다. 이건 correlation이지 causation이 아니다. 칩 수출 통제가 증류 공격을 막는다는 인과 경로는 아직 실증적으로 검증된 바 없다.

군사 배포: 프로덕션 환경의 블랙박스 문제

두 번째 사건은 훨씬 더 심각한 프로덕션 환경 문제다. WSJ 보도에 따르면, Claude는 미군 중부사령부의 이란 공습 작전에서 정보 수집, 목표물 식별, 전장 시뮬레이션 전 단계에 걸쳐 실전 투입됐다. Anthropic이 군사적 사용 범위 확대 요청을 거절했음에도, 트럼프 대통령의 사용 금지령이 내려진 지 몇 시간 만에 벌어진 일이다.

"실제 운영 환경에서도 이 성능이 나올까요?" 이 질문을 군사 맥락에 적용하면 의미가 완전히 달라진다. 목표물 식별 모델의 Precision-Recall 트레이드오프는 민간인 피해와 직결된다. False Positive(오인 타격)와 False Negative(표적 누락) 중 어느 쪽을 더 줄여야 하는가라는 임계값(threshold) 설정이 생사를 가른다. 그런데 이 모델의 confusion matrix를 검토한 사람이 있는가? Ablation study를 통해 각 기능의 기여도를 검증했는가?

더 근본적인 문제는 interpretability다. Claude는 "AI가 목표물 식별에 관여했을 때, 그 판단이 잘못되면 누가 책임을 지는가"라는 질문에 "아직 명확한 답이 없다"고 인정했다. 블랙박스 모델의 의사결정 경로를 추적할 수 없는 상황에서, SHAP value나 LIME 같은 설명 가능성(explainability) 도구조차 전장 환경에선 실시간 적용이 불가능하다. 뉴캐슬 대학교의 군사 법률 전문가 크레이그 존스가 지적한 대로, AI는 오류 가능성을 기하급수적으로 높인다. 2003년 이라크 침공의 잘못된 정보보다 훨씬 빠른 속도로, 훨씬 큰 규모의 오류가 전파될 수 있다.

그리고 Anthropic 스스로도 확인해줬다. 개발사가 아무리 윤리 원칙을 내세워도 모델의 실제 배포를 통제할 수단이 없다. 이건 MLOps의 모델 거버넌스(model governance) 실패이자, AI 윤리 정책의 집행 가능성(enforceability) 문제다.

ARC-AGI-2: 벤치마크 수치의 비용-성능 트레이드오프

세 번째 사건은 결이 다르다. 6인 스타트업 Poetiq이 ARC-AGI-2에서 54% 정확도를 기록하며 Google Gemini 3 Deep Think의 45%를 넘어섰다. 비용은 문제당 $30.57로, Google의 $77.16 대비 약 40% 수준이다.

벤치마크 수치를 볼 때 항상 먼저 묻는 것: 재현 가능성(reproducibility)은? ARC Prize 비영리 재단이 독립 검증했고, 홀드아웃 문제셋으로 평가됐다는 점에서 이번 결과는 상대적으로 신뢰도가 높다. 자체 보고 리더보드가 아니라는 점이 중요하다.

Poeiq의 접근법은 표준 Chain-of-Thought prompting 대신 반복적 정제 루프(iterative refinement loop)를 사용했다. 후보 솔루션을 생성하고, 구조화된 피드백을 받아 LLM이 반복 수정하는 방식이다. 이건 compute를 균등하게 소모하지 않고, 오류가 발생한 지점에 선택적으로 집중한다는 점에서 자원 배분 효율이 높다. 대부분의 CoT 시스템이 토큰을 균등 소모하는 것과 대조적이다.

그러나 54% 달성이 갖는 맥락도 봐야 한다. ARC-AGI-2에서 인간 평균 점수는 약 60%다. 즉, 최신 SOTA 시스템이 아직 인간 평균에 못 미친다. 또한 ARC-AGI-2는 버전1 대비 모든 시스템의 점수를 절반으로 깎도록 설계됐다. 벤치마크 포화(saturation) 문제를 해결하기 위한 설계이지만, 이 벤치마크에서의 성능이 실제 추론 능력의 일반화를 보장하는지는 여전히 별개의 질문이다.

$30 vs $77의 비용 격차가 주는 시사점은 명확하다. 스케일이 아니라 아키텍처가 다음 프론티어다. 17개 기업이 2026년 첫 8주 동안 각각 1억 달러 이상을 AI에 투자하는 동안, 6명이 더 나은 결과를 냈다.

시사점: 세 사건이 공유하는 ML 위험 구조

세 사건을 데이터 관점에서 정리하면 공통 패턴이 보인다.

첫째, 모델 출력의 통제 불가능성. 증류 공격은 모델의 출력 자체가 새로운 학습 데이터가 되어 통제 범위를 벗어난다는 걸 보여준다. 군사 배포는 개발사의 윤리 정책이 실제 배포를 막지 못한다는 걸 증명했다. 모델을 배포하는 순간, 그 모델의 출력은 개발사의 통제를 떠난다.

둘째, 벤치마크와 프로덕션의 괴리. ARC-AGI-2의 54%가 인상적이지만, 전장 환경의 목표물 식별이나 adversarial 증류 공격 탐지에서 같은 성능이 나올 보장은 없다. 벤치마크는 통제된 환경이고, 프로덕션은 분포 외(out-of-distribution) 샘플로 가득하다.

셋째, Safety alignment의 취약성. 증류된 모델은 원본 모델의 safety guardrail이 통째로 제거될 수 있다. 이건 단순한 성능 저하가 아니라, 의도적으로 설계된 안전장치의 무력화다.

전망: 모델 거버넌스의 측정 가능한 기준이 필요하다

세 사건이 공통으로 가리키는 방향은 하나다. AI 안전성을 측정 가능한 지표로 정의해야 한다. "윤리 원칙을 내세웠다"는 정성적 선언이 아니라, safety alignment의 강건성(robustness)을 정량화하는 red-teaming 결과, 군사 적용 시 False Positive Rate 허용 임계값, 증류 공격 탐지 모델의 Precision-Recall 곡선 같은 수치가 공개 기준이 돼야 한다.

Poeiq의 사례는 희망적이다. 적은 자원으로 더 나은 아키텍처가 가능하다는 걸 보여줬다. 하지만 기술적 성능과 사회적 안전성은 다른 축이다. 54% 정확도가 아무리 인상적이어도, 그 모델이 어떤 환경에서 어떻게 사용될지 통제하지 못한다면 숫자는 절반의 의미만 갖는다.

이건 correlation이 아니라 causation이어야 한다. AI 모델이 안전하다는 주장에는 측정 가능한 근거가 필요하다.