27비트 엔트로피, 87% ASR, '일반화'라는 단어—LLM 성능 숫자, 근거는 있나요?

핵심 이슈: 숫자는 화려한데, 분모를 아무도 안 봅니다

이번 주 LLM 관련 뉴스 세 건이 나란히 정량적 주장을 내세웠습니다. AI 생성 비밀번호의 엔트로피가 20~27비트에 불과하다는 이레귤러(Irregular)의 실험, 안전 데이터셋에 '의도 세탁(Intent Laundering)' 공격을 가했더니 ASR(Attack Success Rate)이 5%에서 87%로 폭등했다는 레이블박스(Labelbox) 논문, 그리고 다리오 아모데이 앤트로픽 CEO가 RL 스케일링을 통해 '일반화 단계에 진입했다'고 선언한 팟캐스트 발언입니다. 세 건 모두 인상적인 숫자를 품고 있지만, 데이터 분석가의 관점에서 던져야 할 질문은 하나입니다. 그 숫자의 분모와 베이스라인은 무엇인가요?

27비트 엔트로피: 샘플 50개로 결론 내도 될까요?

이레귤러는 ChatGPT, Gemini, Claude가 생성한 16자 비밀번호 50개를 분석해 엔트로피가 20~27비트에 불과하다고 보고했습니다. 무작위 생성 시 기대되는 98~120비트와 비교하면 차이는 극적입니다. 하지만 저는 먼저 샘플 사이즈를 의심합니다. n=50은 문자 분포의 엔트로피를 추정하기에 통계적으로 충분한가요? 16자 비밀번호의 가능한 문자 공간이 90종 이상이라면, 50개 샘플로 추정한 엔트로피는 하한 편향(downward bias)이 발생할 수밖에 없습니다. 엔트로피 추정치의 신뢰 구간이 어디까지인지가 보고서에 빠져 있다는 점이 아쉽습니다.

그렇다고 결론 자체를 부정하는 것은 아닙니다. LLM이 언어 모델이라는 본질적 구조—다음 토큰 예측 확률 분포에 기반한 생성—를 고려하면, 암호학적 무작위성(CSPRNG)과는 근본적으로 다른 메커니즘입니다. 이건 correlation이 아니라 구조적 causation입니다. 비밀번호 강도 측정 도구들이 표면적 문자 다양성만 체크하고 시퀀스 패턴의 조건부 엔트로피를 측정하지 못한다는 지적도 타당합니다. 다만, 이 연구를 '모든 AI 비밀번호는 위험하다'는 일반 결론으로 확대하려면, 최소 수천 개 이상의 샘플과 모델별·프롬프트별 ablation이 필요합니다.

ASR 5%→87%: 인상적이지만, 판정 기준이 관건입니다

레이블박스의 'Intent Laundering' 논문은 AdvBench와 HarmBench라는 기존 안전 벤치마크의 구조적 결함을 정량적으로 보여줍니다. 위험 단어(triggering cue)만 제거하는 '함의 중립화'와 '맥락 전치' 두 단계를 거치면, ASR이 AdvBench 기준 5.38%에서 86.79%로, HarmBench에서 13.79%에서 79.83%로 치솟았다는 겁니다. 블랙박스 환경에서는 90~98.55%까지 올라갔다고 합니다.

여기서 제가 묻고 싶은 건 ASR의 판정 기준(evaluation criteria)입니다. '안전하지 않은 응답'의 경계를 어디에 그었는가에 따라 ASR은 극적으로 달라집니다. 자동 판정(LLM-as-judge)을 썼다면, 판정 모델 자체의 precision과 recall은 어느 수준인가요? 인간 평가자(human annotator)와의 inter-rater agreement(Cohen's κ)는 보고되었나요? 이 부분이 불투명하면, 87%라는 숫자의 신뢰도도 함께 흔들립니다.

그럼에도 이 연구가 지적하는 구조적 문제는 명확합니다. 현재 안전 벤치마크는 'in-distribution 위험'만 학습시킨 것이고, 실제 공격자는 언제나 'out-of-distribution'으로 접근합니다. 이건 ML에서 흔히 보는 train-test distribution mismatch 문제와 정확히 동일한 패턴입니다. 테스트셋이 실제 운영 환경의 데이터 분포를 반영하지 못하면, 그 벤치마크 점수는 프로덕션 성능의 프록시(proxy)가 될 수 없습니다.

RL 스케일링과 '일반화': 정의부터 합의가 필요합니다

아모데이 CEO의 발언은 가장 큰 주장이면서 동시에 가장 적은 근거를 동반했습니다. 코딩처럼 객관적 보상이 가능한 도메인에서 강화학습을 적용하면 '일반화' 능력이 크게 향상된다는 주장인데, 정작 그 스스로도 "이것이 정확히 어떤 원리로 돌아가는 것인지조차 명확하지 않다"고 인정합니다. 스케일링 법칙은 사전학습(pre-training)에서는 경험적으로 검증되었지만, RL 스케일링에서는 아직 재현 가능한 스케일링 곡선이 공개된 적이 없습니다.

'일반화'라는 용어 자체도 문제입니다. 코딩 벤치마크(HumanEval, SWE-bench)에서의 성능 향상이 과학적 추론, 의사결정, 상식 추론 등 다른 도메인으로 얼마나 전이(transfer)되는지에 대한 cross-domain 평가 데이터가 없으면, 이는 'generalization'이 아니라 'domain-specific improvement'일 뿐입니다. 아모데이의 표현을 빌리면 '샘플 효율성' 격차가 존재한다는 건 인정하면서, 그 격차를 RL이 어떻게 줄이는지의 메커니즘은 미해결(open question)이라고 스스로 말한 셈입니다.

시사점: 세 사례가 가리키는 하나의 패턴

세 건의 뉴스를 관통하는 공통 패턴이 보입니다. 평가 지표(metric)와 실제 성능(real-world performance) 사이의 괴리입니다. 비밀번호 강도 측정 도구가 표면적 복잡성만 보는 것, 안전 벤치마크가 노골적 위험 표현만 커버하는 것, RL 스케일링의 '일반화'가 도메인 특화 성능일 수 있는 것—모두 프록시 메트릭의 타당성(validity) 문제로 귀결됩니다.

ML 실무에서 이건 익숙한 경고입니다. accuracy가 99%여도 클래스 불균형 앞에서 무의미하듯, 엔트로피·ASR·벤치마크 스코어도 측정 조건과 판정 기준을 함께 공개하지 않으면 해석이 불가능합니다. 모델을 배포하는 쪽이든, 모델을 공격하는 쪽이든, 모델의 미래를 선언하는 쪽이든—숫자를 제시할 때는 반드시 분모, 베이스라인, 신뢰 구간, 그리고 일반화 범위를 함께 내놓아야 합니다.

전망: '검증 인프라'가 다음 경쟁의 축이 됩니다

앞으로 LLM 생태계의 경쟁 축은 '성능 숫자'에서 '검증 가능성(verifiability)'으로 이동할 겁니다. 안전 벤치마크는 적대적 분포(adversarial distribution)를 반영하는 방향으로 재설계되어야 하고, 비밀번호 생성 같은 부가 기능은 CSPRNG 기반 도구로 명시적으로 분리되어야 합니다. RL 스케일링 주장은 cross-domain transfer 실험과 재현 가능한 스케일링 커브 없이는 시장이 더 이상 받아들이지 않을 겁니다. 결국 "근거는 있나요?"라는 질문을 자동화하는 파이프라인—독립적 레드팀, 통계적 감사(statistical audit), 제3자 재현 실험—이 모델 자체만큼이나 중요한 인프라가 되는 시대가 오고 있습니다.