환각 발생률 26.8% 감소—그 숫자, 어떻게 측정했나요?

환각 발생률 26.8% 감소—그 숫자, 어떻게 측정했나요?

OpenAI의 GPT-5.3 환각 감소 수치부터 버지니아 공대 레드팀 실험, Ars Technica 해고 사건까지—'AI 환각'을 측정하는 방법론 자체를 해부합니다.

LLM 환각 Hallucination 측정 GPT-5.3 환각 발생률 버지니아 공대 TEE AI 벤치마크 재현 가능성 Human-in-the-loop
광고

숫자가 먼저 나왔다, 측정 방법론은 나중에

OpenAI가 GPT-5.3 인스턴트 업데이트를 발표하며 공개한 수치가 있습니다. "법률·금융 등 고위험 분야 내부 평가에서 환각 발생률이 웹 검색 시 26.8%, 내부 지식만 사용할 때 19.7% 감소." 네이트 보도를 통해 퍼진 이 숫자는 인상적입니다. 문제는 ML 데이터 분석가로서 제일 먼저 드는 질문—"이걸 어떻게 측정했나요?"—에 대한 답이 보도 어디에도 없다는 겁니다.

베이스라인이 명확하지 않습니다. GPT-5.2 대비인지, GPT-4o 대비인지. '환각'의 정의가 무엇인지—사실 오류인지, 존재하지 않는 인용인지, 논리적 비약인지. 평가 데이터셋은 얼마나 되는지, 샘플 사이즈는 충분한지. '내부 평가'라는 표현은 독립적 검증이 없다는 뜻이기도 합니다. 이건 correlation인지 causation인지조차 불분명합니다. 26.8%라는 수치는 인상적이지만, 재현 가능성(reproducibility)이 담보되지 않은 벤더 발표는 마케팅 수치와 구분하기 어렵습니다.

환각이 왜 생기는가: 구조적 원인부터

수치 비판에 앞서, 환각이 왜 발생하는지 메커니즘을 짚어야 합니다. LLM은 사실을 검증하는 시스템이 아닙니다. 다음 토큰의 확률 분포를 계산해 가장 자연스러운 문장을 생성하는 모델입니다. Velog의 기술 설명을 빌리면, 모델의 목표는 "사실을 말하는 것이 아니라 자연스러운 다음 문장을 생성하는 것"입니다.

이 구조적 한계가 세 가지 경로로 환각을 만들어냅니다. 첫째, 정답 확률이 낮아도 다른 토큰이 확률적으로 높으면 그걸 선택합니다(확률 분포 문제). 둘째, 학습 데이터에서 애매하게 학습된 사실은 모델이 추론으로 빈칸을 채웁니다(학습 데이터 한계). 셋째, 프롬프트에 "반드시 답하라"는 규칙이 있으면 모델은 그럴듯한 답을 만들어냅니다(질문 압박). Temperature를 0으로 고정해도 이 근본 문제는 해결되지 않습니다—다양성만 줄어들 뿐, 모델이 '틀린 답에 확신을 갖는' 경향은 남습니다.

보안 도메인 실험: 12%의 공통 오류가 뜻하는 것

추상적인 메커니즘 논의보다 더 구체적인 데이터가 있습니다. 버지니아 공대 연구팀이 arXiv에 공개한 논문 "Red-Teaming Claude Opus and ChatGPT-based Security Advisors for Trusted Execution Environments"입니다. 연구팀은 TEE-RedBench라는 평가 방법론으로 208개 질문을 설계해 GPT-5.2와 Claude Opus-4.6을 체계적으로 시험했습니다.

가장 주목할 수치는 12.02%입니다. ChatGPT에서 잘못된 답변을 유도한 질문이 Claude에서도 유사한 오류를 일으킨 비율입니다. 이건 단순한 개별 제품 결함이 아닙니다—현재 대형 언어모델 아키텍처가 공유하는 구조적 취약점의 신호입니다. Ablation study 관점에서 보면, 두 모델이 다른 학습 데이터와 파인튜닝 전략을 썼음에도 동일한 오류 패턴을 보인다는 것은 문제가 특정 모델 구성 요소가 아닌 LLM 패러다임 전반에 내재한다는 의미입니다.

오류 유형도 세 가지로 분류됩니다. 경계 혼동: ARM TrustZone과 Intel SGX의 격리 방식 차이를 혼용해 잘못 설명. 증명 과장: 원격 증명(remote attestation)이 Spectre, Foreshadow 같은 하드웨어 취약점에도 기밀성을 완전히 보장한다고 단언. 완화책 환각: 존재하지 않거나 효과가 검증되지 않은 보안 설정을 자신 있게 추천. 세 번째 유형이 특히 위험한 이유는 '자신감 있는 유창한 문장'으로 포장되어 걸러내기 어렵기 때문입니다.

이 연구가 흥미로운 이유는 측정 방법론이 명확하기 때문입니다. 208개라는 샘플 사이즈, TEE라는 구체적 도메인, 질문 유형별 분류(건축 설계/위협 모델링/완화 방안), 그리고 두 모델 간 오류 전이율이라는 교차 검증 지표. 제조사 자체 발표가 아닌 독립 연구팀의 실험이라는 점도 신뢰도를 높입니다. 물론 208개 샘플이 충분한가, TEE 도메인 결과가 다른 보안 분야에 일반화되는가라는 질문은 여전히 남습니다.

Ars Technica 해고 사건: 환각은 추상적 문제가 아니다

실험실 수치 너머에서 환각의 실제 피해가 확인된 사건이 있습니다. Ars Technica 기자 Benj Edwards가 AI 도구를 사용하다 허위 인용문을 기사에 포함시켜 해고된 사건입니다(Futurism 보도). Edwards는 Claude Code 기반 도구로 인용문을 정리하다 오류가 발생했고, ChatGPT로 원인을 파악하는 과정에서 실제 발언이 아닌 의역된 문장을 기사에 실었다고 설명했습니다.

이 사건을 데이터 파이프라인 관점에서 보면 전형적인 검증 단계 누락 문제입니다. LLM 출력을 다운스트림 태스크(기사 작성)에 바로 투입하면서 중간 검증 체크포인트가 없었습니다. Hacker News 커뮤니티가 지적한 것처럼, "편집진도 확인하지 않았다면 이는 Ars의 편집 기준을 드러내는 것"입니다. 개인의 실수이기도 하지만, 시스템적 방어막이 없었다는 구조적 실패이기도 합니다. 스위스 치즈 모델처럼, 구멍이 여러 레이어에 동시에 뚫렸을 때 사고가 납니다.

더 아이러니한 것은 Edwards 본인이 AI 전담 기자였다는 점입니다. 그는 "AI 환각에 걸려든 AI 담당 기자"라고 자평했습니다. 이건 도메인 전문 지식이 있어도 LLM 출력에 대한 맹목적 신뢰가 판단을 흐릴 수 있음을 보여주는 사례입니다. 이건 correlation이 아니라 causation입니다—AI 도구 사용이 직접 허위 인용문을 생성했습니다.

26.8% 감소, 다시 돌아와서

OpenAI의 GPT-5.3 수치로 돌아갑니다. 측정 방법론에서 물어야 할 것들입니다. 평가 데이터셋: '법률·금융 분야'의 범위가 어떻게 정의됐나요? 몇 개의 질문이 포함됐나요? 환각 라벨링: 누가, 어떤 기준으로 환각과 비환각을 분류했나요? 라벨러 간 일치도(inter-annotator agreement)는 얼마나 됐나요? 베이스라인: GPT-5.2 대비인지, 이전 버전 대비인지 명확하지 않습니다. 분포 문제: 내부 평가 데이터가 실제 프로덕션 트래픽 분포와 얼마나 일치하나요? 데이터 드리프트는 고려됐나요?

비식별 사용자 피드백 기반 평가에서는 각각 22.5%, 9.6% 감소라는 수치도 공개됐습니다. 내부 평가(26.8%)와 사용자 피드백(22.5%) 간 격차가 존재합니다. 이 격차 자체가 흥미롭습니다—실제 운영 환경에서의 성능이 통제된 내부 평가보다 낮다는 건 ML에서 자주 보는 패턴입니다. 문제는 두 수치 모두 측정 방법론이 공개되지 않아 어느 쪽이 더 현실에 가까운지 판단할 수 없다는 겁니다.

환각을 줄이는 검증된 접근: 80% 실패율 감소의 조건

비판만 하면 공정하지 않습니다. 버지니아 공대 연구팀은 해결책도 제시했습니다. 'LLM-in-the-loop' 파이프라인으로 네 가지 통제 장치를 결합하면 실패율을 최대 80.62% 줄일 수 있다는 결과입니다. 정책 게이팅(답변 전 허용 범위 필터링), 검색 기반 근거 제시(RAG로 공식 문서 강제 참조), 구조화된 템플릿(위협 모델·가정 명시), 검증 체크(규칙 기반 체크리스트)의 조합입니다.

단, 이 수치에도 조건이 붙습니다. 검증 체크를 추가하면 전체 실패율은 낮아지지만, 남은 실패가 두 AI 간에 더 일관되게 전이되는 현상이 관찰됐습니다. 도구와 검증기가 공유하는 인터페이스 자체가 새로운 공통 취약점이 될 수 있다는 경고입니다. 80.62%라는 수치도 TEE 도메인 한정이며, 다른 도메인에서의 일반화 성능은 별도 실험이 필요합니다.

시사점: 환각 측정은 아직 미성숙 단계

세 사례를 종합하면 공통 결론이 나옵니다. 환각 측정 방법론 자체가 아직 표준화되지 않았습니다. 버지니아 공대 연구는 208개 질문, 특정 도메인, 독립 평가라는 투명한 설계를 갖췄습니다. OpenAI 발표는 '내부 평가'라는 불투명한 설계를 공개했습니다. Ars Technica 사건은 측정이 아예 없었던 실제 피해입니다.

F1-score나 ROC-AUC처럼 환각에도 표준 지표와 독립적 평가 프로토콜이 필요합니다. '환각 발생률 X% 감소'라는 수치가 의미를 갖으려면, 적어도 평가 데이터셋 공개, 라벨링 기준 명시, 독립 재현 실험, 그리고 프로덕션 환경 검증이 뒤따라야 합니다. 실제 운영 환경에서도 이 성능이 나올까요?—이 질문에 답하지 못하는 수치는 마케팅 문서와 다르지 않습니다.

전망: Human-in-the-loop는 선택이 아닌 구조적 필수

환각 문제의 단기 해법은 명확합니다. 버지니아 공대 논문이 결론으로 강조한 것처럼—"모든 통제 장치를 갖추더라도 고위험 결정에는 반드시 인간의 최종 검토가 병행돼야 한다." AI를 의사결정의 주체가 아니라 검토를 가속하는 보조 도구로 위치시키는 것, 그리고 LLM 출력에 대한 검증 체크포인트를 파이프라인에 강제로 삽입하는 것입니다.

장기적으로는 환각 측정 방법론의 표준화가 필요합니다. 제조사 자체 발표 수치가 아닌, 독립 기관의 표준 벤치마크와 공개된 평가 데이터셋이 없다면 '환각 X% 감소'라는 수치는 계속 신뢰하기 어렵습니다. 26.8%라는 숫자가 진짜 의미 있으려면, 그 숫자를 만든 실험을 내가 직접 노트북에서 재현할 수 있어야 합니다. 지금은 그게 가능하지 않습니다.

출처

더 많은 AI 트렌드를 Seedora 앱에서 확인하세요