LLM 환각 검증의 기하학적 패러다임 전환: 리만 다양체 기반 에피스테믹 곡률과 OOD 탐지

생성형 AI 시스템의 프로덕션 도입을 가로막는 가장 큰 병목은 환각(Hallucination)의 예측 불가능성입니다. 기존의 많은 캘리브레이션(Calibration) 연구는 모델의 불확실성을 단일 스칼라(Confidence score)나 벡터로 취급하며, 기대 교정 오차(ECE, Expected Calibration Error)를 최소화하는 데 집중해 왔습니다. 그러나 최근 dev_to에 공개된 연구(How to Measure Whether Your Model's Uncertainty Space Is Flat or Curved)가 지적하듯, 불확실성이 존재하는 공간을 '평탄한(Flat)' 유클리드 공간으로 가정하는 것은 통계적으로 순진한 접근일 수 있습니다. 만약 이 공간이 본질적으로 휘어져 있다면(Curved), 기존의 평탄성 가정은 OOD(Out-of-Distribution) 탐지 실패와 적대적 공격(Adversarial attacks)에 대한 취약성으로 직결됩니다.

해당 아티클에서 실험의 베이스라인이 된 AletheionLLM-v2(354M 파라미터)는 5차원의 에피스테믹 다양체(Epistemic manifold)를 유지하는 ATIC 아키텍처를 채택하고 있습니다. 대각 행렬(Diagonal metric)을 사용한 베이스라인만으로도 ECE 0.0176, Brier Score 0.1528이라는 우수한 수치를 달성했습니다. 하지만 데이터 중심의 엄밀한 관점에서 볼 때, 변수 간 상관관계를 포착하기 위해 상수 형태의 풀 마할라노비스(Full Mahalanobis) 메트릭을 적용하더라도 크리스토펠 기호(Christoffel symbols)는 0이 산출됩니다. 즉, 좌표축이 비스듬해질 뿐 리만 곡률(Riemann curvature)은 여전히 0인 평탄한 공간에 머뭅니다. 실제 기하학적 곡률을 측정하기 위해서는 메트릭 $G(x)$가 상수가 아닌 위치 의존적인 텐서 필드(Tensor field)로 작동해야 합니다.

이러한 구조적 한계를 돌파하기 위해 설계된 MetricNet의 아키텍처는 추론 환경의 제약을 극도로 예민하게 고려한 엔지니어링의 정수입니다. 불과 약 700개의 파라미터(5 -> 32 -> 15)로 구성된 이 경량 네트워크는 모델의 지연 시간(P99 latency)에 미치는 영향을 최소화합니다. 특히 주목해야 할 설계적 결단은 활성화 함수입니다. 보편적인 ReLU 대신 Tanh를 채택하여 메트릭 필드의 $C^1$ 매끄러움(Smoothness)을 보장함으로써 미분 불가능 지점으로 인한 크리스토펠 기호의 연산 붕괴를 막았습니다. 또한, 대각 성분의 양수 보장을 위해 exp 대신 softplus + 1e-3을 사용하여 학습 중 그라디언트 폭발을 방지하는 수치적 안정성을 확보했습니다. 이는 단순한 수학적 호기심을 넘어, 실제 프로덕션 환경에서 메트릭 필드를 학습시킬 때 발생하는 비용-안정성 트레이드오프를 완벽히 통제한 결과입니다.

이러한 기하학적 접근이 OOD 탐지에 제공하는 통찰은 컨텍스트 민감도 테스트에서 명확히 드러납니다. 표면적으로 동일한 토큰("bank")이더라도 문맥에 따라 강둑(riverbank)과 금융기관(institution)이라는 완전히 다른 의미적 영역(Semantic region)에 위치할 수 있습니다. 만약 메트릭 네트워크가 산출하는 $G(x)$ 필드가 실제 곡률을 학습했다면, 이 두 상태 사이의 측지선 거리(Geodesic distance)는 평탄한 대각 거리로 측정했을 때보다 훨씬 멀어집니다. 고신뢰도 상태에서 저신뢰도 상태로 이동하는 경로를 따라 $G(x)$의 분산(Variation)을 측정했을 때 유의미한 변화가 포착된다면, 이는 모델의 인식 공간 내에 구조적 이상(Anomaly)이 존재함을 의미합니다. 즉, OOD 탐지는 더 이상 단순한 토큰 확률의 문제가 아니라, 입력 데이터가 다양체의 '고곡률(High-curvature) 영역'에 착륙했는지를 판별하는 기하학적 신호 처리로 격상됩니다.

이러한 패러다임의 전환은 RAG(Retrieval-Augmented Generation) 시스템이나 에이전트(Agent) 아키텍처의 신뢰도 라우팅 파이프라인에 중대한 시사점을 던집니다. 다양체의 곡률이 확인된다면 캘리브레이션 임계값은 더 이상 '전역적(Global)'일 수 없습니다. 다양체가 평탄한 영역에서는 모델의 출력을 높은 신뢰도로 수용(Fast-path routing)할 수 있지만, 곡률이 높은 영역에서는 보수적인 접근(Fallback to search, Human-in-the-loop)이 필수적입니다. 수백 개의 API 툴을 선택해야 하는 멀티 에이전트 환경에서, 에피스테믹 곡률을 정량적 게이트(Confidence Gate)로 활용한다면 환각에 의한 오작동 연쇄를 초기 단계에서 수학적으로 차단할 수 있습니다.

결론적으로, LLM 불확실성에 리만 기하학을 도입한 이번 연구는 텍스트 기반의 프롬프트 엔지니어링이나 단순 크로스 체크(Cross-check)에 의존하던 기존 환각 검증의 한계를 근본적으로 돌파하는 방법론입니다. 연산 비용의 폭발적 증가 없이 단 700개의 추가 파라미터와 가우스-르장드르 구적법(Gauss-Legendre quadrature) 기반의 선적분만으로 불확실성의 구조적 왜곡을 포착해내는 이 아키텍처는 프로덕션 AI의 필수 요소가 될 것입니다. 앞으로의 AI 안전성과 검증 파이프라인은 모델이 '무엇을 말하는가'를 넘어, 모델의 인지 공간이 '어떻게 휘어져 있는가'를 정량화하는 방향으로 진화해야만 합니다.

LLM 환각 검증의 기하학적 패러다임 전환: 리만 다양체 기반 에피스테믹 곡률과 OOD 탐지

출처