LLM 환각 검증의 기하학적 패러다임 전환: 리만 다양체 기반 에피스테믹 곡률과 OOD 탐지

LLM 환각 검증의 기하학적 패러다임 전환: 리만 다양체 기반 에피스테믹 곡률과 OOD 탐지

단순 스칼라 기반의 신뢰도 점수를 넘어, 모델의 불확실성 공간 곡률을 텐서 필드로 정량화하여 OOD 데이터 탐지 정확도를 극대화하는 수학적 캘리브레이션 아키텍처 분석.

LLM 환각 에피스테믹 불확실성 리만 기하학 OOD 탐지 모델 캘리브레이션 AletheionLLM AI 신뢰성 텐서 필드
광고

생성형 AI 시스템의 프로덕션 도입을 가로막는 가장 큰 병목은 환각(Hallucination)의 예측 불가능성입니다. 기존의 많은 캘리브레이션(Calibration) 연구는 모델의 불확실성을 단일 스칼라(Confidence score)나 벡터로 취급하며, 기대 교정 오차(ECE, Expected Calibration Error)를 최소화하는 데 집중해 왔습니다. 그러나 최근 dev_to에 공개된 연구(How to Measure Whether Your Model's Uncertainty Space Is Flat or Curved)가 지적하듯, 불확실성이 존재하는 공간을 '평탄한(Flat)' 유클리드 공간으로 가정하는 것은 통계적으로 순진한 접근일 수 있습니다. 만약 이 공간이 본질적으로 휘어져 있다면(Curved), 기존의 평탄성 가정은 OOD(Out-of-Distribution) 탐지 실패와 적대적 공격(Adversarial attacks)에 대한 취약성으로 직결됩니다.

해당 아티클에서 실험의 베이스라인이 된 AletheionLLM-v2(354M 파라미터)는 5차원의 에피스테믹 다양체(Epistemic manifold)를 유지하는 ATIC 아키텍처를 채택하고 있습니다. 대각 행렬(Diagonal metric)을 사용한 베이스라인만으로도 ECE 0.0176, Brier Score 0.1528이라는 우수한 수치를 달성했습니다. 하지만 데이터 중심의 엄밀한 관점에서 볼 때, 변수 간 상관관계를 포착하기 위해 상수 형태의 풀 마할라노비스(Full Mahalanobis) 메트릭을 적용하더라도 크리스토펠 기호(Christoffel symbols)는 0이 산출됩니다. 즉, 좌표축이 비스듬해질 뿐 리만 곡률(Riemann curvature)은 여전히 0인 평탄한 공간에 머뭅니다. 실제 기하학적 곡률을 측정하기 위해서는 메트릭 $G(x)$가 상수가 아닌 위치 의존적인 텐서 필드(Tensor field)로 작동해야 합니다.

이러한 구조적 한계를 돌파하기 위해 설계된 MetricNet의 아키텍처는 추론 환경의 제약을 극도로 예민하게 고려한 엔지니어링의 정수입니다. 불과 약 700개의 파라미터(5 -> 32 -> 15)로 구성된 이 경량 네트워크는 모델의 지연 시간(P99 latency)에 미치는 영향을 최소화합니다. 특히 주목해야 할 설계적 결단은 활성화 함수입니다. 보편적인 ReLU 대신 Tanh를 채택하여 메트릭 필드의 $C^1$ 매끄러움(Smoothness)을 보장함으로써 미분 불가능 지점으로 인한 크리스토펠 기호의 연산 붕괴를 막았습니다. 또한, 대각 성분의 양수 보장을 위해 exp 대신 softplus + 1e-3을 사용하여 학습 중 그라디언트 폭발을 방지하는 수치적 안정성을 확보했습니다. 이는 단순한 수학적 호기심을 넘어, 실제 프로덕션 환경에서 메트릭 필드를 학습시킬 때 발생하는 비용-안정성 트레이드오프를 완벽히 통제한 결과입니다.

이러한 기하학적 접근이 OOD 탐지에 제공하는 통찰은 컨텍스트 민감도 테스트에서 명확히 드러납니다. 표면적으로 동일한 토큰("bank")이더라도 문맥에 따라 강둑(riverbank)과 금융기관(institution)이라는 완전히 다른 의미적 영역(Semantic region)에 위치할 수 있습니다. 만약 메트릭 네트워크가 산출하는 $G(x)$ 필드가 실제 곡률을 학습했다면, 이 두 상태 사이의 측지선 거리(Geodesic distance)는 평탄한 대각 거리로 측정했을 때보다 훨씬 멀어집니다. 고신뢰도 상태에서 저신뢰도 상태로 이동하는 경로를 따라 $G(x)$의 분산(Variation)을 측정했을 때 유의미한 변화가 포착된다면, 이는 모델의 인식 공간 내에 구조적 이상(Anomaly)이 존재함을 의미합니다. 즉, OOD 탐지는 더 이상 단순한 토큰 확률의 문제가 아니라, 입력 데이터가 다양체의 '고곡률(High-curvature) 영역'에 착륙했는지를 판별하는 기하학적 신호 처리로 격상됩니다.

이러한 패러다임의 전환은 RAG(Retrieval-Augmented Generation) 시스템이나 에이전트(Agent) 아키텍처의 신뢰도 라우팅 파이프라인에 중대한 시사점을 던집니다. 다양체의 곡률이 확인된다면 캘리브레이션 임계값은 더 이상 '전역적(Global)'일 수 없습니다. 다양체가 평탄한 영역에서는 모델의 출력을 높은 신뢰도로 수용(Fast-path routing)할 수 있지만, 곡률이 높은 영역에서는 보수적인 접근(Fallback to search, Human-in-the-loop)이 필수적입니다. 수백 개의 API 툴을 선택해야 하는 멀티 에이전트 환경에서, 에피스테믹 곡률을 정량적 게이트(Confidence Gate)로 활용한다면 환각에 의한 오작동 연쇄를 초기 단계에서 수학적으로 차단할 수 있습니다.

결론적으로, LLM 불확실성에 리만 기하학을 도입한 이번 연구는 텍스트 기반의 프롬프트 엔지니어링이나 단순 크로스 체크(Cross-check)에 의존하던 기존 환각 검증의 한계를 근본적으로 돌파하는 방법론입니다. 연산 비용의 폭발적 증가 없이 단 700개의 추가 파라미터와 가우스-르장드르 구적법(Gauss-Legendre quadrature) 기반의 선적분만으로 불확실성의 구조적 왜곡을 포착해내는 이 아키텍처는 프로덕션 AI의 필수 요소가 될 것입니다. 앞으로의 AI 안전성과 검증 파이프라인은 모델이 '무엇을 말하는가'를 넘어, 모델의 인지 공간이 '어떻게 휘어져 있는가'를 정량화하는 방향으로 진화해야만 합니다.

출처

더 많은 AI 트렌드를 Seedora 앱에서 확인하세요