에이전트 논리 모순의 정량적 탐지: 임베딩 유사도의 착시와 NLI 기반 총분산(Total Variance) 아키텍처

생성형 AI 에이전트의 확률론적(Stochastic) 특성을 다룰 때, 실무진이 가장 흔히 저지르는 치명적 실수는 코사인 유사도(Cosine Similarity)에 의존하여 출력의 일관성을 평가하는 것이다. "이 약은 임산부에게 완전히 안전하다"와 "이 약은 임신 중 절대 피해야 한다"라는 두 문장은 임베딩 공간에서 약 0.72의 상당히 높은 유사도를 갖는다. 동일한 엔티티(약, 임산부)를 공유하기 때문이다. 이는 단순한 텍스트의 분산이 아니라 완전히 상반된 논리적 모순(Contradiction)이며, 의료나 금융 도메인에서는 에이전트의 신뢰성을 근본적으로 붕괴시키는 위험 요소다.

최근 dev.to를 통해 공유된 파이썬 기반의 에이전트 평가 아키텍처는 이 한계를 극복하기 위해 총분산(Total Variance, arXiv:2602.23271) 개념과 NLI(Natural Language Inference) 모델을 결합했다. 단순히 $k$개의 출력값을 L2 정규화하여 쌍방향(Pairwise) 임베딩 차이를 계산하는 것에 그치지 않는다. 핵심은 110MB 크기의 경량 Cross-Encoder(nli-MiniLM2-L6-H768)를 파이프라인의 미들웨어로 배치하여, 텍스트 쌍의 관계를 수렴(Entailment), 중립(Neutral), 모순(Contradiction)으로 정량 분류하는 데 있다. NLI의 모순 점수(Contradiction Score)가 0.7을 초과할 경우 이를 '치명적(Critical)' 상태로 플래그를 세우는 결정론적 장치를 마련한 것이다.

이러한 NLI 기반의 모순 탐지는 에이전트의 자기수정(Self-correction) 메커니즘, 즉 반성(Reflection) 루프를 가동하는 가장 확실한 트리거(Trigger)가 된다. 하지만 프로덕션 환경의 관점에서, 수학적 엄밀함을 위해 매 쿼리마다 동일한 프롬프트를 $k=5$회 병렬 추론하여 분산을 측정하는 것은 토큰 비용(COGS)의 5배 증가와 P99 지연 시간(Latency)의 기하급수적 팽창을 초래한다. 또한, 명확한 종료 조건이 없는 자기수정은 무한 재시도 루프에 빠지는 '과잉 반성(Over-reflection)'으로 이어져 오히려 시스템 장애를 유발한다.

따라서 실질적인 시스템 최적화는 '적응형(Adaptive) 라우팅'으로 귀결된다. 평시에는 $k=2$로 최소 추론을 수행하고, NLI 기반 신뢰도 점수가 임계치(예: 0.5) 미만으로 떨어질 때만 $k$를 늘리거나 Temperature를 0.1로 낮춘 재추론 파이프라인으로 라우팅해야 한다. 동시에 최대 반성 횟수(Max retries)를 하드코딩하여 루프를 차단하고, 치명적 모순 발생 시 즉각 휴먼 인터랙션(Human-in-the-loop)으로 에스컬레이션하는 가드레일 설계가 필수적이다.

에이전트의 환각(Hallucination) 감지와 신뢰성 보장은 더 이상 프롬프트 엔지니어링이라는 모호한 영역에 머물러서는 안 된다. 에이전트의 출력 분산을 통계적으로 독립 측정하고, LLM-as-a-Judge가 아닌 디커플링된 전용 NLI 모델을 통해 실시간으로 논리를 검증하는 것. 이것이 비결정론적 AI 모델 위에서 결정론적 수준의 서비스 품질(SLA)을 담보하기 위한 데이터 중심 아키텍처의 표준이 될 것이다.

에이전트 논리 모순의 정량적 탐지: 임베딩 유사도의 착시와 NLI 기반 총분산(Total Variance) 아키텍처

출처