RAG 환각의 디코딩 레이어 개입(CAG)과 Eval 파이프라인의 정량적 교차 검증

환각(Hallucination)은 지식(Retrieval)의 부재가 아니라, 자기회귀(Autoregressive) 생성 과정에서의 통제력 상실이다. RAG 파이프라인에서 Context Precision과 Recall이 1.0에 수렴하더라도 환각이 발생하는 이유는, 매 스텝마다 모델이 계산하는 P(token | context)의 조건부 확률이 이전 생성 토큰들에 의해 오염되기 때문이다. 이는 최근 dev.to에 게재된 'Context-Anchored Generation (CAG)' 아키텍처가 지적하듯, 프롬프트의 영향력이 약화되고 고빈도 패턴이 지배하는 의미적 표류(Semantic Drift) 현상으로 귀결된다.

이를 해결하기 위해 CAG는 후처리 필터링이나 사전 프롬프팅이 아닌 디코딩 레이어에 직접 개입한다. 생성된 토큰과 원본 프롬프트(Anchor) 간의 코사인 유사도 기반 거리(Δ = 1 − cosine_similarity)를 매 스텝 추적하여, 특정 임계치를 초과할 경우 로짓(Logits) 샘플링에 페널티를 부여하는 '제한(Constraint)' 모드와 '확장(Expansion)' 모드를 동적으로 스위칭한다. 주목할 만한 점은 이 폐쇄 루프(Closed-loop) 제어 메커니즘이 모델 아키텍처에 종속되지 않으며, 토큰당 약 0.003%의 미미한 지연 시간(Overhead)만을 발생시킨다는 점이다. 이는 프로덕션 환경의 P99 Latency 예산 내에서 모델의 사실성(Factuality)을 강제할 수 있는 매우 비용 효율적인 접근이다.

그러나 디코딩 개입의 실질적 효용을 증명하기 위해서는 정량적이고 독립적인 평가 파이프라인이 필수적이다. Ultra Dune의 LLM Eval 프레임워크 벤치마크에 따르면, RAGAS는 RAG 파이프라인의 핵심 지표인 'Faithfulness(컨텍스트 부합도)'와 'Answer Relevancy(답변 적합성)'를 디커플링하여 평가하는 데 탁월한 성능을 보인다. 반면, DeepEval은 평가를 소프트웨어 테스트의 영역으로 끌어들여 pytest 기반의 CI/CD 통합을 지원한다. CAG와 같은 디코딩 개입을 실험할 때, DeepEval을 활용하면 코드 푸시 단계에서 자동화된 회귀 테스트(Regression Test)를 수행하여 의미적 연속성이 훼손되었는지를 즉각적으로 모니터링할 수 있다.

문제는 평가의 단위 경제학(Unit Economics)이다. RAGAS나 DeepEval 모두 내부적으로 LLM-as-a-Judge 방식을 사용하므로, 데이터셋 규모에 비례해 토큰 비용이 선형적으로 증가한다. 예컨대 1,000개의 샘플에 4개의 RAGAS 지표를 적용하면 4,000번 이상의 LLM API 호출이 발생한다. 또한, CAG의 의미적 연속성 강제는 추상적 창의성이나 급격한 주제 전환이 필요한 태스크에서는 오히려 성능 저하를 유발하는 트레이드오프를 지닌다.

결론적으로 신뢰할 수 있는 생성형 AI 시스템은 직관에 의존하는 프롬프트 엔지니어링을 넘어, 디코딩 단계의 결정론적 개입(CAG)과 이를 지속적으로 검증하는 자동화된 MLOps 평가 파이프라인(DeepEval, Braintrust 등)의 결합으로 완성된다. 엔지니어는 시스템의 목적 함수에 맞게 생성의 자유도(Temperature/Drift allowance)와 평가 프레임워크의 실행 비용 간의 균형점을 수치적으로 설계해야 한다.

RAG 환각의 디코딩 레이어 개입(CAG)과 Eval 파이프라인의 정량적 교차 검증

출처