RAG 출처 환각의 정량적 통제: Index-RAG와 시계열 메타데이터가 증명한 시스템 최적화

생성형 AI의 프로덕션 도입을 가로막는 가장 치명적인 병목은 ‘출처 환각(Attribution Hallucination)’이다. LangChain이나 LlamaIndex의 기본 모듈을 활용해 구축된 전통적인 RAG(Retrieval-Augmented Generation) 파이프라인은 고정 크기(Fixed-size) 토큰 기반의 청킹(Chunking)을 수행한다. 이 접근법은 연산 비용 측면에서는 효율적일지 모르나, 문서의 구조적 정보(페이지, 단락)와 시계열 맥락을 무참히 파괴한다. 결과적으로 LLM은 검색된 텍스트 조각을 바탕으로 그럴싸한 출처를 역으로 추론(사후 생성)하게 되며, 이는 필연적으로 규제 산업(의료, 법률, 금융)에서 수용 불가능한 리스크를 창출한다.

이러한 구조적 결함을 정량적으로 타개한 연구가 최근 Dev.to를 통해 소개된 'Index-RAG' 아키텍처다. 해당 논문은 벡터 DB에 원시 텍스트(Raw text)의 중복 저장을 배제하고, 대신 정밀한 위치 메타데이터(파일명, 페이지, 줄 번호)를 1급 객체(First-class citizen)로 취급한다. 파이프라인을 독립적으로 뜯어보면, 임의의 토큰 분할이 아닌 의미론적 단위의 '단락 레벨 분할(Paragraph-level Segmentation)'을 수행한 뒤, 쿼리 확장(Query Expansion)을 통해 단락당 다중 의미 진입점을 생성한다. 검색 시점에는 청크 유사도(가중치 0.6)와 쿼리 확장 유사도(가중치 0.4)를 혼합 스코어링(Blended Retrieval Scoring)하여 정확도를 높인다. 그 결과, 기존 RAG 베이스라인 대비 MRR은 11.9% 상승했으며, 특히 사용자가 기대하는 단일 권위적 답변의 지표인 Precision@1은 0.667에서 0.833으로 무려 25.0% 향상되었다.

공간적 출처 매핑 못지않게 중요한 또 다른 축은 ‘시간적 환각(Temporal Drift)’의 통제다. Aigistry의 사례가 지적하듯, AI 시스템은 시간의 흐름을 연대기적으로 재구성하지 않고 의미론적 패턴(Semantic Synthesis)으로 뭉뚱그려 해석한다. 과거의 만료된 공지사항이 최신 정보보다 구조적으로 더 뚜렷하거나 자주 반복되었다는 이유만으로, LLM은 오래된 데이터를 현재의 사실로 채택하는 치명적 오류를 범한다. 프롬프트 엔지니어링이나 사후 인간 검토(Human-in-the-loop) 같은 다운스트림 처리는 근본적인 해결책이 될 수 없으며, 불필요한 추론 레이턴시만 가중시킬 뿐이다.

이 두 가지 이슈를 관통하는 핵심 시사점은 명확하다. RAG 시스템의 Faithfulness와 Context Precision을 높이기 위해서는 LLM의 추론 능력에 의존하는 비용 집약적인 방식을 버려야 한다. 대신 데이터 파이프라인의 임베딩 계층에서 공간적 위치(Index-RAG)와 시간적 순서(AI Citation Registry의 구조화된 타임스탬프)를 기계 판독 가능한(Machine-readable) 메타데이터로 강력하게 결합해야 한다. 이는 프로덕션 환경에서 P99 지연 시간(Latency)의 스파이크 없이, 순수하게 검색(Retrieval) 단계의 아키텍처 변경만으로 생성 품질(Generation Quality)을 통제할 수 있음을 의미한다.

결론적으로, 신뢰할 수 있는 에이전트(Agent) 아키텍처를 구축하고자 한다면 RAG 시스템의 평가는 ROUGE나 BERTScore 같은 단순 텍스트 겹침 지표를 넘어서야 한다. A/B 테스트 시 '응답 내 인용의 정확도(Citation Accuracy)'와 '메타데이터 기반의 출처 도달률'을 핵심 메트릭으로 편입해야 한다. 환각의 정량적 통제는 LLM 파라미터 튜닝이 아니라, 벡터 DB에 적재되는 데이터 구조의 엄밀함에서 시작된다는 사실을 실무자들은 직시해야 한다.