RAG 정답률과 원가를 동시에 올리는 법: GraphRAG의 ‘추론 병목’이 곧 성장 병목이다

GraphRAG를 붙였는데도 “자료는 잘 찾는데 답이 틀린다”는 불만이 나온다면, 그건 기능 문제가 아니라 성장 병목이다. 사용자는 ‘검색 성공’이 아니라 ‘정답 경험’에 돈과 시간을 지불하고, 그 경험이 흔들리면 신뢰가 깨져 리텐션과 전환이 무너진다. 브런치에 소개된 논문 The Reasoning Bottleneck in Graph-RAG 분석은 이 직감을 데이터로 못 박는다. KET-RAG를 뜯어보니 필요한 정보는 77~91% 확률로 이미 찾아오는데, 최종 정답률은 35~78%에 머물렀고 실패 원인의 73~84%가 ‘추론 실패’였다(출처: 브런치/구글뉴스 링크).

이 대목이 중요한 이유는, 우리가 흔히 RAG 성능 이슈를 “retriever를 더 세게” 혹은 “컨텍스트를 더 많이”로 풀려 하기 때문이다. 하지만 검색이 충분히 맞아도 모델이 연결(Reasoning)을 못 하면, 제품 지표 관점에서는 Activation 이후의 실망이 된다. 즉 첫 사용에서 “오, 찾긴 하네”가 아니라 “결론이 이상한데?”로 끝나고, 이탈은 D1에서 바로 찍힌다. GraphRAG의 병목은 기술적 디테일이 아니라 ‘정확도 → 신뢰 → 재사용(리텐션) → 유료전환’으로 이어지는 퍼널의 목이다.

논문이 제안하는 첫 레버는 ‘구조화된 추론’이다. 그냥 “이 문서들 보고 답해”가 아니라, 그래프 DB 질의(SPARQL)처럼 질문을 엔티티-관계-엔티티 트리플로 쪼개 단계적으로 연결하게 만든다(SPARQL CoT/Structured Prompting). 결과는 정직하다. 이 방식만으로 정확도가 최대 14%p 오른다. 그로스 관점에서는, 이 14%p가 단순 모델 성능이 아니라 재시도율 감소(불필요한 반복 질문), CS 티켓 감소, 팀 내부 검수 비용 감소로 번역된다. “답이 맞는다”는 감각은 곧 추천과 확산의 전제(바이럴의 토양)다.

두 번째 레버는 ‘컨텍스트 압축’인데, 여기서 포인트는 비싼 LLM 요약이 아니라 그래프 토폴로지를 따라가며 관련 없는 노드를 기계적으로 제거한다는 점이다. 컨텍스트를 60% 줄이면서 성능이 오히려 좋아졌다는 결과는, 비용 절감이 ‘품질과 트레이드오프’가 아닐 수 있음을 보여준다. 토큰을 줄이면 레이턴시가 내려가고, 레이턴시는 곧 온보딩 완료율과 직결된다. 특히 B2B 워크플로우형 제품에서 “첫 답까지 2초 단축”은 데모 성공률과 POC 전환에 체감 차이를 만든다.

결정타는 조합 효과다. 논문에서는 Llama-8B(소형) + 위 기법들이 Llama-70B(대형) ‘순정’과 대등하거나 더 높은 성능을 내면서 비용은 12배 저렴했다고 말한다(출처: 브런치 요약). 이 수치는 단순 인프라 최적화가 아니라 실험 예산의 해방이다. 같은 예산으로 더 많은 트래픽을 태우거나, 같은 트래픽으로 CAC를 낮추는 채널을 더 오래 돌려볼 수 있다. “마진이 남아야 실험이 돈다”는 관점에서, 추론 원가 절감은 곧 성장 속도의 상한을 올린다.

여기서 시장 맥락까지 연결하면 더 선명해진다. 네이트/디인포메이션 보도에 따르면 앤트로픽은 추론 비용 압박 때문에 칩 공급 다변화(프랙타일 등)를 검토하고 있다. 즉, 업계는 모델 품질 경쟁만큼이나 ‘추론 비용 전쟁’에 들어갔다. 하지만 모든 팀이 칩을 협상할 수는 없다. 대부분의 제품 팀에게 현실적인 승부처는 추론 병목을 구조로 풀어 소형 모델+적은 컨텍스트로 같은(혹은 더 나은) 정답률을 만드는 것이다. 이게 되면 LTV/CAC 구조가 바뀐다.

시사점은 명확하다. GraphRAG를 도입한 팀이 다음으로 해야 할 일은 retriever 튜닝만이 아니라, (1) ‘추론 실패’ 비중을 계측해 병목을 확정하고 (2) 구조화 프롬프트/SPARQL CoT를 최소 단위로 A/B 테스트하며 (3) 그래프 기반 컨텍스트 다이어트로 토큰/레이턴시/정답률을 동시에 모니터링하는 것이다. 핵심 KPI는 단일 정확도가 아니라 정답률×레이턴시×비용의 곱(제품에 맞게 가중치)으로 잡아야 한다. 그래야 “정확도 올리다 적자” 같은 함정을 피한다.

전망은 한 문장으로 정리된다. RAG의 다음 경쟁은 ‘더 많이 가져오기’가 아니라 ‘가져온 것을 더 잘 연결하고, 더 싸게 내보내기’다. 추론 병목을 뚫는 팀은 신뢰를 지표로 만들고(리텐션/전환), 원가를 실험 자본으로 바꾼다(성장 속도). GraphRAG 최적화는 기술 부채 상환이 아니라, 퍼널을 다시 여는 성장 레버다.