AI 비용 폭탄, 4단계 라우팅 아키텍처로 잡는 법

AI 비용 폭탄, 4단계 라우팅 아키텍처로 잡는 법

환멸의 골짜기 한가운데서, 멀티 LLM 라우터 설계가 팀의 생존 전략이 되는 이유

AI 비용 최적화 멀티 LLM 라우팅 4단계 라우터 멀티 프로바이더 AI-First 아키텍처 환멸의 골짜기 LLM 비용 관리
광고

가트너는 2025년, 생성형 AI가 공식적으로 '환멸의 골짜기'에 진입했다고 선언했다. 기업들은 2024년에 GenAI 프로젝트 하나에 평균 190만 달러를 썼지만, ROI에 만족하는 CEO는 30%가 채 되지 않는다. 브런치의 AI 70년사 분석이 지적하듯, 이 패턴은 낯설지 않다. 1980년대 전문가 시스템 붐이 꺼질 때도, 첫 번째 신경망 겨울이 왔을 때도 구조는 같았다. 기대가 먼저 올라가고, 청구서가 뒤따라오고, 실망이 쌓인다.

그런데 이번 국면은 이전 두 번의 겨울과 결정적으로 다른 지점이 있다. 기술 자체가 막혀서 멈춘 게 아니다. 어떻게 써야 하는지 아직 모르는 것이 문제다. 다시 말하면, 도구는 충분히 강력한데 운영 설계가 비용을 폭발시키고 있다는 뜻이다. 테크 리드 입장에서 이 차이는 중요하다. 기술을 버릴 이유가 아니라, 아키텍처를 다시 짤 이유가 된다.

그 구체적인 답 중 하나가 dev.to에 공개된 4단계 AI 비용 라우터 구현 사례에서 나온다. 33개 AI 프로바이더를 운영하는 AI Hub에서, 요청마다 수동으로 프로바이더를 고르는 방식은 처음부터 지속 불가능하다. 이 구현이 택한 전략은 단순하지만 효과적이다. 비용 기준으로 4단계 티어를 나누고, 가장 싼 것부터 순서대로 시도하다가 첫 번째 성공에서 즉시 탈출하는 것이다.

티어 구조를 보면 설계 의도가 명확하다.

티어 토큰 1K당 비용 용도
Free $0.0001 루틴 작업, 프로토타이핑
Budget $0.001 일반 추론
Performance $0.01 품질 중요 작업
Premium $0.05 복잡한 추론, 최고 품질

Free 티어에는 DeepSeek, Groq, Cerebras 등이, Premium에는 Anthropic, OpenAI, Google이 배치된다. 가격 차이만 500배다. 핵심 로직은 break outerLoop 하나다. 프로바이더를 순서대로 호출하다가 성공 응답을 받는 순간 양쪽 루프를 동시에 탈출한다. 불필요한 업스케일링을 구조적으로 차단하는 방식이다.

실제 운영 결과가 흥미롭다. Free 티어가 전체 요청의 약 80%를 처리한다. DeepSeek과 Groq의 안정성이 예상보다 높기 때문이다. Budget 티어가 나머지 대부분을 커버하고, Premium은 거의 호출되지 않는다. 이게 포인트다. 대부분의 팀이 Claude나 GPT-4o를 기본값으로 쓰고 있다면, 라우터 하나만 앞에 세워도 비용 구조가 근본적으로 바뀐다.

코드 레벨 구현도 실용적이다. 모든 성공 호출은 ai_hub_chat_logs 테이블에 실제 사용 티어, 프로바이더, 추정 비용을 함께 기록한다. 이 로그가 쌓이면 질문이 생긴다. Free 티어 성공률이 떨어지는 시간대가 있는가? 특정 작업 유형에서 Premium 에스컬레이션이 반복되는가? 비용 최적화는 한 번의 설정으로 끝나는 게 아니라, 이 데이터를 보면서 티어 배치를 계속 조정하는 운영 루프다. 또한 클라이언트(Flutter 예시 코드 기준)에서 tier: 'performance'를 직접 지정할 수 있어, 특정 기능은 처음부터 고품질 티어로 고정하는 것도 가능하다.

이 아키텍처를 AI-First 팀 설계 관점에서 해석하면 몇 가지 시사점이 나온다.

첫째, 멀티 프로바이더는 선택이 아니라 위험 분산이다. 단일 프로바이더에 묶여 있으면 해당 서비스 장애가 곧 서비스 다운이 된다. 라우터는 페일오버를 자동화한다.

둘째, 비용 최적화는 모델 선택 문제가 아니라 라우팅 설계 문제다. 'GPT-4o가 너무 비싸다'고 모델을 바꾸는 것보다, 80%의 요청이 Free 티어로 처리되도록 라우터를 설계하는 쪽이 ROI가 훨씬 높다.

셋째, 비용 가시성이 없으면 최적화도 없다. 로그 없이 라우터를 운영하면 블랙박스가 된다. 어느 티어가 얼마나 쓰이는지 추적하는 구조가 먼저다.

솔직히 짚을 부분도 있다. 33개 프로바이더를 실제로 유지 관리하는 비용은 코드 밖에 있다. API 계약, 인증 관리, 프로바이더별 파라미터 차이, 모델 버전 변경 대응까지 포함하면 운영 복잡도는 상당하다. 소규모 팀이라면 Free-Budget-Premium 3단계 정도로 단순화하고, 프로바이더 수를 5~6개로 제한하는 것이 현실적이다. 라우터의 정교함보다 운영 가능한 복잡도를 먼저 설계해야 한다.

결국 지금의 AI 환멸 국면에서 살아남는 팀은 도구를 포기하는 팀도, 맹목적으로 믿는 팀도 아니다. AI 70년 역사가 반복해서 보여준 패턴처럼, 겨울은 기술이 실패해서가 아니라 기대가 먼저 무너져서 온다. 이번 겨울은 기술의 천장이 아니라 운영 설계의 부재에서 온다. 4단계 라우터 같은 구체적인 아키텍처 결정이 쌓일 때, 팀은 환멸의 골짜기를 통과하는 실질적인 발판을 갖게 된다.

출처

더 많은 AI 트렌드를 Seedora 앱에서 확인하세요