에이전트 COGS 절감 루프: ‘토큰 낭비’부터 잡아야 가격 실험이 열린다

AI/에이전트가 제품에 붙는 순간 토큰·크레딧 비용은 더 이상 ‘인프라비’가 아니라 COGS입니다. 이 COGS가 높으면 가격을 올리기도 어렵고(실험 상한선), 무료 구간을 넓히기도 어렵고(전환율), 채널을 스케일할수록 손익이 먼저 무너집니다. 즉 “모델 성능”이 아니라 “단위 요청당 비용”이 그로스의 발목을 잡는 구조가 됐습니다.

dev.to의 Manus AI 실측 분석은 이 문제를 숫자로 때립니다. 30일간 217개 태스크를 기록했더니 크레딧의 73%가 낭비였고, 핵심 원인은 ‘비싼 모델로의 과도한 라우팅’이었습니다(태스크 75.6%가 Max로 갔지만, 정당화된 건 21.7%). 더 불편한 진실은 낭비가 복잡한 작업이 아니라 “파일 편집, 변수명 변경, 검색/룩업, 템플릿 생성” 같은 루틴에서 폭발했다는 점입니다. 에이전트가 똑똑해질수록, 우리는 ‘CEO 월급으로 서류철 정리’를 시키고 있었던 겁니다.

문제는 여기서 끝나지 않습니다. 같은 분석에서 재시도 비용(약 15%), 컨텍스트 재구축(약 12%), 쪼개서 실행된 비배치 오퍼레이션(약 8%)이 추가 누수를 만들었습니다. 이건 제품 관점에서 “사용자 1회 요청”이 내부적으로 여러 번의 호출·리드·리트라이로 팽창한다는 뜻이고, 결국 ARPU가 오르기 전에 COGS가 먼저 치솟는 패턴을 만듭니다.

이 흐름은 기업 운영 트렌드와도 맞물립니다. AI타임스가 인용한 WSJ 보도처럼 기업들은 이제 ‘토큰 효율성’을 KPI로 추적하고, 개인별 사용량/패턴까지 들여다보기 시작했습니다. 예전에는 “AI를 쓰라”였다면, 이제는 “같은 결과를 더 적은 토큰으로 내라”가 됩니다. 이 변화는 스타트업에 기회이기도 합니다. 토큰 비용을 통제하는 제품/옵스 역량이 곧 엔터프라이즈 세일즈에서의 신뢰(구매 승인)와 확장성(스케일)로 직결되기 때문입니다.

그리고 모델 시장은 ‘저비용 계층화’로 답을 내고 있습니다. dev.to의 GPT-5.4 Mini/Nano 비교 글이 말하는 핵심은 서브에이전트 티어의 부상입니다. 오케스트레이터(비싼 모델)는 판단만 하고, 대량·반복·정형 작업은 Mini/Nano 같은 저가 모델로 내려보내는 구조가 기본값이 됩니다. 여기서 그로스 관점의 결론은 단순합니다. COGS를 깎으면 마진이 좋아지는 게 끝이 아니라, “실험 가능한 횟수”가 늘어납니다. 더 많은 온보딩 A/B, 더 공격적인 프리미엄 벽, 더 넓은 무료 할당량을 설계할 여지가 생깁니다.

실행 전략은 ‘절감 루프’로 설계해야 합니다. ①계측: 태스크 유형·모델·토큰·재시도·컨텍스트 재사용을 이벤트로 쪼개 추적합니다(유저/워크스페이스/기능 단위). ②진단: 어떤 기능이 비싼 모델로 과라우팅되는지, 리트라이/컨텍스트 로딩이 어디서 발생하는지 코호트로 봅니다. ③개입: (a) 라우팅 레이어로 단순 작업을 Mini/Nano/저가로 강제, (b) 배치/압축/캐시로 컨텍스트 재구축을 줄이고, (c) 예산 가드레일(하드 토큰 상한, step 제한)로 폭주를 막습니다. Manus 사례처럼 태스크 분해+라우팅만으로도 월 사용량을 4,800→1,800~2,200 크레딧으로 낮출 수 있다면, 그 차이는 곧 ‘가격 실험의 runway’가 됩니다.

전망은 명확합니다. 첫째, “토큰=전기요금”처럼 관리되는 시대가 와서, 제품은 기본적으로 비용 투명성과 예산 통제를 갖춰야 팔립니다. 둘째, 모델은 더 싸지고 더 계층화되지만, 비용은 내려가기보다 ‘사용량 폭증’으로 다시 올라갈 가능성이 큽니다(에이전트가 챗봇보다 100배 토큰을 쓴다는 지적처럼). 셋째, 승자는 성능이 아니라 단위 경제(Unit Economics)로 에이전트를 운영하는 팀입니다. COGS 절감은 비용 최적화가 아니라, 성장 실험을 확장하는 엔진입니다—지금 당장 계측부터 박아야 합니다.

에이전트 COGS 절감 루프: ‘토큰 낭비’부터 잡아야 가격 실험이 열린다

출처