AI 에이전트 COGS 절감은 ‘토큰 다이어트’가 아니라 ‘메모리+관측성’의 결합이다

LLM/에이전트 제품의 COGS는 이제 백엔드 비용이 아니라 그로스 지표를 직접 흔드는 ‘제품 변수’다. 토큰이 늘면 지연시간이 늘고, 지연시간은 첫 가치 도달(TTV)을 늦춰 활성화율을 깎는다. 툴콜이 폭증하면 세션당 비용이 튀고, 결국 ARPU 실험(가격/패키징) 자체가 불가능해진다. 그래서 “모델을 더 똑똑하게”보다 “운영지표를 예측 가능하게”가 먼저다.

dev.to의 토큰 최적화 글(How to Reduce LLM Token Usage…)은 흔한 처방—시스템 프롬프트 다이어트, 히스토리 요약, 저가 모델 스위칭—이 왜 반복적으로 실패하는지 ‘상태 비저장성(statelessness) 세금’으로 정의한다. LLM 호출은 매번 새로 시작하니, 사용자의 선호/제약/과거 결정 맥락을 매 요청마다 컨텍스트 윈도우에 재주입해야 한다. 복잡해서가 아니라 “기억을 프롬프트로 운반”하느라 1회 1만 토큰이 나가는 구조적 낭비가 생긴다.

여기서 중요한 포인트: 요약(summarization)은 비용을 줄이는 듯 보이지만, 실제로는 손실·노후화된 요약이 제품 품질을 갉아먹어 재시도/추가 질의(=토큰 재폭증)를 유발한다. 즉 단기 COGS는 내려가도 장기 리텐션과 NPS가 무너져 LTV가 같이 내려간다. 글이 제안하는 방향은 “프롬프트 엔지니어링이 아니라 메모리 인프라”다. 사실을 의미 단위로 추출해 저장하고(RAG/벡터DB를 넘어), 시간성/충돌 해결/근거(provenance)까지 관리해 ‘지금 필요한 것만’ 정밀하게 가져오라는 주장이다(예: MemoryLake, LangMem, Mem0 언급).

하지만 메모리만으로는 COGS 거버넌스가 완성되지 않는다. 두 번째 dev.to 글(See Every AI Tool Call…)이 던지는 질문이 정확하다: “에이전트가 47번 툴을 호출했는데, 그게 얼마였지?” MCP(Model Context Protocol)로 툴을 붙이면 제품은 강해지지만, 관측성이 없으면 비용은 블랙박스가 된다. benchmark-broccoli는 MCP 프록시로 모든 툴콜의 입력/출력 토큰, 비용 추정, 지연시간을 세션 단위로 묶어 보여준다. 이건 단순 모니터링이 아니라 ‘실험 가능한 비용 회계’다.

그로스 관점에서 이 조합(메모리 인프라 + 툴콜 관측성)이 의미하는 바는 명확하다. ① 퍼널: 온보딩/첫 과업에서 불필요한 컨텍스트 주입과 과도한 툴 라운드트립이 줄면 TTV가 단축되고 D1 활성화가 오른다. ② 리텐션: “이 에이전트는 나를 기억한다”는 체감은 재방문 이유를 만든다. 동시에 지연시간 분산이 줄어 ‘예상 가능한 경험’을 제공해 churn을 낮춘다. ③ 수익화: 세션당 COGS를 도구/워크플로우 단위로 쪼개 측정하면, 유료 플랜에 넣을 기능의 원가 하한선이 생긴다(마진 기반 패키징). 가격 실험도 “ARPU 상승분 ≥ COGS 상승분”을 데이터로 검증할 수 있다.

세 번째 글(Apify로 콘텐츠 리퍼포징 MCP 서버 구축)은 또 다른 힌트를 준다. 툴을 “여러 번 호출해 조합”하는 대신, 특정 작업을 ‘한 번의 MCP 호출로 끝나는 패키지 툴’로 만들면 툴콜 수 자체가 줄어든다. 게다가 Cheerio를 써서 헤드리스 브라우저 비용/지연을 줄이고, Apify Standby로 콜드스타트를 제거해 응답성을 확보했다. 즉 COGS 절감은 모델만이 아니라 파서 선택, 호스팅 모드, 호출 단위 설계(번들링)에서 크게 결정된다.

실행 체크리스트로 정리하면 다음 순서가 효율적이다. (1) 먼저 프록시/로그로 MCP 툴콜 비용·지연을 ‘전부’ 본다(benchmark-broccoli 같은 계측 레이어). (2) 상위 20% 비용 세션을 뽑아, 무엇이 토큰을 먹는지 분해한다: 스키마 오버헤드(listTools), 반복 호출, 컨텍스트 재주입, 재시도 루프. (3) 그 다음에야 메모리 레이어를 올려 “대화 히스토리 압축”이 아닌 “구조화된 사실/선호/제약”을 정밀 검색한다. (4) 마지막으로 툴을 번들링/캐싱/TTL로 재설계해 라운드트립을 줄인다.

전망은 분명하다. 에이전트 경쟁력은 ‘더 긴 컨텍스트’가 아니라 ‘덜 보내도 되는 구조’로 이동한다. 그리고 그 구조를 가능하게 하는 건 메모리 인프라(정밀 retrieval, 충돌 해결, 시간성)와 관측성(툴콜 단위 코스트/레이트/지연)이다. 이 두 가지가 붙는 순간, COGS는 최적화 대상이 아니라 “퍼널을 움직이는 실험 레버”가 된다. 비용이 내려가면 마진이 늘어나는 게 끝이 아니다. 더 빠른 UX로 활성화가 오르고, 예측 가능한 원가로 가격/패키징 실험이 가능해지며, 결국 LTV/CAC 비율이 개선된다. 지금 팀이 해야 할 일은 ‘프롬프트를 더 깎는 것’이 아니라, 비용과 기억을 제품의 운영 레이어로 승격시키는 것이다.

AI 에이전트 COGS 절감은 ‘토큰 다이어트’가 아니라 ‘메모리+관측성’의 결합이다

출처