에이전트 단위경제 방어: ‘기능’이 아니라 컨텍스트·망각·루프를 통제하라

AI 에이전트가 프로덕션에 들어가는 순간, 성장은 기능에서 나오지 않습니다. “반복 실행되는 에이전트가 같은 컨텍스트를 매번 다시 로딩한다”, “방금 한 일을 잊고 같은 액션을 또 한다”, “루프가 의사결정을 되감아 고객에게 스팸을 보낸다” 같은 운영 리스크가 곧바로 COGS(토큰 비용)와 리텐션(신뢰)을 동시에 태웁니다. dev.to의 AskPatrick 사례는 이게 단순 최적화가 아니라 ‘단위경제 방어’라는 걸 숫자로 보여줍니다.

첫 번째 이슈는 컨텍스트 오버헤드입니다. 에이전트가 매 실행마다 MEMORY/SOUL/TOOLS/로그를 통째로 읽어 시작 비용만 2,100+ 토큰이 붙었고(15분 주기면 에이전트당 시간 8,400+ 토큰), 6개 에이전트 기준 월 $198가 “일을 하기 전 준비운동”으로 새었습니다(출처: dev.to ‘refetching context’). 이건 AARRR에서 Activation 이후에 바로 Revenue를 잠식합니다. 같은 가치 제공인데 마진이 줄어들면 가격 실험도, 채널 확장도 막힙니다.

해법은 ‘티어드 컨텍스트 로딩’—항상/필요시/절대금지로 나눠 읽는 양을 설계하는 것입니다. 핵심은 HEARTBEAT.md 같은 초경량 “현재 작업 상태”를 루트에 두고(약 150토큰), 매번 장기기억(900+ 토큰)을 들추지 않게 만드는 것. 결과는 평균 실행 컨텍스트 2,400→580 토큰, 월 $198→$48로 76% 절감(동일 작업 유지). 즉, 비용 최적화가 아니라 “반복 실행 시스템의 스타트업 비용을 분리”한 구조적 수정입니다.

두 번째 이슈는 ‘세션 망각(Session Amnesia)’입니다. 크론 기반 에이전트는 매번 새 컨텍스트로 깨어나기 때문에, 상태를 외부화하지 않으면 같은 데이터 재조회·중복 의사결정·중복 알림이 필연입니다(출처: dev.to ‘keeps forgetting’). 여기서 중요한 건 더 긴 프롬프트가 아니라, 지속성의 시간축을 분리하는 3파일 패턴입니다: state/current-task.json(체크포인트), memory/YYYY-MM-DD.md(증거 로그), MEMORY.md(큐레이션된 장기 사실). 특히 체크포인트를 “실행 전”에 기록하는 규율(Write BEFORE doing)과, 부작용 액션 전 ‘오늘 이미 했는지’ 문자열 가드 같은 저비용 디듀프가 프로덕션 사고를 급격히 줄입니다.

세 번째 이슈는 루프가 ‘의사결정’을 되감는 버그입니다. 기능을 의도적으로 삭제했는데, 다음 루프가 “없으니 고쳐야지”라고 판단해 복구해버리는 ‘loop reinvention’이 발생합니다. AskPatrick은 로그인 게이트를 지웠다가 에이전트가 다시 만들었고, 더 치명적으로는 장애 대응 이메일이 90분간 12통 발송되며 신뢰 비용이 폭발했습니다(출처: dev.to ‘loop bug’). 결론은 명확합니다. 파일/코드만 상태로 취급하면 안 되고, “삭제/방향/레이트(빈도)” 같은 CEO급 결정도 상태로 승격해 잠가야 합니다. DECISION_LOG.md를 모든 루프가 선행 로드하게 하고, 금지/대안까지 명시하면 재발 비용이 거의 0에 가까워집니다.

시사점은 AARRR로 바로 연결됩니다. (1) Activation: 온보딩 직후 자동화가 첫 성과를 내는 구간에서, 중복 행동·오작동은 ‘와우 모먼트’를 ‘불안’으로 바꿉니다. (2) Retention: 한 번의 스팸/중복 발송은 유저의 재방문 의지를 꺾고, B2B라면 보안 사고급으로 확장됩니다. (3) Revenue: 토큰 스타트업 비용이 누적되면 ARPU가 고정된 구독 모델에서 마진이 붕괴하고, LTV 확장 대신 가격 인상 압력만 남습니다. 결국 에이전트 단위경제는 “추론 품질”보다 “운영 상태 머신”에서 결정됩니다.

전망: 앞으로 에이전트가 많아질수록(멀티 에이전트·서브에이전트) 이 비용/신뢰 문제는 선형이 아니라 복리로 커집니다. 따라서 다음 단계의 표준은 ‘경량 상태(HEARTBEAT) + 체크포인트(JSON) + 결정 잠금(DECISION_LOG) + 액션 로그/레이트 게이트’가 될 가능성이 높습니다. 이 조합은 인프라를 크게 키우지 않고도 COGS를 방어하고, 사고로 인한 리텐션 하락을 막아 “에이전트가 돈 버는 자동화”로 스케일되는 최소 조건을 제공합니다.