생성형 AI 생태계에는 '모델에게 환경과 상호작용하며 단계별(Step-by-step)로 수정할 기회를 주면 일회성 생성(One-shot)보다 압도적인 성능을 낼 것'이라는 맹신이 존재합니다. 그러나 최근 오스트리아 기술연구소(AIT)가 발표한 연구는 이러한 에이전트 플래닝(Agentic Planning)의 환상을 정량적 데이터로 산산조각 냅니다. PyPDDLEngine을 활용해 블록스월드(Blocksworld) 도메인에서 수행된 실험에 따르면, 180초의 제한 시간 내에서 에이전트 방식의 성공률은 66.7%로, 일회성 생성(Direct LLM, 63.7%) 대비 고작 3%p의 성능 향상만을 기록했습니다. 문제는 비용입니다. 이 3%의 향상을 얻기 위해 에이전트 시스템은 실행당 평균 169,864개의 토큰을 소모하며, 이는 직접 생성 방식(28,488개) 대비 무려 5.7배에 달하는 리소스 낭비입니다. 해결된 인스턴스 3개를 추가로 얻기 위해 약 1,440만 개의 토큰(현재 API 단가 기준 약 4~8달러)을 태운 셈이며, 이는 프로덕션 환경의 단위 경제(Unit Economics) 관점에서 결코 용납될 수 없는 트레이드오프입니다.
이러한 심각한 비용-성능 불균형의 근본 원인은 LLM의 '추론'이 실제로는 '기억의 근사 검색(Approximate Retrieval)'에 불과하기 때문입니다. 논문은 행동(Action)의 이름을 통사적으로 변경했을 때 에이전트의 성공률이 0에 가깝게 붕괴한다는 사실을 지적합니다. 이는 모델이 실제로 계획을 수립하는 것이 아니라, 학습 데이터에 존재하는 패턴 매칭에 의존하고 있음을 의미합니다. 더 치명적인 것은 '조기 종료(Early Exit)' 문제입니다. 모델은 환경을 스스로 평가하다가 해결 가능한 문제조차 '불가능'으로 오판하고 루프를 종료해버립니다. 외부 검증 없는 자가 수정(Self-correction)은 성능을 향상시키기는커녕 환각(Hallucination)에 기반한 확증 편향만을 가중시킬 뿐입니다.
그렇다면 코딩 에이전트(Claude Code, Codex 등)는 어떻게 성공할 수 있었을까요? 핵심은 '피드백의 품질과 방향성'에 있습니다. 코딩 에이전트는 컴파일러 에러나 테스트 실패와 같은 100% 결정론적이고 외부적으로 근거가 확실한(Externally grounded) 신호를 받습니다. 반면, 일반적인 플래닝 에이전트가 상태 관측을 통해 받는 피드백은 "그 행동은 유효하다"는 수준에 그치며, 정답과의 거리나 방향성을 제시하지 못합니다. 모델이 스스로 자신의 진행 상황을 평가해야 하는 구조(Self-assessed progress)에서는 에이전트 루프를 아무리 반복해도 유의미한 수렴(Convergence)을 기대할 수 없습니다.
이러한 정량적 실패를 프로덕션 레벨에서 회피하기 위해, 우리는 LLM의 역할을 런타임(Runtime)에서 완전히 배제하는 아키텍처 전환을 고려해야 합니다. 최근 개발자 커뮤니티에서 제안된 '지능형 지출 분류 룰 엔진(ExpenseAnalyzer-AI)'의 설계는 완벽한 대안을 제시합니다. 이 접근법의 핵심은 LLM을 실시간 추론 엔진이 아니라, '결정론적 비즈니스 로직을 생성하는 빌드 타임 컴파일러'로 사용하는 것입니다. 모델은 트랜잭션 데이터를 직접 분류하는 대신, Python 스크립트(정규식 및 조건문)를 작성합니다.
이 'Reflexive Agent' 파이프라인은 엄격한 TDD(Test-Driven Development) 루프를 따릅니다. LLM이 생성한 AST(Abstract Syntax Tree)는 격리된 Python exec() 샌드박스 내에서 검증 데이터셋(Ground Truth)과 대조됩니다. "CHEVRON 0009에서 실패함. 기대값: 교통, 결과: 식료품"과 같은 100% 결정론적인 외부 피드백만이 모델에게 전달되며, 모델은 목표 정확도(예: 95%)에 도달할 때까지 자신의 코드를 재작성합니다. 이 아키텍처는 에이전트 루프의 장점(반복 개선)은 살리되, 치명적인 단점(런타임 토큰 폭발 및 지연 시간)은 완전히 제거합니다.
데이터 파이프라인 최적화 관점에서 이 설계의 가치는 명확합니다. 95% 정확도에 도달한 Python 스크립트가 배포되는 순간, 프로덕션 환경에서의 추론 지연 시간(P99 Latency)은 마이크로초 단위로 떨어지고, API 호출 비용은 '0'이 되며, 환각 발생 확률은 수학적으로 완전히 차단됩니다. 생성형 AI 시스템을 설계할 때 가장 경계해야 할 것은 무의미한 에이전트 루프가 갉아먹는 보이지 않는 토큰세(Token Tax)입니다. 상관관계와 인과관계를 엄밀히 구분하고, 런타임의 불확실성을 빌드 타임의 결정론적 코드로 고정시키는 것만이 비용 효율적이고 신뢰성 있는 AI 시스템을 구축하는 유일한 경로입니다.