브라우저 에이전트의 신뢰성 정량 평가: 비전-텍스트 융합과 결정론적 상태 주입

DOM 기반의 전통적인 브라우저 자동화(Selenium, Playwright)는 UI의 미세한 변경(CSS, XPath)에도 즉각적인 장애를 일으키는 치명적인 취약성을 내포하고 있다. 이를 해결하기 위해 등장한 1세대 LLM 기반 브라우저 에이전트들 역시 프로덕션 환경에서는 30~60%의 낮은 Task Success Rate를 보였다. "가장 싼 항공권을 예매해 줘"와 같은 단일 거대 프롬프트(Zero-shot)는 추론 과정에서 컨텍스트 오염을 유발하며, 실패에 대한 자각 없이 엉뚱한 요소를 클릭하는 환각(Hallucination) 현상을 통제하지 못했기 때문이다.

최근 dev.to를 통해 공개된 AWS의 'Amazon Nova Act' 아키텍처는 이 지표를 90% 이상으로 끌어올린 정량적 근거를 제시한다. 핵심은 범용 LLM에 브라우저 툴을 억지로 끼워 맞춘 것이 아니라, 비전 모델(Nova 2 Lite)과 오케스트레이터, 그리고 액추에이터(Playwright)를 강화학습(RL) 기반으로 End-to-End 공동 훈련(Co-training)한 수직적 통합에 있다. 특히 주목해야 할 지점은 행동의 '원자적 분할(Atomic act calls)'이다. 복잡한 지시를 하나의 프롬프트로 처리하는 대신, nova.act("click on Flights")처럼 매 단계마다 스크린샷 상태를 재평가하고 단일 행동만을 수행하게 함으로써, 토큰 누적에 따른 에러 전파(Error propagation)를 차단하고 루프의 안정성을 극대화했다.

그러나 비전(Vision) 데이터에만 의존하는 모델은 필연적인 인지적 한계에 부딪힌다. 픽셀로 구성된 스크린샷만으로는 401 Token Expired 에러나 JavaScript 스택 트레이스의 인과관계를 추론할 수 없기 때문이다. 또 다른 dev.to 아티클에서 소개된 'mare-browser-mcp'는 이 모달리티 갭(Modality Gap)을 구조화된 데이터 주입으로 해결한다. 에이전트에게 단순한 화면 캡처 대신, 브라우저의 Network 탭(상태 코드, JSON 응답)과 Console 로그를 직접 MCP(Model Context Protocol)를 통해 주입한다. 이는 에이전트의 상태 공간(State Space)을 확률적 이미지 추측에서 결정론적(Deterministic) 디버깅 로그로 치환함으로써, 디버깅 지연 시간(Latency)을 급격히 단축시키고 해결책 생성의 사실성(Faithfulness)을 보장한다.

이 두 사례는 프로덕션 에이전트 설계 시 '비용-성능 트레이드오프'를 최적화하는 명확한 기준을 제시한다. 비전 모델 호출은 텍스트 대비 높은 컴퓨팅 비용과 P99 지연 시간을 유발한다. 따라서 Nova Act처럼 JSON Schema를 강제하여 비정형 DOM에서 구조화된 데이터를 한 번에 추출(Extraction)하는 전략과, Python ThreadPoolExecutor를 활용해 독립된 브라우저 세션을 병렬로 스케일링하는 아키텍처가 필수적이다. 단일 API 호출 비용이 상승하더라도, 전체 워크플로우의 재검증(Retry) 횟수를 줄여 TCO(총 소유 비용)를 방어하는 것이다.

결론적으로, 브라우저 에이전트의 신뢰성은 '프롬프트의 길이나 모델의 파라미터 크기'가 아니라, '관측 데이터의 해상도(스크린샷 vs 네트워크 로그)'와 '행동의 독립적 통제(Atomic Actions)'에 의해 결정된다. 향후 AgentOps 환경에서는 단순히 에이전트의 최종 목표 달성 여부만을 측정하는 것을 넘어, 각 Perception-Reason-Act 사이클 단계별 상태 압축률과 환각 발생률을 정량적으로 모니터링하는 분산 추적(Tracing) 시스템이 핵심 경쟁력이 될 것이다.

브라우저 에이전트의 신뢰성 정량 평가: 비전-텍스트 융합과 결정론적 상태 주입

출처