AI 에이전트가 동료가 된 시대, 인터페이스 스택에서 빠진 한 계층

OpenAI 코덱스가 서울 강남의 CTO 포럼 무대에 올랐다. 120여 명의 기술 리더들 앞에서 화두는 단순했다. "AI는 더 이상 코드 자동완성 도구가 아니다. 이제 개발 업무를 위임받아 수행하는 팀메이트다." 맥북용 코덱스 앱이 출시 첫 주 100만 다운로드를 기록하고, 샘 올트먼이 직접 "주간 사용자가 올해 세 배 이상 늘었다"고 공언하는 지금, AI 코딩 에이전트는 실험실 밖으로 완전히 나왔다.

현장에서도 비슷한 체감이 쌓이고 있다. 한 개발자는 로컬 AI 어시스턴트 Novaro를 구축하며 이렇게 회고했다. "늦은 밤 사이드 프로젝트를 시작했는데, 몇 분 만에 AI가 프로젝트 구조를 잡고, 의존성을 설치하고, 핵심 로직을 작성하고, 데이터베이스까지 세팅했다. 내가 한 건 잘못된 라이브러리 선택을 한 번 수정한 것뿐이었다." 테스트가 실패하면 에러를 읽고 스스로 고친 뒤 다시 테스트를 돌린다. 배포 전에는 보안 취약점을 자동으로 점검한다. '보조'가 아니라 '수행'이다.

이 흐름을 구조적으로 정리하면, 에이전트 인터페이스 생태계는 세 개의 계층으로 수렴하고 있다. 맨 아래에는 CLI가 있다. 에이전트의 모국어는 텍스트 명령이다. Claude Code, GitHub Copilot CLI, 그리고 MCP로 연결된 모든 에이전트가 CLI를 기반 언어로 쓴다. Stack Overflow 개발자 설문에서 전문 개발자의 터미널 사용률이 2년 새 62%에서 78%로 뛴 것은 우연이 아니다. 중간 계층에는 프로토콜이 있다. MCP가 에이전트와 툴을 연결하고, AG-UI와 A2UI가 에이전트와 프론트엔드 인터페이스를 이어준다. 표면 계층에는 생성 UI가 있다. Google DeepMind의 Flash-Lite 브라우저가 극단적 사례다. "치즈 플랜트 물 주는 법"이라고 입력하면 2초 안에 내비게이션, 레이아웃, 콘텐츠가 완성된 페이지가 태어난다. 서버도 없고, 미리 작성된 HTML도 없다.

그런데 이 세 계층 구조는 무엇을 할 수 있는지는 설명하지만, 무엇을 믿어야 하는지는 설명하지 않는다. dev.to에 게재된 'The Interface Stack Has a Missing Layer'는 바로 이 지점을 정면으로 파고든다. Flash-Lite 브라우저가 인상적인 데모인 것은 맞지만, 같은 쿼리를 입력해도 결과가 매번 달라지고, 내비게이션은 일관성이 없으며, 콘텐츠는 그럴듯하지만 신뢰하기 어렵다. 이것은 모델 품질 문제가 아니다. 선택압(selection pressure)의 부재가 만들어낸 구조적 문제다.

생각해보자. MCP로 연결된 세 개의 툴이 모두 "식물 관리 가이드를 생성한다"고 주장한다면, 에이전트는 어떤 것을 골라야 할까? MCP는 발견(discovery)과 호출(invocation)을 보장하지만, 품질은 보장하지 않는다. 다운로드 수가 많은 쪽? 처음 검색된 쪽? 어떤 기준도 실제 품질과 신뢰 있게 연결되지 않는다. 백 개의 에이전트가 모두 UI를 생성할 수 있을 때, 그 중 어느 것을 신뢰할 수 있는지 판단하는 메커니즘이 없다면 선택은 임의적이 된다.

해당 글은 이 빈자리를 '진화 인프라(evolution infrastructure)'라고 명명한다. 생물학적 자연선택처럼, AI 생성 인터페이스에도 적합도 함수(fitness function) 기반의 경쟁 평가 계층이 필요하다는 논지다. 성공률, 지연 시간, 비용, 견고성을 정량화해 점수를 매기고, 높은 점수의 구현체는 살아남고 낮은 점수는 도태된다. 상단에서 누군가 수동으로 디버깅하는 것이 아니라, 아래에서부터 선택압이 작동하며 생태계가 신뢰 가능한 방향으로 수렴해나간다.

프론트엔드 개발자 관점에서 이 논의는 꽤 직접적인 설계 질문을 던진다. 우리는 이미 에이전트가 컴포넌트를 생성하고, 레이아웃을 잡고, 스타일을 입히는 시대를 살고 있다. 문제는 그 결과물의 품질을 어떻게 평가하고, 어떤 생성 전략이 더 나은 UX를 만들어내는지 피드백 루프를 어떻게 닫느냐다. 접근성(a11y) 점수, Core Web Vitals, 사용자 이탈률—이 지표들이 단순히 모니터링 대시보드에 머물 것인지, 아니면 어떤 에이전트의 어떤 생성 전략이 살아남을지를 결정하는 선택압으로 기능할 것인지는 지금 우리가 설계해야 할 인프라의 문제다.

인터페이스 스택은 사실 네 계층이다. CLI(에이전트 런타임) → 프로토콜(발견과 통신) → 생성 UI(인간 가독 출력) → 진화 인프라(품질 선택). 앞의 세 계층은 에이전트가 무엇을 할 수 있는지를 정의한다. 네 번째 계층은 그 중 무엇이 잘 하는지를 가려낸다. OpenAI 코덱스 포럼이 '코딩 팀메이트'라는 프레임을 제시한 날, 우리가 던져야 할 진짜 질문은 이것이다. 팀메이트를 어떻게 평가할 것인가? 그 평가 기준은 누가, 어떤 구조로 만들 것인가?

AI 에이전트가 동료가 된 시대의 인터페이스 설계는, 결국 신뢰의 구조를 설계하는 일이다. 신뢰할 수 없는 생성 결과가 쌓이기 전에 선택압 계층을 먼저 만들어야 한다는 것—이것이 지금 이 생태계가 스스로에게 던지고 있는 가장 중요한 공학적 과제다.

AI 에이전트가 동료가 된 시대, 인터페이스 스택에서 빠진 한 계층

출처