AI가 빠를수록 선언이 설계를 지킨다

AI가 빠를수록 선언이 설계를 지킨다

MirrorCode 벤치마크가 증명한 AI 코딩 한계와 프로덕션 실패 패턴이 동시에 가리키는 것—에이전트가 코드를 쏟아낼수록 DESIGN.md 같은 선언적 기반이 없으면 팀의 설계 의도는 조용히 증발한다.

DESIGN.md AI 에이전트 선언적 설계 Goal Drift MirrorCode 디자인 시스템 프로덕션 실패
광고

에포크 AI가 공개한 MirrorCode 벤치마크는 불편한 숫자를 하나 던진다. 현재 최고 성능 모델인 Claude Opus 4.7의 장기 소프트웨어 개발 성공률은 56%다. 사람이 2~17주 걸릴 작업을 14시간 만에 끝낼 수 있지만, 절반 가까이는 실패한다. 그리고 이 벤치마크는 버그 수정이나 단일 함수 구현 같은 '쉬운 문제'가 아니다. 인터넷도, 원본 소스코드도 없이 프로그램 전체를 처음부터 다시 짜는 장기 개발 과제다. AI는 빠르지만 완전하지 않다.

여기서 주목해야 할 지점은 성공률 자체보다 실패의 성격이다. MirrorCode에서 AI가 실패한 케이스를 보면 대부분 테스트의 90% 이상을 통과했다. 완전히 틀린 게 아니라 '거의 맞는데 마지막에 어긋난' 형태다. 이 패턴은 프로덕션 AI 에이전트 실패 연구에서 지적하는 Goal Drift와 묘하게 겹친다. 에이전트는 각 단계에서 논리적으로 올바른 선택을 하면서도 전체적으로는 원래 의도에서 점점 멀어진다. 단계마다 맞고 총합은 틀리는 구조다.

프로덕션 AI 에이전트가 실패하는 7가지 패턴을 정리한 Harness Engineering 연구는 이 문제를 더 구체적으로 해부한다. 무한 루프, 컨텍스트 소멸, 비용 급등, 시크릿 유출, 멀티 에이전트 교착, Goal Drift, 개선 격차—이 중 상당수는 에이전트에게 '무엇을 하라'는 지시는 있지만 '왜 이렇게 해야 하는가'라는 설계 의도가 없을 때 발생한다. 특히 Goal Drift는 할루시네이션이 아니다. 에이전트가 틀린 게 아니라 잘못된 방향으로 정확하게 달려가는 것이다. 이건 명령의 문제가 아니라 맥락의 부재 문제다.

이 지점에서 DESIGN.md 작성 방법론이 단순한 문서화 팁 이상의 의미를 갖는다. 핵심 주장은 이렇다: 토큰 값(color: #1A1C1E)은 에이전트에게 '무엇'을 알려주지만, 의도를 담은 산문("이 색상은 화면당 단 하나의 핵심 액션에만 쓴다")은 에이전트가 명시적으로 다루지 않은 상황에서도 올바른 추론을 할 수 있는 근거를 제공한다. LLM은 마크다운을 매우 높은 정확도로 읽는다. 대부분의 사전 학습 데이터가 이 형식으로 구성되어 있기 때문이다. 즉, 선언적 산문은 에이전트와 통신하는 가장 자연스러운 채널이다.

프론트엔드 실무 맥락에서 이 세 가지 신호를 연결하면 하나의 패턴이 보인다. AI가 코드를 생성하는 속도는 계속 빨라지고 있다. MirrorCode 기준으로 지난해 30% 수준이던 성공률이 올해 56%로 올랐고, 비용은 오히려 낮아지고 있다. 속도와 비용 효율이 동시에 개선되는 곡선이다. 하지만 에이전트가 빠르게 코드를 쏟아낼수록, 팀의 설계 의도가 명시적으로 선언되어 있지 않다면 그 속도는 오히려 위험해진다. 빠르게 틀린 방향으로 가는 것은 느리게 맞는 방향으로 가는 것보다 훨씬 비싼 실수다.

DESIGN.md의 Do's and Don'ts 섹션이 중요한 이유가 여기 있다. "둥근 모서리와 각진 모서리를 같은 화면에 혼용하지 말 것", "화면당 폰트 두께는 두 가지를 초과하지 말 것"—이런 규칙들은 단순한 스타일 가이드가 아니다. 에이전트가 Guard rail 없이 판단해야 할 때 잘못된 선택을 하는 경우의 수를 미리 제거하는 장치다. 각 줄이 하나의 오류 범주를 통째로 차단한다. Harness Engineering에서 말하는 감지-개입 구조를 코드 생성 이전 단계에서 선제적으로 구현하는 셈이다.

실용적으로 접근한다면, 지금 당장 팀의 DESIGN.md를 열어볼 만하다. 값만 나열된 색상표가 있다면 각 색상이 '언제, 왜 써야 하는지'를 한 문장씩 추가하라. 컴포넌트 목록이 있다면 각 컴포넌트의 사용 맥락과 금지 사례를 산문으로 적어라. DESIGN.md를 처음 보는 디자이너가 제품을 한 번도 본 적 없어도 올바르게 적용할 수 있을 만큼 명확한가—이 질문이 충분성의 기준이다. 이 기준을 통과하면 에이전트도 같은 방식으로 이해한다.

전망은 명확하다. MirrorCode 성공률 곡선이 보여주듯 AI의 장기 코딩 능력은 빠르게 향상된다. 1~2년 안에 복잡한 프론트엔드 피처를 에이전트가 자율적으로 구현하는 것이 예외가 아니라 표준이 될 수 있다. 그 시점에 팀을 차별화하는 요소는 어떤 AI 모델을 쓰느냐가 아니라 설계 의도가 얼마나 잘 선언되어 있느냐다. 에이전트는 선언된 것만큼만 팀의 의도를 따른다. 선언되지 않은 나머지는 에이전트가 스스로 추론한다—그 추론이 Goal Drift의 출발점이 된다.

출처

더 많은 AI 트렌드를 Seedora 앱에서 확인하세요