소형 모델이 실행하고 대형 모델이 판단한다: AI-First 팀의 계층 설계법

모델 선택의 시대는 끝났다. 모델 배치의 시대가 왔다

OpenAI가 GPT-5.4 mini와 GPT-5.4 nano를 공개했다. AI 타임스 보도에 따르면 GPT-5.4 mini는 실제 코드 수정 능력을 평가하는 SWE-bench Pro에서 54.4%를 기록해 플래그십 GPT-5.4(57.7%)와의 격차를 3%p 이내로 좁혔다. 더 인상적인 건 나노다. GPT-5.4 nano는 같은 벤치마크에서 52.4%를 찍었는데, 이건 불과 몇 달 전 중형 모델이었던 GPT-5 mini(45.7%)를 오히려 앞지른 수치다.

이 숫자들이 말하는 건 단순한 성능 향상이 아니다. 모델 크기와 능력 간의 전통적 상관관계가 빠르게 무너지고 있다는 신호다.

왜 지금 '계층 설계'인가

OpenAI는 이번 발표에서 흥미로운 구조를 공식화했다. 대형 모델이 계획과 최종 판단을 맡고, mini/nano가 코드 검색·파일 검토·문서 처리 같은 반복 실행 작업을 병렬로 처리하는 방식이다. Codex 시스템이 이미 이 구조로 돌아가고 있다고 직접 언급했다.

이건 OpenAI만의 이야기가 아니다. dev.to의 AI 위클리 분석에 따르면 Claude Code, Codex, Copilot, Cursor, Windsurf 등 현재 상위권 AI 코딩 에이전트들은 이미 동일한 코어 패턴 위에서 작동한다. 에이전트가 코드베이스를 능동적으로 탐색하고, 장기 루프에서 실행하며, 멀티 에이전트 팀으로 조율하는 구조다. 단발성 자동완성의 시대는 공식적으로 끝났다.

비용 구조도 이 방향을 강제한다. GPT-5.4 mini는 입력 토큰 100만 개당 0.75달러로 플래그십의 약 1/3 수준이고, nano는 출력 기준 1/12 수준이다. 성능 격차는 3~5%p인데 비용 차이는 3~12배다. 이 비대칭이 계층 설계를 선택이 아닌 필수로 만든다.

라포랩스가 먼저 증명한 것

이론이 아닌 현장 사례가 있다. 지디넷 보도에 따르면 4050 커머스 플랫폼 '퀸잇'을 운영하는 라포랩스는 AI-DLC(AI 주도 개발 생애주기) 방법론을 전사 도입해 기능 개발 주기를 2~3주에서 2~3일로 단축했다. 핵심은 역할 분리다. AI가 실행을 담당하고 사람은 설계·관리·검증, 즉 의사결정에 집중하는 구조다.

라포랩스의 홍주영 대표가 언급한 구조를 모델 계층으로 번역하면 이렇다. 실행 루프는 소형 에이전트에게, 판단과 방향 설정은 대형 모델과 사람에게. 이들이 현재 구현하는 에이전틱 커머스—AI가 고객과 직접 대화하며 상품 탐색부터 구매까지 돕는 형태—는 이 계층 구조 없이는 실행 비용과 응답 속도를 동시에 맞출 수 없다.

팀에 실제로 꽂는 계층 설계 3원칙

이걸 내 팀의 AI-First 아키텍처로 옮길 때 기준이 될 세 가지 원칙을 정리하면 다음과 같다.

첫째, 반복성과 예측 가능성이 높은 작업은 nano/mini 계층으로 내린다. 코드 검색, 로그 파싱, 테스트 케이스 초안 생성, 문서 요약이 여기 해당한다. 속도와 비용이 모두 유리하고, 실수가 나와도 상위 계층에서 검증 가능하다.

둘째, 판단이 필요한 작업은 대형 모델 계층에서 처리한다. 아키텍처 결정, 요구사항 충돌 해소, 보안 취약점 최종 검토, PR 승인 판단이 여기 속한다. 비용이 높지만 발생 빈도가 낮고, 실수의 파급력이 크기 때문에 여기에 투자하는 게 맞다.

셋째, 두 계층 사이의 인터페이스를 명확히 정의한다. 소형 모델이 언제 대형 모델에게 에스컬레이션할지, 어떤 포맷으로 컨텍스트를 넘길지를 설계하지 않으면 멀티에이전트 구조는 비용만 올리고 품질은 내린다. MCP 같은 프로토콜이 이 인터페이스 표준화에 쓰이고 있지만, dev.to 분석에서 Perplexity CTO가 지적했듯 툴 설명이 컨텍스트 윈도우의 40~50%를 잡아먹는 문제는 아직 현재진행형이다.

냉정하게 짚어야 할 것들

낙관론만 쓰면 무책임하다. 몇 가지를 분명히 짚는다.

SWE-bench 54~57%는 아직 절반에 가까운 케이스가 실패한다는 뜻이다. 소형 모델을 실행 계층에 배치했을 때 검증 루프 없이 그 출력을 파이프라인 다음 단계로 그냥 흘리는 구조는 위험하다. 에스컬레이션 기준과 검증 게이트 설계가 모델 선택보다 훨씬 중요하다.

또한 라포랩스 사례에서 홍 대표가 강조한 전제조건을 흘려듣지 말아야 한다. "AI가 제대로 작동하려면 데이터와 업무 지식이 구조화돼 있어야 한다." 계층 설계 전에 업무 프로세스와 데이터가 정비되지 않으면, 소형 모델에게 흘러가는 작업 자체가 garbage in이 된다.

전망: 역할 분담은 선택이 아닌 기본값이 된다

현재 상위 코딩 에이전트들이 이미 멀티에이전트 협업 구조로 수렴하고 있고, 모델 성능-비용 비대칭이 계층 설계를 강제하고 있으며, 라포랩스 같은 현장 선도 기업들이 실제 효과를 증명하고 있다. 이 세 흐름이 만나는 지점에서 하나의 결론이 나온다.

'어떤 모델을 쓸 것인가'는 이제 덜 중요한 질문이다. '어느 계층에 무엇을 배치하고, 두 계층 사이를 어떻게 연결할 것인가'가 AI-First 팀 설계의 핵심 질문으로 이동하고 있다.

6개월 후엔 nano 수준의 모델이 지금 mini가 하는 일을 하고, mini는 지금 대형 모델이 하는 판단 영역 일부를 담당하게 될 것이다. 계층의 경계는 계속 위로 올라간다. 그 이동 속도에 맞춰 팀의 배치 설계를 주기적으로 재검토하는 게 AI-First 팀의 실질적인 운영 루틴이 되어야 한다.