파인튜닝 제로(0)로 SOTA 달성: Qwen2-72B 레이어 복제가 증명한 Test-Time 연산 최적화의 정량적 가치

최근 HuggingFace Open LLM 리더보드에서 발생한 이변은 생성형 AI 시스템 최적화에 대한 우리의 맹신을 철저히 깨뜨린다. 파라미터를 추가 학습하거나 방대한 데이터를 주입하는 대신, Qwen2-72B 모델의 특정 중간 레이어(45~51번) 7개 구간을 단순히 한 번 더 통과시키는 '레이어 복제(Layer Looping)'만으로 1위를 탈환한 것이다. 이 접근법은 가중치(Weights) 업데이트가 전혀 없었음에도 불구하고 MATH Lvl 5에서 8.16%, MuSR에서 17.72%라는 통계적으로 유의미한 성능 향상을 기록했다. 이는 대규모 GPU 클러스터 기반의 파인튜닝 비용을 '0'으로 수렴시키면서도 SOTA(State-of-the-Art)를 달성할 수 있음을 증명한 극단적인 비용 효율성 데이터다.

이 현상을 데이터 파이프라인과 아키텍처 관점에서 해석하려면, 최근 AI 학계의 화두인 'Test-Time Compute(추론 연산)의 확장'과 'System-2 Thinking' 패러다임을 연결해야 한다. 기존의 Left-to-Right 자가회귀(Autoregressive) 생성 방식은 직관적이지만 복잡한 추론에서는 치명적인 환각(Hallucination)을 유발하는 System-1 수준에 머물러 있었다. Qwen2-72B의 실험은 트랜스포머 내부에 기능별로 분화된 회로(Circuit)가 존재한다는 'LLM 신경해부학(Neuroanatomy)' 가설을 정량적으로 입증한다. 3,241가지의 레이어 구간 조합을 RTX 4090 2장으로 전수 조사한 히트맵(Heatmap) 분석 결과는 명확했다. 입력 인코딩(초반)이나 출력 디코딩(후반)이 아닌, 실제 논리 연산을 담당하는 '중간 레이어'의 체류 시간을 인위적으로 늘림으로써 모델 스스로에게 검증과 탐색을 수행할 'Test-Time'을 강제 부여한 것이다.

프로덕션 환경에서 이 결과가 갖는 실무적 시사점은 막대하다. RAG 시스템이나 멀티 에이전트 오케스트레이션 구축 시, 우리는 흔히 추론 품질을 높이기 위해 더 큰 파라미터를 가진 모델(예: 120B 이상)로 스위칭하는 전략을 취한다. 하지만 이는 VRAM 요구량의 급증과 P99 레이턴시(Latency)의 붕괴를 초래한다. 반면, 가중치 동결 기반의 레이어 반복은 메모리에 적재된 기존 가중치를 재사용하므로 VRAM 오버헤드를 최소화하면서 연산량(FLOPs)만 증가시킨다. 이는 비용-성능 트레이드오프 곡선에서 완전히 새로운 최적점을 제시한다. 단순한 Chain-of-Thought(CoT)가 오답의 눈덩이 효과(Snowball effect)를 막지 못했던 한계를, 물리적인 모델의 확장 없이 추론 깊이(Depth)의 논리적 확장을 통해 극복할 수 있다는 아키텍처적 가능성을 열어준 셈이다.

결국 AI 모델의 스케일링 법칙(Scaling Law)은 'Train-Time'에서 'Test-Time'으로 확실하게 무게 중심을 이동하고 있다. 앞으로의 에이전트 라우팅(Routing) 전략은 쿼리의 난이도에 따라 동적으로 반복할 레이어의 수와 구간을 결정하는 'Dynamic Depth Routing' 형태로 진화할 것이다. 단순 정보 검색에는 기본 레이어만 통과시켜 레이턴시를 최적화하고, 복잡한 수학적 추론이나 트리 탐색(Tree Search)이 필요한 작업에서는 특정 추론 회로를 N번 반복시켜 정답률을 극대화하는 방식이다. 모델의 크기를 키우는 맹목적인 경쟁을 멈추고, 보유한 가중치의 활용률(Utilization)을 극한으로 끌어올리는 정량적이고 엄밀한 추론 파이프라인 설계가 향후 AI 시스템 엔지니어링의 핵심 경쟁력이 될 것이다.

파인튜닝 제로(0)로 SOTA 달성: Qwen2-72B 레이어 복제가 증명한 Test-Time 연산 최적화의 정량적 가치

출처