LLM '독자성' 논쟁, 근거는 있는가: 모델 카피 검증을 위한 통계적 프레임워크

핵심 이슈: '독자성'의 정의가 없는 공방

독파모(독자 파운데이션 모델) 2차 평가를 앞두고 모티프와 트릴리온랩스 사이에 '모델 카피' 공방이 격화되고 있습니다. 모티프 측은 트릴리온의 Tri-21B가 메타의 LLaMA를 사실상 그대로 가져온 모델이라 주장하고, 트릴리온 측은 가중치를 0에서 시작해 프롬스크래치로 학습한 독자 모델이라 반박합니다(이데일리, 2025.02.19). ML/AI 데이터 분석가 입장에서 첫 번째로 던져야 할 질문은 이겁니다 — "독자성을 판별할 수 있는 통계적 기준이 정의되어 있나요?"

양측이 제시하는 근거를 정리하면 이렇습니다. 모티프 측 증거: 허깅페이스 config에 LlamaForCausalLM 아키텍처 명시, 초기 'Llama finetuned' 표기, 모델링 코드 사후 추가 정황. 트릴리온 측 반박: 토크나이저 상이, LLaMA 시리즈에 21B 파라미터 규모 부재, 과기부에 로스 커브(loss curve) 제출. 여기서 문제는 두 진영 모두 단편적 지표 하나씩을 '결정적 증거'로 내세우고 있다는 점입니다.

맥락 해석: 아키텍처 복제 vs 가중치 독자 학습, 그 사이의 스펙트럼

"아키텍처가 같으면 카피인가?" 이 질문에 대한 ML 커뮤니티의 답은 명확합니다 — 아닙니다. Transformer 기반 디코더-온리 아키텍처는 사실상 업계 표준이고, config에서 레이어 수·hidden dimension·attention head 수를 바꾸는 것만으로 다양한 규모의 모델을 파생시킬 수 있습니다. 모티프 측이 지적한 것처럼 "config 변경으로 다양한 크기의 모델을 만들 수 있다"는 것은 기술적 사실이지만, 그 논리를 뒤집으면 동일 아키텍처 패밀리를 사용했다는 것만으로 카피라 단정하는 것 역시 correlation이지 causation이 아닙니다.

반대로 트릴리온의 '로스 커브 제출'도 독자성의 충분조건이 되기 어렵습니다. 프롬스크래치 학습을 입증하려면 최소한 학습 데이터의 분포·규모, 초기 가중치의 랜덤 시드, 학습 중간 체크포인트별 가중치 분포(weight distribution), 기존 LLaMA 체크포인트와의 코사인 유사도(cosine similarity) 비교 같은 정량적 지표가 필요합니다. 로스 커브 하나는 '학습이 진행되었다'는 것만 보여줄 뿐, '어디서부터 시작했는가'를 증명하지 못합니다. 마치 F1-score만 보고 모델이 좋다고 말하는 것과 같죠 — 베이스라인 대비 어떤 차이가 있는지, ablation이 빠져 있습니다.

교차 검증이 필요한 시대: Tokka-Bench와 CringeBench가 보여주는 방법론

흥미롭게도, 이 논쟁과 동시에 LLM 평가 방법론 자체의 정교화가 진행 중입니다. dev.to에 소개된 Tokka-Bench는 100개 자연어에 걸쳐 토크나이저의 bytes-per-token 효율, subword fertility, 커버리지를 체계적으로 측정합니다. 저자원 언어에서 동일 의미를 인코딩하는 데 영어 대비 2~3배 많은 토큰이 필요하다는 결과는, 토크나이저가 다르다는 것이 독자성의 증거가 될 수 없다는 독파모 논쟁의 제3자 견해와도 정확히 맞닿습니다. 토크나이저는 교체 가능한 전처리 컴포넌트이지, 모델 코어의 독자성을 결정하는 변수가 아닙니다.

CringeBench의 N×N 교차평가 매트릭스(34개 모델 × 34개 심사자 × 5개 프롬프트, 총 5,780건 평가)는 더 직접적인 시사점을 줍니다. 모든 모델이 서로를 평가하는 구조에서 드러나는 것은, 평가자(judge)의 편향이 결과를 얼마나 왜곡할 수 있는가 하는 점입니다. Meta LLaMA 3.1 8B가 가장 가혹한 심사자였고, Grok 모델은 주고받는 점수 모두에서 이상치(outlier)였습니다. 독파모 평가에서도 '독자성'을 누가, 어떤 기준으로 판단하느냐에 따라 결과가 극적으로 달라질 수 있다는 것이죠.

시사점: 재현 가능한 검증 프로토콜이 없으면, 논쟁은 반복된다

데이터 분석가로서 제안하고 싶은 것은 모델 독자성 검증을 위한 공개 프로토콜입니다. 구체적으로: (1) 학습 체크포인트 최소 3개 시점의 가중치 통계(평균, 분산, L2 norm)를 공개하고, (2) 주장되는 원본 모델(이 경우 LLaMA)의 동일 레이어 가중치와의 코사인 유사도·CKA(Centered Kernel Alignment) 분석을 수행하며, (3) 독립된 제3자가 동일 실험을 재현(reproducibility)할 수 있어야 합니다. 샘플 사이즈가 충분한 통계적 검정 없이 '로스 커브 한 장'이나 'config 파일 한 줄'로 독자성을 공방하는 현재 구조는, 양쪽 모두에게 불리합니다.

한 익명 교수의 지적처럼, 이 논쟁의 진짜 변수는 기술이 아니라 전례와의 정합성입니다. 업스테이지 Solar-Open-100B가 GLM 추론 코드를 활용한 사례가 허용되었다면, 동일한 잣대가 트릴리온에도 적용되어야 합니다. 그리고 그 '잣대' 자체가 정량적이지 않다면, 독파모 2차전뿐 아니라 앞으로의 모든 평가에서 동일한 공방이 반복될 것입니다. 측정할 수 없으면 관리할 수 없다 — 이건 ML 파이프라인에서도, 정책 평가에서도 똑같이 적용되는 원칙입니다.

LLM '독자성' 논쟁, 근거는 있는가: 모델 카피 검증을 위한 통계적 프레임워크

핵심 이슈: '독자성'의 정의가 없는 공방

맥락 해석: 아키텍처 복제 vs 가중치 독자 학습, 그 사이의 스펙트럼

교차 검증이 필요한 시대: Tokka-Bench와 CringeBench가 보여주는 방법론

시사점: 재현 가능한 검증 프로토콜이 없으면, 논쟁은 반복된다

출처