레이블을 의심하라: 당신의 F1-score는 오염된 데이터 위에서 측정되고 있다

근거는 있나요? — F1 0.92 뒤에 숨은 불편한 질문

모델 성능 리포트에 찍힌 F1-score 0.92, AUROC 0.97. 경영진은 만족하고, 분기 리뷰는 무사히 넘어간다. 그런데 한 가지 질문을 던져 보자. 그 레이블, 믿을 수 있나요? velog에 게시된 PU Learning 분석 글은 이상거래 탐지(FDS) 파이프라인에서 '조사하지 않은 건 = 정상'이라는 암묵적 가정이 어떻게 평가 지표 전체를 왜곡하는지를 수식과 함께 보여준다. 데이터 분석가의 관점에서 이 문제는 FDS에 국한되지 않는다. 레이블이 '선별적으로' 생성되는 모든 도메인 — 의료 진단, 콘텐츠 모더레이션, 신용 평가 — 에서 동일한 함정이 작동한다.

오염 경로: Capacity 제한과 모델의 맹점이 만드는 이중 편향

핵심 오염 경로는 두 가지다. 첫째, Capacity 제한. 모델이 의심 스코어 상위 k건만 조사 대상으로 올리고 나머지 N−k건은 자동으로 Negative 처리한다. 이 k의 크기는 모델 성능이 아니라 조사 인력이라는 물리적 제약이 결정한다. 둘째, 모델의 맹점. 기존 모델이 인식하지 못하는 신종 패턴은 스코어 자체가 낮아 조사 대상에 포함조차 되지 않는다. 결과적으로 미조사 건에 실제 양성이 섞여 있을 때, 측정된 Recall은 과대평가되고 Precision은 과소평가되는 방향으로 체계적 왜곡이 발생한다. 이건 correlation이 아니라 레이블 생성 프로세스 자체에 내재된 구조적 causation이다.

PU Learning: '모른다'고 인정하는 것이 보정의 시작

PU Learning은 데이터를 Positive(확정 양성)와 Unlabeled(미확인)로 재정의한다. U를 '음성'이 아니라 '모른다'로 표현하는 것이 전부인데, 이 관점 전환만으로 손실 함수 설계가 근본적으로 달라진다. SCAR(Selected Completely At Random) 가정 하에서 기존 분류기의 출력을 label frequency c 로 나누면 보정된 양성 확률을 얻을 수 있다. 다만 여기서 샘플 사이즈가 충분한가? 라는 질문이 즉시 따라온다. c 추정은 확정 양성 집합의 분류기 출력 평균으로 이루어지는데, 확정 양성 자체가 수백 건 수준인 FDS 환경에서는 추정량의 분산이 클 수밖에 없다.

실무 적용 측면에서는 uPU(unbiased PU) 손실이 이론적으로 불편 추정량이지만 음수 손실 문제로 학습이 불안정하고, 이를 클리핑한 nnPU가 더 안정적으로 수렴한다는 점이 원문에서도 강조된다. 하지만 nnPU는 클리핑으로 인한 약간의 편향을 감수해야 한다. Ablation study 관점에서 uPU → nnPU 전환 시 편향-분산 trade-off가 실제 프로덕션 데이터에서 어떻게 나타나는지에 대한 정량적 보고는 아직 부족하다. 또한 FDS에서는 조사 대상이 모델 스코어 기반으로 선택되므로 SCAR 가정이 깨진다. 고스코어 양성은 레이블이 잘 붙고 저스코어 양성은 누락되는 선택 편향(selection bias)이 발생하며, Propensity Score 보정 없이 단순 c 추정만으로는 한계가 있다.

검증의 딜레마: 정답 레이블 없이 보정 효과를 어떻게 증명하나

원문이 제안하는 검증 전략 — 확정 양성을 의도적으로 U로 강등한 뒤 재발굴률(Recall@K)을 측정하는 방식 — 은 영리하지만 근본적 한계가 있다. 이 방식은 이미 기존 모델이 잘 잡는 고스코어 양성에 대한 재발굴 능력만 검증한다. PU Learning의 진짜 가치인 '기존 모델이 놓친 저스코어 양성의 발견'은 이 실험 설계로 측정할 수 없다. 실제 운영 환경에서도 이 성능이 나올까? 사후 전수 추적(ground truth 확보)이 가능한 소규모 코호트를 별도로 설계하지 않는 한, PU 보정의 실질적 효과는 간접 추론에 머물 수밖에 없다.

파이프라인 전체를 의심하라: GPU 스케줄링과 Gradient 소실의 교훈

데이터 레이블만 문제가 아니다. KCD KOREA 2025에서 발표된 GPU 오케스트레이션 세미나는 nvidia.com/gpu:1 선언 한 줄이 실사용률 20~30%짜리 GPU 독점을 만드는 현실을 보여준다. Gang Scheduling으로 분산 학습의 유휴 대기를 제거하고, MIG/MPS로 물리 GPU를 분할하며, NVLink 토폴로지를 인식하는 스케줄러를 적용해야 비로소 학습 throughput이 하드웨어 스펙에 근접한다. 여기에 Andrew Ng의 Vanishing Gradient 강의가 환기하는 포인트를 더하면, 입력층 근처의 gradient 소실은 모델이 '재료 손질'을 포기하는 것과 같다. ReLU 전환이라는 교과서적 해법도 레이어가 수백 개를 넘는 현대 아키텍처에서는 residual connection, layer normalization 등 추가 장치 없이는 충분하지 않다.

시사점: 성능 숫자를 읽기 전에 레이블의 출처를 읽어라

PU Learning이 던지는 가장 날카로운 메시지는 이것이다. 우리가 측정하는 성능은, 우리가 만든 레이블만큼만 정확하다. SOTA를 주장하는 논문이든, 분기 리포트의 F1이든, 베이스라인 대비 몇 퍼센트 개선되었는지를 묻기 전에 '그 베이스라인의 레이블은 어떻게 생성되었는가'를 먼저 질문해야 한다. FDS뿐 아니라 의료 영상(미검진 환자 = 정상?), 추천 시스템(노출되지 않은 아이템 = 비선호?), 콘텐츠 모더레이션(미신고 게시물 = 무해?)까지, 선택적 레이블링이 존재하는 모든 도메인에서 PU 프레임워크는 데이터 품질 감사(data quality audit)의 첫 번째 체크리스트가 되어야 한다. 모르는 것을 모른다고 인정하는 순간, 비로소 정직한 모델링이 시작된다.