근거는 있나요? '정확도 99%'가 의미 없는 이유
모델 성능을 보고할 때 가장 흔히 저지르는 실수는 단 하나의 집계된 숫자를 전면에 내세우는 것입니다. '정확도 99%', '기존 모델 대비 우수'—이런 표현을 보면 저는 반사적으로 묻게 됩니다. 베이스라인은 무엇이고, 어떤 운영 지점(operating point)에서 측정했으며, 샘플 사이즈는 충분한가요? 최근 dev.to에 게시된 생체 인식 평가 지표 가이드와 미소정보기술의 양자 GAN 'HQGAN' 발표를 나란히 놓고 보면, ML 커뮤니티가 여전히 빠지고 있는 평가 지표의 함정이 선명하게 드러납니다.
생체 인식이 가르쳐주는 '다층 평가'의 교과서
생체 인식 분야는 단일 정확도 보고의 무의미함을 가장 뼈저리게 체감한 도메인입니다. dev.to의 실무 가이드가 강조하는 핵심은 간단합니다. 전체 정확도(overall accuracy)는 보안팀에게 아무것도 말해주지 않는다는 것이죠. 실무에서 의미 있는 지표는 FNMR@FMR=1e-4처럼 특정 운영 지점에서의 에러율이고, 이것을 ROC/DET 커브로 시각화해야 비로소 모델의 성격이 보입니다.
여기서 한 걸음 더 나갑니다. 매칭(matching) 성능이 완벽해도 PAD(Presentation Attack Detection)가 분리 평가되지 않으면 시스템은 무방비 상태입니다. APCER(스푸핑을 실제로 오분류하는 비율)과 BPCER(실제 사용자를 공격으로 오분류하는 비율)을 고정 BPCER 기준으로 보고하는 것, 그리고 성별·연령·피부톤별 서브그룹 델타를 필수로 공개하는 것—이것이 프로덕션 수준의 평가입니다. 이건 correlation이 아니라, 실제 배포 환경에서 특정 인구 집단이 체계적으로 불이익을 받는 causation의 문제이기 때문입니다.
특히 딥페이크와 카메라 우회 공격이 생성형 AI로 민주화된 지금, 물리적 센서 아티팩트에만 의존하는 라이브니스 탐지는 무력화됩니다. 해당 가이드가 제안하는 8~12개 항목의 'Must-Report 대시보드'—FMR 운영 지점별 FNMR, FTA/FTE, APCER@BPCER, 서브그룹 TAR, p95 레이턴시—는 사실 생체 인식뿐 아니라 모든 ML 시스템의 성능 보고 템플릿으로 확장할 수 있습니다.
HQGAN, '우수한 성능'의 근거를 묻습니다
이 프레임워크를 그대로 들고 미소정보기술의 HQGAN 발표를 살펴보겠습니다. 양자 컴퓨팅 기반 GAN으로 희귀질환 의료영상을 합성한다는 아이디어 자체는 매력적입니다. 의료 데이터 부족은 실제로 구조적 한계이고, 합성 데이터의 필요성에는 이견이 없습니다.
그러나 보도 내용에서 확인할 수 있는 정량 지표는 거의 없습니다. DCGAN, WGAN-GP 대비 '구조적 정합성', '세부 병변 표현력', '영상 품질'이 개선되었다고 하는데—FID(Fréchet Inception Distance)나 IS(Inception Score), SSIM 같은 표준 생성 모델 지표는 어디에 있나요? '진단적 허용성에서 우수한 결과'라는 표현도 마찬가지입니다. 영상의학 전문의 몇 명이 평가했는지, 블라인드 테스트였는지, 평가자 간 일치도(inter-rater agreement, Cohen's κ)는 보고되었는지 확인할 수 없습니다.
양자 컴퓨팅의 '연산 효율성과 확장성 강화' 주장도 검증이 필요합니다. 현재 양자 하드웨어의 큐비트 수와 노이즈 수준을 고려하면, 실제로 고전적 GPU 대비 의미 있는 속도 향상을 달성했는지—혹은 시뮬레이터 기반 실험인지—가 핵심입니다. Ablation study 결과가 없다면, 성능 향상이 양자 구조 때문인지 아키텍처 자체의 개선 때문인지 분리할 수 없습니다. 이것이 바로 생체 인식 가이드가 경고하는 '집계된 단일 숫자의 함정'과 정확히 동일한 패턴입니다.
시사점: 평가 보고는 '성능'이 아니라 '맥락'입니다
두 사례를 관통하는 교훈은 명확합니다. ML 모델의 가치는 단일 숫자가 아니라 운영 맥락(operating context) 안에서만 평가될 수 있습니다. 생체 인식에서는 FMR 운영 지점, 서브그룹 공정성, 공격 탐지가 그 맥락이고, 의료 영상 생성에서는 표준 생성 지표, 임상 평가 프로토콜, 하드웨어 조건이 그 맥락입니다.
실무자 입장에서 체크리스트를 정리하면 이렇습니다. 첫째, 운영 지점별 성능을 보고하세요—집계 정확도가 아니라 FNMR@FMR=1e-4처럼. 둘째, 서브그룹 슬라이싱은 선택이 아니라 필수입니다—인구 통계뿐 아니라 환경 스트레스(저조도, 저선량 CT 등)까지 포함해서. 셋째, 베이스라인 대비 개선을 보고할 때는 동일 조건·동일 데이터·동일 지표를 명시해야 합니다. 넷째, 재현 가능성(reproducibility)을 담보할 코드와 데이터 공개가 뒷받침되지 않는 '우수한 성능'은 마케팅이지 과학이 아닙니다.
결국 '정확도 99%'는 대화의 시작이지 끝이 아닙니다. 그 숫자 뒤에 어떤 분포의 데이터가 있었는지, 어떤 인구 집단이 소외되었는지, 실제 운영 환경의 레이턴시와 공격 시나리오에서도 그 숫자가 유지되는지—이 질문들에 답할 수 있을 때 비로소 모델은 프로덕션에 나갈 자격을 얻습니다.