심장이 보내는 번아웃 경고, MLOps로 놓치지 않는 법

'느낌'이 아니라 '데이터'로 번아웃을 감지할 수 있을까?

'왠지 지쳤다'는 주관적 판단을 심박 변이도(HRV, Heart Rate Variability)라는 생체 신호로 정량화하려는 시도가 개발자 커뮤니티에서 늘고 있습니다. dev.to에 올라온 두 편의 실전 가이드—HRV 기반 번아웃 예측 파이프라인과 MLflow를 활용한 MLOps 실험 추적—를 함께 읽으면, 흥미로운 교집합이 보입니다. 생체 신호를 다루는 파이프라인도, 고전적인 분류 문제도, 결국 같은 적에게 무너진다는 것: 재현 불가능한 실험, 추적되지 않는 하이퍼파라미터, 그리고 프로덕션에서 갑자기 달라지는 데이터 분포.

신호 처리 파이프라인: 노이즈부터 LF/HF 비율까지

HRV 분석의 입력은 ECG나 PPG 센서에서 나오는 원시 전압 신호입니다. dev.to의 HRV 가이드는 이 신호를 번아웃 지수로 변환하는 5단계 파이프라인을 제시합니다: 칼만 필터 노이즈 제거 → BioSPPy R-피크 검출 → NN 간격 계산 → 4Hz 리샘플링 → Welch 방법 PSD 추정. 최종적으로 저주파(LF: 0.04–0.15Hz)와 고주파(HF: 0.15–0.4Hz) 대역의 파워 비율인 LF/HF를 번아웃 지표로 사용합니다.

여기서 제가 먼저 던지고 싶은 질문이 있습니다. LF/HF 비율이 2.0을 넘으면 번아웃이라는 기준, 근거는 있나요? 해당 임계값은 문헌마다 다르고, 개인 간 베이스라인 편차도 상당합니다. 안정 시 LF/HF가 원래 높은 사람과 낮은 사람을 같은 기준으로 판단하면 False Positive가 폭증할 수 있습니다. 이건 절댓값 비교가 아니라 개인 내 시계열 트렌드로 봐야 하는 문제입니다.

데이터 품질 문제: 웨어러블 신호의 세 가지 함정

칼만 필터를 쓴다 해도 웨어러블 데이터의 노이즈 문제는 완전히 해결되지 않습니다. 실제 운영 환경에서 발생하는 세 가지 데이터 품질 이슈를 짚어봅시다.

첫째, 모션 아티팩트(Motion Artifact): 키보드를 타이핑하거나 마우스를 움직이는 것만으로도 PPG 신호에 심각한 왜곡이 생깁니다. 칼만 필터의 Q(프로세스 분산)와 R(측정 분산) 파라미터가 고정값으로 설정되어 있다면, 동적인 노이즈 환경에서는 추정 성능이 크게 떨어집니다. 이 파라미터 자체도 튜닝 대상입니다.

둘째, 이소성 박동(Ectopic Beats): 비정상적인 심박이 끼어들면 NN 간격 시계열에 아웃라이어가 생기고, 이는 FFT 결과를 오염시킵니다. 전처리 단계에서 이를 감지하고 보간하는 로직이 없다면 LF/HF 추정값 자체가 신뢰할 수 없습니다.

셋째, 데이터 드리프트: 오늘의 번아웃 지수와 3개월 후의 지수를 같은 모델로 해석할 수 있을까요? 수면 패턴, 계절, 카페인 섭취 습관이 바뀌면 HRV 분포 자체가 달라집니다. 모델 배포 이후 입력 피처의 분포 변화를 모니터링하는 체계가 없다면, 프로덕션에서 조용히 성능이 저하됩니다.

MLflow가 해결하는 문제: 실험 재현성의 위기

MLflow 가이드의 저자는 텔레콤 고객 이탈 예측 프로젝트에서 47개의 노트북 셀과 수동 엑셀 로그로 실험을 관리하다가 '최적 조합을 재현할 수 없는' 상황을 겪었습니다. 이 경험은 HRV 파이프라인에 그대로 적용됩니다. LF/HF 임계값 0.3, 0.4, 0.5를 바꿔가며 Precision/Recall 트레이드오프를 실험했는데, 어떤 설정이 최고였는지 기억 못 하는 상황—충분히 일어날 수 있습니다.

MLflow는 이 문제를 구조적으로 해결합니다. mlflow.log_param()으로 칼만 필터의 Q/R 값, Welch 메서드의 nperseg, LF/HF 임계값을 모두 추적하고, mlflow.log_metric()으로 ROC-AUC, F1-score, 그리고 비즈니스 메트릭(번아웃 탐지율 vs 오경보율)을 기록합니다. Model Registry는 'staging → production' 전환 이력을 남겨, 특정 버전의 모델이 왜 배포됐는지 설명 가능하게 만듭니다. 의료·헬스케어 도메인에서 이 Auditability는 선택이 아니라 필수입니다.

Optuna + MLflow: 하이퍼파라미터 탐색을 체계화하라

HRV 파이프라인에는 튜닝할 파라미터가 생각보다 많습니다. 신호 처리 레이어(칼만 Q/R, Welch nperseg, 리샘플링 주파수)와 ML 모델 레이어(XGBoost의 max_depth, learning_rate, class_weight)가 독립적으로 존재합니다. Optuna를 MLflow와 연동하면 각 Trial의 파라미터-성능 쌍이 자동으로 기록되어, 어떤 신호 처리 설정이 다운스트림 모델 성능에 더 큰 영향을 미치는지 Ablation study처럼 분석할 수 있습니다.

중요한 포인트: 여기서 최적화 목표 함수를 단순 Accuracy로 설정하면 안 됩니다. 번아웃을 놓치는 False Negative의 비용이 오경보(False Positive)보다 훨씬 크다면, Recall을 높이는 방향으로 임계값을 조정하거나 F-beta score (β > 1)를 목표 메트릭으로 써야 합니다. 이 비즈니스 로직을 Optuna objective function에 명시적으로 담는 것이 핵심입니다.

'상관관계'와 '인과관계'를 혼동하지 마세요

LF/HF가 높다 → 번아웃이다, 라는 추론에는 중요한 단서가 붙습니다. 이건 correlation이지 causation이 아닙니다. LF/HF 상승은 스트레스, 카페인, 수면 부족, 질병, 심지어 식사 직후 상태를 모두 반영할 수 있습니다. 번아웃을 예측하는 ML 모델을 만들려면 레이블(정답)이 필요한데, '번아웃' 레이블은 어떻게 수집할 건가요? 자가 보고(Self-report) 설문? 의사 진단? 레이블 품질이 모델 성능의 천장을 결정합니다.

SHAP을 활용한 Feature Importance 분석을 병행하면 어떤 주파수 대역의 파워가 예측에 실제로 기여하는지, 칼만 필터 파라미터가 최종 LF/HF에 얼마나 영향을 주는지 시각화할 수 있습니다. 블랙박스 HRV 스코어보다 해석 가능한 모델이 헬스케어 도메인에서 훨씬 신뢰받습니다.

전망: 생체 신호 MLOps의 현실적 과제

두 가이드가 그리는 파이프라인—신호 처리 → 피처 엔지니어링 → 실험 추적 → 모델 배포—은 방향은 맞습니다. 그러나 프로덕션 수준으로 끌어올리려면 세 가지가 더 필요합니다.

샘플 사이즈와 검증 설계: 10명의 데이터로 학습한 번아웃 예측 모델을 다른 인구 집단에 적용할 때 일반화 성능이 얼마나 떨어지는지, 통계적으로 유의미한 샘플이 확보됐는지 먼저 확인해야 합니다.

실시간 스트리밍 vs 배치 처리: 웨어러블 데이터는 연속적으로 들어옵니다. MLflow Model Serving만으로는 실시간 HRV 스코어링을 처리하기 어렵습니다. Kafka나 Flink 같은 스트림 처리 레이어와의 통합, 그리고 모델 추론 latency가 UX에 미치는 영향까지 설계에 포함돼야 합니다.

개인정보와 AI 윤리: 심박 데이터는 민감한 건강 정보입니다. GDPR, 국내 개인정보보호법 관점에서 데이터 수집 동의, 저장 암호화, 모델 예측 결과의 사용 범위를 명확히 해야 합니다. '번아웃 위험군'으로 분류된 직원 데이터를 HR이 열람할 수 있다면, 그건 기술 문제가 아니라 윤리 문제입니다.

생체 신호 기반 ML은 흥미로운 가능성을 품고 있지만, 데이터 품질·재현성·해석 가능성이라는 ML의 근본 질문 앞에서 예외가 없습니다. 심장이 보내는 신호를 듣기 전에, 파이프라인이 그 신호를 제대로 듣고 있는지 먼저 점검하세요.