AUC 0.9의 함정: 좋은 모델이 좋은 연구는 아니다

데이터 과학자가 놓치기 쉬운 '숫자 너머의 맥락'

by 디딤돌

요즘 의료 AI 논문들을 보면 서두에 이런 문장이 자주 등장합니다.


"AUC 0.93의 심부전 예측 모델을 개발하였다." "정확도 90% 이상의 재입원 예측 모델을 구현하였다."


숫자만 보면 감탄이 절로 나옵니다. 이 정도 성능이면 당장 실전에 사용해도 되지 않을까? 라는 생각도 들죠.

하지만 헬스케어 데이터 분석을 업으로 삼고 있는 제 입장에서 보면, 좋은 예측 모델이 곧 좋은 연구는 아니고, 더욱 '좋은 의사결정'을 보장하지도 않는다는걸 느낍니다.


오늘은 화려한 숫자 뒤에 숨겨진, '모델'과 '연구'의 결정적 차이를 정리해 보려 합니다.


1. "좋은 모델"의 기준 vs "좋은 연구"의 기준

머신러닝/AI 모델 평가는 명쾌합니다.


지표: AUC, Accuracy, F1-Score, RMSE 등

기준: 입력 X를 줬을 때, 정답 Y 를 얼마나 기가 막히게 맞추는가? (과적합 없이)


반면, 의료/역햑에서 말하는 "좋은 연구"의 기준은 결이 다릅니다. 정답을 맞추는 것이 아니라 '질문의 타당성'을 따집니다.

1) 질문이 명확한가?: "누가 질병이 잘 생기느냐 (예측)" vs "이 약이 질병을 줄이느냐 (인과)" 를 구분했는가?

2) 설계가 타당한가?: 비교군 설정, 시간축 정의, 교란 요인 처리가 논리적인가?

3) 해석이 가능한가?: 단순히 "관련이 있다"가 아니라 "이 약 때문에 결과가 변했다" 라 할 수 있는가?


즉, 좋은 연구는 "올바른 질문에, 덜 왜곡된 방법으로 답하고 있는가"를 봅니다. 모델이 아무리 Y값을 잘 맞춰도, 설계가 비틀려 있다면 그건 "멋진 숫자를 가진 나쁜 연구"일 뿐입니다.


2. 예측 성능이 높아도 위험한 3가지 상황

헬스케어 데이터를 다루면서 자주 마주치는 "모델 성능은 좋은데 연구로서는 위험한" 패턴들입니다.


(1) '위험한 사람'을 맞추는 모델을 '약 효과 평가'에 쓰는 경우

어떤 모델이 "3년 내 골절 고위험군"을 기가 막히게 찾아 낸다고 합니다. 그렇다고 해서 이 모델이 지목한 사람에게 A약을 쓰면 골절이 줄어든다 라고 해석하면 논리적 비약입니다.


이 모델은 "누가 위험한가"를 맞출 뿐, "어떤 개입(Intervention)이 그 위험을 줄이는가"에 대해서는 아무런 답을 주지 않기 때문입니다. 환자의 순응도, 병원 선택, 다른 약물 복용 여부 같은 변수들이 전혀 통제되지 않았으니까요.


(2) 치료 그 자체가 "위험의 신호"가 되는 경우

실제 데이터에서는 '더 아픈 환자일수록 더 강한 약을 쓰는'일이 흔합니다. 이러한 상황을 AI 모델 입장에선 단순하게 학습합니다.


강한 약 -> 아픈 사람 -> 사건 발생


결국 AI는 "이 약을 쓰는 사람일수록 사건이 많이 발생한다 (위험하다)" 라는 규칙을 찾아냅니다. 이걸 보고 "AI 활용해서 분석해 보니 이 약은 위험하다"고 결론 내린다면 질문과 답이 뒤집힌 해석이 됩니다. 이것이 역학에서 말하는 '적응증에 의한 교란' 입니다. 좋은 모델 이전에 좋은 설계가 필요한 이유입니다.


(3) 시간 정보가 뒤섞여 있을 때

청구 데이터에는 진단, 검사, 처방, 수술 코드가 한 바구니에 담겨 있습니다. 예측 모델은 이걸 전부 'Feature'로 써서 미래를 잘 맞추면 그만입니다. 하지만 연구자는 따져야 합니다.


이 검사가 사건 이전의 위험요인인가, 사건이 터진 후 발생한 코드인가?

약 처방이 원인인가, 결과인가?


시간축을 정리하지 않으면 '결과를 원인으로 사용하여' 예측 성능만 뻥튀기한 모델이 나옵니다. 실무적으로 가장 경계해야 할 함정입니다.


3. 그래서 "좋은 연구"는 무엇을 보는가?

제가 생각하는 좋은 연구는 적어도 4가지를 챙겨야 한다고 생각합니다.


1) 질문 분리: 예측과 인과를 섞지 않는다.

2) 설계: 비교군을 정의하고 시작 시점을 맞춘다.

3) 데이터의 한계 인정: 데이터로는 알 수 없는 것들 (생활 습관 등)을 인정하고 해석 범위를 제한한다.

4) 맥락적 의사결정: 수치 하나로 퉁치지 않고, "어떤 환자군에서 어느 정도 불확실성을 갖고 유효한지" 설명한다.


이 조건들이 충족된 뒤에 고성능 예측 모델이 올라가야, 비로소 "좋은 모델을 쓴 좋은 연구" 가 됩니다.


4. 역학자가 보는 AI 모델의 자리

저는 의료 AI를 이렇게 정의하고 싶습니다.


AI/ML 모델: 고위험군을 찾고 패턴을 요약하는 탁월한 '도구'

역학 연구 설계: 어떤 질문을 하고 어떻게 비교할지 정하는 '게임의 규칙'


좋은 예측 모델은 이 규칙 안에서 연구를 풍성하게 만들어 주지만, 규칙 자체를 대신 설계해 주지는 않습니다.


그래서 저는 '좋은 AI 모델을 만드는 사람(Data Scientist)'과 '좋은 연구 설계를 만드는 사람(Epidemiologist)'이 더 자주 대화해야 한다고 믿습니다.

작가의 이전글리더의 사과문에는 '억울함'이 들어갈 틈이 없다.