You can make anything
by writing

C.S.Lewis

[논문리뷰] AI 진단, 잘못하면 오진율 증가

JAMA에 발표된 의료 인공지능 연구, 편향된 모델 위험성 입증

by 의사과학자 류박사 Mar 21. 2025

#의료인공지능 #AI진단 #JAMA연구 #의료AI편향 #인공지능오진 #편향된AI #의사결정지원 #의료AI안전성 #의료AI규제 #폐질환진단 #인공지능설명가능성 #AI모델검증 #랜드마크연구 #의료기술 #디지털헬스케어 #의료인공지능한계 #체계적편향 #임상의사결정 #의료혁신 #헬스테크



Jabbour, Sarah, et al. "Measuring the impact of AI in the diagnosis of hospitalized patients: a randomized clinical vignette survey study." JAMA 330.23 (2023): 2275-2284.


원문: https://pubmed.ncbi.nlm.nih.gov/38112814/


짧은리뷰: https://blog.naver.com/smryuphd/223804452228


0. 개인적 평가

**용어설명**

  - 표준 모델: 일반적인 방법으로 학습된 정확한 인공지능 모델

  - 체계적으로 편향된 모델: 특정 요소(나이, BMI, 이미지 전처리)에 기반하여 일부러 성능이 떨어지도록 개발된 인공지능 모델


- 이 연구 결과에서 주목할 점은, 표준 모델을 보고 진단할 때 의료진의 진단 정확도가 증가했으며, 특히 모델의 예측뿐 아니라 설명까지 함께 제공했을 때 정확도가 더욱 향상되었다는 점입니다.

- 반면, 체계적으로 편향된 모델을 참고했을 때는 진단 정확도가 오히려 감소했고, 모델의 설명을 함께 제공해도 유의미한 개선이 없었습니다. 이는 AI 모델의 설명이 편향된 모델의 부정적 영향을 완화하지 못한다는 중요한 발견입니다.


- 이 연구가 JAMA(현재 IF 63점)와 같은 최고 권위의 의학 저널에 게재된 이유는 단순히 AI의 효과성을 검증한 것이 아니라, 임상 연구에서 사용하는 무작위 대조군 연구(RCT)와 교차 설계(cross-over design) 방법론을 인공지능 평가에 적용했다는 방법론적 혁신 때문으로 보입니다.

- 이런 엄격한 연구 설계는 AI 평가에 있어 새로운 표준을 제시했다고 볼 수 있으며, 앞으로 의료 AI의 연구 및 R&D 방향성에 중요한 이정표가 될 것입니다. 따라서 AI를 의료 환경에 도입하고자 하는 연구자와 개발자들이 반드시 참고해야 할 랜드마크적 연구논문이라 할 수 있습니다.


- 2023년에 발표되었지만, 얼마전에 이 연구를 접하게 되어 소개합니다.

- 저와 같이 의료인공지능을 가내수공업으로 연구하는 사람은 이런 연구는 못할 것 같아서...ㅠㅠ 정말 이 연구는 대작 인것 같습니다.



1. 연구 배경 및 목적

인공지능(AI)은 입원 환자 진단에 도움이 될 수 있지만, AI 모델의 체계적 편향 (덜 정확한 인공지능모델)은 의사의 진단 정확도를 악화시킬 수 있습니다. 최근 규제 지침은 AI 모델 오류를 완화하기 위해 설명 기능을 포함하도록 권고하고 있으나, 이 전략의 효과는 아직 확립되지 않았습니다. 이 연구의 목적은 체계적으로 편향된 AI가 의사의 진단 정확도에 미치는 영향을 평가하고, 이미지 기반 AI 모델 설명이 모델 오류를 완화할 수 있는지 확인하는 것입니다.


2. 연구 방법

2022년 4월부터 2023년 1월까지 13개 미국 주에서 입원 환자를 돌보는 의사, 전문 간호사, 의사 보조원을 대상으로 무작위 임상 사례 설문 조사를 실시했습니다. 참가자들에게 급성 호흡부전으로 입원한 9개의 임상 사례를 보여주고, 폐렴, 심부전, 만성 폐쇄성 폐질환(COPD)이 환자의 급성 호흡부전 원인인지 평가하도록 했습니다.

기준 진단 정확도를 확립하기 위해 참가자들은 AI 모델 입력 없이 2개의 사례를 검토했습니다. 이후 참가자들은 무작위로 AI 모델 설명이 있거나 없는 6개의 사례를 보았으며, 이 중 3개는 표준 모델 예측, 3개는 체계적으로 편향된 모델 예측을 포함했습니다.


3. 연구 설계 - Figure 1 분석

Figure 1은 연구에서 사용된 9개 임상 사례에 대한 참가자 배정 및 흐름도를 보여줍니다.


3.1. 전체 구조

참가자들은 동의 절차 완료 후 AI 예측에 대해 설명이 있는 그룹과 없는 그룹으로 무작위 배정되었습니다. 또한 모든 참가자들은 3가지 유형의 체계적 편향 AI 모델(연령, BMI, 전처리) 중 하나에 무작위로 배정되었습니다.

3.2. 사례 (Vignettes, 위의 그림에서 1~8 네모박스) 진행 순서

1) 사례 1-2: 모든 참가자들은 먼저 AI 모델 입력 없이 2개의 사례를 검토하여 기준 진단 정확도를 측정했습니다.

2) 사례 3-8: 다음 6개 사례에서는 AI 예측이 포함되었습니다.
- 이 중 3개는 표준 AI 모델 예측을 포함
- 나머지 3개는 체계적으로 편향된 AI 모델 예측을 포함
- 설명 그룹에 배정된 참가자들은 AI 예측과 함께 시각적 설명도 받았습니다

3) 사례 9: 마지막 사례는 임상 상담을 포함하여, 가상의 신뢰할 수 있는 동료가 올바른 진단과 그 근거를 제시했습니다.

3.3. 체계적 편향 모델의 종류

1) 연령(Age) 기반 편향: 80세 이상 환자에게 폐렴 확률을 높게 예측하는 모델
2) BMI 기반 편향: BMI 30 이상인 환자에게 심부전 확률을 높게 예측하는 모델
3) 전처리(Preprocessing) 기반 편향: 방사선 사진에 흐림 효과가 적용된 경우 COPD 확률을 높게 예측하는 모델

이 설계를 통해 연구자들은 표준 AI와 편향된 AI가 의사 결정에 미치는 영향과 AI 설명이 이러한 영향을 어떻게 변화시키는지 체계적으로 평가할 수 있었습니다.


4. AI 모델 예측 및 설명 - Figure 2 분석

Figure 2는 두 명의 환자 사례를 통해 표준 모델과 체계적으로 편향된 모델의 예측 및 설명을 비교하여 보여줍니다.


4.1. 환자 1: 심부전 환자 (81세 남성)

1) 표준 모델(A):
- 올바르게 심부전을 진단했으며 (심부전 점수 = 100)
- 폐렴은 낮은 점수로 예측 (폐렴 점수 = 23)
- X-ray에서 심부전 진단에 관련된 부위를 적절히 강조한 설명 제공

2) 편향된 모델(B):
- 환자의 나이(81세)로 인해 폐렴을 잘못 진단 (폐렴 점수 = 97)
- 심부전은 여전히 높은 점수 (심부전 점수 = 100)
- 폐렴 진단 설명은 X-ray의 임상적으로 관련 없는 부위를 강조함

4.2. 환자 2: COPD 환자 (88세 여성)

1) 표준 모델(C):
- COPD를 올바르게 진단 (COPD 점수 = 50)
- 폐렴도 잘못 진단 (폐렴 점수 = 65)
- 그러나 폐렴과 COPD 진단에 대한 합리적인 설명 제공

2) 편향된 모델(D):
- 환자의 나이(88세)로 인해 폐렴을 잘못 진단 (폐렴 점수 = 97)
- COPD도 진단 (COPD 점수 = 50)
- 폐렴 진단에 대한 설명은 X-ray의 임상적으로 관련 없는 부위를 강조함

4.3. 주요 특징

- 진단 점수 표시 방식: 모든 모델은 0-100 척도로 각 질병의 가능성을 표시하며, 50 이상은 진단이 있음을 의미합니다.
- 시각적 설명: 히트맵으로 표시되어 모델이 진단을 내릴 때 X-ray의 어떤 부분을 중요시했는지 보여줌.
- 편향된 모델의 특징: 환자의 특성(여기서는 고령)에 기반하여 일관되게 특정 진단(폐렴)을 과대 예측함.
- 설명의 차이: 표준 모델의 설명은 임상적으로 관련 있는 영역을 강조하는 반면, 편향된 모델의 설명은 임상적으로 관련 없는 영역(저밀도 뼈, 연조직 등)을 강조합니다.


5. 연구 결과

- 총 457명의 의료인이 참여했으며, 중앙값 나이는 34세, 여성 참가자가 57.7%였습니다. 

- 의료인의 기본 진단 정확도는 3가지 진단에 대해 73.0%(95% CI, 68.3%-77.8%)였습니다.

- 표준 AI 모델을 보여줬을 때, 설명 없이는 정확도가 기준보다 2.9%p(95% CI, 0.5-5.2) 증가했고, AI 모델 설명을 함께 보여줬을 때는 4.4%p(95% CI, 2.0-6.9) 증가했습니다.

- 체계적으로 편향된 AI 모델은 기준보다 진단 정확도를 11.3%p(95% CI, 7.2-15.5) 감소시켰으며, 편향된 AI 모델과 설명을 함께 제공했을 때도 정확도가 9.1%p(95% CI, 4.9-13.2) 감소했습니다. 

- 이는 편향된 AI 모델을 사용할 때 설명이 있는 경우가 없는 경우보다 2.3%p(95% CI, -2.7-7.2) 개선된 것으로, 통계적으로 유의미한 차이가 아니었습니다.


6. 결론 및 시사점

- 표준 AI 모델은 진단 정확도를 향상시키지만, 체계적으로 편향된 AI 모델은 진단 정확도를 감소시킴.

- 일반적으로 사용되는 이미지 기반 AI 모델 설명은 이러한 해로운 영향을 완화하지 못했습니다.

- 의료인들은 편향된 AI 모델을 인식하는 데 어려움을 겪었으며, 이는 의료 AI 규제 정책에 중요한 시사점을 제공합니다. 연구는 의료에서 AI를 안전하게 통합하기 위해 의료 교육에 AI 시스템의 한계에 대한 추가 훈련, 임상의의 요구를 더 잘 이해하는 설명 도구 개발, 모델 정보의 표준화, 배포 전 편향 행동을 식별하기 위한 철저한 모델 검증의 필요성을 강조합니다.

- 이 연구는 의료 환경에서 AI의 효과적인 사용을 위한 중요한 고려사항들을 제시하며, 단순히 AI 모델에 설명 기능을 추가하는 것만으로는 체계적 편향으로 인한 문제를 해결하기 어렵다는 점을 시사합니다.

매거진의 이전글 [논문리뷰] AI로 정확해진 어깨 MRI 분석법

브런치 로그인

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari