brunch

[논문리뷰] 경추 골절진단, AI는 의사만큼 정확할까?

경추 골절 진단 AI의 실력은? 1,828건 CT 분석으로 알아본 현주소

by 의사과학자 류박사

#경추골절 #의료AI #인공지능진단 #딥러닝 #RSNA2022 #Challenge #의료영상분석 #디지털헬스케어 #응급실진단 #임상평가 #진단정확도 #정형외과 #영상의학과 #CT진단 #조영제CT #컴퓨터비전 #의료현장 #실시간진단 #진단보조 #의학연구 #성능평가 #임상검증 #의료데이터 #진단오류


Hu, Zixuan, et al. "Assessing the performance of models from the 2022 RSNA Cervical Spine Fracture Detection Competition at a level I trauma center." Radiology: AI (2024).


원문: https://pubmed.ncbi.nlm.nih.gov/39298563/


짧은리뷰: https://blog.naver.com/smryuphd/223730457412

1*U1WFxjIf36pJpZ93dTHZQw.png



〖 개인적 평가 〗


이 연구는 RSNA(북미방사선의학회) 2022년 경추 골절 탐지 AI 경진대회에서 상위 입상한 모델들의 실제 임상 환경에서의 성능을 평가한 논문입니다. MI2RL 연구원 시절에 이 challenge에 참가하려고 계획하였으나 하고 있던 업무가 너무 많아서 결국 참가하지 못했던 아쉬움이 있습니다. 그 challenge의 상위 입상 모델을 이용하여 평가한 논문이 나와서 리뷰해보았습니다.


임상의사가 놓치는 것도 있었고, 인공지능 모델이 놓치는 것도 있었습니다. (논문에서의 Figure 4와 Figure 5) 거의 성능이 이제 유사한 정도로 왔다고 평가할 수 있을 것 같습니다. 하지만 실제 응급실에서 정형외과 전문의가 골절을 찾을 때는 사진만 보는 것은 아니고, 촉진을 하면서 확진을 하는 것입니다. 그렇기 때문에 응급실에서 초진을 하는 의사를 완전히 대체하기는 영원히 불가능하지 않을까 싶습니다. 하지만 영상정보에서 “몇%의 확률로 골절이 의심이 된다” 이런 가능성을 출력해준다면 의사가 진단을 할 때 조금 더 확신을 할 수 있게 도움을 받을 수 있을 것이라고 생각합니다.



〖 연구 배경과 목적 〗


•경추 골절은 흔하며 높은 사망률과 이환율을 보이는 중요한 외상입니다(10만명당 16.5명 발생)

•CT는 경추 골절 진단의 표준 검사법이지만, 바쁜 임상 환경에서 영상 판독의 지연은 환자 예후에 악영향을 미칠 수 있습니다

•이 연구는 RSNA 2022 경진대회 상위 7개 AI 모델의 실제 임상 환경에서의 성능을 평가했습니다


1*f4k1ZlvY4WtjLEAScT0vOg.png



〖 연구 방법 〗


•1급 외상센터에서 1년간(2022년) 수집된 1,828건의 CT 스캔을 분석

•조영제 사용 및 비사용 스캔 모두 포함 (비조영: 1,308건, 조영: 521건)

•골절 양성 130건, 음성 1,699건

•ROC 곡선 분석, 민감도, 특이도 등으로 성능 평가



〖 주요 결과 〗


1.비조영 CT 스캔에서:

평균 AUC: 0.89 (범위: 0.79-0.92)

•평균 민감도: 67.0% (범위: 30.9%-80.0%)

•평균 특이도: 92.9% (범위: 82.1%-99.0%)

2.조영 CT 스캔에서:

평균 AUC: 0.88 (범위: 0.76-0.94)

•평균 민감도: 81.9% (범위: 42.7%-100.0%)

•평균 특이도: 72.1% (범위: 16.4%-92.8%)



〖 중요한 발견 〗


•AI 모델들은 방사선과 의사가 놓친 10건의 골절을 발견했습니다

•위양성은 주로 조영제 사용 CT에서 더 많이 발생했습니다

•퇴행성 변화가 있는 환자의 비조영 CT에서도 위양성이 자주 발견되었습니다

•위음성은 주로 퇴행성 변화와 골감소증이 있는 경우에 발생했습니다


1*qLlMdx5sn80tsoa5VLu2_A.png Figure 4 (인공지능 모델이 발견한 골절): 의사가 놓친 것을 AI 모델이 발견한 사례들. 이 시각화를 통해 AI가 실제로 미세한 골절들(예: 횡돌기 골절, 극돌기 골절 등)


1*axb1zjGtihH8W7MQpbUSDw.png Figure 5 (위양성 사례): 실제 골절이 아닌데 인공지능이 골절이라고 판단한 사례들. 혈관 내 조영제, 만성 퇴행성 변화, 골다공증, 인대와 연부조직 석회화 등.



〖 연구의 의의 〗


•실제 임상 환경에서도 AI 모델들이 우수한 성능을 보여주었습니다

•특히 비조영 CT에서 더 안정적인 성능을 보였습니다

•향후 임상 지원 도구로서의 가능성을 보여주었으나, 추가 검증이 필요합니다

•퇴행성 변화, 골감소증 등이 있는 환자군에서는 성능 개선이 필요합니다


이 연구는 AI 모델이 실제 임상 환경에서 경추 골절 진단을 보조하는 도구로 활용될 수 있는 가능성을 보여주었으며, 동시에 개선이 필요한 부분도 명확히 제시했다는 점에서 의의가 있습니다.


1*1VWNaycTTUeLzzjQj8BVDw.png


〖 기본 아키텍처 〗


모든 상위 모델들은 2단계 접근 방식을 사용했습니다:

1.분할(Segmentation) 단계:

•목적: CT 영상에서 경추 (뼈) 부위만을 정확하게 분리해내는 것

•사용된 모델: 2D 또는 3D U-Net 구조

•작동 방식: 입력된 CT 영상에서 경추의 각 부분(척추체, 후궁, 돌기 등)을 픽셀/복셀 단위로 분류

•장점: 관심 영역을 정확하게 분리함으로써 불필요한 정보를 제거

2.분류(Classification) 단계:

•목적: 분할된 경추 영상에서 골절 유무를 판단

•핵심 구성요소:

o특징 추출 네트워크: 주로 ResNet, EfficientNet 등의 CNN 사용

o특징 집계 모듈: 추출된 특징들을 통합하여 최종 판단에 사용

o분류기: 골절 확률을 출력하는 완전연결층


〖 성능 향상을 위한 주요 기술 〗


→ 인공지능 모델 학습시에 일상적으로 하는 것들임.

1.앙상블 기법:

•여러 모델의 예측을 결합하여 더 안정적인 결과 도출

2.데이터 증강(Data Augmentation):

•회전, 뒤집기, 밝기 조절 등을 통해 학습 데이터 다양화

•과적합 방지와 일반화 성능 향상에 기여

3.Grad-CAM 시각화


〖 실제 성능과 한계 〗


•비조영 CT에서 더 안정적인 성능 (AUC 0.89)

•조영 CT에서는 다소 성능 저하 (AUC 0.88)

•주요 한계점:

o퇴행성 변화가 있는 경우 오진단 위험 증가 → 뼈의 경계가 sharp하지 않아서 그런듯

o골감소증 환자에서 정확도 저하 → 뼈의 밀도가 줄어서 segmentation이 힘들어서 그런 듯

o조영제로 인한 혈관 조영증강이 위양성 유발 → 조영제가 너무 밝아서 뼈랑 오인되어서 그런 듯



〖 부록. 각 팀별로 다른 접근 방식 〗


→ 특히 상위권 팀들은 주로 2.5D나 하이브리드 방식을 선호했다.

1*NKysOh1FVXkwAan0TkGVvg.png

1.Team Qishen (1등):

•2.5D classification with LSTM 사용, 5개 채널을 가진 이미지로 처리

2.Team RAWE (2등):

•2D CNN + BiGRU + Attention 메커니즘 사용, 24개의 균일하게 분포된 슬라이스 사용

3.Team Darragh (3등):

•2.5D CNN + 1D RNN 사용

4.Team Selim (4등):

•3D classification 사용

•IR (IP)-CSN-152와 global max pooling 사용, 각 척추 주변 40개 이미지 사용

5.Team Speedrun (5등):

•Hybrid 2.5D and 3D CNN 사용, 연속된 3개 이미지를 포함하는 스택들 사용

6.Team Skecherz (6등):

•두 가지 접근 방식 결합: 3D CNN 네트워크, Temporal-Depth CNN (2D CNN + sequence model)

7.Team Qwer (7등):

•3D segmentation 방법 사용, 3D-nnUNet으로 골절 영역 예측


keyword