brunch

라이킷 7 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by AIdant Mar 16. 2023

흉부 X-ray 영상에서 긴장성 기흉을 식별하는 AI

의학 논문 리뷰

TITLE [Dr's review]

저명한 의학 저널에 실린 의료인공지능에 관련된 최신 연구 논문을 의사가 직접 고르고, 리뷰하는 콘텐츠.

Evaluation of an Artificial Intelligence Model for Detection of Pneumothorax and Tension Pneumothorax in Chest Radiographs

안녕하세요. 저는 프로메디우스의 의료 자문을 맡고 있는 장미소라고 합니다. 가정의학과 의사이고 울산대 의공학과에서 의료인공지능으로 2022년 8월에 박사 졸업했습니다. 현재는 인천에 있는 한 의원에서 봉직의로 일하고 있고, 아산병원 인공지능 연구실에서는 인공지능 연구원으로, 프로메디우스에서는 의료자문을 맡고 있습니다.

제가 이번에 소개해드릴 논문은 JAMA Network Open에서 출간된 것으로, 이 저널은 2018년에 처음 출간되었고 2021년에 IF 5.492였고 현재 IF 13.37로 성장하고 있으며 온라인 오픈 액세스 형식으로 출간되어 전 세계적으로 접근성이 높습니다. 의료인공지능에 관련된 연구들이 많이 실리고 있어 관심 가지고 살펴보시면 좋을 듯합니다. (본문 하단 링크를 통해 논문을 보실 수 있습니다.)

2022년 12월에 출간된 이 논문에서는 흉부 X-ray 영상에서 기흉과 긴장성 기흉 감지하고 긴장성 기흉을 식별해 내는 인공지능 모델의 성능을 평가한 결과를 담고 있습니다. 다들 인공지능이 잘한다고들 하고, 최근에 나온 chatGPT로 인공지능 모델에 대한 기대가 높아졌습니다만 의료에서 인공지능을 사용한다면 이 인공지능의 성능을 어떻게 평가해야 될까요? 흉부 X-ray에서 이상소견을 감지하는 의료인공지능 솔루션들은, 그 필요성과 상대적으로 쉬운 데이터 접근성 및 공개 데이터 등의 이유로 굉장히 많이 개발되어 있습니다.

이 연구의 주요 목적은 이 모델의 일반화에 대한 성능 검증입니다. X-ray 기계, 환자의 position, 흉부 영상에 포함된 다른 소견들에 따른 모델 정확도에 대해서 알아보았습니다. 연구 결과, 인공지능 모델은 흉부 X-ray 환자 영상에서 기흉 감지에는 민감도 94.3%, 특이도 92%의 성능을 보였고, 긴장성 기흉 감지에는 그보다 높은 민감도 94.5%와 특이도 95.3%를 보여주었습니다.

그러면 어떻게 테스트셋을 구성했을까요? 일반화에 대한 검증을 하려면 굉장히 다양한 상황에서도 성능이 떨어지지 않는다는 것을 보여주어야 합니다. 이 연구는 MGB network 내에 4개 병원에서의 흉부 방사선 사진을 이용했다고 합니다. Mass General Brigham (MGB)는 미국 매사추세츠주 보스턴에 본부를 둔 건강 관리 서비스로 매사추세츠 주내 12개 병원, 6개 의료 센터, 1개 정신 건강 병원 등을 운영하고 있지요. 데이터를 모으기 위해서 영상의학과 전문의의 메뉴얼 리뷰와 함께 긴장형 기흉을 찾기 위해서 상용 판독문 검색엔진을 사용했고, 흉부 X-ray 검사를 한 임상적 상황에는 제한을 두지 않았습니다. 각 전략은 시간적, 기계적 편향을 피하기 위해 이후에 같은 기계에서 정상인 영상을 획득하는 것까지 포함했습니다. 또한 모든 이미지의 비식별처리되었고, 이미지 질에 대한 리뷰도 영상의학과 전문의 검토를 거쳤으며 이 또한 FDA에 승인한 이미지 시각화 소프트웨어를 사용했다고 하네요.

테스트에는 적절한 문제와 그에 따른 정확한 정답이 필요합니다. 데이터셋의 정답을 위해 3명의 흉부영상 펠로쉽을 한 영상의학과 전문의가 독립적으로 영상에 대한 질평가 및 판독을 하였고 그들은 이런 질문들의 답을 했습니다. 기흉의 여부, 있다면 크기가 2cm 이상인지, 긴장성 기흉의 특징이 있는지 여부, 다른 부가소견 10가지(흉막 삼출, 늑골 골절, 흉부 수술 여부, 몸 안에 있는 라인 등)가 있는지를 같이 확인하였습니다. 2명의 영상전문의가 영상을 해석하고, 그 해석의 차이를 3번째 영상전문의가 해석하고 계속되는 논란은 3명의 전문의가 미팅을 가져서 정리했다고 합니다.

[참고 그림]

기흉 및 긴장성 기흉 검출을 위한 AUC 영역 및 예제 이미지

논문 원문 자료 캡처

검증된 모델은 상용 버전으로 75만 건 이상의 흉부 영상으로 학습되었고 100가지 이상의 영상 소견을 찾을 수 있는 모델인데, 이 논문에서 이 모델은 기흉인지 아닌지, 혹은 긴장성 기흉인지 아닌지를 2진 분류법으로 구분하는 결과만 제공했다고 합니다. 테스트 데이터 985건에 대해서 기흉이 435건, 긴장성 기흉이 128건이었고, 11종의 X-ray 기계로 찍힌, 다양한 임상 소견으로 포함한 흉부 X-ray 영상에서 대략적으로 AUC 0.95, 민감도, 특이도는 80% 이상의 소견을 보여주고 있습니다. 자세히 살펴보면 X-ray 기종들 사이의 성능 편차가 좀 있긴 합니다(기종이 궁금하신 분은 논문을 직접 보시길). 긴장성 기흉은 AUC가 더 높은데, 기흉이 포함된 데이터셋에서 긴장성 기흉만 잘 골라냅니다. 흉부 수술 흔적, 배액관, 여러 라인들이 영상에 포함된 경우에도 AUC가 0.9 이상으로 대체적으로 높아 다양한 임상상황에서도 쓰일 수 있다는 것을 증명하였고 이에 기흉의 조기 발견 및 치료에 대한 기대감을 높였습니다.

이 모델에도 3가지 CNN이 통합되어 구성되어 있다고 하는데, 모델에 다양한 딥러닝 기술을 필요한 건 사실이나 또한 중요한 것은 학습된 데이터입니다. 그리고 가장 중요한 건 검증방법입니다. 인공지능 모델에 대해서 RCT를 적용해서 결과를 내보기엔 너무나 긴 세월이 필요하겠지요. 모델을 사용할 임상상황에 맞는 검증방법에 대한 고민은 지속적으로 필요합니다. JAMA network Open에 실린 만큼 이 모델의 검증방법 또한 여러 인공지능 검색엔진을 도움을 받았지만, 결국 영상 전문의와 흉부 영상 전문의의 노동력이 많이 요구되었습니다. 흉부 X-ray 영상에서 보일 수 있는 다양한 소견들이 포함된 영상에서 목표하고자 하는 병변 혹은 질환 감지에 대한 흔들리지 않는 높은 성능을 확인하는 것 또한 앞으로 의료인공지능을 평가하는 입장에서, 사용하는 입장에서 필요하다고 생각합니다.

리뷰된 출간 논문

https://pubmed.ncbi.nlm.nih.gov/36520432/

Evaluation of an Artificial Intelligence Model for Detection of Pneumothorax and Tension Pneumothorax in Chest Radiographs - Pub

These findings suggest that the assessed AI model accurately detected pneumothorax and tension pneumothorax in this chest radiograph data set. The model's use in the clinical workflow could lead to earlier identification and improved care for patients with

pubmed.ncbi.nlm.nih.gov

글 ㅣ 장미소

의료 AI 스타트업 프로메디우스의 의료 자문을 맡고 계시며, 가정의학과 의사이자 울산대 의공학과에서 의료인공지능으로 박사 학위를 취득하셨습니다. 현재는 인천에 있는 한 의원에서 봉직의로, 서울아산병원 인공지능 연구실에서는 인공지능 연구원으로 의료와 의료 AI에 대한 다양한 활동을 하고 계십니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari