AI가 판독문을 대신 써줄 수 있을까?

의학 논문 리뷰

May 18. 2023

TITLE [Dr's review]

저명한 의학 저널에 실린 의료인공지능에 관련된 최신 연구 논문을 의사가 직접 고르고, 리뷰하는 콘텐츠.

Comparison of Chest Radiograph Captions Based on Natural Language Processing vs Completed by Radiologists

Special writer: 장미소 (Miso Jang M.D., Ph.D.) 가정의학과 전문의, 서울아산병원 인공지능 연구원

안녕하세요. 이번에 리뷰할 논문은 JAMA network open에 올해 2월에 발표된 'Comparison of Chest Radiograph Captions Based on Natural Language Processing vs Completed by Radiologists'입니다. 최근 ChatGPT (Generative Pre-trained Transformer)의 활약으로, 전반적인 분야에서 인공지능에 대한 기대감이 높아져감과 동시에 실제로 인공지능이 인간의 일을 어떻게 대체할 것이 대한 논의가 시작되고 있습니다. 본 논문에서는 자연어 처리 (Natural Language Processing, NLP) 인공지능 중에서 BERT (Bidirectional Encoder Representations from Transformers)를 이용하였습니다. BERT는 Google에서, GPT는 OpenAI에서 개발한 모델로 2017년 Attention Is All You Need라는 기념비적인 NLP 논문에서 제안된 트랜스포머 모델에서 발전된 것입니다. BERT와 GPT의 가장 큰 차이는 단어들 사이에 상관관계를 계산하는 가중치 참조 방향이 양방향이냐 순방향이냐 인데, 이름에서 유추되듯 BERT는 양방향으로 좀 더 많은 정보가 반영되어 우수한 성능을 나타내고, GPT는 순방향으로 문장 생성에 직접 사용될 수 있습니다.

그림 1 ARABIC BERT와 GPT 비교 (Devlin et al. 2018)

본 논문에서는 BERT를 이용하여 임상에서 실제로 활용 가능성이 높을, 의사의 일 일부를 대신하는 인공지능 시스템에 대한 한 예시를 보여주고 있습니다. 흉부 X-ray는 폐질환과 심장질환 영상 검사의 26% 해당할 정도로 가장 흔하게 시행되면서도, 흉부 전문 영상의학과 의사의 판독을 받기는 굉장히 어렵습니다. 일차적인 흉부 X-ray 판독자는 그 검사를 처방한 진료의사와 영상의학과 레지던트이지요. 본 논문에서 BERT를 학습시키기 위해서 비구조화된 판독문의 구성을 해부학적 영역(폐, 종격동, 대동맥 등), 병변 위치 (오른쪽, 아래, 양쪽), 영상의 특징 (calcification, consolidation), 그 외 부가적인 영상 소견 (large, patchy)으로 언어 개체 분류했고, 언어 개체와 그 관계들을 검증하기 위해서 31년 차, 21년 차 흉부 영상의학과 의사와 NLP 개발자가 협업하여 개발하였습니다. 학습 데이터셋은 A병원에서 후향적으로 모은 4년 치 데이터 74,082례였고, B병원에서 후향적 테스트셋 8126례에서 인공지능 모델의 검증, 5091례의 전향적 테스트셋에 참여한 참여자의 판독 시간을 비교하여 3가지 판독문 생성 모델의 효용을 검증하였습니다. 3가지 판독문 생성모델은 normal template, NLP-generated captions, rule-based captions로 전향적 테스트에는 40명의 의사가 참여했습니다. NLP-generated captions가 판독문 학습 BERT 모델로 전공의 판독문 작성시간이 가장 감소했고 최종 판독문과도 가장 유사도가 높았습니다.

그림 2 전향적 테스트 워크플로우

그림 2와 같이 전향적 테스트가 가능하려면 병원 전산 시스템의 도움이 필요하다는 것을 알 수 있습니다. 이런 전방위적 연구가 가능한 상하이 종합병원과 상하이 교통대학 의대 시스템이 부럽기도 합니다. 그리고 normal template의 예시를 보면 이렇게 자세한 판독문을 준다는 점이 놀랍기도 합니다. 그림 3은 supplement materials에서 보이는 eFigure 2의 한 예로 normal template 예시와 최종 판독문에 대한 것입니다. 사실 Normal template와 같은 판독문을, 한국에서 의사로 일하면서는 한 번도 보지 못했습니다. 본 논문을 리뷰하면서 국내 데이터로는 개발이 불가능하지 않을까 생각했지만, 카카오 브레인에서 초거대 AI로 X-ray 영상분석 서비스를 올해 상반기에 출시할 예정이고, 서울대병원에서 성능평가를 시작했다고 하니 기대해 봅시다. 구글 리서치에서 개발한 Med-PaLm2 모델도 USMLE 85점 수준이라고 하고, 최근 구글에서 Bard도 오픈했으니 우리는 이런 모델들의 성능을 어떻게 평가할까, 어떻게 잘 활용해 볼까를 고민할 시기입니다.

그림 3 판독문 예시

리뷰된 출간 논문

https://pubmed.ncbi.nlm.nih.gov/36753278/

Comparison of Chest Radiograph Captions Based on Natural Language Processing vs Completed by Radiologists - PubMed

In this diagnostic study of NLP-generated CXR captions, prior information provided by NLP was associated with greater efficiency in the reporting process, while maintaining good consistency with the findings of radiologists.

https://pubmed.ncbi.nlm.nih.gov/36753278/

글 ㅣ 장미소

의료 AI 스타트업 프로메디우스의 의료 자문을 맡고 계시며, 가정의학과 의사이자 울산대 의공학과에서 의료인공지능으로 박사 학위를 취득하셨습니다. 현재는 인천에 있는 한 의원에서 봉직의로, 서울아산병원 인공지능 연구실에서는 인공지능 연구원으로 의료와 의료 AI에 대한 다양한 활동을 하고 계십니다.

keyword

작가의 이전글대규모언어모델이 의료인공지능 산업을 어떻게 바꿀까요?의료인공지능 모델의 임상적용의 마중물작가의 다음글