brunch

You can make anything
by writing

C.S.Lewis

by 김찬우 Feb 20. 2019

의료용 진단 AI로서 IBM WATSON이 지닌 문제점

AI를 활용한 의료진단분야는 아직 갈 길이 멀기만 하다. 

注: 2018년 12월에 '메디게이트 뉴스'에 게재했던 글입니다. 



2011년 미국의 유명 퀴즈 방송인 ‘Jeopardy’에 출연하여 74번 연속 승리에 빛나는 ‘켄 제닝스’와, 가장 많은 우승 상금을 획득한 ‘브레드 러터’를 상대로 압승을 거두며 인공지능(A.I., Artificial Intelligence)이 인간을 능가할 것이라는 가능성을 보여준 IBM의 ‘왓슨’. 


‘왓슨’은 IBM이 만든 인공지능 또는 그 인공지능이 탑재된 슈퍼 컴퓨터를 뜻하며, 명칭은 초대 IBM의 경영자였던 토머스 존 왓슨 시니어(Thomas John Watson Sr., 1874년 2월 17일 ~ 1956년 6월 19일)에서 땄다. ‘왓슨’은 자연 언어 형식으로 된 질문들에 답할 수 있는 시스템이며, 인간 수준의 이해력과 정의 분석력을 갖추는 것을 목표로 개발 중인 소프트웨어이다. 


화려한 등장과 더불어 IBM은 Watson을 통하여 다양한 분야에 진출하게 되었으며, 특히 금융, 쇼핑, 법률 분야에 진출하였으며 미국 메사추세츠 주 캐임브리지 켄달스퀘어에 ‘왓슨 헬스 그룹’을 설립, 왓슨을 암 연구 센터 등에서 논문 분석등의 실험에 응용되기 시작하였다.


IBM Watson이 미국의 퀴즈 방송, Jeopardy에 출현한 장면. 이미지 출처: Getty Images


보통 과학자가 하루에 5개씩 38년이 걸릴 분량에 해당하는 7만 개의 논문을 한달 만에 분석하고 항암 유전자에 미치는 단백질을 6개를 찾아내는 등의 성과를 보이며 주목을 받았고, 미국의 ‘MD 앤더슨 암 센터’ 역시 ‘왓슨’을 도입하기도 하였다.   


2016년에는 도쿄대 의과학연구소에서 '급성골수성백혈병'으로 진단받은 60대 환자의 유전자 데이터를 분석, '2차성 백혈병'이라는 또 다른 질환에 가깝다며 기존에 투여하던 항암제를 변경할 것을 제시하는 등, 의료 진단 분야에서의 AI가 머지않아 진단의들을 대체하게 될 날이 올지도 모른다는 가능성을 보여주기도 했다. 


국내의 경우, 가천대학교 길병원이 ‘왓슨’의 암 진단 소프트워에인 ‘Watson for Oncology’를 2016년에 도입하였고, 2017년에는 부산대학교 병원이 암 환자의 종양세포 및 유전자 염기서열을 분석하여 환자 개개인에게 맞는 맞춤형 치료법을 제시할 수 있는 ‘Watson for Genomics’를 도입하였으며, 이후 대구 카톨릭 대학교 병원, 계명대학교 동산병원, 건양대병원, 조선대병원, 전남대병원, 그리고 중앙보훈병원 등이 도입하였다. 


IBM Watson이 작동하는 방법. 이미지 출처: Der Spiegel


인공지능의 개발에는 크게 두 가지의 접근 방식이 존재한다. 


첫번째는 ‘상향식(Bottom-Up Method)’라 불리는 방식의 경우, 인간의 뇌의 신경망과 화학 작용을 분석하여 뇌의 전자 모델을 개발할 수 있다면 인공지능을 탄생시킬 수 있다고 보는 개념이다. 현재로서는 ‘상향식 인공지능’이라고 하는 것은 단순한 개념에 그치고 있으며, 실제 사례는 존재하지 않는 공상과학의 영역에 불과하다.


두번째는 ‘하향식(Top-Down Method)’라 불리는 방식인데, 프로그램에 지식과 경험을 쌓게 하여 반복적인 학습을 통해 최종적으로 지성에 도달한다는 개념을 의미한다. ‘왓슨’이나 ‘구글 딮러닝’ 등을 포함한 대부분 우리가 알고 있는 인공지능의 개발은 이 ‘하향식’을 택하고 있다. ‘하향식’의 장점은 충분한 자료와 데이터만 있으면 단기간 내에 어느 정도 역할을 수행하는 소프트웨어로 개발이 가능하다는 것. 


그러나 동시에 학습하지 않았거나 처음부터 프로그래밍 되어 있는 기능을 벗어나는 것에 대해서는 적절한 반응 및 처리가 불가능하다는 단점이 존재한다. 즉, 편의 상 ‘AI’라고 부르고 있기는 하지만 실제로는 ‘지능’이라고 부르기에는 상당한 어폐가 존재한다는 것이다.  


전형적인 ‘하향식’ AI에 속하는 ‘왓슨’ 또한 하향식 개발이 지닌 문제점을 고스란히 드러내고 있다.  

2017년 12월 가천대학교 길병원이 ‘왓슨’의 도입 1주년을 기념하며 주최한 심포지엄에서 발표한, ‘의료진과 왓슨의 의견 일치율’은 56% 수준으로, 당초의 기대보다 훨씬 못 미치는 수준에 머물고 있는 것으로 나타났다. 


2015년에 ‘Watson for Oncology’를 도입한 인도 최대규모의 암센터를 보유한 ‘마니팔 병원(Manipal Hospital)’ 또한 ‘SABCS 2016(San Antonio Breast Cancer Symposium)’ 및 ‘ESMO Asia 2016 Congress(European Society for Medical Oncology)’에서 1,000명의 암 환자들에 대한 ‘왓슨’의 진단 결과를 발표하였는데, ‘직장암’과 ‘비전이성 유방암’에 대해서는 의사들의 소견에 상당히 근접하거나 일치하는 경향을 보인 반면, ‘전이성 유방암’은 46%, ‘HER2 음성 유방암’은 35% 만 일치했고, ‘폐암’에 대해서는 17.8%에 그쳐, 실망스러운 결과에 그쳤으며, 의사들의 소견과 상당히 높은 일치율을 보여준 사례들조차, 종양전문의에 의한 보정이 먼저 이루어진 후에 얻은 결과였다.  


SABCS 2016에서 발표된 마니팔 병원의 ‘왓슨’ 진단 사례. 이미지 출처: San Antonio Breast Cancer Symposium Official Website


‘왓슨’의 진단 능력이 당초 기대한 것과 달리 실망스럽다는 의견은 비단 ‘MD 앤더슨’이나 국내 도입 병원들의 사례만이 아니다. 


지난 8월에 독일 언론지인 ‘슈피겔(Spiegel)’의 보도에 따르면 ‘왓슨’을 도입한 독일의 ‘기센대학(Justus-Liebig-Universität Gießen)’과 ‘필립-마르부르크대학(Philipps-Universität Marburg)’의 부속병원 또한 ‘왓슨’의 성능이 기대에 못 미치는 정도가 아니라 신뢰할 수 없다는 성명을 발표했다고 한다. 


‘필립-마르부르크대학병원’의 운영을 책임지고 있는 ‘Rhön-Klinikum AG’의 최고경영자인 ‘Stephan Holzinger’씨는 ‘슈피겔’과의 인터뷰에서 ‘왓슨은 전문적인 의학적 이해를 탑재하고 있지 않은 듯하다’는 코멘트를 남기기도 했다. 


결국 ‘필립-마르부르크대학병원’ 또한 ‘MD 앤더슨’의 사례와 마찬가지로, IBM과의 파트너 협업 관계를 청산했다. 그러나 IBM은 여전히 ‘다수의 대학병원들과 협업해본 결과, 매우 만족스러운 결과를 얻었다’고 선전하고 있다. 


마르부르크 필립스 대학교는 독일 헤센주의 마르부르크에 위치한 대학으로, 1527년에 헤센의 방백 필립 1세가 설립한 유서 깊은 교육기관이다.


‘필립-마르부르크대학병원’의 경우, ‘왓슨’을 사용하는 동안 언어의 인식에도 문제점이 드러났다고 한다. ‘왓슨’은 환자의 질병을 진단할 시, 의사가 환자로부터 얻은 정보를 정리한 문서나 차트, 소견서, 혹은 검사 결과 등을 스캔하여 질병의 원인으로 의심되는 정보를 얻는 방식을 취하는데, 의사의 소견서에 적힌 개인적인 표현이나 혹은 요약된 정보를 이해하지 못했다고 한다. 


가령, 의사가 소견서에 ‘~일 가능성을 배제할 수 없다’라는 식의 표현을 넣으면, 이를 인식하지 못하고 정확한 판단을 내리지 못한다는 이야기. 


또한, 임상에서 의사들은 환자의 상태에 대하여 지극히 간략화 된 진단결과를 작성하는 경향들이 강한데, ‘HR 75, SR, known BAV’라고 적으면 ‘평상시 이 환자의 심박수는 75이며, 이엽성 대동맥판막 있음’이라는 뜻이 되는데, ‘왓슨’의 경우 이러한 약어들을 소프트웨어 구성 단계에서 일일이 입력 해놓지 않으면 의사의 진단 소견 자체를 인식하지 못한다는 것이다. 


퀴즈는 잘 풀었지만, 의료 진단은 퀴즈의 영역이 아니다. 이미지 출처: Getty Images


상기의 사례에서도 알 수 있지만, 아직까지 AI 소프트웨어가 의료 진단 영역에서 의사를 대체하기에는 요원해 보인다. 


특히, ‘왓슨’은 기본적으로 영미권, 특히 미국의 환자 데이터를 기반으로 한 시스템으로 구성이 되어 있어, 아시아권 국가들에 적용하기에는 아직까지는 무리가 있다는 지적도 나오고 있다. 


유방암이나 위암 등의 경우 한국은 서구 국가들과는 다른 양상을 보이는 경우가 많으며, 위암 환자의 경우 한국은 서구와 달리 발병율이 상당히 높고 수술 방법이나 치료 기법도 다른 편인데, ‘왓슨’의 경우 기존의 프로그래밍 된 자료만으로 분석하는 경향이 높다는 것이다.   


따라서 ‘왓슨’의 경우, 한국의 실정에 맞게 데이터를 재구축하여 현지화가 이루어진 ‘Watson Oncology for Korea’같은 형태로 발전하지 않는 이상, 아직까지는 진단용 소프트웨어로 사용하기에는 무리가 있어 보인다. 

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari