brunch

매거진 AI

You can make anything
by writing

C.S.Lewis

[카카오AI리포트]내가 의료 AI를 선택한 이유

AI 영상인식 전문가의 의료 AI 도전기


AI 기술의 발전이 과연 우리 삶을 변화시켜줄 수 있을까요? 이 질문에 답을 찾기 위한 노력으로 카카오 AI 리포트는 지금까지 다양한 분야, 기술, 활용 가능성 등을 소개해 왔습니다. 이번에는 ‘의학 분야에서의 AI 기술'을 소개하려고 합니다. 새로운 기술이 개발된다고 해서 바로 돈을 벌 수 있는 산업분야에 응용되기는 쉽지 않습니다. 새로운 기술이 기존에 해결하지 못했던 문제들을 해결할 수 있는 방법을 제시해 준다거나, 기존의 비효율을 개선한다면 그 기술은 산업 분야의 혁신을 가져올 수 있습니다. 



[카카오 AI 리포트] Vol. 5 (2017년 7월호) 는 다음 내용으로 구성되어 있습니다.


[1] Industry - AI와 의료

01. 민현석 : 내가 의료 AI를 선택한 이유 (이번글)

02. 안성민 : 데이터 기반 정밀 의료와 AI

03. 황상흠 : 딥러닝 기반 의료영상 기술의 진화

04. 김남국 : 의료와 AI 신기술의 융합 : 과제와 전망

05. 정규환 : AI 의료영상 기술 활용 사례

06. 양광모 : 인공지능 의료, 이제 윤리를 고민하다 


[2] Review - AI의 진화

07. 정부환 : 더욱 똑똑해진 AI 광고 알고리듬

08. 이원형 : AI는 인간과 같은 감정을 가지게 될까?


[3] Information 

09. 하반기 주요 AI 컨퍼런스 소개 


[카카오 AI 리포트] Vol. 5 전체글 다운받기


내용 중간의 [ ]는 뒷부분에 설명 및 관련 문헌의 소개 내용이 있음을 알리는 부호입니다. 예를 들어, [1]에 대한 설명은 '설명 및 참고문헌'의 첫 번째에 해당합니다. 



필자는 올해 초 3년간의 대기업 연구소 생활을 마치고 AI를 이용해 의료 정보를 분석하는 일을 시작하게 되었다. 얼마 전 마이크로소프트(Microsoft)의 창업자인 빌 게이츠(Bill Gates)는 인터뷰를 통해 자신이 대학생이라면, AI, 에너지, 그리고 생명공학을 공부하겠다며 유망한 분야 세가지를 분야를 꼽았다[1]. 세계 최고 부자인 빌 게이츠의 말대로라면 나는 가장 유망한 세가지 중, AI와 생명공학 두가지나 하게 된 것이니 표면적으로는 매우 영리한 선택을 한 것으로 보였다. 대학원 시절 전공은 AI나 생명공학이 아니었고, 회사에서 한 대부분의 일도 AI와는 거리가 있는 일들을 해 왔다. 물론 요즘 같이 AI 인력이 부족한 때에 넓은 시야로 본다면 대부분 AI 관련자로 볼 수 있고, 필자 역시 남들보다 AI 분야를 접하기 용이한 위치에 있었던 것은 사실이다. AI, 그중에서도 의료 AI 분야에 직접 뛰어들면서 느낀 의료 AI의 가능성과 현실적인 어려움, 그리고 앞으로 방향에 대한 생각들을 이 글을 통해 공유하고자 한다. 


AI 영상인식 전문가의 의료 AI 도전기

필자가 대기업을 나와 의료AI를 시작한 이유는, 의료 AI는 어느 정도 모험을 해 볼만한 가치가 있는 분야라고 느꼈기 때문이다. 이렇게 생각할 수 있었던 이유는 필자가 기술 기반 스타트업들을 자문할 때 요구했던 3가지 요건들인 ‘문제’, ‘고객’, ‘시장’ 때문이다..


기술로 풀어야 할 많고 중요한 문제


대부분의 기술 기반 서비스라는 것은 기존 기술의 성능이 비즈니스 모델에서 고객이 바라는 성능과의 차이가 있을 때, 간극을 어떻게 매워나가냐에 따라 두 가지로 나뉠 수 있다. ‘포켓몬 고’와 같이 기술이 부족할지라도 재미있는 콘텐츠와 UI(user interface)로 그 간극을 메울 수 있는 분야가 있고, 그런 콘텐츠가 아니라 정말 기술의 성능을 향상하여서 간극을 메워야 하는 분야가 있다. 의료 서비스나 자율주행 서비스는 고객이 만족할만한 기술적 성능을 꼭 만족시켜야 시장에 나갈 수 있는 대표적인 서비스이다. 이런 서비스에서의 기술적인 실패는 포켓몬 고와 같은 게임이나 영화 추천과 같은 서비스와 달리 치명적인 피해를 가져올 수 있다는 점이다. 기존 기술에 비해 압도적인 성능을 보였다고 해서, 바로 돈을 벌 수 있는 게 아니며 많은 문제들을 차근차근 해결하면서 발전해야 한다. 내가 의료 AI를 선택한 이유도 바로 기술로 풀어야 할 중요한 문제가 많은 분야이기 때문이다.


현재 AI 기술은 AGI(artificial general intelligence, 인간이 하는 많은 지적 활동들을 동일한 지능으로 할 수 있는 AI를 칭한다)가 아니라 특정 분야 문제를 잘 풀기 위한 좁은 AI(narrow AI)이다. 현재 딥러닝(deep learning) 기술의 발전은 문제를 잘 풀 수 있는 AI가 되었음에는 의심의 여지가 없다.  좋아진 AI는 정말 좋은 도구임에 의심의 여지가 없다. 많은 학생들 및 연구자들이 다양한 온라인 강의들[2]을 통해 딥러닝을 공부하고 문제를 풀 수 있는 도구를 알게 되었다. ‘이제 어떻게 하지?’ 좋은 도구를 가졌으면, 그 도구를 가지고 해결할 수 있는 좋은 문제를 찾아야 한다. 좋은 문제를 찾는 것은 특정 분야에 대한 많은 경험과 지식을 가지고 있어야 가능한데 의료 분야의 경우 기술로 해결할 수 있는 많은 문제들이 이미 존재하고 있다. AI는 그 해결을 도울 수 있는 좋은 도구이기 떄문에 의료 AI는 나에게 매력적인 분야로 보였다. 그리고 난 한국의 대표적인 공돌이라 포켓몬고 같은 재밌는 콘텐츠를 만드는 일보다는 확실한 문제를 차근차근 풀어나가는 게 적성에 맞다. 그래.. 나 재미없다.


어디에도 없는 스승 ‘의사’라는 고객


두 번째 요건은 ‘고객’이다. 스타트업 심사를 가거나 상담을 가면 처음부터 끝까지 ‘고객’에 대해서 질문한다. 기본적으로 모든 서비스의 목적은 고객의 사용자 경험을 극대화시키는 것에 있다고 생각한다. 그러기 위해서 고객이 누구인지 명확히 아는 것이 중요하다. 의료 서비스의 최종 고객이 ‘환자’일수는 있겠지만, 현재 의료 AI의 고객은 ‘의사’라고 생각한다. 앞서 설명한 것처럼 의료 분야의 기술 실수는 환자의 생명, 혹은 인생을 좌우할 수 있다. 그리고 아직 AI란 도구는 그 선택에 책임을 질 수 있는 단계는 아니다. 그렇기에 의료 AI의 고객은 그 결정에 책임을 질 수 있는 의사여야 한다. 의사가 좀 더 좋은 선택을 할 수 있도록 도와주고, 좀 더 편하게 선택할 수 있도록 도와주고, 지금까지 풀지 못 한 문제를 풀 때 좋은 도구가 되어 주는 것이 현재 의료 AI의 목적이다. 즉, 의사가 의료 AI의 ‘고객’이 되는 것이다.


서비스를 만드는 데 있어 고객은 좋은 스승이 될 수 있다. 어떤 서비스건 처음부터 완벽할 수 없기에, 좋은 사용자 피드백은 좋은 서비스를 만들 수 있는 밑거름이 된다. AI를 이용한 서비스 분야도 이와 동일하다. 아니 고객의 피드백이 더 중요할 수 있다. 의사들은 자신들의 분야에서 무엇이 필요하고, 어떤 문제가 있는지 정확히 알고 있는 고객이면서 의료 AI가 갈 방향을 정확히 안내할 수 있는 좋은 안내자이다. AI의 딥러닝 기술은 왜 좋은지 왜 되는지 등이 완벽히 증명되지 않은 블랙박스(black box)와 같은 측면이 많은 기술이지만 예측의 정확도는 기존의 기술을 압도하고 인간 의사 결정과 비등한 결과를 보여주고 있다. 하지만, 그 예측이라는 것이 학습 데이터에 포함된, 이미 의사가 결정낸 정답만을 따라 하는 측면이 있다. 의사가 진찰할 때, 환자의 표정, 이력, 그리고 의사의 다양한 경험을 가지고 환자를 판단하지만, 대부분의 의료 AI는 입력된 영상만을 가지고 판단하고 있기 때문에 환자에 대한 정보가 제한적일 수밖에 없다. 이런 문제를 보완하여 의료 AI 기술을 발전하도록 이끌 수 있는 스승 같은 고객이 바로 의사이다. 이런 스승 같은 고객이 있기에, 난 다른 도메인이 아니라 의료 AI란 도메인을 선택할 수 있었다. 


우리는 고객들의 직업을 뺏으러 가는 몽상가가 아니다. 단지 고객들이 가지고 있는 문제를 쉽게 해결할 수 있는 기술을 개발하기를 원하고, 이에 기반해 지금껏 해결하지 못했던 의료의 문제들을 풀기를 원한다. 그렇기에 우리의 스승이자 고객인 의사들이 문제를 해결해 나가는 동업자가 되길 희망한다. 도와주세요. 


유행을 타지 않지만 꼭 지켜야 하는 시장


세 번째 요건은 ‘시장’이다. 스타트업들을 상담할 때, 나는 늘 없는 시장을 만들어 내는 것은 있는 시장에 들어가 살아남기보다 10배는 더 힘들다고 말해왔다. ‘의료’라는 시장은 인류 역사상 가장 오래된 시장이고, 가장 큰 시장 중 하나이며, 사라지지 않을 시장이기도 하다. 그렇기 때문에 문제를 잘 해결하는 의료 AI 기술을 만든다면, 시장이 없어서 굶어 죽을 염려는 비교적 하지 않아도 된다. 또한 시장에 대해 말할 때, 스타트업들에 내가 하는 충고 중 하나는 구글, 아마존, 페이스북이 잘 하고 있고, 잘 할 거 같은 시장은 피하란 것이다. 딥러닝 기술의 가장 중요한 점 하나가 데이터 기반(data-driven) 기술이라는 점이다. 각 영역에서 데이터를 가장 많이 확보할 수 있는 플랫폼이 있는 분야는 피하는 것이 좋다. 대학원 시절 마모그램(mammogram) 영상을 연구해 볼 기회가 있었는데, 외국 환자들의 영상자료에 비해 한국 환자들의 영상 자료에 하얀 무늬가 더 많아서 쉽게 구별할 수 있다는 특징이 있었다. 이는 아시아 여성들의 유방에 섬유질이 더 많기 때문에 나타나는 현상이다. 이처럼 단순히 X-ray 영상 하나만으로도 인종별, 대륙별 차이가 나타나고 있다. 의료 AI 기술이 더 발전하면서 영상뿐 아니라 유전자 정보, 생활 습관 등 다양한 정보들이 의료 데이터로 활용될 것이다. 이렇게 되면 같은 병을 다루는 기술일지라도 다른 데이터를 가지고 연구를 해야 한다는 것이다. 100%의 예측 성능을 자랑하는 미국의 기술이라도 한국 의료 시장에서는 100%의 성능을 장담할 수 없다는 것이다. 그렇기 때문에 미국이 의료 AI 기술에서 앞서 나가고 있다고 해서, 혹은 중국의 의료 데이터 양을 따라갈 수 없다고 해서 이 시장을 포기하지 말아야 할 이유가 생긴 것이다. 


Big data vs. Good data: 풍요속의 빈곤, 의료 AI가 어려운 이유

지난해 11월 구글은 의학저널인 JAMA(Journal of the American Medical Association)에 딥러닝 기술로 안저 영상(retinal fundus photographs)을 판독해 당뇨성 망막변증(diabetic retinopathy, DR; 당뇨의 합병증으로 혈관이 좁아지고 막히면서 발생함)을 진단하는 방법에 대한 논문을 개제했다[3]. 안과 전문의 54명과 함께 약 12만 장의 안저 영상 데이터로 구글의 딥러닝 모델인 인셉션V3(Inception-v3)을 학습시켜 유능한 안과의사에 버금가는 진단 예측 결과를 보인 것이다. 이 논문은 중요한 시사점을 우리에게 던져 주었는데, 질 좋은 데이터가 많은 경우 일부 의료 진단 영역에서는 의료 AI 기술은 의사보다 빠르고 정확한 진단 성능을 보여 준다는 것이다. 최근 구글은 이 기술을 다른 병리영상(imaging and pathology) 영역으로 확대하려고 하고 있다. 이렇게만 보면 조만간 의료 문제 대부분이 해결될 것 같고, 의료 AI 분야는 곧 구글과 같은 대기업에 밀려 없어질 영역이라고 생각될 수 있다. 단지 깃헙(Github)등에 공개된 좋은 딥러닝 기술 코드를 가져와 대용량 데이터에 적용하면 의사에 버금가는 AI 진단 기술을 쉽게 만들 수 있지 않을까라고 생각할 수 있다. 그리고 한국의 경우도 수많은 대형 병원에서 쌓는 많은 데이터들을 이용하면 곧 문제들이 해결될 것이라고 생각할 수 있다. 그러나 현실로 한 걸음 들어가 보면, 풍요 속에 어떤 빈곤이 있는지 확인하게 된다. 한국의 병원에 충분한 데이터가 있을까? 의료 AI 분야를 시작하면서 놀라게 된 것은 대부분의 한국 대형 병원들은 엄청난 데이터를 보유하고 있다는 것이다. 최근 AI가 대세가 되고 나서부터 이들 병원들은 이 빅데이터(big data)에 AI 기술을 적용하기 원하면서 AI 전문가들과 많은 미팅을 갖고 있다. 하지만, AI 전문가들이 하는 말은 ‘활용할 데이터가 없다’라는 것이다.


의사는 학습 데이터를 만드는 사람이 아니다!


이러한 현상이 발생하는 가장 근본적인 이유는 의료 데이터 생성에서부터 출발한다고 본다. 많은 의료 데이터는 의사가 AI 학습용으로 만든 것이 아니라 환자를 진단하고 그 내용을 기록하기 위한 것이다. 의사들은 의료 영상에 정확한 세그멘테이션(segmentation)을 하기 위해 병변(病變)의 위치를 그려놓거나 하지 않는다. 또한 전체 영상에서 병변이 발견된 경우 모든 병변을 꼼꼼히 하나하나 다 찾지 않는다. 아니 찾을 필요도, 찾을 시간도 없다. 영상을 기반으로 진단을 했다면 그 진단 내용과 근거를 기록하고, 전체 영상 내에 존재하는 모든 병변의 위치를 정확히 표시하느라 시간을 낭비하지는 않는다. 또한 모든 의료 영상에 대해 구글의 연구 사례처럼 다수의 의사가 다시 확인하며 살펴볼 이유도 존재하지 않는다. 또 다른 데이터관련 문제 중 하나는, 동일한 병에 관한 동일한 형태의 데이터일지라도 다른 병원, 다른 기계, 다른 시약을 사용하였을 경우, 동일 환자에 대해서도 영상의 특징은 달라질 수 있다는 점이다. 예를 들어 X-ray 기계도 제조사마다 차이가 다르게 나타난다. 그러나 이런 예외상황은 의사가 환자를 진단하는 데에는 큰 문제가 되지 않지만, AI 기술을 적용하는데 문제를 어렵게 만드는 장벽인 것이다. 의사들은 ‘데이터를 만드는 사람'이 아니라 환자를 치료하기 위해 필요한 정보를 기록하는 것이다. 그렇기에 병원들이 차곡차곡 오랜 노력을 들여 쌓은 데이터에 바로 AI 기술을 적용하기에는 많은 어려움이 존재하고, 그 문제를 해결하기 위해서는 많은 노력이 필요한 상황이다. 


의료 데이터는 바둑 기보와 다르다 


알파고는 결국 세계 랭킹 1위인 커제를 눈물짓게 하고 은퇴를 선언했다. 알파고는 많은 기사들의 기보, 많은 기사들과의 대결, 그리고 스스로와의 대결을 통해 성장했다. 한마디로 많은 시뮬레이션 데이터를 통해 학습할 수 있었다는 것이다. 그러나 의료 분야는 시뮬레이션 데이터를 생성하기 아주 어려운 분야이다. 대부분의 의료 데이터는 오랜 관찰에 의해 생성된 실제 데이터이다. 예를 들어, 우리가 10년 후 특정 암의 재발률에 관한 예측 모델을 만든다고 가정해 보자. 이를 위해 암에 걸린 사람들의 10년 후 데이터를 확보해야 한다. 그러나 인간의 삶이란, 바둑과는 비교도 안 되는 변수와 노이즈가 존재한다. 그리고 그 많은 변수 중 10년 후 재발 데이터에 무엇이 관련 되어 있는지 정확히 아는 사람은 없다. 그렇기에 어떤 정보를 관찰해야 하는지도 정확히 알기 어렵다. 유전자에 의해 달라질 수도 있고, 생활환경에 의해 달라질 수도 있다. 또한 10년 후까지 데이터를 생성하지 못할 수도 있다. 인간의 삶이란 정해진 규칙에 의해 움직이고 평가할 수 있는 바둑판 위의 바둑알이 아니다. 그렇기에, 존재하는 데이터를 잘 활용하는 방법뿐 아니라, 향후 데이터를 어떻게 쌓아가야 할지 충분히 토론해야하고, 그 데이터를 잘 확보하기 위한 좋은 플랫폼도 필요한 것이다.


병원은 환자의 데이터가 있는 곳이다

병원은 환자의 데이터가 있는 곳이다. 참 당연한 말이다. 그러나 이 말의 뜻을 잘 들여다보면, 왜 병원 데이터가 어려운지 알 수 있다. 환자라는 단어를 사전에서 찾아보면 '병들거나 다쳐서 치료를 받아야 할 사람'이라고 나온다. 어딘가 병들거나 치료를 받아야 하기에 의심이 되는 부분에 대한 의학 데이터가 주로 존재한다. 그렇다는 건 완벽히 정상인 데이터에 비해 어딘가 아픈 사람의 데이터가 많다는 것이다. 또한 병들거나 다쳐서라는 것은 어떤 특정 병이 있을 경우에 병원에 찾게 된다는 것이다. 그러나 모든 병이 똑같은 확률로 똑같은 상황에서 나타나지는 않는다. 그렇기에 어떤 병에 대한 데이터는 많고, 어떤 병에 대한 데이터는 적을 수밖에 없는 표본수의 차이가 발생하게 된다. 건강한 사람의 데이터와 환자 데이터, 특정 병, 혹은 병의 진행 상황에 따른 데이터의 불균형은 데이터 기반(data-driven) 기술인 딥러닝(deep learning)에서는 성능 저하의 한 가지 요인으로 작용하고 있다.


의료 데이터는 일반 데이터와 다르다 


마지막으로 말하고 싶은 것은 의료 데이터는 일반 데이터와 그 성질이 다르다는 것이다. 딥러닝이 가장 빠르게 적용되고 발전된 분야 중 하나는 이미지 인식 분야이다. 그래서 의료 영상도 같은 방식으로 쉽게 적용할 수 있을 것이라고 생각할 수 있으나, 의료 영상과 일반 이미지는 그 성격이 다르다. 예를 들면, ImageNet등에서 공개된 이미지 영상 사이즈(pixels)는 224x224 정도이다. ImageNet에서 있는 영상을 그 사이즈로 줄였을 때, 보통의 사람들도 어렵지 않게 이게 고양이인지 개인지 구별할 수 있다. 하지만, X-ray 이미지의 사이즈로 줄이면 의사들도 특수한 경우를 제외하고는 간암인지 위암인지 알기 쉽지 않게 된다. 의료 영상은 그 목적이 다르기 때문에 일반 영상에서 쓰인 기술을 바로 가져다 쓰면 안 되는 경우가 있다. 최근 미국 New York University 조경현 교수팀은 X-ray에서의 유방암 판독을 위한 딥러닝 연구에서 최대한 원 영상 사이즈를 유지할 때 그 성능이 좋다는 결과를 발표했다[4]. 딥러닝은 기존의 다른 기술에 비해 높은 성능을 보여주고 있지만, 의료 영역의 새로운 문제를 해결하기 위해서는 의료 데이터에 대한 이해를 바탕으로 새로운 기술로 개선되어야 할 필요가 있다.


의료 데이터 문제를 해결하기 위한 노력들


 최근 AI 분야에서 가장 각광받고 있는 딥러닝은 좋은 데이터가 많으면 많을수록 결과가 좋아지는 기술이다. 최근 MIT 연구 결과는 최신 딥러닝 기술들은 데이터가 충분할 경우 데이터에 오류가 좀 포함되어 있더라도 좋은 성능을 유지할 수 있다고 발표하고 있다[5]. 하지만, 의료 분야 접근방식은 부족한 데이터로 안정적인 성능을 내는 기술을 개발하거나, 인위적인 생성, 변형을 통해 부족한 데이터를 보충하는 방식을 취하고 있다.


AI with Data


데이터의 양이 부족한 경우, 딥러닝에서 일반적으로 사용되는 방법은 이미 학습된 모델(pre-trained model)을 미세조정(fine-tuning)하는 것이다. 최근 발표된 연구 결과에서는 이런 방법이 의료 데이터에서도 잘 적용된다고 하였다[6]. 다른 분야에서 잘 학습된 모델이 있을 경우 부족한 양의 의료 데이터 문제를 조금 완화시킬 수 있다. 학습 데이터 부족 현상을 극복하기 위해 기본적으로 사용하는 기술은 데이터 증강(data augmentation) 기술이다. 이때 주의할 점은 현실과 너무 동떨어지거나 기존 특징을 왜곡할 수 있는 데이터 증강은 오히려 학습만 어렵게 하거나 학습 성능을 낮추기도 한다. 이런 문제를 극복하기 위한 방법 중 하나로 카카오브레인의 김남주 소장팀은 펄린 노이즈(Perlin noise)를 이용한 효과적인 데이터 증강 기법을 이용하였고, 제한적인 의료 데이터 환경에서 의미 있는 결과를 얻은 연구 결과를 발표하였다[7]. 의료 데이터 부족은 학습 데이터가 충분하지 않다는 문제뿐 아니라 적당한 평가 데이터가 없다는 문제도 존재한다. 이런 문제점을 보완하기 위해 최근 역 테스팅(reverse testing) 방법을 의료 학습 모델의 평가에 적용하는 연구가 발표되었다[8]. 이 연구는 학습 모델의 평가 데이터가 없는 경우, 역분류정확도(reverse classification accuracy) 기반으로 원래 분류(classification) 성능을 유추하는 방법에 관한 것이다.


AI for Data


최근 존재하는 않는 데이터를 생성하거나 상황에 맞게 변형된 데이터를 생성하는 방법이 많이 연구되고 있다. 최근 딥러닝 분야에서 가장 이슈가 되고 있는 기술인 GAN(Generative Adversarial Networks)이 바로 그것이다. GAN은 실제 데이터와 구별하기 힘든 가짜 데이터를 생성하는 기술이다. 최근 GAN 기술을 이용하여 의학 데이터를 생성하거나 수정하는 연구가 많이 이루어지고 있다. 노스캐롤라이나 대학(University of North Carolina)의 연구팀은 GAN 기술을 이용하여 MRI(magnetic resonance imaging) 영상을 기반으로 CT(computer tomography) 영상을 생성하는 연구결과를 발표했다[9]. CT가 MRI와는 달리 방사선 피폭량이 많기 때문에 CT를 많이 찍는 건 다량의 방사선 노출의 위험이 있다. 이 기술은 MRI의 영상을 기반으로 CT 영상을 생성하여 사용하는 기술로서 비용이나 안전도 면에서 유리한 기술이다. CT는 방사선 노출에 대한 문제가 있어 저선량(low-dose)으로 촬영하는 경우가 많은데 이럴 경우 기존 방법에 비해 데이터에 잡음이 많아지는 문제가 발생한다. 이때 잡음을 제거한 영상을 생성하기 위해 딥러닝 기술을 활용한 연구가 이루어지고 있다[10]. 부족한 의료 데이터 문제를 해결하기 위한 다양한 AI 기술이 연구되고 있다. 이렇게 생성한  데이터는 여러 규제에 자유롭기도 하고, 부족한 의료 데이터를 보완해주기 때문에 좋은 방향으로 각광받고 있다. 하지만, 진짜 의학지식에 기반한 것인지에 대해서는 여러 검증이 필요한 상황이다.


Data 다다익선 (多多益善)

앞서 소개한 의료 데이터 부족 문제를 해결하기 위한 연구들도 여전히 생성된 데이터가 현실을 모두 반영할 수 있냐에 대한 질문에 정확한 답을 하지 못하고 있다. 이런 연구가 진행돼야 하는 것은 맞지만, 본질적인 문제 해결을 위해 어떻게 의료 데이터를 ‘잘’ 확보하는지가 핵심 문제이다. 이렇게 확보한 데이터를 연구자들이 연구에 활용하기 위해서는 좋은 규격을 가지고 있어야 하고, 합리적인 규제 완화가 동반되어야 한다. 아주대학교 박래웅 교수님의 연구[11]에 따르면 2015년 우리나라 3차 의료기관의 포괄적인(comprehensive) 전자의무기록(electronic medical record, EMR) 도입률이 11.6%에 불과하다고 한다. 의료 데이터를 체계적으로 확보하기 위한 관련 법령도 필요하다. 미국은 의료정보보호법(Health Information Portability and Accountability Act, HIPAA)을 제정하여 의료 데이터를 체계적으로 확보할 수 있도록 한 관계 법령을 정비하고 있다. HIPPA에는 최근 이슈가 되는 렌섬웨어(ransomware)에 관련된 사항까지 포함하고 있을 정도로 현실을 잘 반영하고 있다. 이를 참고하여 한국도 의료 데이터를 체계적으로 확보하며 연구할 수 있는 환경을 만들어야 한다. 데이터가 없다면, 아무리 의사와  AI 연구자가 좋은 기술을 만들어도 문제를 해결할 수 없다.


의사 with AI


대학시절 개인과외를 하던 시절을 되돌아보면, 내 수업의 첫 과정은 학생과 앉아서 학생이 무엇을 아는지 확실히 분석하는 것이었다. 학생이 푼 문제를 조목조목 네가지 종류로 분류했다: 1. 알고 맞춘 것, 2. 알고 실수로 틀린 것, 3. 모르고 찍어 맞춘 것, 그리고 4. 몰라서 틀린 것. 해결하기 가장 쉬운 문제는 4번 몰라서 틀린 경우이다. 모르면 알려주면 된다. 그래도 모른다면 또 알려주면 된다. 2번의 '알고도 틀린 경우'는 원인이 무엇인지 더 자세히 분석해야 한다. 문제 스타일인지, 자신의 버릇인지에 대해 원인을 더 자세히 살펴봐야 한다. 가장 분석하기 힘든 것은 3번 '모르고 찍어 맞춘 문제'이다. 채점만 해서는 이 문제를 찾을 수 없다. 여러 번 비슷한 문제를 반복적으로 풀면서 그런 실마리를 찾든가, 아니면 정말 학생을 잘 파악해야 한다. 

갑자기 학생의 학업 성향을 이야기하게 된 것은 AI 기술의 학습과도 연관이 되어있기 때문이다. 요즘 AI 기술들의 정확도 역시 채점된 점수로서 그 성능을 평가하기 때문이다. AI 기술이 해결한 문제들 중에도 학생들이 푼 것처럼 4가지 유형의 결과가 숨어있을 텐데, 이에 대한 분석이 없는 경우가 많다. AI가 틀렸을 경우, 데이터가 부족해서 틀렸는지, 그 문제에 존재하는 특정 노이즈 때문에 틀렸는지, 아니면 AI 기술이 그 문제와 맞지 않는지에 대한 분석 없이 획일화된 정확도라는 잣대로 평가하고 있다.


허세가 아닌 정확한 정보를


딥러닝의 예측의 정확도는 흔히 %로 표시가 되지만, 확률을 의미하지는 않는다. 그러다 보니 통계적으로 신뢰구간을 결정하기 힘들어 결과에 대해서 얼마나 신뢰를 해야 하는지 알 수 없다. 개와 고양이 사진을 구분하는 딥러닝 모델은 개와 고양이가 아닌 다른 사진을 넣어도 개 혹은 고양이로 결정하게 된다. 딥러닝 모델은 모르는 문제에 대해 학습된 결과만을 제시하고 있다. 즉 모르는 걸 모른다고 하지 않는다. 이런 문제를 개선하기 위하여 불확실한 상황의 AI 추론(AI reasoning under uncertainty)의 연구가 이어져오고 있다[12]. 예를 들어 딥러닝 모델이 의료영상을 보고 암이라고 판단한 경우 신뢰할 수 있는 판단 수준을 제공하는 것이다. AI 결정의 신뢰도가 낮은 경우 의사가 추가적인 판단을 하든지, 추가 검사를 할 수 있게 한다[13]. 의료 분야에서 AI 결정은 치명적일 수 있기 때문에, AI 결정은 최대한의 정보를 의사에 전달해서 의사의 추가적인 결정에 도움을 주어야 한다. 신뢰도가 낮은 AI 결정이 데이터의 부족 때문인지, 문제가 특수하기 때문인지에 대한 정보의 전달도 필요하다. AI 전문가들이 99%의 예측 성능을 가진다고 하더라도 쉬운 문제를 학습해 달성한 99%의 성능인지 또 예측하지 못한 1%가 얼마나 치명적인 결과일 수 있는지에 대한 정보를 정확하게 전달할 수 있어야 한다.

최근 MIT Technology Review에 실린 “The Dark Secret at the Heart of AI” 기사[14]는 AI 기술의 핵심인 딥러닝의 문제점을 지적하고 있다. 현재 우리는 똑똑한 AI 모델을 만들 수는 있지만 아무도 그것이 어떻게? 왜? 동작하는지 완벽하게 모른다는 점이다. 어떤 근거로 판단을 했는지 설명하지 못하면, 고객 입장에서 아무리 좋은 성능을 보인다고 하더라도 판단을 믿기 쉽지 않다. AI 연구자들이 할 수 있는 방법은 고객이 이해할 수 있는 분야의 정보로 표현하는 것이다. 의료 영상에 대한 판단이 이루어진 경우, 영상의 어떤 부분이 판단에 영향을 주었고, 어떤 부분이 바뀌면 판단이 바뀌는지 등에 대한 정보를 고객에게 전달하는 것이다. 의료 AI의 판단을 의사가 분석할 수 있게 해야 하고, 추가적인 분석을 AI 모델에 반영해 의료 AI 기술을 발전시켜 나가야 한다.


Pictures are not taken in a vacuum

“Pictures are not taken in a vacuum - an overview of exploiting context for semantic scene content understanding” 제목의 논문[15]이 있다. 난 늘 이 문장이 좋았다. 논문의 핵심 내용은 사진 바깥에 존재하는 정보에 대한 것이다. 사진이 찍힌 시간, 장소, 사진을 찍을 때 저장되는 메타데이터 그리고 이 사진을 찍기 전후에 찍었던 사진들, 이런 정보가 모두 하나의 사진을 이해하기 위한 상황(context) 정보가 된다는 내용이다. 논문이 발표된 후 시간이 꽤 지나서 논문에 나왔던 기술들은 현재 쓰이지 않는 경우가 많지만, 상황 정보와 사전 지식(prior knowledge)을 사용하여 더 나은 성능을 보일 수 있다는 것은 의료분야에도 시사하는 바가 있다. 의료 데이터는 환자가 살아온 인생, 환경 그리고 유전 정보와 의학적 데이터들을 포함하고 있다. 이 모든 정보들이 분석하고자 하는 의료 데이터를 더 잘 이해하게 해주는 또 다른 정보가 된다. 오랜 기간 동안 의사들이 연구하고 쌓아온 의료 정보는 AI를 학습시킬 수 있는 중요한 교과서인 것이다. 

의학의 추가적인 정보를 활용한 논문을 소개하고자 한다. “Prediction of Kidney Function from Biopsy Images Using Convolutional Neural Networks” 논문에선 콩팥의 병리 영상을 이용하여 콩팥 병을 판단하는 데 사용되는 중요한 수치 중 하나인 eGFR(estimated glomerular filtration rate)의 12개월 후 값을 예측하는 연구를 소개하였다. 병리 영상만 이용해 학습할 때보다, 현재 eGFR 정보를 모델에 추가했을 때, 학습 속도가 2배 빨라지며 예측 오류도 줄어든다는 것이다. 미래 eGFR 값과 현재 eGFR 값은 상호관계가 있기 때문에 학습을 위한 추가 정보를 제공해 준 것이다. 의사들의 의학 지식을 기존 AI 학습의 데이터와 접목한 경우 좋은 성과가 나오고 있는 것이다. AI 전문가가 단순히 데이터를 많이 가지고 있다고 해서 이런 결과가 나오는 것은 아니다. 데이터의 양으로 본다면 중국과 경쟁이 되지 않는다. 최근 중국에서는 정부 주도로 엄청난 양의 의료 데이터를 수많은 인력을 활용하여 확보하고 있다. 이는 훌륭한 학습 데이터로 활용될 것으로 예상된다. 그러나 앞서 말한 바와 같이 의료 데이터는 기보가 아니다. 환자의 상황에 맞게 좋은 처방을 하고, 상태를 잘 살필 수 있어야 좋은 데이터를 만드는 것이다. 이런 측면에서 한국은 의료 기술과 데이터를 확보하기에 좋은 환경을 갖춘 병원들이 존재한다. 의학적 지식과 경험을 가진 의사와 AI 전문가가 함께 한다면 중국과 미국이 주도하고 있는 의료 AI 시장에서의 경쟁할 수 있다고 생각한다.


기술은 마케팅이 아니라 고객 질문에 답을 하는 것


네이처 지(Nature)에 실린 “Publish houses of brick, not mansions of straw” 제목의 글에서 논문 리뷰는 논문이 사실일 경우의 임팩트를 보는 것이 아니라, 논문이 사실인지를 판단하는 과정이라는 메시지를 전달하고 있다. AI와 관련된 논문은 서로 임팩트 경쟁을 하듯이 기술을 소개하고 있다. 하지만, 기술을 의료 분야에 적용하기 위해서는 임팩트도 중요하지만 다음 두 가지가 먼저 지켜져야 한다. 첫째, 기술이 탄탄한 사실에 근거해야 한다. 둘째, 테스트 데이터에서만 존재하는 결과가 아니라 의료 데이터에도 동일하게 적용되어야 한다. 두 가지 중 하나라도 만족하지 못하면 그 기술은 의료 분야에 적용하기 힘들다. 일반 AI 연구자와 의료 AI 연구자를 한마디로 구분하자면, AI 연구자는 AI의 문제를 해결하는 연구자이고, 의료 AI 연구자는 AI 기술을 활용해 의료의 문제를 해결하는 것이다. 의료 AI에서는 기술을 의료 AI에 적용하기 위해서 당연히 가져야 할 기본적인 질문에 답하는 것이 중요하다. 예를 들어, 새로운 영상 인식 기술이 나왔다면, 의료 AI에서는 인종 차이에 따른 변인은 없는지, 병원 장비에 따른 차이가 발생하는지, 데이터가 양이 적을 때 잘 적용되는지 등 사소해 보이는 문제를 고민해야 한다. 이를 해결한다고 해도 유명 저널에 논문을 실을 수는 없지만 우리의 고객인 의사들이 가질 수 있는 기본적인 질문에 답을 해나가야 한다. 다시 한번 강조하지만, 서비스의 목표는 고객이고, 우리의 고객은 의사, 그리고 최종적으론 환자이다. 높은 예측 정확도와 임팩트 있는 논문 같은 마케팅에 좋은 답이 아니라, 고객이 원하는 질문에 답을 하기 위해 노력해야 한다. 그래야 우리는 고객과 함께 성장할 수 있다. 그래야 정말 의사들이 해결하고 싶은 의료 문제들에 AI가 활용될 수 있다.


글을 마무리하며  


의료 AI 분야만큼은 많은 분들이 함께 해야 많은 문제를 해결할 수 있다고 생각하기에 욕먹을 각오를 하고 글을 적어 봤다. 연구 미팅을 위해 병원 로비에서 약속 시간을 기다리던 중, 어느 할머니 손에 꼭 쥐어진 버스표 한 장을 발견하고 ‘아! 내가 이 분야에 대해 하나도 아는 게 없구나'를 알게 되었다. 진료를 받기 위해 먼길을 와야만 했던 상황과 현실이 과연 데이터에 반영될 수 있을까? 모델 학습을 위해 제공받은 데이터가 정리가 되지 못해서 불평만 하던 자신을 돌아보면서 내가 의료 AI를 이해하고 있는 것인가 다시 한번 생각하게 되었다. 의료 AI는 AI와 다르다. AI 기술에 대한 이해 못지않게 의료 환경을 이해해야 한다. 그런 이해를 위해 조금이나마 도움이 되고자 이 글을 적어 보았다.




글 | 민현석 : min6284@gmail.com
본업 지우 아빠, 딸바보 공돌이. 부업으로 대학원 시절 전공한 얕은 영상처리 지식을 이용하여 잘 나간다는 대기업 AI Lab에서 밥벌이를 하였지만, 부업이 본업을 방해해 의료 AI분야에 뛰어들어 본업도 부업도 충실히 수행하려고 노력하는 중이다. 곧 태어날 둘째 녀석 때문에 기저귀 값이라도 벌기 위해 동분서주하다가 글을 쓰는 지경에 이르렀다. AI 붐을 타고 이 분야에 구경 왔지만, AI 전문가가 아닌 AI를 도구처럼 쓸 수 있는 도메인 전문가가 되길 희망하는 말 많은 딸바보이다. 아.. 그리고 이런 소개글을 빌어, 아내에게 사랑한다는 말을 전하고 싶은 경상도 남자이기도 하다.   





[1] 참고 : http://www.cnbc.com/2017/05/15/billionaire-bill-gates-reveals-his-biggest-regrets-and-best-advice.html

[2] 참고 : AI 유튜브 강의 소개, http://1boon.kakao.com/kakao-it/aireport_03_youtube

[3] 참고 : http://jamanetwork.com/journals/jama/article-abstract/2588763

[4] 논문 : Geras, Krzysztof J., et al. "High-Resolution Breast Cancer Screening with Multi-View Deep Convolutional Neural Networks." arXiv preprint arXiv:1703.07047 (2017).

[5] 논문 : Rolnick, David, et al. "Deep Learning is Robust to Massive Label Noise." arXiv preprint arXiv:1705.10694 (2017).

[6] 논문 : Tajbakhsh, Nima, et al. "Convolutional neural networks for medical image analysis: Full training or fine tuning?." IEEE transactions on medical imaging 35.5 (2016): 1299-1312.

[7] 참고 : https://www.slideshare.net/ssuser77ee21/a-pixel-topixel-segmentation-method-of-dild-without-masks-using-cnn-and-perlin-noise?qid=75235b71-85d9-43b8-a6bf-ffcefeb26953&v&b&from_search=1

[8] 논문 : Valindria, Vanya V., et al. "Reverse Classification Accuracy: Predicting Segmentation Performance in the Absence of Ground Truth." IEEE Transactions on Medical Imaging (2017).

[9] 논문 : Nie, Dong, et al. "Medical Image Synthesis with Context-Aware Generative Adversarial Networks." arXiv preprint arXiv:1612.05362 (2016).

[10] 논문 : Wolterink, Jelmer M., et al. "Generative Adversarial Networks for Noise Reduction in Low-Dose CT." IEEE Transactions on Medical Imaging (2017).

[11] 논문 : Kim, Young-Gun, et al. "Rate of electronic health record adoption in South Korea: A nation-wide survey." International Journal of Medical Informatics 101 (2017): 100-107.

[12] 논문 : Gal, Yarin, and Zoubin Ghahramani. "Dropout as a Bayesian approximation: Representing model uncertainty in deep learning." international conference on machine learning. 2016.

[13] 논문 : Kendall, Alex, and Yarin Gal. "What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision?." arXiv preprint arXiv:1703.04977 (2017).

[14] 참고 : https://www.technologyreview.com/s/604087/the-dark-secret-at-the-heart-of-ai/

[15] 논문 : Luo, Jiebo, Matthew Boutell, and Christopher Brown. "Pictures are not taken in a vacuum-an overview of exploiting context for semantic scene content understanding." IEEE Signal Processing Magazine 23.2 (2006): 101-114.




브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari