brunch

You can make anything
by writing

C.S.Lewis

by Jaehoon Lee Jul 01. 2018

씹고뜯고맛보는 구글 EHR 딥러닝 논문

산골짜기 의료정보학 이야기 번외편

IT분야에는 많은 신기술, 방법론들이 혜성처럼 나타났다가 금방 또 사라집니다. 최근 10년간 굵직굵직한 것들만 뽑아봐도 Service oriented architecture, Big data, 인공지능 등등이 있습니다. 이들은 정도의 차이는 있지만 공통적으로 생명주기라는 것이 있어서 


1. 초창기에는 아무도 저게 뭔지 이해하지 못하고 이해하는 사람도 에이 설마 저게 되겠어 합니다.

2. 갑자기 붐이 일면서 확 언론의 주목을 받기 시작합니다. 몇가지 임팩트있는 결과들이 나오면서 장밋빛 미래가 펼쳐집니다. 이때 초창기에 치고 나가는 사람은 신문지상에 오르락내리락 바빠집니다. 곧이어 망둥이들도 뛰기 시작하면서 저마다 다들 아는 척 하고 숟가락 얹기에 바쁩니다. 10년 후에는 우리의 삶이 완전히 바뀐다느니 하는 휘황찬란한 그림이 나옵니다.

3. 선진국과의 격차가 몇년이라는 근거없는 분석이 나오며 정부는 뭐하고 있었냐며 까대기 시작합니다. 요새는 중국이 무섭게 투자하고 있거나 이미 우리를 앞질렀다는 멘트가 하나 더 붙는게 추세라면 추세..

4. 한국형 XX 개발과제가 나옵니다. 이때쯤 되면 거의 끝물..

5. 관심이 식어가고 언론은 다른 먹이감을 찾아 떠나고 망둥이들은 벌써 떠났고 남은건 한때 분위기에 휩쓸려 이걸로 졸업논문쓴 예비 백수 대학원생들 어머나 너무 심했나


이 사이클이 오죽이나 정형화되었으면 가트너에서는 Hype chart라고 친절하게 아예 도표를 그려서 배포하고 있습니다. 역시 선진국은 뭘해도 체계적이죠. 아 그리고 자료는 유료입니다. 돈버는 방법도 참 다양..


졸업논문주제 고를때 커브 꼭대기에 있는 주제는 피하세요


2년전 알파고로 촉발된 인공지능은 이제 능선 꼭대기를 향해 가고 있는 중입니다. 지금부터는 말그대로 옥석을 가리기 시작하는 시기로서, 냉정하게 인공지능이 Clinically 또는 Scientifically 어떤 가치를 제공하는가가 명확해지고 있다고 보입니다. 


모든 기술이 그렇듯이 실험실환경에서의 실행결과와 실사용환경, 즉 현실세계에서의 실행결과 사이에는 갭이 있습니다. 이 갭이 작으면 기술을 적용하기 상대적으로 쉽습니다. 예를 들어 알파고가 바둑을 둘때 실험실에서 시뮬레이션을 돌리는 것과 실제로 인간 기사를 상대하는 것은 사용환경 조건 측면에서는 완전히 동일합니다. 반면 자율주행차는 시뮬레이션과 실사용환경 사이에 하늘과 땅차이의 갭이 있습니다. 또한 같은 종류의 기술이라도 어디에 쓰는가에 따라 각기 다른 적용속도와 접근법이 필요합니다. 

 

의료분야에서는 인공지능, 특히 딥러닝에 한정해서 말하자면 갭이 적은 대표적인 분야는 영상판독입니다. 이는 영상이라는 subject자체가 매우 잘 정의된 형식의 데이터로 변환되어 있기 때문입니다. 따라서 알고리즘의 미세한 성능 차이도 바로바로 보입니다. 인간의 판독과 성능을 비교하기도 좋습니다. 

 

반면 딥러닝이 효과를 보기 어려운 분야는 EMR 데이터 분석입니다. 이유는 EMR 데이터가 딥러닝의 입력정보로 쓰이기에는 너무 다양한 종류의 임상정보로 이루어져 있으며 많은 경우 코드화가 안되어 있거나 텍스트 기반이기 때문입니다. 사실 EMR 데이터라고 싸잡아 얘기하지만 하도 종류도 많고 Acute인지 Ambulatory인지 Hospital인지 Clinic인지, 어느 벤더의 EMR인지 Home grown 시스템인지에 따라 사실상 다른 정보라고 볼수 있기에 좀더 엄격한 정의가 필요합니다. 게다가 EMR 데이터의 70%는 Clinical note등의 Free text형태로 되어 있는데, 이건 포맷이 아예 없다고 보면됩니다. 그러니 EMR데이터 위에서 영상판독 수준으로 잘 돌아가려는 딥러닝을 구축하는 것은 비교하자면 자동차가 오프로드, 시베리아 얼음길, 아스팔트 도로, 화산 용암위, 바다 표면, 달 표면, 우주공간에서 다 달리도록 만드는 것이라 보면 됩니다. 

 

물론 그분께 불가능이란 없습니다


하지만 EMR 데이터는 의료정보의 핵심과도 같기에 이 영역을 정복할 수 있다면 많은 가능성이 있습니다. EMR에는 사실상 현실세계의 임상에서 일어나는 거의 모든 중요한 일들이 기록되어 있습니다. 사실 EMR 데이터가 정형화가 안되어있거나, 어렵다는 사실은 그만큼 현실세계라는 것이 정형화된 정보의 형태로 표현하기 어렵다는 뜻이기도 합니다. 반면 인간의 추상화 능력은 놀라울 정도라, 도메인 지식이 있는 인간은 그 엉망인 데이터를 보고 해석할 수 있습니다.  

 

아무튼 이 어려운 분야에서 산발적으로 몇가지 한정된 도메인에서의 연구결과는 나오고 있었는데, 드디어 구글이 EMR데이터를 통으로 넣어서 딥러닝 돌린 논문을 네이처 자매지에 내놨습니다. 제목도 참 크게 잡았네요. 

 

제목만 봐선 다 해버려서 다음사람이 뭘 해야할지 모르게 되는 논문


일단 대상은 두 군데 병원의 Inpatient 데이터이며 UCSF (샌프란시스코), UCM (시카고) 병원의 EMR이 대상입니다. 기간은 2009-2016년이고 최소 24시간이상 입원한 216,221 (성인) 환자입니다. 논문의 서두에서는 이 연구의 기여를 두가지라고 언급했습니다. 


1. HL7 FHIR를 이용해 데이터 전처리를 했다.

2. 다수의 병원 데이터 (및 시간차 예측)에 딥러닝을 적용했다.

 

2번은 제 전문분야도 아니고 어련히 알아서 잘 했으려니 하고 넘어가겠습니다. 오늘 다루고 싶은 것은 1번 기여입니다. 

 

일단 이 논문의 서두를 보고 제일 먼저 궁금한 것은 “어떻게” FHIR로 변환했는가 하는 것입니다. 그런데 논문에서는 이 부분에 대한 언급이 겨우 한 단락 뿐이네요. 그 내용도 심히 원론적인데, FHIR가 이런것이고 각기 다른 형태의 EMR 데이터를 Data point로 분해하여 FHIR resource에 매핑할수 있다… 끝입니다. 솔직히 그건 너무 당연한 얘기고 그래서 결국 “어떻게”가 중요한데요?? 


변환과정을 설명한 다이어그램도 마찬가지로 매우 원론적이고 추상적인 형태의 그림만 있고 Supplementary material에서도 한페이지 정도로 대략적으로만 설명하고 있습니다. 


 

만약 필자가 이 논문을 썼다면, 1번 기여라는 상징성을 봐서라도 최소한 이정도는 넣었으리라 생각합니다. 


1. Raw EMR 데이터가 어떤 형태인가에 대한 개략적인 언급이 필요합니다. 두 병원 모두 현재는 EPIC EMR을 쓰고 있다고 알고 있는데 그럼 최소한 시스템간 이형성 문제는 작다고 보입니다. 문제는 두 병원이 EPIC을 도입한지 몇 년 안되었습니다. UCSF가 최초로 EPIC을 하나의 클리닉에 넣은 것이 2011년, 시카고의 경우 오버홀하기로 결정한 것이 2017년이라고 알고 있습니다. 위의 표본 데이터 기간이 2009-2016년이라고 되어 있는데 그럼 그 이전 Legacy시스템 데이터가 최소한 절반 이상은 될것 같은데 그건 다 제외한건지, 만약 포함했다면 어떻게 통합되었는지 얘기가 없네요.


2. FHIR Resource로 Data point를 매핑했다고 하는데, 어느 버전의 Resource (예를 들어 DSTU2라등가..) 를 썼는지, 그 중에서 몇개의 Resource를 썼는지 정도의 통계치도 들어가야 한다고 생각됩니다. 다시 말해 216,221환자정보로부터 46,864,534,945 데이터 포인트를 뽑아냈는데 이 커버리지가 몇 %인가를 아는 것이 중요합니다.
 

3. FHIR Validation을 어떻게 했는지 언급되지 않았습니다. 여기서 Validation은 FHIR resource가 최소한 의료정보 단위로서의 의미를 갖추는가를 확인하는 것을 말합니다. 예를 들어 EMR데이터에 sBP가 측정되었다는 이벤트가 있다고 합시다. 아마 논문에서는 이에 대응하는 FHIR Lab observation resource를 하나 생성하고 code에 sBP (또는 해당하는 LOINC code)를 넣었으리라 보입니다. 그런데 만약 EMR에 실제 sBP 측정값이 저장되어 있지 않다면 이 이벤트는 변환되지 않는 편이 좋습니다. 측정했다는 사실만 있고 측정값이 없으니 말그대로 깡통 이벤트가 되어버리기 때문입니다. 그래서 어떤 FHIR resource를 하나 생성하기 위해서는 필요한 “최소한”의 정보를 담았는가를 판단해주는 Validation이 필요합니다. Validation을 지원하는 FHIR Server는 오픈소스로도 많고 (필자는 HAPI framework를 애용합니다) HL7이 사실상 제공해주는 공짜 웹서비스도 많습니다. 그러나 이 논문에서 그 중 어느걸 썼는지, 내지는 쓰기는 했는지조차 언급이 없네요.


4. 모든 표준이 그렇듯이 FHIR는 만능이 아니며 더군다나 Retrospective data analysis에 적합한 도구가 아닙니다. HL7시리즈는 기본적으로 의료정보”교환”표준이지 표준의료정보”모델”이 아닙니다. 물론 요새는 FHIR가 많이 진화해서 Clinical element model 같은 정보모델의 개념을 탑재하기 시작했지만 기본적으로 FHIR의 철학은 80/20입니다. 여기서 80/20이란 현 시점에서 기본 FHIR Resource들로 의료정보 교환의 80%를 커버할수 있다는 것을 의미합니다. 표준이란 너무 엄격하면 표현력이 높지만 구현이 어려워지고 너무 느슨하면 쉽지만 표현력이 떨어져 정보의 가치가 낮아지는 Trade-off가 있습니다. 표준 Resource로 80%를 커버하면 나머지 20%는 Extension으로 “필요에 따라” 더 추가하라는 것이 FHIR의 철학인데, 결국 이 말은 이 논문에서 EMR의 모든 데이터포인트를 완벽하게 변환 후 Validation했다고 해도 80% 정도 했다는 의미입니다. 물론 논문의 저자들도 이정도는 잘 인지하고 있다고 보입니다.


여기까지 신나게 물어뜯긴했지만, 전체적으로 시기적절한 주제를 구글스러운 스케일로 꼼꼼하게 한 연구라고 보입니다. 필자가 의료정보쪽 사람이다보니 딥러닝보다는 데이터 처리가 더 눈에 보이고 촛점을 맞추는 경향이 있습니다. 이 논문이 신생저널인 Nature Digital Medicine에 올해 게재된 것이 의미심장한데, 그 맥락은 아마도 구글쪽에서는 EMR 분야의 딥러닝에 뭔가 했다는 선전이 필요했고, 신생저널 입장에서는 구글같은 빅 플레이어가 논문 하나 내주면 고마운 상황이었을 것 같습니다.  

 

다만 아쉬운 점은 구글 정도 되는 플레이어라면 이런 주제에 접근할때 좀더 근본적인 고민을 해도 좋지 않을까합니다. 위에서 언급한 EMR 데이터에서 딥러닝을 활용하기 위해 완벽하게 전처리된 입력 데이터를 꼭 전제하지 않을수도 있다고 생각합니다. 오히려 영상판독과는 달리 딥러닝의 활용을 “불완전한” EMR 데이터를 잘 처리하는 쪽으로 생각할 수도 있다고 생각합니다. 아마 이런 연구를 해볼수 있을 것 같습니다. 


실험군: 전문가가 매뉴얼 매핑해서 전처리한 EMR 데이터위에서 돌린 예측

대조군: 딥러닝이 전처리한 EMR 데이터 위에서 돌린 예측


두 군데에서 성능이 최소한 같기만 하다면 딥러닝의 유용성은 꽤 증명된다고 할수 있습니다. 어쨌든 사람이 세빠지게 할 일을 딥러닝이 대신해주면 시간과 노력이 많이 절약되니까요. 하지만 이번 논문은 알고리즘의 유용성을 완전히 증명할 만큼 전처리가 깔끔하게 전제되지도 않았고, 전처리에 딥러닝을 적용한 것도 아닌 뭔가 좀 애매합니다. 


여담으로 데이터 과학 분야에서 전처리와 알고리즘의 역할 분담과 얼마나 투자할 것인가 하는 것은 고민거리입니다. 현실적으로 전처리는 데이터 분석에서 80~90%를 차지한다는 말이 있을 정도로 시간과 비용이 소모되는 골치거리입니다. 하지만 실제 연구는 전처리보다는 알고리즘에 많이 촛점이 맞춰져 있는데 이는 


1. 알고리즘이 왠지 더 폼난다.

2. 알고리즘은 수리적으로 증명하기 쉽고 논문 내기도 좋다.

3. 전처리를 잘하면 실제적인 일을 하기 좋은데 그러면 병원이나 회사가야한다. 논문 많이내면 학교 가서 교수될수 있다.

4. 교수되면 박사씩이나 되어서 임상용어 하나 못알아듣는다고 갈굼당할 일도 없고 논문잘쓰고 펀딩잘따면 평생 행복하게 잘 살수 있다... 너무 나갔나 물론 교수가 되어도 현실은.....

 

이런 현실적인 문제가 있습니다. 비유하자면 전처리는 자동차가 잘 달릴수 있도록 길을 까는 일이고 알고리즘은 잘 달리는 차를 개발하는 것에 가깝습니다. 잡지 등에서 폼나는 자동차 신모델들과 이태리 수제차 디자이너, 연구소 사람들은 많이 보이지만 도로 포장 전문가는 못보셨을 겁니다. ㅡ_ㅡ; 


아무튼 이번 번외편의 결론은 뜬금없게도... 오늘도 보이지 않는 곳에서 어떤 일이 되도록 만들기 위해 지난하고 표안나는 삽질 노가다를 묵묵히 열심히 하시는 분들 화이팅입니다!!




삽질 노가다 얘기 나온김에 유타 홍보하나 하자면, 유타주에는 Golden spike라는 곳이 있는데 동부에서부터 만들어온 철도와 서부에서부터 만들어온 철도가 마침내 만난 곳입니다. 서부쪽이 상대적으로 짧긴 하지만 거대한 미 대륙을 마침내 동서로 관통하는 철도가 만들어짐으로서 교통과 물류에 거대한 변화가 시작되는 기점이 됩니다.


서부 철도 건설을 위해 동원된 초창기 중국계 이민자들


철도 연결을 축하하는 모습
지금도 현장을 보존한 박물관도 있고 매년 기념 행사가 이루어집니다


삽질이 체질이어서인지 관광지도 이런곳만 다니는 필자 ㅠㅠ

 

매거진의 이전글 #10. 의료정보학의 풀리지 않은 질문들

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari