머신러닝의 어떤 요소들이 헬스케어에서 의미가 있을까?
먼저 기본적으로 ML에서 불리는 regression과 classification에 대한 의미를 알아야 설명이 진행될 수 있을 것 같다. 그 이야기를 하기 위해서 ML에 대해서 간단하게 나마 설명을 한다.
Maching Learning은 소프트웨어이지만 개발자가 정해진 규칙에 따라서 동작하는 것이 아니라 규칙을 학습을 통해서 추가하는 자가발전이 가능한 것을 의미한다.
Arthur Samuel(1959)가 정의한 자기가 알아서 로직이 추가되는 것이 가능한 기법은 소프트웨어 개발자가 정해진 규칙을 일일이 만들어 추가하는 것이 매우 복잡해지는 상황을 생각한 것이다. 대표적으로 다음과 같이 예를 들 수 있다. 정의하기 어려운 것, 스팸 필터의 경우에 룰들이 추가되고 작동하는 것이 너무 많은 상태가 될 때에 어떤 자료와 현상에서 배우기 위한 개념을 의미한다. 이 기법들은 일반적인 소프트웨어 개발에서도 매우 흥미롭게 사용될 수 있는 개념들이다. ML기법을 사용한다는 것은 프로그램인데 개발자가 일일이 정한 것이 아니라, 데이터를 보고 학습해서 룰을 도출하는 것을 의미한다.
그런데 이럴 때에 머신러닝의 학습은 데이터는 미리 주어져야 하고, 이 데이터를 통해서 ML은 학습하면서 모델을 만들게 된다. 이때 데이터의 형태에 따라서 Supervised와 Unsupervised의 형태로 구분한다.
Supervised learning 은 레이블을 정해진 상태로 학습하는 것을 의미하며. 대표적으로 Predicting exam score와 같이 문제와 데이터를 기준으로 학습하는 것들을 의미하고 있다. 이 방식은 트레이닝 셋에 대한 기준들이 명확하기 때문에 학습이 명확하다. 그래서, 대부분 이 기법을 사용하는 것이 일반적인 ML에 해당한다.
대표적인 Supervised learining은 이미지의 형태를 사람, 동물 등에 대해서 구분이 확실한 것에 대해서 정리된 트레이닝 셋을 통해서 학습시키는 방법이다. 결과가 조금은 더욱더 명확한 경우에 찾을 수 있다.
하지만, 뉴스나 워드에 대한 것들은 유사한 그룹핑만 가능하지, 레이블의 정의가 어려운 경우가 있다. 이때에는 Unsupervised 방법을 사용해야 한다. 스스로 데이터를 학습해야 하는 것이다. 그룹핑만 가능한 경우의 ML이지만 아직 이 기법들은 더 연구가 많이 진행되어야 한다.
그래서, 대부분의 머신러닝은 Supervised learning에 해당한다고 생각하면 된다.
대표적으로 교수님들이 리포트를 보고 시험평가에 대한 것도 가능할 것이다. 트레이닝 데이터셋을 명쾌하게 정의할 수 있으면 가능하다. ( 논문 표절과 같은 것도 충분하게 가능하다고 생각한다. )
Supervised learning의 핵심은 Training data set을 어떻게 만드느냐가 핵심이다. Training data set은 ML의 모델을 기반으로 답이 정해져 있는 것, 레이블이 정의되어 있는 값들에 대해서 모델을 만들어 내는 것이다. 이렇게 결론적으로 트레이닝 데이터 셋을 어떻게 만들고 구성하느냐가 핵심이 되고, 해당 팀이나 기업의 경쟁력에 해당된다.
우리가 쇼크로 바라본 알파고의 경우에도 동일하다. 기존의 기보를 통해서 학습이 가능한 데이터셋을 만들어낸 것이다. 그리고, 엄청난 클라우딩 컴퓨팅 능력으로 이 ML을 사용했다.
그 이외에도 시험의 성적을 예측하는 시스템을 만들어 내는 것의 경우에는 성적의 경우가 정해진 범위가 넓어지는 경우에 예측하는 것이 regression이라고 하고, 문제를 단순화하고 성공/패스 정도로 구분하는 것은 classification이라고 한다. 특히, 두 개 중의 하나를 고르는 것이므로 binary classification이라고 정의한다. 그 밖에 그레이드 grade ( A, B, C, D and F )로도 구분하는 경우에는 multi-label classification이라고 한다.
어떤 결과를 도출해야 하느냐에 따라서 사용되는 기법들이 달라진다. 그러한 결과 도출에 따라서 트레이닝 데이터의 형태를 잘 만들어내는 것이 필요하다.
헬스케어의 영역에서도 트레이닝 데이터셋을 충분하게 구성할 수 있는 준비가 되어 있기 때문에 문제의 위험 상황이거나 grade를 나누는 것에 대해서 가능성을 충분하게 가지고 있다. 가볍게는 증상에 대한 이야기를 듣고, 과를 선정하거나 의료진을 정의하는 것도 가능하며, 가장 많이 투자되고 있는 의료영상판독 분야도 이러한 관점에서 접근 중이다.
충분한 트레이닝 데이터셋을 만들 수 있는 증상과 진단에 대해서는 ML기법은 널리 사용될 수 있다. 결국, 어느 정도로 디지털화되어진 EMR(Electronic Medical Record)의 자료를 가지고 있으며, 주변의 데이터들과의 연관된 정보들을 구성하고 있느냐가 핵심이 된다.
ML을 도입해서 인공지능 의사의 역할을 부여하려 한다면, 그 근간인 전자 의무기록을 어떤 식으로 구성해야 하고, 프로토콜과 모델에 대해서 의료기관이 정의하고 있어야 한다. 이러한, 기존의 자료들에 대한 검증작업과 분석, 정비작업이 선행되어야 하는 것이 국내 헬스케어 환경에서 중요한 화두가 될 것 같다.
이러한 관점은 보험회사나 의료기관이나 비슷한 관점을 가지고 있다. ML을 중첩적으로 사용하면서 헬스케어의 중요한 판단을 위한 기능적인 요소로써 충분하게 의미가 있다는 것을 체크하는 것 정도가 의미 있다 하겠다.