의료 AI에 사용될 트레이닝 데이터셋이 매우 부족하다.
엄청나게 많이 축적된 의료 영상 데이터가 그대로 사용될 것으로 사람들은 착각한다. 하지만, 현재 만들어진 의료 영상 데이터들은 데이터의 관점으로 보기에는 일관성이 부족하다.
그 이유의 첫 번째는 의사들이 필요에 의해서 판단되고 체크된 데이터들이 들어간 의료 영상 데이터이지, 학습 데이터의 용도로 만들어진 의료 영상자료들이 아니라는 것이다.
또 다른 이유는 알파고를 강하게 만들었던 수많은 기보들의 데이터와 같이 축적되고 다듬어진 데이터가 아니라는 것이다. 바둑 기보들은 수많은 프로기사들이 서로의 단점과 기보의 방향성 등을 위하여 매우 세밀하게 오랫동안 연구된 데이터들이었다.
이미, 데이터로써의 가치와 의미를 충분하게 가지고 있었기 때문에 알파고가 등장한 것이다.
아직, 각 병원에 존재하는 의료 영상 데이터나 의무기록 자료들은 의료 AI를 추구할 만큼 연구와 방향성 등의 진행이 결코 되어 있지 못하다.
또한, 의무기록 자료들 역시, 질 관리를 추구하는 방향성이 심평원에 집중되어 있으며, 그나마 방향성을 가질 수 있는 데이터들 마저도 소수의 연구 사례들 중심으로 구성되어 있으며, 의무기록 대부분의 내용들은 구전이나 인간 의사들의 인사이트를 기준으로 움직이고 있기 때문에 알파고를 트레이닝한 기보 수준으로 데이터가 준비되어있지 못하다.
현재, 한국의 의무기록 데이터를 다루는 분야는 각종 질 관리를 위한 데이터 분석과 가공, 전처리 작업들이 선행되어야 하며, 데이터 전문가들과 AI 전문가들이 데이터들에 대한 가공이 필요한 시기이다.
방향성과 인사이트가 정제되는 의료 전문가가 기본 방향성을 정하기 전에는 한국의 의료 AI는 한발 앞으로 더 나가기도 힘든 상황이다.
물론, 심평원 상대의 의료 AI도 만들기 힘들다. 그것은 '단가'의 문제에만 집중하고 있고, 의료의 질과는 거리가 먼 방향성을 가지고 있기 때문에 이 또한 구성하기도, 처리하기도 어렵다.
그러므로, 아직 한국에서는 의료 AI를 만들기에는 너무도 많은 것이 부족하다.