조기 진단과 설명 가능성
의료 인공지능은 앞으로 어떻게 발전해갈까요?
현재 인공지능의 병목(Bottle Neck)이 되는 지점은 알고리즘이 아닌 데이터입니다. 즉, 더 나은 알고리즘보다 제대로 된 데이터를 축적하는 쪽이 훨씬 더 좋은 결과를 낼 확률이 높습니다.
언젠가 데이터가 충분히 축적됐을 즈음엔 인공지능이 의료뿐만 아니라 인류의 삶에 있어 거대한 변화를 줄 것이라 믿지만, 지금은 단기적인 양상 정도만 논의해보도록 하겠습니다.
실질적으로 의사의 일을 줄여줄 수 있거나 의사를 대체하는데 가장 가까운 분야는-제프리 힌튼 교수도 언급했듯이- 필수 정보가 비교적 잘 담긴 데이터 소스를 이용하는 영상이나 시그널 중심의 자동 판별 모형이 될 것입니다. 즉, 알고리즘의 복잡성보다는 완전한 데이터를 모으기 쉬운 분야부터 인공지능이 빠르게 대체해갈 것입니다.
다만 현재로서는 인공지능의 실수에 대한 책임 소재 문제나 구성원들 간의 이해관계, 사회적 인식 등의 외부요인으로 인해 비록 성능이 높은 인공지능이라 할지라도 처음부터 의사를 완전하게 대체하기보다는 보조적인 사전 검진의 역할부터 시작해서 점점 사회적 인식의 변화 속도에 따라 의사를 대체해갈 확률이 높아 보입니다.
한편 이와 동시에 의료 인공지능은 ‘대중화된 조기 진단’이라는 기존에 없던 시장을 개척하게 될 것입니다. 최근 애플은 자사의 웨어러블 디바이스(Wearable Device)인 애플 워치의 심전도(ECG) 측정 기능 관련 앱을 FDA로부터 승인받았습니다.
이제 애플은 전 세계 수천만 명에 이르는 자사 고객들의 활동 패턴, 심박수, 체형, 운동 내역, 자이로스코프 등의 헬스케어 데이터에 의료에서 사용되는 심전도 데이터까지 수집할 수 있게 되었습니다. 일부에서는 애플 워치의 심전도 센서가 의료기기에 비해 정확하지 않다는 비판을 하기도 하지만, 이는 빅데이터의 특성을 이해하지 못한 측면도 있습니다.
빅데이터 시대의 미덕은 정밀한 소수의 데이터 포인트보다는 적당한 다수의 데이터 포인트가 더 나을 수도 있다는 점입니다. 예를 들어 IOT 기술을 이용해서 농작물의 자동화 시스템을 구축할 때 정밀한 온·습도계 10개를 이용하는 것보다 정확도가 좀 낮더라도 그럭저럭 쓸만하고 저렴한 온·습도계를 100개 설치하는 것이 훨씬 더 효과적일 수 있습니다.
애플은 이미 애플 워치를 이용한 부정맥 진단과 관련된 실험 자료를 내놓았습니다. 물론 아직 초기단계이기 때문에 보완해야 할 점이 많지만, 비싼 병원비를 고려해볼 때 향후 적당히 쓸만한 정도의 결과만 내놓더라도 1차 진단 서비스로 포지셔닝하기에 매우 경쟁력이 있어 보입니다.
또한 동시에 자사의 플랫폼인 애플 리서치 킷(ResearchKit)을 통해 자폐증, 뇌전증, 흑색종 등의 질병을 조기 진단할 수 있는 알고리즘을 각계각층의 연구자 및 기관과의 협업을 통해 개발하고 있습니다. 이를 통해 질병의 조기진단이라는 시장을 개척함과 동시에 사회 전체의 의료비용을 획기적으로 낮춰줄 것으로 예상됩니다.
불완전한 데이터로 인해 생기는 인공지능의 편향성(Algorithmic Bias)을 극복할 방법은 없을까요?
알고리즘의 잘못된 예측을 어떻게 바로잡을지에 관해서는 최근 많은 연구들이 활발하게 진행되고 있습니다.
먼저 인공지능의 설명 가능성(Interpretability)은 최근 인공지능 연구에 있어 중요한 분야로 인정받고 있습니다. 설명 가능성은 인공지능이 왜 그리고 어떻게 그런 예측을 했는지에 대해 사람이 이해할 수 있는 방식으로 설명해주는 것을 말합니다. 구글의 연구자인 빈킴(Been Kim)은 인공지능의 설명 가능성이 알고리즘에 문제가 있는지 없는지를 진단하기 위해 꼭 필요하다고 말합니다.
예를 들어 약 80%의 정확도를 가진 인공지능이 있다고 가정해봅시다. 그러나 이 인공지능을 실제 진료에 적용할 경우 20%의 잘못된 예측이 누구에게 적용될지 우리는 알 수가 없습니다. 그저 10명 중 8명은 맞게 예측이 될 것이고, 2명은 잘못 예측이 될 것이란 사실 정도만이 우리가 알 수 있는 정보의 전부입니다. 심지어 우리의 알고리즘은 잘못 설계할 경우 심각한 거짓 양성(False positive)을 일으킬 수 있지만, 이 역시 우리는 어떤 예측 결과가 여기에 해당하는지 알 수 없습니다.
암이 아닌 환자를 암이라고 진단하는 경우는 잘못을 바로잡을 기회가 있지만, 암인 환자를 암이 아니라고 진단하는 경우 그 결과는 되돌릴 수가 없습니다. 이런 문제를 해결하기 위해 의료 인공지능에서는 왜 인공지능이 이 환자를 암으로 예측했는지, 그리고 그 이유는 무엇인지 의사가 이해할 수 있는 형태로 알려주는 것이 매우 중요합니다. 의사가 인공지능의 판단 과정을 이해할 수 있다면, 의사는 최종적으로 한 번 더 인공지능의 예측 결과를 정정할 기회를 가질 수 있기 때문이죠.
* 거짓 양성(false positive): 실제로는 음성인데 통계상 검사결과는 양성으로 나오 것. 이를테면, 스팸 메일 검사 프로그램이 일반 메일을 스팸 메일이라 판정하는 것. 거짓 알람(false alarm)이라고도 한다.
출처: 위키피디아
다른 방향으로는 인공지능의 불확실성(Uncertainty)을 측정하는 방법이 있습니다.
예를 들어 개개 환자들에 대한 인공지능의 예측을 우리가 얼마나 믿을 수 있는지 알 수 있다면 의사가 최종 진단을 함에 있어 큰 도움이 될 것입니다. 만약 인공지능이 어떤 환자를 암이 아니라고 진단했지만 그 진단이 맞을 확률이 40% 밖에 되질 않는다면 우리는 그 결과를 믿지 말아야 할 것입니다.
인공지능의 불확실성은 인공지능이 예측한 각각의 판단이 갖는 불확실성을 우리가 이해할 수 있는 형태로 설명해줍니다. 이러한 맥락에서 인공지능의 불확실성 역시 설명 가능성의 한 종류로 보기도 합니다.
그럼에도 결국엔 데이터가 답입니다. 인공지능의 설명 가능성이나 불확실성은 데이터의 불완전성을 보완해줄 수는 있을지언정, 완벽하게 해결해주지는 못합니다. 이는 인공지능이 갖는 태생적인 한계입니다. 특히 이러한 일명 ‘덜 해로운(more harmless)’ 방식은 타 분야에 비해 성능에 대한 기준이 매우 높은 의료와는 맞지 않습니다. 결국 의료에서는 데이터가 모든 것을 결정하며 알고리즘의 선택보다는 어떤 데이터를 어떻게 잘 모으고 체계화할지에 대해 더 많은 관심을 갖고 투자가 이루어져야 합니다.
인공지능 시스템 운용 경험이 충분하지 못한 병원에서는 현상을 좀 더 보수적으로 바라볼 필요가 있습니다.
바야흐로 인공지능의 시대입니다. 시장이 급격히 커짐에 따라 여기저기서 프로젝트를 진행해보자는 제의도 끊임없이 들어오고 있을 것입니다. 그러나 ‘일단 해보고 아니면 말자’라는 생각으로는 인공지능에 대한 체계화된 시스템 구축과 운용 노하우를 절대 쌓을 수 없습니다. 실패는 하지만 왜 실패하는지에 대해서는 알 수 없을 테니까요.
한편 빅데이터 때도 그랬듯이 혹자는 ‘이 또한 지나가는 한 때의 트렌드'라 말하기도 합니다. 그러나 대충 흘려보내기에 무려 ‘4차 산업혁명의 중심’인 인공지능이 갖는 파급력과 가능성은 향후 생태계를 바닥부터 뒤엎을 정도로 충분히 거대해 보입니다.
주어진 데이터만 보고 의사(전문가)가 판단할 수 없다면 AI도 못한다고 봐야 한다.
최근 업계에서는 많이 회자되는 말인데요, 이 말이 반드시 옳다고 할 수만은 없습니다. 분명 사람들이 찾아내지 못하는 패턴을 찾아낼 가능성도 존재하기 때문이죠. 그러나 혼란한 상황 속에서 이러한 보수적인 격언은 비록 진실은 아닐지라도 판단에 있어 ‘효과적인 판단 기준’ 정도는 될 수 있어 보입니다.
지금은 인공지능이 알아서 해줄 것이라는 막연한 환상을 버리고 양질의 데이터를 모아야 할 때입니다.
거짓 양성과 거짓 음성
심전도 데이터를 수집하는 애플 워치
와튼스쿨 (Wharton school) 안대환 박사
서울대에서 경영학을 공부하고 지금은 와튼스쿨에서 인공지능의 산업적 적용을 연구하고 있습니다. 게임이나 온라인 상거래 등 실제 적용 가능한 분야의 연구를 주로 진행했으며, 비앤빛과 시력교정 인공지능 연구를 진행하고 있습니다.
에디터: 이명제