1월 3주차 카벤 디지털 헬스케어 뉴스

카카오벤처스 디지털헬스케어 뉴스_20230117

Jan 17. 2023

의료 AI의 지긋지긋한 난제 '재현성'

(feat. 의료 AI의 진단 및 모니터링 기술을 얼마나 신뢰할 수 있을까요?)

날마다 미국에서는 350명의 사람들이 폐암으로 사망한다고 합니다. 사망의 적지 않은 부분은 저선량 전산화 단층촬영(low-dose computed tomography CT)을 통한 스크리닝을 통해서 막을 수 있습니다. 그러나 수 백만 명의 사람들을 검사하는 것은 쉽지 않습니다. 가능하다고 하더라도, 전문가들마다 CT 소견에 대한 의견이 불일치하는 경우가 적지 않습니다.

Kaggle Data Science Bowl(엔지니어 및 데이터 사이언티스트를 위한 예측 모델 및 분석 대회 온라인 커뮤니티)은 2017년에 머신러닝 알고리즘이 이러한 격차를 메울 수 있는지 확인하기 위해 한 가지 실험에 착수했습니다. 자동 폐암 진단 온라인 대회에서 Kaggle은 참가 팀들이 알고리즘을 개발하고 테스트할 수 있도록 1,397명의 환자들로부터 받은 흉부 CT 사진을 제공했습니다. 우승 모델 중 적어도 5개는 폐결절을 감지하는 데 90% 이상의 정확도를 보였습니다. 그러나, 임상적으로 유용하기 위해선 이러한 알고리즘이 다수의 데이터 세트에서도 동일하게 잘 수행되어야 합니다 .

이를 테스트하기 위해 하버드 의대 데이터 사이언티스트인 Kun-Hsing Yu는 가장 좋은 성능을 보여준 10개의 알고리즘을 획득한 후 원래 대회에서 사용된 데이터 일부분에 시험해봤습니다. 그 결과는 어땠을까요? 해당 데이터 하에서 알고리즘의 정확도는 60-70% 정도였다고 합니다.

AI 의료 기기가 광범위하게 사용되기 위해서는 AI 모델은 재현가능해야 합니다. 이는 코드와 데이터가 사용 가능하고, 오류가 없어야 함을 의미합니다. 즉, 위의 수치는 AI 의료 기기의 재현가능성에 이슈가 있음을 알려줍니다. 오늘은 AI 의료 기기의 재현성(Reproducibility)에 대해 다뤄봅니다.

R8KvKU-Ptt-3WbXXvjglsiF3Vho5ChG_oegzE6OAag_cT1v2-In2U_pbW0To0GvWNoHahLpHQ7ZSydaHNLo=s0-d-e1-ft

AI 모델은 기술의 발달로 진단의 가속화 및 치료 전략 제안 등 아주 빠른 속도로 그 잠재력을 인정받았습니다. 하지만 위에 서술한 것과 같이 의료 AI에서 재현가능성 이슈는 작지 않은 문제인데요. 의료 AI 모델에서 재현가능성이 떨어지는 이유는 무엇일까요?

AI 의료 기기가 어디서든 광범위하게 사용되기 위해서는 코드와 데이터가 사용 가능하고, 오류가 없어야 합니다. 그러나, 1) 개인 정보 보호 이슈와 윤리적 문제 및 규제로 인해 의료 AI의 재현성은 낮게 보고됩니다. 실제로 흉부 X-ray나 CT를 통해 COVID-19를 찾아내는 62개의 모델을 분석했을 때, 실제 임상현장에서 쓸 수 있는 모델은 하나도 없었습니다. 이러한 이유는 모델의 절반이 사용된 데이터가 비공개 세트였고 개인정보 제한으로 인해 누락된 정보가 많았기 때문입니다.

MIT의 또 다른 연구에 따르면, 건강 관련 머신러닝 모델은 다른 분야에 비해 특히 낮은 재현성을 보인다고 보고했습니다. 이렇게 재현성이 낮은 이유는 의학에서 2) 공개적으로 이용 가능한 데이터 세트의 상대적인 부족함 때문이고, 이로 인해 편견과 불평등이 고착화되는 것입니다.

또 다른 문제는 데이터 누수(data lekage)입니다. 데이터 누수가 발생하면 머신러닝 모델을 만들 때 잘못된 예측 결과를 만들거나 지나치게 낙관적인 결과를 불러 일으킵니다. 훈련 데이터와 테스트 데이터를 완전히 분리하지 못해 데이터 간의 중복이 발생하면 데이터 누수 문제가 발생합니다. 의료 데이터는 특히 동일 환자에 대한 항목이 포함될 수 있기 때문에, 데이터를 사용하는 과학자가 인식하지 못할 수도 있는 3) 중복 항목이 포함될 수 있습니다. 그 결과 테스트 시에는 성능이 실제보다 더 좋게 보일 수밖에 없습니다.

b8pwjyZ6dCMRh6FcOdd-U6pqf1fRL_8bGUfTEQX3Y3-QMnG21oc-AReP3BiYczrAz6I2j6QEBpoD7wV1vQ8=s0-d-e1-ft

이러한 우려에도 불구하고 AI 시스템은 이미 진료소에서 사용되고 있습니다. 미국의 EHR 회사 Epic은 미국에서 연 25만 명 이상의 사망을 차지하는 전신 감염인 패혈증의 초기 징후를 잡아내기 위해 자사 EHR을 사용 중인 수백 개의 미국 병원을 대상으로 EpicSepsisModel을 제공했었습니다.

Epic이 제공하는 모델을 독립적으로 평가하기 위해 미시건 대학의 의과대학 연구원들은 27,697명이 참여한 38,455명의 입원을 분석했습니다. 2021년도 그들이 발표한 연구 결과에 따르면 이 도구는 실제 패혈증에 걸린 사람들의 두 배 이상에 대한 알람을 생성했습니다. 그리고 정작 실제로 패혈증에 걸린 사람들의 67%를 확인하지 못했습니다. 이 결과는 '독점한 데이터를 기반으로 설계된 모델은 결함이 있는 알고리즘 발견을 어렵게 하며, 반대로 투명성을 높이면 그러한 알고리즘이 광범위하게 배치되는 것을 방지하는데 도움이 될 것'을 시사합니다.

그러나 의료 AI가 결함이 많은 채로 머물러 있지만은 않습니다. 연구자들은 '과학자들이 기관, 국가 및 인구를 포괄하는 대규모 데이터 세트를 생성하고 모두에게 공개되는 올바른 방향으로 점점 나아가고 있다'고 말합니다. 예를 들어 영국과 일본의 국립 바이오뱅크, eICU 공동 연구 데이터베이스(암스테르담 소재 Philips Healthcare 및 MIT 전산 생리학 연구소에서 제공하는 약 200,000개의 중환자실 입원 관련 데이터 포함)가 있습니다. 이 외에도 여러 움직임은 의료 AI의 재현가능성을 어렵게 한 요인을 해소할 수 있을 것으로 보입니다.

훨씬 더 많은 선택권을 갖는 것은 가치를 더할 수 있습니다. 연구진들은 데이터 수집 및 기계 학습 연구 보고를 위한 표준을 만들고, 참가자가 데이터 사용에 동의할 수 있도록 하며, 엄격하고 개인 정보 보호 분석을 보장하는 접근법을 채택할 것을 요구했습니다 .

데이터 중복을 제거하는 것도 도움이 될 것입니다. 코펜하겐 대학의 번역 질병 시스템 생물학자인 Søren Brunak는 단백질 구조를 예측하는 머신러닝 연구에서 과학자들이 훈련 세트에 사용되는 단백질과 너무 유사한 실험 데이터 세트에서 단백질을 제거하는 데 성공했다고 말했습니다. 의료 관련 연구는 많은 유사한 개인을 포함할 수 있으므로 아주 전형적인 환자를 넘어서는 알고리즘을 개발하는 것을 도전하지 않습니다. Brunak은 “알고리즘에 실제로 어떤 데이터를 보여주고 있는지 등 교육적 측면에서 작업하고 균형을 잘 잡고 데이터 세트를 대표성 있게 만들어야 합니다.”라고 말합니다.

또한, 헬스케어에 널리 사용되는 체크리스트는 기술적 문제를 줄이고 재현성을 향상시키는 간단한 방법을 제공할 수 있습니다. 머신러닝 체크리스트는 연구원들이 정확하고 순서대로 수행돼야 하는 많은 작은 단계들에 주의를 기울이도록 보장하여 결과가 유효하고 재현가능하도록 하는 데 도움이 될 것입니다.

실제로 헬스케어 연구의 신뢰성을 향상시키기 위해 이미 사용 가능한 국제 이니셔티브 네트워크가 주도 하의 머신러닝 체크리스트가 존재합니다. (TRIPOD checklist, CLAIM) 데이터 누수를 줄이기 위해 작성된 21개의 질문에 따르면, 결과를 예측하기 위해 모델을 사용하는 경우 체크리스트는 트레이닝 세트의 데이터가 테스트 세트보다 우선하여 훈련되는지 여부를 확인하도록 연구자에게 조언합니다.

아직 해야 할 일이 많지만 머신러닝에서 '재현성'에 대한 논의가 오가는 것은 고무적이며 고립된 연구 상태에 대응하는 데 도움이 된다고 연구원들은 말합니다.

"과거에는 재현성에 관심을 갖는 이들은 소수의 난해한 학문적 집단에 불과했습니다. 이제는 사람들이 질문하고 대화가 진전되는 것처럼 느껴집니다. 더 빨리 나아갔으면 좋겠지만, 적어도 공허함을 향해 소리치는 느낌이 덜합니다."

(KV's Note) 연구 환경에서 증명된 것이 실제 의료 현장에서 재현되는가 하는 것은 의료 인공지능 뿐 아니라 신약, 의료기기 등 의료 신기술 전반에서 항상 제기되는 이슈입니다. 연구 환경에서는 소수의 환자를 대상으로 하며 별도의 자원을 투입하여 복약 순응도와 같은 요소를 최대로 끌어올리기 위해서 노력합니다. 따라서 훨씬 많은 환자를 대상으로 하고 여러 요소를 통제하지 못하는 실제 진료 환경에서는 그 결과가 재현되지 않을 가능성이 높습니다. 신약 임상 시험이 환자 개개인의 특성에 크게 좌우된다면 의료 인공지능에 대한 시험은 데이터의 특성에 좌우될 수 밖에 없습니다. 지금까지 의료 인공지능에 대한 거의 모든 연구가 통제된 환경에서 정확도를 입증하는 선에 머무르고 있습니다. 궁극적으로 실제 진료 환경에서의 효용을 입증하는 것이 필요하다는 점을 염두에 두어야 합니다.

- 뉴스 원본 (자세한 내용은 아래 기사 참조)

https://www.nature.com/articles/d41586-023-00023-2

#카카오벤처스 #스타트업 #디지털헬스케어 #디지털헬스케어레터 #김치원 #정주연

keyword

매거진의 이전글1월 2주차 카벤 디지털 헬스케어 뉴스1월 4주차 카벤 디지털 헬스케어 뉴스매거진의 다음글