- AI를 의료에 사용하면, 더 많은 목숨을 구할 수 있을까
최재홍 가천대학교 스타트업 칼리지 교수
1. 들어가면서...
의료 AI의 도입은 혁신적인 가능성을 품고 있지만, 동시에 여러 난관에 부딪히고 있다. 기술 자체의 한계를 넘어 의료 현장이라는 복잡한 시스템 속에서 진정한 가치를 발휘하기 위해서는 다양한 문제들을 직시해야 한다. 의료 AI 시스템이 마주하는 장벽을 보면 기술적 한계나 알고리즘의 정확도 문제, 특정 병원 데이터에 지나치게 최적화된 시스템이 오히여 다른 환경에서는 제대로 작동하지 않는 경우, 또는 의무기록 시스템 구조로 인한 데이터 호환성 문제도 심각하기에 여러 가지 문제를 봉착하게 된다. 무엇보다 딥러닝 모델의 블랙박스 특성 때문에 의료진이 AI의 판단 근거를 이해하지 못하는 경우가 많아 실제 적용을 어렵게 만들고 있다.
이러한 문제뿐 아니라 인종의 다양성과 성별 데이터 편향에서 비롯된 훨씬 복잡한 양상, 대형 병원 데이터가 과도하게 반영되면서 일반 클리닉의 현실을 제대로 보여주지 못하는 경우가 많고, 특정 시기에 수집된 데이터가 현재 의료 현실과 괴리되는 경우도 있다. 특히 의료진의 주관적 판단이 데이터 라벨에 반영되면서 시스템 자체에 편향이 깊이 각인되는 경우가 문제다.
물론 더 많은 복잡한 문제로 발생되는 다양한 실패 사례들을 깊이 있게 분석하는 것은 단순한 반성 이상의 의미가 있다. 의료 분야에서의 실패는 직접적인 인명 피해로 이어질 수 있기 때문에 더욱 신중하게 접근해야 한다. IBM Watson의 데이터 편향 문제부터 Google Health의 규제 장벽, 애플 HealthKit의 현장 부적응 문제까지 다양한 사례들이 주는 교훈을 통해, 진정으로 의료 현장에 도움이 되는 AI 시스템을 설계할 수 있을 것이다. 기술과 현장의 간극을 메우는 것이야말로 의료 AI가 풀어야 할 가장 중요한 과제다.
2. AI 의료 적용 실패 사례
1) IBM Watson for Oncology의 현실적 한계
IBM이 2015년 출시한 Watson for Oncology은 암 치료 분야에서 혁신을 이끌 것으로 기대받았으나, 결국 2022년 부문 매각이라는 결과를 낳았다. 구르두에프 박사 팀이 개발한 이 시스템은 자연어 처리 기술을 활용해 환자 병력, 유전자 정보, 최신 연구 결과를 종합 분석하는 데 성공했으며, 특히 폐암과 유방암 진단에서 90% 이상의 정확도를 보였다. 2016-2019년 메모리얼 슬로안 케터링 암 센터와의 협력에서 1,000명 이상의 환자에게 맞춤형 치료를 제안했고, 30%의 치료 계획 변경을 이끌어냈으며 진단 시간을 2주에서 10분으로 단축시켰다. 하지만 현실은 냉혹했다. 임상 현장 사용률은 20%도 채 되지 않았고, 유럽에서는 데이터 프라이버시 문제로 도입이 지연되었다. 가장 큰 문제는 미국 중심의 치료 프로토콜이 다른 국가 환자들에게는 적합하지 않다는 점이었다. 인도와 태국 연구에서 Watson의 치료 권고가 현지 지침과 30% 이상 불일치하는 것으로 나타났고 또한 AI의 판단 근거가 불분명해 의료진의 신뢰를 얻지 못했으며, 별도의 플랫루틴(기존 업무 프로세스와 분리된 추가적인 절차나 작업 )이 필요한 시스템이 오히려 업무 효율성을 저하시켰다. 2022년 플로리다 한 병원에서는 폐암 환자에게 부적절한 치료법을 추천해 환자 안전 문제까지 제기되었다. 이 프로젝트는 기술적 완성도와 현장 적용 가능성의 괴리를 극명하게 보여주는 사례가 되었다.
2) Google Health의 당뇨병성 망막병증 진단 시스템
2016년 DeepMind Health가 영국 NHS와 협력해 개발한 이 시스템은 안과 진단 분야에서 큰 기대를 모았다. 페퍼코른 박사 팀이 주도한 프로젝트는 고해상도 망막 이미지 분석을 위한 CNN 아키텍처와 다중 모달리티 이미지 융합 기술을 적용했으며, 15개국에서 수집한 150만 장 이상의 스캔 데이터로 훈련되어 94.3%의 진단 정확도를 달성했다. 2018-2020년 NHS와의 공동 프로젝트에서는 50개 병원에서 28,415건의 검사를 수행했고, 중증 환자 발견율을 31% 향상했으며 분석 시간을 6.3일에서 3분 17초로 단축하는 등 인상적인 성과를 보였다.
그러나 실제 적용 과정에서 심각한 문제들이 드러났다. 특정 제조사의 촬영 장비에서만 최적 성능을 발휘해 다른 장비 사용 시 정확도가 최대 18%까지 떨어졌다. 백인 환자 데이터에 편향되어 아시아계 환자에 대한 정확도가 7% 낮았으며, 저품질 이미지 입력 시 위음성(false negative: 양상인데 음성으로 판단하는 오류)률이 크게 증가했다. 2021년 유럽 의료기기 규정 강화로 인증이 지연되면서 상용화가 2년 이상 늦어졌고, NHS는 2022년 120만 파운드의 유지비용을 이유로 계약을 연장하지 않았다. 또한 데이터 수집 과정에서 충분한 환자 동의를 얻지 않아 윤리적 논란에 휩싸이기도 했다. 이 프로젝트는 기술적 우수성과 현실적 적용 가능성 사이의 간격을 잘 보여주는 사례로 남았다.
3) 애플 HealthKit의 의료적 실패
2014년 출시된 애플의 HealthKit은 아이폰과 애플워치를 활용한 헬스케어 플랫폼으로 큰 기대를 모았다. 심박수, 걸음 수, 수면 패턴 등 다양한 건강 데이터를 수집해 의료 연구와 진료에 활용할 목적으로 개발되었으며, 2015년 ResearchKit을 추가로 출시하며 의료 연구 지원 기능을 강화했다. 초기에는 스탠퍼드 대학과 협력한 심장 연구 등 여러 프로젝트에서 유망한 결과를 보였고, 사용자 친화적인 인터페이스로 대중적인 관심을 끌었다.
시간이 지나며 근본적인 한계들이 드러났다. 애플워치로 측정된 생체 신호는 의료용 장비에 비해 정확도가 현저히 낮았고, 특히 심방세동 감지 기능의 오탐률이 높아 불필요한 병원 방문을 유발했다. 수집된 데이터가 실제 진료나 연구에 활용되기에는 의학적 유효성이 부족했으며, 대부분의 기능이 단순한 피트니스 트래킹 수준에 머물렀다. 또한 애플의 강력한 개인정보 보호 정책이 오히려 병원 및 연구자와의 데이터 공유를 어렵게 만들어 의료적 가치 창출에 장애가 되었다. 2023년 기준 대부분의 ResearchKit 프로젝트가 중단되었고, HealthKit은 본래 목적과는 달리 일반적인 웰니스 애플리케이션 수준으로 전락하고 말았다. 이 사례는 소비자용 기술과 의료용 기술의 근본적인 차이를 잘 보여주며, 단순한 데이터 수집이 진정한 의료 혁신으로 이어지지 못하는 전형적인 예가 되었다.
3. AI 의료 실패의 유형별 분류
AI 의료 도입 실패는 여러 가지로 분류가 된다. 이를 몇 가지 카테고리로 병합하면 다음과 같은 네 가지 유형으로 나눌 수 있다.
1) 기술적 결함 (Technical Limitations)
AI는 실제 임상 현장의 복잡성을 완전히 반영하기 어려운 경우가 많다. 예측 모델은 훈련된 데이터에 기반해 작동하지만, 환자 상태는 매우 다양하고 복합적이다. 이로 인해 AI는 특정한 상황에서는 뛰어난 성능을 보일 수 있으나, 예상 밖의 임상 조건에서는 오히려 오류를 범하기 쉽다.
사례: IBM Watson for Oncology는 특정 병원에서 활용되었으나, 미국과 인도 등지에서 환자의 상태와 맞지 않는 치료법을 추천하며 문제를 일으켰다.
문제점: 실제 임상 데이터를 충분히 반영하지 못했고, 특정 질환에만 초점을 맞춘 알고리즘 설계가 현실 적응력을 저해했다.
2) 데이터 편향 및 품질 부족 (Data Bias & Quality Issues)
AI는 학습한 데이터를 바탕으로 판단을 내리기 때문에, 훈련 데이터에 포함된 편향이나 부족한 다양성은 AI의 판단을 왜곡시킬 수 있다. 이는 특히 인종, 성별, 연령 등 의료 형평성과 관련된 문제로 이어질 수 있다.
사례: 미국 병원 네트워크에서 운영된 한 응급 중증도 예측 AI는 백인 환자에 비해 흑인 환자의 위험도를 과소평가한 사례가 발견되었다.
문제점: 학습 데이터에서 특정 인종 군의 사례가 과소 대표되었고, 사회경제적 지표를 정확히 반영하지 못했다.
3) 규제 및 윤리적 문제 (Regulatory & Ethical Challenges)
AI의 의료적 결정은 인간의 생명과 직결되기 때문에, 이를 평가하고 통제할 윤리적·법적 장치가 반드시 필요하다. 그러나 기술의 발전 속도가 법적 정비보다 빠르게 진행되면서, 제도적으로 해결되지 못한 회색지대가 존재한다.
사례: AI를 활용한 피부암 진단 앱이 유럽 일부 국가에서 정확도 부족 및 책임소재 불분명 문제로 규제를 받았다.
문제점: 의료기기로 승인받지 않은 AI 서비스가 대중에 무분별하게 노출되었고, 오진 가능성에 대해 사전 경고가 부족했다.
4) 현장 적용 실패 (Clinical Adoption Failure)
AI 기술이 아무리 정교해도, 의료진과 환자가 신뢰하지 않는다면 현장에서 제대로 활용되기 어렵다. AI를 일선 병원에 도입할 때 발생하는 조직 문화적 저항, 교육 부족, 기존 시스템과의 충돌 등은 주요 장애물로 작용한다.
사례: 한 대학병원은 영상 판독 AI를 도입했으나, 의료진이 시스템의 판단 근거를 이해하지 못하고, 결과적으로 기존 방식으로 회귀한 사례가 있었다.
문제점: AI 결과에 대한 해석 가능성과 인간-AI 협업 시스템이 제대로 구축되지 않았다.
실패의 원인과 교훈을 정리해서 AI 의료 실패 사례는 단지 기술적 미비만이 아닌, 총체적인 시스템 설계 실패에서 비롯된다. 실패한 이유와 구체적인 교훈, 개선방법에 대하여 표로 정리하면 다음과 같다.
[표 1] AI를 적용해서 실패한 이유와 개선방안
4. 마치면서...
의료 AI의 실패 사례들은 단순한 기술적 결함이 아니라 시스템적 접근의 부재와 현장 수용성의 오류에서 비롯된 경우가 대부분이다. IBM Watson은 글로벌 의료 환경의 다양성을 간과했고, Google Health는 규제와 윤리적 검증의 중요성을, 애플 HealthKit은 의료급 데이터의 정확성과 신뢰성 문제를 드러냈다. 이들 사례는 기술의 발전 속도와 현장 적용의 괴리가 얼마나 치명적인 결과를 초래할 수 있는지를 보여준다.
앞으로 의료 AI가 성공하기 위해서 기존의 언급을 참고하면 세 가지 핵심 원칙이 필요하다. 첫째, 포용적 데이터 설계로 인종, 성별, 지역별 편향을 해소해야 한다. 둘째, 의료진과의 공동 개발을 통해 AI 시스템이 실제 진료 흐름에 자연스럽게 통합되도록 해야 한다. 셋째, 규제와 윤리 기준을 선제적으로 마련해 신뢰성을 확보해야 한다. 특히 AI의 판단 근거를 설명 가능하게 만드는 설명할 수 있는 AI(Explainable AI) 기술의 발전이 시급하다.
더 나아가, 의료 AI의 지속 가능성을 위해선 경제적 타당성과 사회적 수용성도 고려해야 한다. 고가의 AI 시스템이 의료 격차를 심화시키지 않도록 보편적 접근성을 담보하는 정책이 필요하며, 환자와 의료진의 신뢰를 얻기 위한 투명한 커뮤니케이션 체계도 마련되어야 한다. 의료 AI의 궁극적 목표는 기술 자체가 아닌 의료의 질 향상과 인간적 치료의 보조에 있다. 실패 사례들은 AI가 의료진을 대체하기보다 그들의 역량을 강화하는 도구로 설계되어야 함을 시사한다. 기술과 인간의 협력이 균형을 이룰 때, 비로소 AI는 예방 진단에서 맞춤형 치료에 이르는 의료 패러다임의 변화를 주도할 수 있을 것이다. 앞으로의 과제는 명확하다. 현장의 목소리를 경청하고, 실패로부터 배우며, 지속 가능한 생태계를 구축하는 것이다. 이를 통해 의료 AI는 단편적인 솔루션을 넘어 의료 시스템 전반의 혁신을 이끌어낼 수 있을 것이다.
@본 원고는 GAI의 도움을 받았음