AI의 의료 시장 도전
학습 언어 모델들이 급속도로 발전함에 따라, 그들이 의료 분야를 포함한 사회 전반에 어떻게 기여할 수 있을지에 대한 관심도 커지고 있습니다. 최근 케임브리지 대학교 임상의학 학교에서 수행된 연구에 따르면, OpenAI의 GPT-4가 전문 안과 의사들과 견줄 만한 성능을 안과 평가에서 보여줬다고 합니다.
이 연구는 PLOS 디지털 헬스에 게재되었으며, GPT-4와 그 이전 버전인 GPT-3.5, 구글의 PaLM 2, 메타의 LLaMA가 포함된 실험이었습니다. 연구진은 다양한 질환에 대한 지식을 평가하기 위해 87개의 객관식 문제로 구성된 모의 시험을 진행했습니다. 참가자로는 다섯 명의 전문 안과 의사, 세 명의 수련 의사 및 두 명의 초급 의사가 있었으며, 이들 모두에게 동일한 시험이 주어졌습니다.
GPT-4는 특히 눈에 띄는 성과를 보였습니다. 87개 문제 중 60개를 정확히 풀어내 초급 의사들과 수련 의사들보다 높은 점수를 기록했습니다. 이는 초급 의사들의 평균인 37점과 수련 의사들의 평균인 59.7점을 웃도는 결과였습니다. 비록 전문 안과 의사들의 평균 점수인 66.4점에는 미치지 못했지만, 한 명의 전문 의사가 56점을 기록한 것을 감안하면 눈부신 성과라 할 수 있습니다.
하지만 이러한 성과에도 불구하고, LLM이 때때로 '환각'을 일으켜 잘못된 정보를 생성하는 경향이 있다는 점은 우려되는 부분입니다. 이는 LLM이 백내장이나 암과 같은 중요한 진단을 잘못 제시할 가능성을 내포하고 있으며, 이는 잘못된 진료로 이어질 수 있습니다. 따라서 이 기술의 의료 분야 적용에 앞서 더욱 철저한 연구와 정확성 개선이 요구됩니다.
이 연구 결과는 AI의 의료 분야 적용 가능성을 크게 확장시킬 수 있는 잠재력을 보여주고 있으나, 동시에 그 한계와 위험성을 보여주는 사례로, 향후 AI 기술의 발전 방향과 응용 분야에 대한 신중한 접근이 필요함을 시사합니다.