전 세계적으로 가장 흔한 심장 부정맥인 심방세동은 현재 미국에서만 천만 명 이상이 앓고 있으며, 2030년까지 환자 수가 두 배로 증가할 것으로 예상됩니다. 이 질환은 뇌졸중 위험을 다섯 배 증가시키고, 심부전, 심근경색, 치매 등 심각한 합병증을 유발하여 막대한 의료비 부담을 초래하고 있습니다. 그러나 최근 발표된 연구에 따르면, ChatGPT와 같은 대형 언어 모델이 심방세동의 진단과 치료에 혁명적 변화를 가져올 수 있다는 가능성이 제시되고 있습니다.
기존의 의료 인공지능이 특정 작업에 국한된 이미지 분류나 위험 예측에 집중했다면, 생성형 AI는 완전히 다른 차원의 능력을 보여줍니다. GPT, Med-PaLM, BioBERT와 같은 대형 언어 모델은 방대한 텍스트 데이터를 학습하여 의학 문헌을 요약하고, 임상 질문에 답하며, 비구조화된 의료 기록에서 정보를 추출하고, 환자와 대화까지 수행할 수 있습니다. 이는 단순히 답을 찾는 것을 넘어 새로운 의료 지식을 창출하는 수준입니다.
의학 연구에서 문헌 검토는 가장 시간 소모적인 작업 중 하나입니다. 연구자들은 수천 편의 논문을 검토하고, 관련 데이터를 추출하며, 체계적 문헌고찰을 수행해야 합니다. 대형 언어 모델은 이러한 과정을 자동화하여 문헌 선별과 데이터 추출을 지원합니다. 심방세동 연구에서 LLM은 비구조화된 임상 노트에서 리듬 상태, 항응고제 사용, 위험 점수와 같은 구조화된 변수를 자동으로 추출할 수 있습니다.
더 나아가 생성형 AI는 가설 생성과 임상시험 설계에도 활용되고 있습니다. 방대한 문헌을 종합하여 아직 탐구되지 않은 연구 격차를 식별하고, 새로운 생의학적 연관성을 제안할 수 있습니다. 또한 임상시험 코호트를 시뮬레이션하고, 적격성 기준을 개선하며, 환자 이해도를 높이는 일반 언어로 된 동의서를 생성하는 데도 사용됩니다.
심방세동의 가장 큰 문제 중 하나는 증상이 없거나 간헐적으로 발생하는 경우 진단이 늦어진다는 점입니다. 많은 환자들이 뇌졸중과 같은 치명적 합병증이 발생한 후에야 진단받습니다. 트랜스포머 기반 모델은 심전도 데이터를 학습하여 90% 이상의 정확도로 심방세동을 감지할 수 있습니다. 최근 연구에서는 LLM이 심방세동 임상 가이드라인을 해석하는 능력을 평가했으며, 전문가 권고안과 상당한 일치도를 보였습니다.
특히 주목할 만한 점은 웨어러블 기기와 AI의 결합입니다. 스마트워치의 광용적맥파 센서와 심전도 패치에 탑재된 AI 알고리즘은 94% 이상의 민감도와 특이도로 심방세동을 실시간으로 감지합니다. 이는 병원 밖에서도 조기 발견이 가능함을 의미하며, 무증상 또는 발작성 심방세동 환자들에게 특히 유용합니다.
전통적인 위험 계층화 도구인 CHA₂DS₂-VASc와 HAS-BLED는 제한적인 이진 변수에 의존합니다. 그러나 현대의 데이터 환경은 훨씬 풍부합니다. 실험실 수치 추이, 약물 처방 이력, 심전도 파형, 임상 서술 등 다양한 데이터가 축적되고 있습니다. 기계학습과 생성형 AI는 이러한 다차원 데이터를 통합하여 더욱 개인화되고 역동적인 뇌졸중 및 출혈 위험 예측을 제공합니다.
미국 재향군인 건강관리청의 200만 건 기록으로 훈련된 신경망 모델은 6개월 내 심방세동 발생을 0.80의 AUROC로 예측했으며, 이는 전통적 로지스틱 회귀 모델을 능가하는 성능입니다. 더욱 흥미로운 것은 All of Us 데이터셋을 활용한 연구에서 LightGBM 프레임워크가 2년 뇌졸중 예측에서 0.79의 AUROC를 달성한 반면, CHA₂DS₂-VASc는 0.66에 그쳤다는 점입니다. 이 모델은 인종별 임계값 조정을 통해 흑인과 백인 환자 간 성능 격차를 42%나 감소시켰습니다.
의료 데이터의 민감성으로 인해 기관 간 협력적 기계학습은 역사적으로 어려움을 겪어왔습니다. 그러나 연합학습 접근법이 실행 가능한 해결책으로 부상하고 있습니다. Fed-CL 연구에서는 심전도 데이터가 4개의 별도 서버에 로컬로 저장되었지만, 연합 합성곱 모델이 발작성 심방세동 예측에서 0.91의 AUROC를 달성했습니다. 이는 통합 데이터 벤치마크보다 약간 낮은 수준이지만, 유럽연합 개인정보보호규정을 완벽하게 준수하면서 달성한 성과입니다.
전이학습은 고성능 예측에 필요한 데이터 요구사항을 더욱 줄입니다. JAMA Cardiology에 발표된 연구에 따르면, ImageNet으로 초기화된 ResNet을 단 5,000개의 로컬 심전도로 미세 조정하여 31일 내 심방세동 예측에서 0.84의 AUROC를 달성했습니다. 이는 신규 모델을 능가하는 성능이며, 자원이 제한된 환경에서도 광범위한 배포를 가능하게 합니다.
LLM을 전자건강기록 시스템에 내장하면 실시간 상황 인식 임상 의사결정 지원이 가능해집니다. 이러한 시스템은 실험실 결과와 심전도 소견 같은 구조화된 데이터와 임상 노트 및 퇴원 요약서 같은 비구조화된 문서를 종합합니다. 심방세동 치료에서 LLM은 CHA₂DS₂-VASc 점수에 기반한 항응고 의사결정을 지원하고, 누락된 추적관찰을 표시하며, 치료 경로를 임상 가이드라인에 맞춥니다.
의사결정 지원뿐만 아니라, LLM은 문서화 부담과 인지적 작업량을 줄이는 데 점점 더 많이 활용되고 있습니다. 이러한 시스템은 환자 데이터의 자동 요약, 임상 노트 초안 작성, 작업 우선순위 지정을 전자건강기록 인터페이스 내에서 직접 지원합니다. 행정 문서 작성에 소요되는 시간을 줄임으로써 전기생리학자와 일반 심장전문의는 환자와 직접 상호작용할 수 있는 시간을 확보할 수 있습니다.
LLM은 복잡한 의학 정보를 접근 가능하고 환자 친화적인 콘텐츠로 변환하는 데 점점 더 많이 사용되고 있습니다. 2024년 연구에서 LLM이 생성한 환자 메시지 응답은 심방세동 관리 이해도 향상에서 5점 만점에 4.2점을 받았습니다. 유사하게, LLM 기반 콘텐츠를 활용한 스마트폰 애플리케이션 임상시험에서는 180명의 에독사반 복용 환자 중 6개월 동안 약물 순응도가 31% 증가했습니다.
AI 기반 챗봇과 대화형 에이전트는 수동적 교육을 넘어 실시간 상호작용 지원을 제공합니다. 이러한 도구는 증상 추적, 약물 알림, 생활습관 상담 등의 기능을 제공합니다. 2021년 COVID-19 팬데믹 기간 파일럿 연구에서는 가상 자가관리 개입을 구현하여 환자들이 증상을 기록하고 맞춤형 지침을 받을 수 있게 했습니다. 결과적으로 130명의 사용자 중 75%가 자기효능감 향상을 보고했으며, 4개월 동안 응급 진료 방문이 12% 감소했습니다.
생성형 AI와 LLM의 심장학 통합은 중요한 윤리적, 법적, 설명가능성 문제를 제기합니다. 편향성과 공정성이 핵심 우려사항입니다. AI 모델은 대표성이 부족한 훈련 데이터, 지름길 학습, 또는 알고리즘 설계로 인해 기존 격차를 영속화하거나 증폭시킬 수 있습니다. 이러한 편향은 인구통계학적 그룹 전반에 걸쳐 차등적 성능을 초래할 수 있으며, 엄격하게 식별하고 완화하지 않으면 건강 불평등을 악화시킬 수 있습니다.
투명성과 설명가능성은 신뢰 구축과 안전한 임상 채택에 중요합니다. 많은 LLM이 "블랙박스"로 작동하여 임상의가 그 결과를 이해하거나 정당화하기 어렵습니다. 이러한 불투명성은 책임성을 복잡하게 만들고 AI 지원 의사결정에 대한 신뢰를 감소시킬 수 있습니다. 설명가능성은 점점 더 기술적 필요성뿐만 아니라 윤리적 의무로 간주되고 있으며, 정보에 입각한 동의를 지원하고 공유 의사결정을 촉진하며 AI 생성 권고안의 감사를 가능하게 합니다.
현재 ChatGPT-4와 같은 LLM에서는 여러 과제가 지속되고 있습니다. 임상 정확도 측면에서 항부정맥제 선택, 심박조율기 적응증, 급성 관상동맥증후군 관리와 같은 중요한 영역에서 부정확성이 관찰되었습니다. 이러한 오류는 AI "환각"—그럴듯하지만 잘못된 응답—현상을 보여주며, 임상 의사결정에 잠재적 위험을 초래합니다. 환각은 구식이거나 편향된 훈련 데이터에서 발생할 수 있으며 연구 무결성과 환자 안전에 심각한 위협이 됩니다.
LLM의 잠재력을 심혈관 치료에서 완전히 실현하려면 목표 지향적 혁신과 전략적 협력이 필수적입니다. 심전도 추적, 전자건강기록, 웨어러블 센서 데이터, 영상, 유전체 정보, 환경 요인을 포함한 다중모달 데이터와 LLM의 통합은 진단 정밀도를 향상시키고 개인화된 개입을 지원할 잠재력이 있습니다.
일반적으로 광범위하게 훈련된 LLM은 전문 수준의 권고에 필요한 세분성이 부족하여 임상 신뢰성을 제한할 수 있습니다. 따라서 선별된 최신 심혈관 문헌과 근거 기반 가이드라인으로 미세 조정된 심장학 특화 LLM을 개발하면 진단 특이성을 크게 개선하고 오해나 부적절한 권고와 관련된 위험을 줄일 수 있습니다.
학제 간 협력은 의료 분야에서 AI의 안전하고 효과적인 발전을 위한 초석으로 반복적으로 강조되고 있습니다. 특히 심장전문의와 AI 개발자 간의 파트너십은 새로운 도구가 임상 현실과 환자 요구에 부합하도록 보장하는 데 필수적입니다. 투명한 데이터 공유, 오픈액세스 플랫폼, 광범위한 의료 및 환자 커뮤니티와의 공동 창작과 같은 개방형 과학 원칙은 공평한 개발과 배포를 촉진하는 데 중요합니다.
LLM과 기타 AI 기반 기술의 심방세동 관리 통합은 심혈관 치료의 변혁적 전환을 나타냅니다. 연합학습과 전이학습의 발전을 통해 예측 모델링은 환자 프라이버시를 보호하고 데이터 부족을 해결하면서 분산 데이터셋 전반에 걸쳐 수행될 수 있게 되었습니다. LLM은 실시간 의사결정 지원을 위해 구조화 및 비구조화 데이터를 종합하고, 원격 모니터링을 촉진하며, 문서화 효율성을 개선하여 임상 워크플로우를 더욱 향상시킵니다. 또한 개인화된 커뮤니케이션 도구와 자가관리 및 순응도를 촉진하는 대화형 에이전트를 통해 환자에게 권한을 부여합니다.
이러한 유망한 발전에도 불구하고, 심방세동 치료에서 AI의 의미있는 채택은 지속적인 기술적, 윤리적, 규제적 과제를 해결해야 합니다. 모델 부정확성, 구식 정보, 제한적 일반화가능성, 알고리즘 편향은 특히 고위험 또는 의료 소외 환경에서 여전히 중요한 우려사항입니다. 더욱이 투명성을 보장하고, 인간 감독을 유지하며, 임상의-환자 관계를 보존하는 것은 신뢰를 유지하고 공평한 결과를 촉진하는 데 필수적입니다.
앞으로 심방세동에서 AI의 미래는 진화하는 임상 가이드라인과 일치하는 다중모달 데이터를 통합하는 영역별, 지속적으로 업데이트되는 모델의 개발에 달려 있습니다. 임상의, 개발자, 윤리학자, 규제기관 간의 협력적 노력은 AI 도구가 안전하고 포괄적이며 임상적으로 관련성이 있도록 보장하는 데 필수적입니다. 강력한 거버넌스 프레임워크, 투명한 배포, 환자 중심 설계를 통해 LLM과 생성형 AI는 더욱 정밀하고 효율적이며 공평한 심혈관 서비스를 제공함으로써 심방세동 치료를 재정의할 잠재력을 가지고 있습니다.
이 글의 내용은 'The Role of Generative Artificial Intelligence and Large Language Models in Atrial Fibrillation (2025)' 논문을 참고하였습니다.