AI는 새로운 의학을 만들 수 있는가

AI가 설계하고, 의사가 책임진다

by 최인준

앞선 글들에서 AI에 의한 의사의 대체를 세 개의 병목으로 분석했고, 그 대체의 실질적 주도력이 보험사-기술 복합체에서 나올 수 있다고 주장했으며, 외과 수술 자동화의 구조적 느림을 데이터 분절로 설명했습니다. 이번 글에서는 많은 분들이 "AI가 쉽게 넘지 못할 영역"으로 여기는 임상 연구를 다룹니다. 그리고 그 분석으로부터, 앞으로 어떤 의사가 가장 오래 살아남을 수 있는지에 대한 하나의 가설을 제시해보려 합니다.

글을 쓰면서 여러분들과 이 주제로 대화를 나눌 기회가 있었는데, 그중 한 가지 질문이 계속 머릿속에 남았습니다. "AI가 기존 가이드라인을 최적화하는 건 알겠는데, 아예 새로운 가이드라인을 만드는 것도 가능한가?" 직관적으로 그럴듯한 의문이고, 저 자신도 한동안 같은 생각을 했습니다. 그런데 이 질문을 좀 더 분해해 보니, 오히려 의사의 미래상이 더 선명해지는 경험을 했습니다.



0. 최적화와 창조 사이


"AI는 기존 데이터를 최적화할 뿐이고, 새로운 것을 만들어내지는 못한다." 이 직관은 강력하다. 기존 가이드라인 안에서 최선의 답을 찾는 것과, 아직 존재하지 않는 치료법이나 진단 체계를 고안하는 것은 분명 다른 종류의 작업처럼 보인다.

하지만 사실 이 경계는 생각보다 모호하다. AlphaFold는 기존 단백질 구조 데이터를 학습했지만, 실험적으로 구조가 결정되지 않았던 단백질의 3D 구조를 정확하게 예측했다. AlphaGo는 인간 기보에 없던 수를 스스로 발명했다. 물론 바둑의 규칙 안에서의 발명이지만, 의학의 가이드라인 역시 생물학이라는 규칙 안에서 만들어진다는 점에서 유비가 성립한다. 기존 데이터의 패턴을 극한까지 학습한 결과 아직 관찰되지 않은 영역으로 나아가는 것은, 순수한 최적화도 순수한 창조도 아닌 어딘가에 있다.

완전히 새로운 가이드라인을 만드는 것은 혁신적인 패러다임 변화가 일어나는 경우이다. 헬리코박터와 위궤양의 관계, 면역항암제의 등장 같은 전환은 기존 패러다임 밖의 가설에서 출발했다. 이런 종류의 도약이 AI에 의해 가능한가? 전체 의학 문헌을 동시에 조망하고, 분야 간 교차점에서 인간이라면 연결하지 못했을 패턴을 발견할 수 있는 AI는, 오히려 패러다임 전환적 가설의 생성에서 구조적 우위를 가질 수 있다. 이 부분을 다음 섹션에서 더 구체적으로 다룬다.

따라서 "최적화 vs 창조"라는 프레임보다 더 유용한 구분이 있다. "가설의 생성 vs 가설의 물리적 검증"이다. 새로운 가이드라인을 만드는 것은 결국 임상 "연구"의 영역이므로, 이렇게 두 개로 나누어 살펴볼 수 있다.



1. 가설을 세우는 일


임상 연구의 첫 번째 단계는 가설을 세우는 것이다. "이 약물이 이 질환에 효과가 있을 것이다", "이 바이오마커가 조기 지표일 것이다", "이 수술 기법이 합병증을 줄일 것이다." 이 단계에서 AI의 능력은 이미 인간 연구자를 넘어서기 시작했다.

그 이유는 구조적이다. 인간 연구자는 자신이 읽은 논문, 자신의 임상 경험, 자신이 속한 전문과목의 패러다임 안에서 가설을 세운다. 아무리 뛰어난 연구자라도 전체 의학 문헌을 동시에 조망하는 것은 불가능하다. AI는 이것이 가능하다. 서로 다른 전문과목의 연구를 교차 참조하고, 인간이라면 연결하지 못했을 패턴을 발견할 수 있다. 약물 재창출, 즉 기존 약물의 새로운 적응증을 발견하는 영역에서 AI가 이미 유의미한 성과를 내고 있는 것은, "기존 데이터에서 새로운 가설을 생성하는" 전형적인 사례이다.

여기에 더해, AI의 가설 생성에는 인간이 가진 구조적 제약이 없다. 경력에 대한 위험(실패하면 커리어에 타격), 학계 권위 구조(저명한 교수의 패러다임에 반하는 가설을 제시하기 어려움), 출판 편향(부정적 결과는 출판되기 어려워 특정 방향의 가설만 살아남음). 이러한 사회적 제약들은 인간 연구자의 가설 생성 공간을 실질적으로 축소시키지만, AI에게는 적용되지 않는다.


따라서 가설 생성이라는 지적 작업에서 AI가 인간을 대체하는 것은 미래의 이야기가 아니라, 이미 진행 중인 현실이다.



2. 검증이라는 진짜 병목


임상 연구에서 AI가 넘기 어려운 진짜 병목은 검증이다.

가설을 세웠으면 확인해야 한다. 새로운 약물이 효과가 있는지 보려면 실제 환자에게 투여해야 하고, 새로운 수술 기법이 안전한지 확인하려면 실제로 수술을 해봐야 한다. 다른 분야에서는 시뮬레이션으로 무한한 가상 증례를 만들어 학습할 수 있지만, 임상은 다르다. 약물의 체내 대사는 환자마다 다르고, 면역 반응은 예측 불가능한 변수를 포함하며, 장기 부작용은 말 그대로 시간이 지나야 드러난다. 이것은 기술의 한계가 아니라 생물학의 본질적 복잡성에서 오는 한계이다.

임상이 다른 전문직과 비교하여 가장 강력한 특수성을 가지는 지점이 바로 여기이다. 시행착오를 거쳐야 하는데, 그 시행착오의 대상이 사람이라는 것. 이 물리적 제약은 AI의 연산 능력으로 우회할 수 없는, 현실 세계에 단단히 묶여 있는 병목이다.

이 병목을 더 깊이 분해하면, 세 겹의 장벽이 드러난다.

첫 번째 장벽은 평균 수렴의 한계이다. 대규모 데이터로 학습한 AI는 다수 환자에게 적용되는 표준 치료를 찾는 데에는 탁월하다. 그러나 예외적 환자, 기존 패턴에서 벗어나는 희귀한 반응, 아직 데이터에 충분히 반영되지 않은 새로운 상황에서는 기존 패턴의 평균으로 회귀하는 경향이 있다. 기존 가이드라인의 최적화에서 AI가 강력한 이유가 바로 이 평균 수렴 능력이지만, 새로운 가이드라인이 필요한 영역은 정의상 평균에서 벗어난 곳이다. 즉, AI가 가장 잘하는 것과 임상 연구가 가장 필요로 하는 것 사이에 구조적 긴장이 존재한다.

이 한계를 부분적으로 돌파할 수 있는 구조가 다중 AI agent 시스템이다. 단일 AI가 하나의 학습 데이터셋에서 평균적 답을 내놓는 대신, 서로 다른 관점과 가중치를 가진 복수의 AI agent가 가설을 경쟁적으로 생성하고, 상호 비판하고, 검증 설계를 제안하는 구조이다. 한 agent가 표준 치료를 추천할 때, 다른 agent가 "이 환자 하위군에서는 다른 접근이 필요하다"라고 반론을 제기하고, 또 다른 agent가 그 반론을 검증할 실험을 설계하는 식이다. 이것은 학계에서 서로 다른 연구 그룹이 경쟁적으로 가설을 검증하는 구조를 AI 내부에서 시뮬레이션하는 것에 가깝다. 평균 수렴 문제를 완전히 해소하지는 못하지만, 단일 AI보다 예외와 이상치에 대한 감도를 높일 수 있다.

그러나 두 번째 장벽은 다중 agent로도 해결되지 않는다. 책임 귀속의 문제이다. AI agent들이 아무리 정교한 가설을 생성하고 실험을 설계하더라도, 그 실험을 실제 환자에게 적용하는 순간 "누가 책임지는가"라는 질문이 발생한다. 현재의 임상시험 체계에서 책임은 주임연구자(PI)라는 "인간"에게 귀속된다.


여기서 앞선 글에서 다룬 진료에서의 책임과 구분이 필요하다. 진료에서의 책임은 결과에 대한 사후 책임이다. AI가 확립된 치료를 수행했는데 오진이 발생하면 누가 배상하는가의 문제이며, 자율주행의 선례처럼 보험이나 기관 귀속으로 해결 경로가 보인다. 그러나 임상 연구에서의 책임은 판단에 대한 사전 책임이다. "아직 결과를 모르는 실험적 개입을 이 환자에게 시도해도 되는가"를 결정하는 것이며, 이것은 사후 보상 체계로 처리되지 않는다. 사후 책임은 결과가 나온 뒤 비용을 분배하는 문제이지만, 사전 책임은 결과가 나오기 전에 위험을 감수하겠다는 판단 자체에 대한 문제이기 때문이다.


AI가 설계한 프로토콜에서 예상치 못한 부작용이 발생했을 때, 그 책임을 AI 시스템에 귀속시키는 법적 프레임워크는 아직 존재하지 않는다. 앞선 글에서 다룬 자율주행의 책임 문제가 여기서도 반복되지만, 대상이 도로 위의 사고가 아니라 환자의 생명이라는 점에서 장벽은 훨씬 높다. 그리고 진료의 사후 책임과 달리 연구의 사전 책임은 보험·법적 프레임워크의 확장만으로는 해소되기 어렵다는 점에서, 이 장벽의 성격은 근본적으로 다르다.

세 번째 장벽은 규제 구조 자체의 관성이다. FDA의 임상시험 승인 체계, IRB의 윤리 심사, 각 단계(Phase I~III)의 순차적 검증 요건은 모두 "인간 연구자가 설계하고 감독하는" 전제 위에 만들어져 있다. 이 체계를 "AI가 설계하고 로봇이 수행하며 AI가 해석하는" 구조에 맞게 재편하는 것은, 단순한 규제 완화가 아니라 임상시험 거버넌스의 근본적 재설계를 의미한다. 앞선 글에서 원격의료의 규제가 팬데믹이라는 외부 충격으로 2주 만에 풀린 사례를 다루었지만, 임상시험 규제의 재편은 원격의료보다 훨씬 깊은 층에 있다.

정리하면, 검증 병목은 세 겹이다. AI의 평균 수렴 한계는 다중 agent 시스템으로 부분적으로 완화될 수 있다. 그러나 책임 귀속과 규제 구조라는 나머지 두 장벽은 기술적 해결의 영역 밖에 있으며, 사회적 합의와 제도적 재편을 필요로 한다. 검증 병목이 "풀린다"기보다는, 기술적으로 좁혀지는 부분과 기술로는 좁혀지지 않는 부분이 명확히 갈린다는 것이 더 정확한 그림이다.



3. 연구자의 역할이 바뀐다


이 분석이 그리는 그림은 명확하다.

과거의 구조에서는, 인간이 가설을 세우고, 인간이 실험을 설계하고, 인간이 실험을 수행하고, 인간이 결과를 해석한다. 미래의 구조에서는, AI가 가설을 세우고, AI가 실험을 설계하고, 인간(과 점차 로봇)이 실험을 수행하고, AI가 결과를 해석한다.

인간에게 남는 역할은 "물리적 검증의 실행"과 "규제적 감독"이다. 가설을 세우는 것도 아니고, 결과를 해석하는 것도 아니다. AI가 설계한 프로토콜을 환자에게 적용하고, 그 과정을 감독하는 것이다.

이것은 앞선 글에서 다룬 진료 영역의 탈숙련화와 동일한 구조이다. 임상 연구에서도 탈숙련화가 일어난다. AI가 가설 생성과 실험 설계를 맡을수록, 인간 연구자가 독립적으로 가설을 세우고 실험을 설계하는 능력은 퇴화한다. 그리고 이 퇴화 역시 비가역적이다. AI 없이 연구하는 "연습"은, AI보다 열등한 가설로 환자를 대상으로 실험하는 것이 되므로, 윤리적으로도 사회적으로도 허용되기 어렵기 때문이다.



4. 로봇 이후에도 남는 사람


물리적 검증의 로봇 자동화가 기술적으로 완전히 달성된 이후에도, 한동안은 규제의 측면에서 인간 MD의 관리가 요구될 것이다. 이것은 앞선 글에서 다룬 시스템 병목의 논리와 동일하다.

FDA가 "AI가 설계하고 로봇이 수행하는 임상시험"을 감독 없이 허용하는 프레임워크를 만드는 것은, "계속 학습하는 AI 진단 도구"를 허용하는 것보다 훨씬 더 높은 규제적 장벽을 넘어야 한다. 환자에 대한 물리적 개입이 수반되기 때문이다. IRB의 승인 구조, 임상시험 감독의 법적 요건, 부작용 발생 시의 책임 귀속 문제 모두 인간 감독자를 전제로 설계되어 있다.

자율주행에서 기술적으로 무인 운전이 가능해진 이후에도 규제가 운전석의 인간을 요구하는 것과 동일한 패턴이다. 기술이 준비되어도 사회가 준비되는 데에는 시간이 걸린다. 그리고 대상이 환자인 임상 연구에서는 그 시간이 더 길 것이다.



5. 가장 오래 살아남는 의사


여기까지의 분석을 따라가면, 하나의 포지셔닝이 자연스럽게 도출된다. 임상과 연구를 병행하는 MD-PhD가 앞으로 점차 강력한 포지션으로 변모할 수 있다는 것이다.

논리는 다음과 같다. 순수 PhD 연구자의 핵심 역량은 가설 생성과 실험 설계이다. 그러나 이 두 영역이 AI에 의해 대체되면, PhD 연구자는 "AI가 이미 더 잘하는 일"을 하는 포지션이 된다. 순수 MD의 핵심 역량은 임상 진료이다. 그러나 앞선 글에서 분석했듯이, 이 영역에서의 탈숙련화는 이미 시작되었고 장기적으로 역할이 축소될 위험이 있다.

MD-PhD는 이 양쪽 사이에서 고유한 브리지 포지션을 잡을 수 있다. AI의 연구 출력을 임상 맥락으로 번역하고, 규제 하에서 물리적 검증을 감독하며, 연구 설계와 환자 진료 양쪽의 언어를 이해하는 위치이다. 규제 기관이 "임상 경험이 있는 사람의 감독"을 요구하는 한, 연구도 이해하고 환자도 보는 MD-PhD가 구조적으로 유리하다.

구체적으로 이 유리함이 발현되는 위치를 생각해 보면, AI 임상시험의 주임연구자(PI)로서 AI가 설계한 프로토콜의 임상적 타당성을 평가하고 규제 기관에 제출하는 역할, FDA나 EMA의 AI 의료 자문위원으로서 기술과 임상 양쪽을 이해하는 규제 설계자 역할, 그리고 앞선 글에서 다룬 보험사-기술 복합체 내부에서 AI 연구 파이프라인의 임상 자문 역할 등이 있다.

앞선 글에서 "MD는 영구 자산이 아니라 시한부 무기"라고 말한 바 있다. MD-PhD는 그 시한부 무기 중에서 유효기간이 가장 긴 버전이다.

여기에 대한 반론도 있을 수 있다. MD-PhD 과정은 7~8년 이상의 시간이 소요되며, AI가 빠르게 변화하는 환경에서 이 긴 투자 기간이 오히려 리스크가 되지 않는가? 이 반론은 타당하지만, 방향이 다르다. MD-PhD의 가치는 학위 취득 시점의 기술 환경이 아니라, 학위가 부여하는 규제적 접근권과 양쪽 언어를 이해하는 구조적 위치, 즉 포지셔닝에서 나온다. 기술 환경이 빠르게 변할수록, 기술과 임상 사이를 번역하는 사람의 필요성은 오히려 커진다. 다만 이 논리가 성립하려면, MD-PhD 과정 중에도 AI 도구를 적극적으로 활용하고 그 변화에 동기화되어야 한다는 전제가 붙는다.

덧붙이자면, 한국의 남성 MD-PhD에게는 추가적인 구조적 이점이 있다. MD-PhD 수련 과정에서 전문연구요원으로 병역을 이행할 수 있다는 것이다. 이것은 단순한 시간 절약의 문제가 아니다. 병역이라는 고정 비용을 연구 수련 기간과 동시에 소화할 수 있으므로, MD-PhD 과정의 기회비용이 실질적으로 낮아진다. AI 전환기에 연구와 임상 양쪽의 역량을 축적하면서 동시에 병역을 해결하는 것은, 한정된 윈도우를 가장 효율적으로 활용하는 경로 중 하나이다.



6. 그래도 영원하지는 않다


다만, 이 글의 다른 분석들과 마찬가지로, 이 포지션도 영구적이지는 않다. MD-PhD가 AI 연구를 감독하는 포지션이 강력해질수록, 그 감독 하에서 축적되는 데이터가 결국 감독 자체를 불필요하게 만드는 방향으로 작용한다. 감독의 성과가 곧 감독의 불필요성을 증명하는 역설적 구조이다.

그러나 그 자기 소멸까지의 시간은 다른 의사 포지션보다 훨씬 길다. 임상 진료의 감독은 진단 데이터가 축적되면 비교적 빠르게 형식화될 수 있지만, 임상 연구의 감독은 "아직 존재하지 않는 상황에 대한 판단"을 포함하므로 데이터 축적만으로는 대체되기 어렵다. 물리적 검증의 로봇 자동화라는 기술적 장벽과, 규제가 인간 감독을 요구하는 시스템적 장벽이 이중으로 유효기간을 늘려준다.

따라서 "영구적으로 안전한 포지션"이 아니라 "환전할 시간이 가장 넉넉한 포지션"이라고 프레이밍 하는 것이 더 정확하다.



7. 결론


임상 연구는 의사에게 남은 해자 중 가장 깊은 것일 수 있다. 물리적 검증이라는 병목은 실재하며, 임상이 다른 분야와 구별되는 가장 강력한 특수성이다.

그러나 이 해자가 "의사의 가치를 지켜준다"라고 읽으면 절반만 맞는다. 물리적 검증의 병목이 남더라도, 그 과정에서 인간의 역할은 "지적 주도자"에서 "프로토콜 실행자"로 전환된다. AI가 못하는 것이 있다는 것과, 그 못하는 것이 의사의 전문적 판단을 필요로 한다는 것은 같은 말이 아니다. 못하는 것의 상당 부분은 물리적 제약이지 지적 제약이 아니다.

임상 연구에서도 원칙은 동일하다. "대체되는가"가 아니라 "대체되는 속도와 그 속도가 만드는 윈도우 안에서 무엇을 확보하느냐." MD-PhD라는 포지션은 그 윈도우를 가장 넓게 열어주지만, 윈도우가 영원히 열려 있지는 않다.

가설 생성의 병목은 이미 사라지고 있고, 물리적 검증의 병목만이 남아 있으며, 그 병목마저 단계적으로 좁혀지고 있다. 남는 질문은 늘 같다. 그 윈도우가 열려 있는 동안, 무엇을 확보할 것인가.


매거진의 이전글외과 수술의 자동화가 느린 이유