brunch

You can make anything
by writing

C.S.Lewis

by Dr Jin Jan 10. 2024

ChatGPT가 의사를 대체할 수 있을까

인공지능 vs 의사


2010년 3월, 대학교 신입생 때 나는 폴더폰을 썼다. 스마트폰은 아직 낯선 개념이었고 무엇보다 비쌌다. 대학교 2학년이 되자 주변에서 하나둘씩 스마트폰을 쓰기 시작했다. 어느덧 문자, 네이트온, 버디버디 대신에 카카오톡으로 연락을 주고받기 시작했다. 그리고 10년이 훌쩍 지난 지금, 스마트폰은 '당연'한 것이 되었다.




2016년 3월, 일이 손에 익지 않던 레지던트 1년 차 때였다. 그날도 어김없이 수술방에서 잔뜩 쫄아있었다. 수술이 다 끝나갈 무렵 교수님께서 긴장을 풀어주시려는 듯 이세돌과 알파고 중에 누가 이기고 있냐고 물었다. 그때 처음 인공지능(AI)의 존재에 대해 알게 되었다. 당시 많은 전문가들은 바둑은 경우의 수가 너무 많아 체스, 장기와는 다르게 인공지능이 사람을 이길 수 없다고 했다. 하지만 알파고는 이세돌을 압도했고, 이세돌의 유일한 1승은 인류가 인공지능에게 거둔 처음이자 마지막 승리가 되었다. 이후 알파고는 업그레이드를 거듭했고 인류는 단 한 번도 이기지 못했다. 하지만 이는 바둑에 국한된 것이었다. 스마트폰처럼 우리 일상생활을 바꿔놓지는 못했다.

이때 AI 주식을 샀더라면...?


2022년 11월, ChatGPT가 공개되었다. 이전에도 챗봇(ChatBot), 시리(Siri), 빅스비(Bixby)는 있었지만 제대로 된 대화를 한다고 하기는 힘들었다. 하지만 ChatGPT는 마치 사람과 대화하는 듯한 경험을 선사했다. 마치 모든 걸 알고 있는 현인과 대화하는 듯했다. 인공지능이 처음으로 우리 삶에 들어온 순간이었다. 스마트폰을 하나둘씩 쓰기 시작했던 것처럼 ChatGPT를 하나둘씩 쓰기 시작했다. 자기소개서를 쓸 때도, 회사에서 업무를 할 때도, 궁금한 것을 물어볼 때도.

자기소개서도 ChatGPT의 도움을 받는 세대는 축복받은 세대인가 저주받은 세대인가?


AI로 인한 실직이 경제 위기와 함께 생각보다 빨리 찾아왔다.


직업에 귀천은 없지만, 직업은 크게 '화이트 칼라'와 '블루 칼라'로 나눌 수 있다. 산업혁명 이후 기계가 발달함에 따라 단순작업을 하는 '블루 칼라' 직업이 위협을 받았다. 한편 인공지능이 발달하고 ChatGPT가 나오면서는 '화이트 칼라'직업이 위협을 받기 시작했다. 그중에서도 특히 의사, 변호사가 인공지능으로 대체되지 않겠냐는 의견이 많았다. 직업 특성상 방대한 양의 내용을 공부하고 적용해야 하는 학문이기에 인공지능이 최적화된 것이 아니냐는 지적이었다.



승승장구하는 루닛과 뷰노


의학 분야에서 인공지능 진단기기의 발전이 두드러졌다. 국내 기업인 루닛은 약 350만 장의 흉부 단순방사선 사진을 학습용으로 활용해 폐암 또는 폐 전이암을 진단하는 영상 진단 기기를 개발했다. 영상의학 전문의와 유사한 판독의 정확도를 보였다며 루닛 주식의 가격상승을 일으키기도 했다. 뷰노라는 기업은 소아의 골연령을 계산하는 인공지능 의료기기(Med-BoneAge)를 개발하여 식품안전의약처 승인을 받기도 했다.


뷰노 연구에 살짝 발 담갔던 나. 그때 왜 뷰노 주식을 안 샀니...


뷰노에서 소아 골연령을 계산하는 인공지능을 개발할 때, 인공지능과 전문의들의 판독을 비교했다. 사실 나도 정형외과 전문의로 참여하여 labeling을 해주었다. 당시에 나는 인공지능과 전문의들의 판독이 당연히 비슷할 것이라 생각했다. 왜냐하면 골연령을 추정하는 방식 때문이다. 사람의 뼈는 태어나서 성인이 되기까지 총 2번의 골화(Ossification)를 겪는다. 쉽게 말하면 애기 때의 뼈가 있고, 그 주변으로 뼈가 더 생기면서 나중에 합쳐져서 성인의 뼈가 된다. 그렇기에 두 번째 뼈가 생기고 원래의 뼈와 합쳐지는 시기를 통해 골연령을 추정한다. 한편 단순방사선(X-ray)에서는 뼈는 하얗게, 아닌 것은 까맣게 보인다. 단순하다. 따라서 인공지능이 딥러닝을 통해 충분히 데이터를 쌓는다면 실수하지 않을 영역이라 생각했다.




하지만 이런 것은 진단이라고 하기는 애매하고 '해석'의 영역이라 봐야 한다. 의사가 x-ray 가 필요하다고 판단했기에 찍은 것이고, 그것을 해석하는 데 도움을 준 것이다.


미국 코헨아동의료센터에서 소아환자 중 지난 10년 간 JAMA에 보고된 60건, NEJM에 보고된 40건에 대해 ChatGPT(ver 3.5)의 진단율을 살펴봤다. 연구에 참여하지 않은 동료의사 2명이 정확도를 평가한 가운데 ChatGPT의 오진율은 83% 였다. 즉, 100명의 진단 중 83명이 틀렸다는 것이다.(JAMA 소아과학회지(Impact Factor=26.8)에 게재)


환자를 볼 때 가장 중요한 것은 문진과 신체진찰이다. 환자는 모든 증상을 한 번에 말해주지 않는다. 스무고개 하듯이 계속 물어봐야 한다. 진료 시간은 제한되어 있기 때문에 모든 것을 물어볼 수는 없고 또 모든 것이 중요하지도 않다. 그리고는 의심되는 감별진단들을 생각하며 신체진찰을 시행한다. 이런 일련의 과정들은 인공지능이 대신해 줄 수 없다.


또한 책임의 문제가 있다. 위에서처럼 오진을 받은 83명이 치료가 잘못되었을 때 책임은 누가 져줘야 하는가. 물론 의사들도 신은 아니다. 그렇기에 의사라고 해서 오진율이 0%가 될 수는 없다. 하지만 적어도 치료를 이어감에 있어서 '이거는 뭔가 이상한데'라는, 경험에서 우러나오는 직감이 있다. 그러면 대학병원 등 상급종합병원으로 의뢰서를 쓰며 진료 의뢰를 하거나, 다른 곳의 문제는 아닌지 다른 과와 협진을 하는 시스템이 있다. 이런 것들도 인공지능에서는 불가능하리라 생각한다.



로봇/AI 가 신체진찰까지 시행하는 날이 온다면 그땐 어떤 세상일까?


아직까지는 인공지능은 진료를 할 때 도움을 주는 강력한 도구라고 생각한다. 그렇기 때문에 앞으로 의사는 인공지능을 잘 이용하는 사람과 아닌 사람으로 경쟁력이 나뉠 것이라 생각한다. 하지만 인공지능이 의사를 대체하기까지는 아직 시간이 더 필요해 보인다. 물론 10년 만에 스마트폰이 우리에게 필수품이 된 것처럼, 10년 후에는 인공지능이 의료에서 어떤 역할을 하게 될지 아무도 모르겠지만...




브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari