part2
뇌 이미지 데이터의 사용
그럼 뇌이미지 데이터는 어떻게 사용할 수 있을까? 기능적 자기공명영상법(Functional Magnetic Resonace Imaging)은 상대적으로 비싸기 때문에 우울증 치료에 사용이 되는데에는 무리가 있을 수도 있다. 그러나 fMRI 의 성능이 정말로 정신질환을 진단하고 개인 맞춤형 치료법을 추천하는데 큰 효용을 보여준다면 그 필요성이 늘어날 것이고, 그 늘어난 수요 덕분에 가격이 조금씩 낮아질 것이라 기대한다. fMRI 역시 데이터의 시작점이 다를 뿐, 데이터가 주로 이용되는 형태는 거의 비슷하다. 현재 fMRI 의 데이터는 너무 고차원의 큰 데이터다. 3 차원의 데이터가 시간의 변화에 따라 있으니 총 4 차원의 데이터다. 아직 4 차원 데이터에 가장 잘 맞는 모델은 많이 개발되지 않았다.
그래서 대부분의 fMRI 데이터는 뇌과학 연구를 통해 지금까지 알려진 일부 네트워크들의 활성화도를 정리하는 방식이다. 한 예로 2019년에 네이쳐 논문에 발표된 연구는(Fonzo, Gregory A., et al. "Brain regulation of emotional conflict predicts antidepressant treatment response for depression." Nature human behaviour 3.12 (2019): 1319-1331.), 우울증 환자의 뇌영상 데이터를 분석해 감정적 충돌을 얼마나 잘 ‘조절’할 수 있는지가 항우울제 복용 결과와 유의미하게 연관되어 있음을 보여주었다. 구체적으로, 충동성을 보여주는 뇌 영역의 활성화도에 따라 항우울제 복용 시 임상적 호전도를 예측하는 지표가 되었고, 인공지능 모델 역시 이러한 뇌활성화 지표를 활용했을 때 기존의 인구통계학적 정보만으로는 예측하기 어려운 정확도를 달성했다. 이 연구는 뇌 기반 지표가 우울증 치료의 개인화에 매우 유용하다는 사실을 시사하며, 신경영상 데이터를 근거로 환자 특성에 맞는 치료법을 선택할 수 있는 가능성을 열어주었다는 점에서 중요한 의미를 가진다.
다른 예로는 기본 모드 네트워크(Default Mode Network)의 활성화도가 이 환자에게는 어느 정도인지를 정리하거나, 편도체와 시상하부 사이의 연결이 얼마나 활발한지를 수치화해 두는 식으로 정보를 저장하는 방식이다. 여기서 말하는 기본 모드 네트워크란 우리가 외부 과제나 자극에 집중하고 있지 않을 때, 즉 ‘멍 때리기’나 자유로운 사고, 자기성찰, 혹은 과거·미래에 대한 회상이나 상상에 몰두할 때 두드러지게 활성화되는 뇌 영역들의 집합을 가리킨다. 최근의 뇌과학 연구에서는 기본 모드 네트워크의 활성화도와 연결 패턴이 우울증을 비롯한 다양한 정신질환과도 밀접한 관련이 있다는 사실이 꾸준히 제기되어 왔다. 따라서 이 네트워크가 어느 정도로 활발하게 작동하는지, 다른 뇌 영역들과는 어떻게 상호작용하는지를 정량적으로 파악하는 일이 임상적으로도 큰 의미를 지닌다.
이런 방식으로 수집된 뇌 이미지 정보를 분석할 때에도, 이미 설명한 설문조사 데이터와 마찬가지로 거대언어모델의 전이학습 기법을 활용할 계획이다. 즉, 우리가 가진 정보들을 바탕으로 기본 모드 네트워크를 비롯한 뇌 부위들 간의 활성화와 연결성을 텍스트로 변환하고, 그 텍스트화된 정보를 활용해 환자들이 어떤 치료 방법에 잘 반응할지 예측하는 인공지능 모델을 개발하려는 것이다. 우울증 때문에 고통받는 사람은 계속 증가하고 있지만, 아직까지 그 원인과 양상이 너무나 복잡하기에, 이처럼 인공지능과 뇌영상 기술을 융합해 점진적으로 진단과 치료의 정확도를 높여가고자 하는 시도가 계속되고 있다. 앞서 말했듯 SNS나 스마트폰 사용 패턴을 통해 개인의 우울증 스코어를 산출하고, 설문조사와 뇌이미징 데이터를 결합해 정밀의료의 형태로 각 개인에게 최적화된 치료법을 추천하는 식이다. 미래에는 우리의 휴대폰 사용 이력이나 다른 다양한 형태의 데이터를 바탕으로 인공지능이 우울증 가능성을 미리 알려주고, 그에 맞춰 어떤 치료 방법이 우리에게 가장 적합한지를 세밀하게 추천해주는 시대가 열릴지도 모른다.
인공지능을 이용한 정신질환 치료
이제 조금 더 논의를 확장해보자. 지금까지는 우울증에 대해서 이야기를 했지만, 인공지능은 정신질환에도 거의 비슷한 형식으로 사용될 수 있다. 우울증, 불안장애, 공황장애 등의 정신질환은 감정과 밀접하게 맞닿아 있다. 정신질환 치료에 사용되는 많은 상담 치료들이 내담자의 감정의 패턴을 인식하고, 그 패턴을 스스로 인지할 수 있도록 도와준다. 많은 사람들은 감정이해나 상담치료만큼은 인공지능이 사람을 절대 넘어서지 못할 것이라고 생각한다. 하지만 감정을 이해한다는 것을 어떻게 정의하느냐에 따라 다르다. 인간의 감정을 이해하는 것을 단순히 사람의 얼굴을 보고 이 사람이 어떤 감정을 느끼는지를 분류하는 것에 그친다면, 인공지능은 거의 인간에 준하는 정도의 정확도를 보이거나, 특정한 데이터셋에서는 인간을 뛰어넘은 지 오래다. 이는 안면 감정 인식 (Facial Expression Recognition) 과제로 잘 알려져 있다. 일반적으로 인간은 다른 사람들의 감정을 90%정도의 정확도로 맞출 수 있다고 한다. 인공지능은 이미 대중적으로 가장 잘 알려진 3가지 데이터 셋에서 99.26%, 98%, 82%의 정확도를 달성했다. (Elsheikh, Reham A., et al. "Improved facial emotion recognition model based on a novel deep convolutional structure." Scientific Reports 14.1 (2024): 29050.)
그렇다면 얼굴 표정에서 한 발 더 나아가, 언어를 통한 감정 이해의 영역에서는 인공지능이 얼마나 발전했을까? 최근에는 사람들이 말하거나 글로 표현하는 문맥 속에서 ‘이 사람이 어떤 감정을 느끼고 있는지’를 파악하려는 시도가 활발히 이루어지고 있다. 텍스트 형태의 감정 분석은 얼굴 표정이나 음성톤을 기반으로 한 감정 인식보다 훨씬 더 다차원적일 수 있다. 같은 단어라도 맥락에 따라 감정이 달라지고, 사람마다 표현하는 방식이 제각각이기 때문이다. 그럼에도 불구하고 최근 대형언어모델들이 이 영역에서 인간과 견줄 만한 성능을 내보인다는 연구 결과가 발표되고 있다.
예컨대, 2023년의 진행된 연구(Elyoseph, Zohar, et al. "ChatGPT outperforms humans in emotional awareness evaluations." Frontiers in Psychology 14 (2023): 1199058.)는 ChatGPT의 감정 인식 척도(Levels of Emotional Awareness Scale)를 평가했다. 감정 인식 척도는 특정 상황에 대한 감정적 반응을 서술하게 하고, 그 기술의 깊이와 정확도를 점수화하는 객관적 수행기반 검사다. 이 연구팀은 ChatGPT에게 20가지 시나리오를 제시하고, 각 상황에서 어떤 감정을 느꼈을지 서술하도록 요청했다. 그리고 이전에 동일한 시나리오로 검사받았던 일반 대중의 평균 점수와 ChatGPT의 점수를 비교했다. 그 결과, ChatGPT는 최초 검사 시점에서 이미 모든 감정 인식 척도에서 거의 만점에 가까운 결과를 받았다. 더욱 흥미로운 점은, 두 명의 임상심리 전문가가 ChatGPT의 답변을 ‘맥락에 적절한지’ 별도로 평가했을 때도 10점 만점에 9.7점이라는 높은 정확도를 기록했다는 것이다. 즉, 단순히 감정적 단어를 많이 사용하거나 복잡한 표현을 구사해서 점수만 높였던 것이 아니라, 실제 상담 현장에서도 어느 정도 ‘상황에 맞는 감정 서술’을 제시했다는 뜻이다.이러한 결과는 ChatGPT를 비롯한 대형언어모델이 언어를 통한 감정 이해와 서술 능력에서도 인간을 능가하거나 최소한 대등한 수준에 도달했음을 시사한다.
그래서 내가 하는 또 다른 연구의 방향은 LLM을 이용하여 정신질환 상담에 필요한 챗봇을 만드는 것이다. 보스턴에는 세계에서 가장 뛰어난 병원들이 모여 있다. 그렇기에 정신질환 관련해서 상담을 받은 사람들의 데이터도 비교적 많이 축적되어 있다. 물론 모든 상담 내역은 개인의 사생활을 보장하기 위해 개인이 누구인지 알 수 없는 비식별화 과정을 거쳤고, 이 데이터는 제한된 연구자만 접근할 수 있다. 그리고 우리는 환자와 상담자가 대화를 나눈 데이터를 가지고 있고, 상담을 받은 전후로 각자의 정신질환을 측정할 수 있는 수 많은 설문조사들이 있다. 대표적으로 환자 건강 질문지- 9(PHQ-9)을 통해 환자의 우울증 점수를 측정할 수 있고, 범불안장애척도(GAD-7)를 통해 환자의 불안장애 척도를 측정할 수 있다. 이 두가지를 이용하면 챗봇을 훈련시킬 수 있다. 강화학습을 이용하는 것이다. 한번의 상담 세션을 통해서 이 챗봇이 가지는 목표는 단순하다. 전체적인 대화를 통해 환자의 우울증 점수나 불안장애 점수를 낮추는 것이다. 이러한 단순한 목표와 많은 데이터를 통해 정신질환 상담에 필요한 챗봇을 만드는 연구를 해볼 수 있다. 이 연구를 통해 만드는 상담용 챗봇의 특이한 점은 지금까지 알고 있었던 상담에 대한 많은 지식을 통해 위에서 아래로 (Top-down) 만드는 형태가 아니라 지금까지 이루어진 상담의 데이터를 통해 아래에서 위로 (Bottom-up) 만든다는 점이다. 그래서 우리가 지금까지 임상적으로 알고 있었던 상담법과는 제법 다른 형식의 상담이 만들어질 수도 있다. 물론 이러한 의학적 방법이 실제로 환자에게 도움이 된다는 것을 보여주기 위해서는 의료에서 가장 받아들여지는 무작위 배정 임상시험(Randomized Controlled Trials)을 통해 증명이 필요하다. 무작위로 이 챗봇을 통해 상담을 받는 사람과 그렇지 않은 사람을 나눈 이후, 시간이 지난 다음 그 둘 사이에 통계적인 차이가 증명이 되면 임상에서 사용될 수 있는 첫 발을 내딛는 것이다. 물론 독립적으로 사용되기보다는 1주일에 한번쯤 만나는 상담사를 만나는 그 사이에 사용이 되어 환자를 도와주는 형식이 처음으로 사용되기 적절한 현실적인 형태일 것이다. 물론 이러한 연구는 현재 진행형이지만 24시간 지치지 않고, 내가 원하는 때에 언제 어디서든 나와 상담할 수 있는 나만을 위한 맞춤형 챗봇이 있다면 지금 가격이나 접근성의 이유로 적절한 도움을 받지 못하는 사람들에게 분명한 이점을 줄 수 있을 것이라고 기대된다.
슬프게도 우울증과 다양한 정신질환은 이미 우리의 삶 깊숙이 자리 잡았다. 복잡하고 이질적인 정신질환의 특징때문에 정확한 진단과 효과적인 치료가 쉽지 않다. 그러나 인공지능과 뇌영상 기술, 그리고 풍부해지는 디지털 표현형 데이터가 결합되면서, 이전에는 불가능했던 정밀의료가 점차 현실화되고 있다. AI가 개인맞춤형 치료법을 제안하고, 챗봇이 전문적 상담을 보조하는 모습은 막연한 공상소설이 아닌, 실제로 진지하게 고려되고 있는 연구의 영역이다. 우리의 삶에도 적용되는 것이 아주 먼 미래의 이야기가 아닐 것이다. 물론 의료 데이터의 안전성, 환자의 사생활 보호, 임상 검증 등 해결해야 할 과제도 산적해 있지만, 이러한 진보가 가져올 긍정적인 영향은 무시할 수 없다. 하지만 궁극적으로, 언제 어디서나 정신건강 관련 도움을 받을 수 있고, 의료진 역시 더 풍부한 정보를 기반으로 환자에게 적합한 솔루션을 제시할 수 있는 시대가 머지않았다. 그리고 그 한가운데에, 인간과 인공지능이 함께 만들어나가는 새로운 형태의 정신건강 돌봄 혁신이 자리 잡고 있을 것이다.
인쇄 전액은 미래 공학도 청소년을 위한 장학금으로 사용됩니다.