의사 vs 챗봇 : 챗봇이 의사처럼 할 수 있을까?

유방암 환자를 위한 정보 제공 : 맹검, 무작위 대조 비열등성 실험

Sep 28. 2022

논문 제목이 'A Chatbot Versus physicians..'로 시작되어서, 저도 제목을 '의사 vs 챗봇'이라고 해봤습니다. 논문 제목이 매우 도전적(?)입니다. '인공지능'과 같은 기술이 점점 발전을 하면서, 이러한 기술이 의료진을 대체할 수 있을지에 대한 설왕설래가 한동안 있었던 것 같습니다. 인공지능 기술이 더 발전하면 없어질 전공 1순위가 어디라고 예측하는 글들도 본 적이 있는 것 같습니다.

기술이 발전하면, 사람들은 기술을 뛰어넘어 그 기술을 더 잘 활용하는 방향으로 가는 것이라고 생각을 합니다. 제가 아주 간단한 챗봇을 만들어 봤는데요(사실 그것 때문에 챗봇 관련 논문을 쓰는 거고 챗봇 관련 논문 리뷰를 계속하고 있습니다), 잘 만들어서 사용하면 의료진이 훨씬 편리한 방향으로 사용이 가능할 수 있을 것이란 생각이 많이 들었습니다. 그런 의미에서 'versus'란 단어는 조금 맞지 않을 수는 있을 것 같네요.

연구목적

본 연구는 유방암 환자들을 대상으로 한 챗봇이 의사가 제시한 답변과 유사한 만족도를 제공할 수 있는지에 대해 검증하는 논문입니다. Wefight라는 기업에서 만든 Vik이라는 챗봇은 유방암 환자와 그 가족을 위한 챗봇을 만들었습니다. (상단 그림에 귀여운 아이가 Vik의 캐릭터인 것 같습니다 *출처:Wefight 홈페이지) Vik은 유방암에 대한 의료 정보, 치료 정보, 부작용, 삶의 질 향상을 위한 전략 등을 제공할 수 있도록 설계되었다고 합니다.

연구방법

(연구설계) 연구진은 유방암에 대해 자주 묻는 12가지 질문을 뽑아서 Vik 챗봇과 다학제 전문가 그룹(multidisciplinary medical committee)에 질문을 하고 답변에 대한 타당성을 검토했습니다. 또한 다른 전문가 그룹을 만들어서 잘못된 정보가 제공되지 않도록 다시 한번 확인했습니다.

(절차) 참가자들은 프랑스 유방암 환자 협회를 통해 모집(N=142명)이 되었습니다. 참가자들은 자신이 어느 그룹에 속했는지 모른 상태에서 무작위로 두 집단으로 분류되었습니다. 이후 12개의 질문에 대해 질문을 하고, Vik 챗봇 또는 전문가 그룹에게 답변을 받았습니다.

(측정도구) 환자들은 챗봇 또는 전문가의 응답을 바탕으로 의료 정보의 품질을 평가하는 'EORTC QLQ-INFO25' 척도의 수정 버전(21개 문항, 4점 척도)에 대해 온라인으로 답변하였습니다. 일차 결과(primary outcome)는 챗봇과 의사 그룹에서 성공 비율을 비교하여 유방암 환자가 묻는 일반적인 질문에 대해 챗봇의 품질을 평가하는 것이었습니다. 이차 결과(secondary outcome)는 챗봇과 의사가 각 INFO25에 대해 획득한 평균 점수를 비교하는 것인데, 3점 이상일 경우 성공한 것으로 정의하였습니다.

(통계분석) Mietinen과 Nurminen의 방법을 이용한 단측 이항 검정(1-sided binomial test)을 수행하여 2개 그룹의 성공 비율 간 차이를 비교하였습니다(P값이 .05보다 낮으면 비열등성 선언). 또한 Wald Z 방법을 사용하여 의사 그룹과 Vik 그룹의 성공 비율 차이의 신뢰 구간을 추정했습니다.

연구결과

의사 그룹과 Vik 그룹의 성공률 차이는 -0.03(95% CI -0.07 - 0.00)이었으며, EORTC INFO25로 측정된 챗봇과 의사의 응답의 질에서도 비열등성을 확인하였습니다(P<1e-14).

21개의 항목 중 12개의 항목에서는 95% CI 상한선이 0.1 비열등 한도를 초과하지 않았으므로 비열등성을 확인할 수 있었던 반면, 9개의 항목은 비열등성을 확인할 수 없었습니다. 9개의 항목에는 유방암의 단계와 원인에 대한 질문(breast cancer stages and causes), 암의 통제 여부(under control), 치료와 관련된 4개의 질문(유형, 이점, 부작용), 병원 밖의 치료에 대한 질문 등이었습니다.

논의

본 연구를 통해 챗봇의 EORTC INFO-25 점수는 의사 그룹의 점수에 비해 열등하지 않은 것으로 확인이 되었습니다. 이는 챗봇을 통해 가벼운 건강 문제와 관련해서는 환자가 의료진을 직접 방문하지 않을 수 있는 가능성을 보여줍니다. 챗봇을 활용하여 의료 행위를 줄일 수 있어서 잠재적으로 비용과 자원을 줄일 수 있을 것으로 기대합니다.

다만, 이러한 프로그램의 품질을 엄격하게 평가할 필요는 있습니다. 챗봇에 대한 활용성을 높이기 위해서는 의학 용어, 증상, 치료에 대한 충분한 데이터 셋을 기반으로 해야 합니다.

연구의 의의

아직 챗봇의 발전 단계이기는 하지만 비열등성 실험을 통해 챗봇의 사용 가능성에 대해 검증한 부분은 의의가 있습니다. 개인적으로는 비열등성 실험에 대한 논문을 처음 접했고, 대부분은 RCT를 통해 효능(efficacy)을 입증하는 논문들을 많이 봐서, 이러한 연구 설계에 대해서 공부할 수 있었습니다.

한계점

연구이기 때문에 어쩔 수는 없겠지만, 12개의 주요 질문만을 추출하여 수행한 것이 한계인 것 같습니다. 또 한계점은, 물론 평균적인 수치도 중요하지만, 21개 중 12개만 비열등성을 확인했다는 점, 나머지 9개는 그렇지 않다는 점은 분명 의료 현장의 관점에서는 긍정적인 결과로만 해석할 수는 없다고 생각을 합니다.

Title :

A Chatbot Versus Physicians to Provide Information for Patients With Breast Cancer: Blind, Randomized Controlled Noninferiority Trial

Authors :

Jean-Emmanuel Bibault et al.

Publication :

Journal of Medical Internet Research (2019)

keyword

이준복 직업 연구자

디지털 헬스케어 관련 분야를 연구합니다.

구독자 8

작가의 이전글건강관리 챗봇, 사용해 볼 생각이 있으신가요?의사는 헬스케어 앱을 사용할까? 작가의 다음글