상담자의 눈: 내담자의 반응 이해하기 -2-

기계는 심리상담을 이해할 수 있을까

Jun 12. 2019

총 세 편의 글에 걸쳐서, 이번 NAACL 2019에서 발표한 "Conversation Model Fine-Tuning for Classifying Client Utterances in Counseling Dialogues"을 다룹니다. 논문의 내용은 "https://www.aclweb.org/anthology/N19-1148" 에서 확인하실 수 있습니다.

두 번째 글에서는 논문 전반부의 내용을 다룹니다. 논문에 포함되지 못한 구체적인 설명이 추가되고, 일부 내용을 의역합니다.

들어가며

사람들이 겪는 정신질환 혹은 심리적인 문제는 심리상담을 통해 효과적으로 해결될 수 있습니다. 그럼에도 불구하고, 심리상담이 필요한 사람들은 정작 필요한 도움을 받지 못하고 있습니다. 그 이유는 다양합니다. 상담소에 찾아갈 시간적, 금전적 여유가 부족하거나, 혹시 상담을 받는다는 것이 주변에 알려질 것에 대한 두려움, 사회적인 시선, 감정적인 거부감 등 때문입니다.

최근 IT 기술의 발전에 따라, 이러한 장벽을 허물고자 하는 시도들이 나타나고 있습니다. 그것은 모바일 기기를 이용하여 이러한 서비스를 좀 더 쉽게 접근 가능하게 하거나, 웨어러블 기기를 이용하여 사용자의 행동에 직간접적으로 개입하거나, 전문가가 개발한 자동화된 챗봇을 이용하기도 합니다. 이 중에서도, 텍스트 기반 온라인 심리상담은 최근 미국에서 인기를 끌기 시작했습니다. 전문 상담자와의 텍스트 기반 대화를 통해 심리상담을 진행하는 이러한 서비스의 장점은, 사용자(내담자)가 직접 상담소를 찾아갈 필요가 없을 뿐만 아니라, 오프라인 상담과 비교하여 상대적으로 저렴하고, 대면상담을 부담스럽게 여기는 사용자가 여전히 부분적으로 익명성을 유지한 채로 상담을 진행할 수 있기 때문입니다.

이러한 텍스트 상담에서는, 전통적인 대면상담과 비교할 때 의사소통 환경이 바뀝니다. 상담자는 내담자의 비언어적 정보를 읽을 수 없고, 오직 텍스트에만 의존해서 그들의 생각과 감정을 파악해야 하기 때문에, 전통적인 대면상담에서의 상담자-내담자 역동이 변화하게 됩니다. 심리학 분야의 기존 연구는 이러한 역동을 대부분 전통적인 대면상담에 대해서만 연구했을 뿐만 아니라, 전산학 분야의 기존 연구는 데이터 분석기법에 의존하여 주로 상담자의 언어 사용 패턴, 혹은 내담자의 이슈 군집화, 혹은 상담 효과 예측 관련 연구가 있었습니다.

본 연구는 이와 다르게, 전산학적 방법을 이용하여 텍스트 상담에서의 내담자의 (언어적) 반응을 상담자의 관점에서 이해하려고 합니다. 내담자의 언어는 전통적으로 상담 효과를 측정하는 중요한 지표일 뿐만 아니라, 내담자의 상태를 이해하는 척도가 됩니다.

따라서 본 연구는 우선 텍스트 상담에 참여하는 내담자의 언어적 반응을 유목화합니다. 이를 위해서, 인지행동치료 이론에 근거하여 초기 유목을 구성하고, 실제 텍스트 상담 사례를 기반으로 질적 연구방법론 및 사례개념화 기법을 응용하여 최종 유목을 확정합니다. 더 나아가, 실제 상담 사례에서 나타난 모든 내담자의 반응에 대해, 해당 세션을 진행했던 상담자가 대화를 복기하며 유목을 태깅한 데이터셋을 구축하고, 여기에 기계학습 기법에 적용하여 학습된 모델이 내담자의 언어적 반응에이 어떤 유목에 속하는지 예측할 수 있도록 합니다.

만약 기계학습 모델이 심리상담 대화록을 분석하여 내담자의 언어적 반응을 이해하고 이 반응이 어떤 유목에 속하는지 비교적 정확하게 예측할 수 있다면, 이는 상담 대화록에서 상담자가 중요하게 생각하는 정보를 자동으로 추출하는데 큰 도움이 될 것입니다. 이를 바탕으로 지난 상담회기 요약 등의 후속 어플리케이션 등을 개발할 수 있을 것으로 예상합니다.

정리하면, 본 연구가 기여하는 바는 다음과 같습니다.

텍스트 상담 대화록에서 나타난 내담자의 언어적 반응을 토대로, 텍스트 상담 환경에 적합한 내담자의 (언어적) 반응 유목(category)을 구축합니다. 이 유목은 곧 기계학습 모델이 내담자의 언어적 반응을 분류하는 기준이 됩니다.

내담자의 언어적 반응이 어떤 유목에 속하는지 예측하는 분류기 학습을 위해, 대화모델 조정 학습(fine-tuning)* 기법을 제안합니다. 대화 모델은 한국어 어휘 임베딩과 상담자 및 내담자의 언어 모델(language model)을 기반으로 학습됩니다. 내담자의 언어적 반응이 어떤 유목에 속하는지 분류하기 위한 모델은 대화모델 조정 학습을 통해 얻게 됩니다. (*적당한 어휘를 찾지 못해 fine-tuning을 조정 학습으로 번역합니다.)

본 연구가 제안하는 모델이 기존 모델의 성능을 앞선다는 것을 보입니다. 또한, 인공신경망 모형이 각 유목 별로 내담자의 어떤 언어적 표현에 집중하는지 살펴봅니다.

내담자의 언어적 반응 유목화(categorization)

전통적인 심리상담에서 내담자의 반응은 상담자에게 중요한 정보를 제공하는 것으로 알려져 있습니다. 내담자가 자신이 처한 상황에 대해 언급하는 것은 주로 상담 초기에 나타나며, 상담이 진행될수록 통찰과 문제 해결을 위한 토론이 점차 늘어나게 됩니다. 이러한 변화 추이를 살펴봄으로써 내담자의 상태가 좋아지고 있는지, 상담의 효과는 어떤지 평가를 할 수 있는 단초가 됩니다.

따라서 본 연구에서는 텍스트 상담에서 내담자의 언어적 반응 학습을 위해 내담자 반응의 유목을 먼저 정합니다. 이 반응 유목은 곧 내담자 반응이 어떤 유목에 속하게 될 지 예측하는 기계학습 모델이 학습할 학습 데이터셋(training set)의 정답으로 사용될 것입니다. 따라서 다음과 같은 세부 목표를 만족하는 반응 유목을 구성합니다.

내담자 언어 반응 유목화(categorization) 목표:

1. 텍스트 상담에 적합해야 함: 유목은 내담자의 언어적 반응(텍스트)에서 발견될 수 있는 것이어야 합니다. 예를 들어, 비언어적 특징이나 침묵과 같은 요소는 포함될 수 없습니다.

2. 기계학습 모델이 학습하는 정답으로 사용될 것을 고려함: 유목 개수가 너무 많지 않아야 합니다. 그 이유는 기계학습 모델의 학습에 사용될 데이터를 구성할 때, 모든 내담자의 언어적 반응에 대해 해당 반응이 어떤 유목에 속하는지 해당 세션을 진행했던 상담자가 직접 내담자와의 대화를 복기하며 모든 언어 반응에 대해 태깅을 하게 됩니다. 이 과정에서 유목의 수가 지나치게 많으면 적당한 양의 학습 데이터를 확보하기 어려워집니다.

3. 상담자에게 실질적인 도움이 되어야 함: 유목은 상담자에게 유의미한 정보를 포함할 수 있어야 합니다. 여기서 유의미하다는 말은 내담자의 심리상태나 상담의 효과성 파악에 도움이 되어야 한다는 것입니다. (이것은 유목 별로 지난 상담 회기 자동 요약 생성을 염두에 둔 것이었습니다.)

전통적인 심리상담 연구에서 내담자의 언어 반응에서 나타나는 유목의 수는 9개에서 14개까지 다양한 것으로 알려져 있습니다. 하지만 이러한 결과는 전통적인 면대면 상담을 받아 적은 녹취록을 바탕으로 연구된 것이기 때문에, 이를 그대로 사용하는 대신 텍스트 상담에 적합한 유목으로 재검증하는 과정을 거칩니다.

내담자의 반응 유목 결정을 위해 진행된 연구 절차를 간략히 소개하면 다음과 같습니다. 전문 상담자 2명이 질적 연구방법론을 기반으로 내담자 반응 유목을 추려냅니다. 전체 작업 과정은 상담과정 연구 등에 주로 쓰이는 질적(qualitative) 연구방법 및 사례개념화 방법론을 응용하되 단계를 간소화하여 진행합니다. 여기서, 이 작업은 상담학적 연구와 공학 연구의 성격을 동시에 갖고 있기 때문에, 텍스트 상담에서 내담자 반응을 분류한 실험적 시도이며, 상담자의 임상적 경험과 직관적 통찰이 작업에 적극 반영되었습니다.

먼저, 인구통계학적 정보(내담자 연령, 성별, 학력, 직업, 이전 상담경험)를 고려하여 10개의 연구용 사례를 무작위로 선별하여 각 사례에서 개별 내담자 반응에 대해 하위(상세) 유목을 태깅한 다음, 도출한 하위 유목을 다시 중위 수준의 유목으로 묶고, 토의 과정을 거쳐 최종적인 상위 유목(domain)을 도출하는 방식으로 진행합니다. 이 과정은 1, 2차에 걸쳐 이루어졌으며, 최종적으로 결정된 상위 유목 5개와 각 유목에 해당하는 하위 내용은 아래 표에 제시되었습니다.

1차 유목화 과정:

구체적으로, 1차 유목화 과정 다음과 같이 진행되었습니다. 상담 대화록에 나타난 내담자의 모든 언어적 반응에 대해서, [사건, 사고, 감정, 행동]을 최초 유목으로 상정하고 모든 내담자 반응을 4개의 유목을 기준으로 분류하여 태깅합니다. 더하여, 해당 항목이 간단하게 무엇을 나타내는지 기술하는 하위 유목을 추가합니다. 예를 들면, 어떤 내담자 언어 반응이 [감정]을 나타냈다면, 해당 감정이 긍정적/부정적인지, 혹은 어떤 구체적인 감정을 담고 있는지를 (ex) 소망) 덧붙여 태깅합니다.

진행 도중, 서술된 하위 유목의 내용에 포함되지 않는 새로운 하위 유목이 나타나면 이를 분리하고 하위 유목의 수를 계속 늘려나갑니다. 이는 성격이 다른 하위 유목들이 나타날 때마다 반복되었으며, 새로운 하위 유목이 출현하지 않을 때까지(saturated) 내담자 반응 분류를 계속합니다. 1차 유목화 종료 단계에서, 최초 유목 [사건, 사고, 감정, 행동]에 더하여, 도출한 하위 유목을 모두 포함시킬 수 있는 새로운 상위 유목의 필요성이 대두되어 2차 유목화 과정으로 넘어갑니다.

2차 유목화 과정:

2차 유목화의 목적은 도출한 하위 유목들을 포괄하는 상위 유목(domain)을 찾고, 이에 이름을 부여(naming)하는 것이 목적입니다. 상위 유목을 찾는 이유는 앞서 언급했듯이, 이를 기계학습 모델의 정답으로 사용하고자 하기 위해 유목의 수를 적당한 숫자로 줄이면서, 내담자의 언어 반응 유목을 모두 포괄하기 위한 것입니다. 이는 학습 데이터셋 구축을 위해 상담자가 자신이 진행했던 사례를 복기하며 내담자의 언어 반응에 태깅을 진행할 때 인지적 부담(cognitive load)을 줄여서 충분한 양의 데이터셋(labeled dataset)을 확보하기 위한 것입니다.

2차 유목화 결과, 내담자의 반응은 '정보', '내담자 요인', '상담과정'으로 구분되었고, '정보'는 다시 '사실적 정보'와 '일화적 경험'으로 나뉘었습니다. '내담자 요인'은 내담자의 변화 단계에 따라 '내담자 요인'과 '심리적 변화’로 분류할 수 있었습니다. 내담자는 대화를 통해 상담자에게 자신의 정보를 전달(self-disclosure)할 뿐만 아니라, 상담자는 이와 함께 내담자 관련 요인을 파악할 수 있었습니다.

뿐만 아니라, 상담에서의 내용 측면과 더불어 형식적 측면에 대한 내담자의 언급이 상담 과정에서 중요한 역할을 한다는 이전 연구들을 참고하고, 데이터셋에서도 실제로 출현하고 있다는 것을 확인하였기 때문에(상담자에 대한 요구, 시간 약속 등)하여 '상담과정'을 별개의 상위 유목으로 포함시키기로 결정했습니다.

결론적으로, 최종 상위 유목은 내담자가 공개하는 정보의 성격에 따라 '사실적 정보', '일화적 경험', 그리고 내담자 요인에 따라 '내담자 요인', '심리적 변화', '상담과정'에 대한 언어적 반응으로 크게 나눌 수 있었고, 최종적으로 전문가의 안면 타당도를 확보했습니다. 자세한 내용은 아래와 같습니다.

내담자의 (언어적) 반응 유목화 결과. 각 유목에 대한 간략한 설명 및 예시

1. 사실적 정보: 나이, 성별, 직업, 가족관계, 학력, 이전 상담경험 유무 등 법적, 사회적 사실관계에 대해 주로 간략하게 답한 범주적 정보.

2. 일화적 경험: 호소문제를 지속 발달시키는데 영향을 준 과거의 사건과 발달 배경, 현재 여건과 짤막하게 개방하는 현재의 상황적 요인, 관련 인물과의 특정 경험, 외상 경험 등과 관련된 내용으로, 내담자 문제와 인과적 관계를 어느 정도 포함한 진술.

3. 내담자 요인 - 호소: 호소문제, 증상, 자아개념, 사고인지/정서 감정/신체 생리 행동, 성격/습관/욕구/목표/동기/기대/소망, 자원 및 강점/약점, 대인관계 양상/문제 영역/패턴, 대처/방어전략과 기술, 정신증 및 성격장애 소인 등 내담자가 문제와 관련한 본인의 내적 요인, 행동을 표현한 진술, 즉 호소문제가 미결된 단계에서의 진술.

4. 내담자 요인 - 변화: 내담자가 문제와 관련한 내적 요인, 행동에서의 크고 작은 변화를 인식/자각/통찰하여 진술, 즉 호소문제가 해결되는 단계에서의 진술.

5. 상담과정: 상담 목표 및 계획/과제, 상담/상담자에 대한 요구/질문/언급, 관습적 인사(감사/이별), 침묵, 시간 약속/변경, 상담에 대한 각오, 이모티콘 등 상담의 구조화, 작업 동맹 및 상담 관계에 대한 진술.

학습 데이터셋 구축

연구에 사용된 모든 상담 대화록은 상담자와 내담자의 1:1 대화입니다. 집단상담 세션은 없습니다. 일반적인 대화 생성(dialogue generation) 연구에서 사용되는 영화 및 드라마 자막, 혹은 트위터 대화와 구분되는 점은, 상담 대화록의 가장 큰 특징은 크게 두 가지라고 보았고, 이러한 특징은 기계학습 모델 제작 시 반영되었습니다.

1. 대화 내 역할 구분: 일반적인 대화 데이터에서 화자가 A, B가 있다고 할 때, 이를 B, A로 바꾸어도 대화 내용 상 별 문제가 되지 않습니다. 그러나 상담 대화록에서 내담자와 상담자는 명확한 역할 구분이 있기 때문에, 모델 구성 시 화자의 역할을 고려하게 됩니다. 내담자는 과거 경험과 주관적 감정뿐만 아니라 자신을 둘러싼 객관적 정보를 상담자에게 제공하는 반면, 상담자는 이를 바탕으로 작업 동맹을 구축하고, 다양한 전략을 사용하여 내담자의 긍정적 심리적 변화를 이끌어내려고 노력합니다.

2. 다수의 언어적 반응 생성: 상담자-내담자가 번갈아가면서 대화를 이어나간다고 할 때, 상담자 및 내담자는 자신의 차례에서 다수의 반응을 생성할 수 있습니다. 텍스트 상담 환경을 고려하여, 하나의 말풍선이 하나의 언어적 반응이라고 간주하였고, 한 번의 차례에서 다수의 반응을 생성할 수 있다고 가정했습니다. 이는 특히 내담자 차례일 경우, 여러 개의 말풍선을 하나의 반응 묶지 않는 것은 각각의 반응이 서로 다른 유목을 포함할 수 있기 때문입니다.

이러한 특징을 염두에 둔 채로, 확정된 5개의 내담자 언어 반응 유목을 바탕으로 이제 기계학습 모델 학습에 사용할 학습 데이터셋을 구축했습니다. 연구에 사용된 상담 대화록은 총 1,448개이며, 이 중 100개의 대화록에 대하여 모든 내담자 반응이 어떤 유목에 속하는지, 상담자가 자신이 진행했던 상담세션을 복기하며 직접 내담자의 반응이 어떤 유목에 속하는지 태깅을 진행했습니다.

1,448개의 심리상담 대화록과, 100개의 내담자 반응 유목이 태깅된 상담 대화록은 모두 익명화된 데이터셋입니다. 연구진은 익명화된 대화록을 제공받았습니다. 익명화 과정에서 내담자뿐만 아니라 상담자까지도 개인을 특정할만한 정보 및 메타정보를 모두 삭제되었고, 이는 무의미한 숫자로 대체되었습니다. 익명화된 데이터로 연구하는 모든 과정을 포괄하는 연구절차는 한국 과학기술원 연구윤리위원회(IRB)의 정기심사를 거쳐 승인받은 뒤 진행되었습니다. 연구결과 및 논문 공개 이후 일반적인 기계학습 분야 연구들이 논문에 사용된 학습 데이터를 공개하는 것과 달리, 이 연구는 상담자 및 내담자 개인정보 보호를 위해 데이터를 공개하지 않습니다.

(다음 글에서 이어집니다.)

keyword

매거진의 이전글상담자의 눈: 내담자의 반응 이해하기 -1-상담자의 눈: 내담자의 반응 이해하기 -3-매거진의 다음글