brunch

You can make anything
by writing

C.S.Lewis

by Kay Nov 19. 2023

객관식 평가와 서술형 주관식 평가 간 상관 분석 사례①

그동안 보고했던 리커트 평균은 응답자들의 진짜 속마음을 반영하고 있었을까

그간의 분석 프로젝트 중 첫 번째 포스팅은 아무래도 데이터를 대하는 나의 업무 방식을 바꿔놓았고 HRA/PA의 길을 생각하게 한 연구 논문에 대한 이야기를 정리해 보고 싶었다. 나에게 스트레스성 원형탈모를 안겨줬던 양적연구 방식의 일반대학원 교육학 석사 논문에 이어 두 번째 논문이었다고는 하지만 그래봐야 석사 나부랭이가 남긴 습작과도 같은 논문이라 이런 기록이 부끄러운 마음도 들지만 거짓이 아니라는 점을 분명히 하기 위해 제목을 밝히는 쪽이 좋을 것 같다.
 

『An Analysis of Educational Satisfaction Using Sentiment Analysis』

: Correlation Analysis between Multiple Choice Evaluation and Descriptive Subjective Evaluation

 

외국 학교의 학위 과정이기에 영어로 작성한 논문이지만 한글 데이터를 활용해서, 한글로 고민하며 작성했기에 국내 논문 느낌으로 굳이 제목을 번역해 본다면

 

『감성분석을 활용한 교육만족도 분석』

: 객관식 평가와 서술형 주관식 평가 간의 상관 분석을 중심으로 

 정도가 될 것 같다.   


1. 주제 선정

  

앞선 포스팅에서도 간략히 언급한 바가 있지만 별나라 이야기 같았던 AI/Big Data MBA 재학 기간 중 나와 마찬가지로 회사의 지원을 받아 다른 학교에서 별나라 이야기를 공부하던 두 명의 회사후배들과 가끔씩 고충 상담을 빙자한 푸념을 주고받는 일이 자주 있었다. 각자가 선택한 국내와 해외 학위 기준에 따라 한글로 쓸 것인가 영어로 쓸 것인가의 차이는 있었지만 어쨌거나 졸업의 최대 관문인 논문에 대한 이야기도 나올 수밖에 없었고, 자연스레 나 보다 학기가 빠른 두 후배가 주제를 잡는 과정을 지켜볼 수 있었다. 두 명 중 한 명은 비논문 학위 과정이라 프로젝트 포트폴리오만 제출하면 된다고 자랑 아닌 자랑을 하면서 본인은 팀원들과 함께 딥러닝 기반의 차량 번호판 인식 모델을 개발하는 프로젝트를 한다고 했다. 또 다른 후배는 다른 이의 포트폴리오만 제출하면 된다는 말을 부러워하며, 자신은 무슨 공공 데이터 포털에서 찾은 데이터를 가지고 논문을 쓰려고 하는데 지도 교수님께 주제가 자꾸 까여서 어째야 할지 모르겠다는 얘기를 했다. 회사의 지원으로 공부 중인 우리였기에 휴학이고 뭐고 없이 주어진 정규 학기 내에 반드시 학위를 마치고 졸업장을 회사에 제출해야만 지원받은 등록금을 반환하지 않는다는 부담이 있었기에 당시의 대화는 꽤나 간절했던 편이었다. 그리고 그들과의 대화 속 나는 아직 논문 주제를 선택하는 단계가 아니었지만 곰곰이 남들의 논문이나 프로젝트 주제에 대한 대화 내용을 들으면서 그들의 학위 과정에 대한 고충에 공감하는 한 편 다음 학기면 확정해야 할 내 연구 주제에 대해서는

  

‘가뜩이나 이해도 못하고 재미없게 공부하는 중인데 나라면 남의 데이터로는 절대 못하겠다.’ 

 

라는 생각을 했던 것 같다. 그리고 그때부터 내가 가진 데이터가 무엇인지 대해 진지하게 들여다보기 시작했다. 모든 직무가 그렇듯 HRD 담당자에게 수집되는 데이터 또한 다양한 종류가 있겠으나 오랜 시간 고민을 하다 보니 기왕이면 이번 기회에 진짜로 확인해 보고  싶은 한 가지가 떠올랐던 것 같다.

 

그것은 바로 매 교육이 끝날 때마다 맘 졸이며 확인하게 했던 교육 만족도와 그들이 남긴 피드백 간의 관계였다. LG전자 재직 시절에도 매 번 확인하긴 했지만 그래도 이 정도 부담은 아니었던 것 같은데 이놈의 연수원은 무슨 만족도 평균이 이렇게도 높은지 리더분들께서 교육의 기본 품질이 5점 만점에 4.7 정도는 되어야 한다는 말씀을 공공연히 하고 계시기에 매 과정이 끝나는 날에는 내 손안에 들어온 패를 확인이라도 하듯  쪼는 맛을 느끼며 교육만족도 결과를 확인하게 되었다.

 

어쨌거나 높게 나오면 차라리 다행인데 문제는 다크서클로 줄넘기해 가며 공들여 진행한 프로그램을 마치고 확인한 점수가 내 기대보다 낮은 순간에 느껴지는 실망감이었다. 뿐만 아니라 교육 기간 동안 강의장 안에서 참가자들과 스킨십하며 실시간으로 확인한 그들의 생생한 반응들이 있는데 결과적으로 기대보다 낮은 지표를 확인했을 때에는 왠지 모를 배신감까지도 느껴지기 마련이었다. 비단 이것은 내가 속한 조직에서만 느껴지는 감정은 아닐 것이며, 꼭 HRD의 교육만족도 설문이 아닐지라도

 

조직 내에서 행해지는 대부분의 설문들은 객관식 문항과 주관식 서술형 문항이 함께 하기 마련인데 둘 사이의 관계를 꼭 한 번 확인해보고 싶었다.    


2. 연구문제

  

이 주제와 관련하여 내가 선정한 연구 문제는 다음과 같다.

 

교육만족도 객관식 평가와 서술형 주관식 평가 사이의 관계는 어떠한가?

교육만족도 요인(직급연차, 성별) 별 감성분석 스코어 차이는 어떠한가?

 

교육학 석사 과정을 밟던 시절만 해도 이런 연구가 가능했을까 하는 생각이 들지만 그 사이 분석 알고리즘과 컴퓨팅 파워가 발전하면서 방대한 양의 텍스트 자료에 대한 분석이 가능해졌고, 개발 사이드에서 이미 완성해 둔 감성분석 모델을 활용한다면 충분히 가능한 연구라는 생각이 들었다.   


3. 데이터 수집

  

이상의 연구 문제에 대한 답을 찾고자 내가 근무 중인 연수원 내 LMS 시스템 담당자의 도움을 받아 연중 가장 많은 인원이 참가하는 프로그램에서 수집된 1년 치 데이터를 비식별 처리 후 제공받아 활용할 수 있었다. 정확히는 코로나가 한창이던 2021년 1월부터 12월까지 12개월 간 수집된 5개 프로그램의 88개 차수에 대해 수집된 20,160명의 응답 결과이며, 총 6개 문항(객관식 평가 문항 4개 + 주관식 평가 문항 2개)에 대한 데이터로 그중 객관식 1개 문항을 제외한 나머지 변수를 활용하여 분석을 진행하였다.

 

분석에 사용된 7개 변수와 의미


4. 전처리

  

졸업 후에 다른 분석 프로젝트들을 진행해 보고 난 지금에서 얘기지만 HRD 데이터는 참 쉬운 편이다. 변수 명도 그렇고, 데이터 구조나 형태가 상대적으로 단순한 편이라 누군가에게 설명했을 때, 상대방을 이해시키는 것이 용이하다. 누구나 어딘가에서 교육을 한 번쯤은 받아봤을 테고, 그 교육이 끝난 후에 담당자로부터 요구받았던 교육만족도 설문은 몇 개의 객관식 문항과 자유의견을 기술하는 주관식 문항으로 구성되어 있었을 것이기에 ‘그때 그 설문의 결과로 수집된 데이터입니다’라고 말하면 쉽게 이해할 수 있는 수준이다. 뿐만 아니라 이번 데이터는 시스템 담당자를 통해 LMS 상의 쿼리 기능을 통해 제공받은 결과 데이터이기에 매우 깨끗한 상태이기까지 했다. 데이터 분석 작업 중 고난의 연속이 전처리 과정이라는 것은 분석 지식이 조금만 있어도 누구나 알 수 있는 일이지만 이번 데이터의 경우 5점 척도로 되어 있는 객관식 리커트 스코어와 각각의 주관식 서술형 문장에 대한 긍부정 정도에 따라 0~1 사이 값으로 표시되는 감성스코어 간 척도를 맞추기 위해 수행한 Min-Max Normalization 외 별다른 전처리가 필요하지는 않았다. 이제와 든 생각이지만 실전 데이터라고는 하지만 제대로 된 분석을 처음 시도해 보는 상황에서 머신러닝 학습용 타이타닉 데이터 마냥 운 좋게도 좋은 데이터를 고른 것 같고, 아마도 이 또한 초심자의 행운이 아니었을까 싶다.

 

논문 데이터 분석 중 진행한 주요 데이터 정제 작업은 다음과 같다.

   

이번 분석에 활용하지 않는 10점 척도 객관식 문항 변수 제거

객관식 3개 문항 응답의 산술 평균으로 파생 변수 생성 (교육만족도)

객관식 리커트 스코어(5점 척도)에 대한 Min-Max Normalization


5. EDA

  

보통의 경우라면 당연히 EDA를 먼저 수행한 후 그에 맞는 전처리 과정이 수행되어야 하지만 앞서 말한 대로 이번 분석의 경우 데이터가 이미 잘 정제된 상태였기에 이상의 전처리 작업을 완료 후 EDA를 진행하였다. 관계 확인에 활용되는 두 변수에 대한 기술통계를 진행하였고, 히스토그램을 통해 데이터 분포를 확인한 결과 두 변수 모두 긍정응답 비중이 매우 높은 left skewed 상태임을 확인할 수 있었다.

주요 변수에 대한 기술통계

 

정규화 된 리커트 점수 분포(좌) & 감성분석 스코어 분포(우)


6. 상관분석

  

사실 EDA 단계까지만 해도 내가 매일 보는 데이터이기에 이해가 쉬운 데다가 데이터 자체도 크게 손댈 일 없이 깔끔한 상태였기에 내심 이제 상관관계 확인하고 글로 잘 적기만 하면 졸업할 수 있겠다는 생각을 했었다. 그리고 상관관계를 확인하는 작업 자체는 매우 간단한 했다. 하지만 그 결과가 문제였다.

리커트 점수와 감성분석 스코어 간의 상관관계

 

p-value는 유의한 상황이었지만 상관계수가 기대보다 너무 낮게 나온 것이다. 상관계수에 대해 잘 아는 것은 아니었지만 연구논문에서 달랑 둘 간의 관계를 보겠습니다라고 말하고서 진행한 작업인데 그 숫자가 영 마음에 들지 않는 상황이었다. 간절한 마음을 담아 구글에서 상관계수에 대한 논문들을 찾아보면서 누군가 ‘0.2143도 약하긴 하지만 관계가 있는 것입니다’라고 말해주길 기대했었다. 당시엔 없었지만 타임머신을 타고 그때의 감정을 담아 GPT에게 얘기를 걸어보았다.

 

  

“솔직히 별로 상관없는 건데, 당신이 사회과학을 얘기하며 관계있다고 말하고 싶다면 그냥 그렇게 하시든지요~” 같은 기분이라 당시의 나 또한 뭔가 다른 방법을 찾아봐야만 했다.  

  

7. 관계성 파악을 위한 추가 작업

  

사실 지금부터의 작업은 벽에 막힌 상황에서 스스로 방향설정을 할 수 있는 단계는 아니었고, 지도교수님의 지도와 편달이 필요했던 상황이었다. 인터넷상에서 우스개로 회자되는 일반적인 대학원 장면에서의 사제 관계였다면 “아마도 상관계수가 0.2143 입니다.” 라고 말하는 과정에서 소수점 첫 째자리 정도 말할 즈음에 교수님께서 새로운 주제 정해서 오라고 하셨을 테지만 교수님께서는 당시의 내 막막한 상황을 타개하기 위해 진지하게 함께 고민을 해 주셨다. 사실 나는 잘 몰랐으니 오히려 교수님이 더 많이 고민을 하셨던 것 같다.

 

그러던 중 데이터의 특성을 다시 살피기 시작했고 뭔가 특이한 점을 발견하게 되었다.

 

정규화 된 리커트 점수 분포(좌) & 감성분석 스코어 분포(우)

  

동일한 코드를 사용해서 그린 히스토그램이지만 우측의 감성분석 스코어의 경우 중간에 비는 구간이 없이 연속성을 보이는 반면 좌측의 리커트 스코어의 경우 모양은 수치형 데이터이나 중간에 이가 빠져 있는 것처럼 비어 있는 구간이 있었던 것이다. 그도 그럴 것이 파생 변수로 만들어 낸 교육만족도 변수의 경우 객관식 3개 문항에 대한 산술 평균이기에 교육 참가자들이 3개 문항에 대해 1~5점 사이 값으로 응답한 것을 3으로 나눌 경우 값 자체는 숫자이나 데이터 분포가 연속적이지 않은, 사실상 범주형 데이터의 성격을 가지게 되는 것이다. 상관분석은 두 개의 연속형 데이터 간 관계를 볼 때에 활용할 수 있는데 내가 보고자 하는 두 개의 변수는 모양은 수치형으로 같으나 데이터 특성이 다르기에 일반적인 상관분석 방식으로는 확인이 안 되는 상황이었다.

 

그러고 나서 교수님과 장시간 데이터 수집 장면에 대한 이런저런 이야기를 나누었고, 객관식 문항이 5점 척도이기는 하지만 일반적으로는 만족하면 5점, 보통이면 4점, 마음에 안 들면 3점 정도로 응답하는 것 같다는 다년간의 경험을 공유하던 중 새로운 비교 방식을 떠올릴 수 있었다. 바로 그룹을 나눠 집단 간 평균 비교를 해 보는 것이었다. 앞서 말한 경험을 바탕으로 리커트 스코어를 기준으로 상/중/하 3개 집단으로 구분 후 해당 그룹의 감성분석 스코어 평균을 비교해 보기로 했다.

 

리커트 점수 구간 별 감성분석 스코어 평균 (3 개 그룹 &10 개 그룹 )



결과는 아름다웠다. 실제로 객관식 문항에 대한 점수를 낮게 준 집단 대비 보통, 그리고 높게 주는 집단으로 갈수록 그들이 실제로 남긴 문장에 대한 감성분석 스코어가 높다는 것을 확인할 수 있었다. 그리고 혹시 몰라 그룹을 더 잘게 나눠 10개 그룹으로 나눠 확인했을 때에도 중간에 감성분석 스코어 평균이 앞선 그룹 대비 낮아지는 구간 없이 우상향 하는 것을 확인할 수 있었다.

 

리커트 점수 구간 별 감성분석 스코어 분포 (3 개 그룹 )



보다 자세한 확인을 위해 리커트 점수 기준 상/중/하 3개 그룹에 대한 감성분석 스코어 분포를 확인한 결과, 좌측의 객관식 점수를 낮게 준 그룹에서는 감성분석 스코어 또한 0점에 가장 많이 분포되어 있다는 것을 볼 수 있었고, 우측의 객관식 점수를 높게 주는 그룹으로 갈수록 감성분석 스코어가 1점에 많이 분포하고 있다는 것을 볼 수 있었다. 이는 결국 교육만족도 객관식 문항 점수를 높게 줄수록 주관식 서술형 문항 또한 긍정적으로 작성하는 경향이 있다는 것을 데이터 분포를 통해 확인한 것이라 할 수 있다.

 

처음엔 비록 상관 계수가 낮음에 좌절했지만 경험을 토대로 다른 방식을 통해 두 변수 간의 관계 확인할 수 있었다. 다음 포스팅에서는 평균 비교를 통해 확인한 관계가 실제로 유의미한 차이인지, 그리고 내가 나눈 그룹이 통계적으로도 다른 그룹인지를 확인하기 위해 수행한 통계적 검증에 대한 내용을 정리해 보도록 하겠다.

작가의 이전글 지금 알고 있는 걸 그 때도 알았더라면...
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari