brunch

You can make anything
by writing

C.S.Lewis

by Kay Nov 21. 2023

객관식 평가와 서술형 주관식 평가 간 상관 분석 사례②

그동안 보고했던 리커트 평균은 응답자들의 진짜 속마음을 반영하고 있었을까

앞선 포스팅을 통해 리커트 스코어를 기준으로 상/중/하 3개 집단으로 구분 후 해당 그룹의 감성분석 스코어 평균을 비교하는 작업 결과 객관식 문항에 대한 점수를 낮게 준 집단 대비 보통, 그리고 높게 주는 집단으로 갈수록 그들이 실제로 남긴 문장에 대한 감성분석 스코어가 높다는 분석 결과를 공유하였다.

 

리커트 점수 구간 별 감성분석 스코어 평균 (3개 그룹 & 10개 그룹)

 

또한 리커트 점수 기준 상/중/하 3개 그룹에 대한 감성분석 스코어 분포를 확인한 결과, 객관식 점수를 낮게 준 그룹에서는 감성분석 스코어 또한 낮은 쪽에 많이 분포되어 있다는 것을 볼 수 있었고, 객관식 점수를 보통 그리고 높게 주는 그룹으로 갈수록 감성분석 스코어가 높은 쪽에 많이 분포하고 있는 것도 확인하였다.

 

리커트 점수 구간 별 감성분석 스코어 분포

 

결국 수치형 데이터의 모습이나 연속적이지 않은 리커트 평균 변수의 특징으로 인해 상관계수로는 확인할 수 없었지만 교육만족도 객관식 문항 점수를 높게 줄수록 주관식 서술형 문항 또한 긍정적으로 작성하는 경향이 있다는 것을 데이터 분포를 통해 확인한 것이다.

 

이제 어떤 작업을 더 필요할까? 사실 바쁘게 돌아가는 업무 장면에서 분석을 진행한 경우였다면 분포를 확인한 수준에서 ‘결과가 이렇습니다’ 보고하고 그쳤을지도 모르겠다. 아마도 높은 확률로 그랬을 것 같다. 하지만 이 프로젝트의 경우 연구 문제를 두고 그에 대한 확인을 위한 분석 과제이기에 내가 발견한 사실에 대한 통계적 검정 작업이 반드시 수반되어야 했다. 소위 빅데이터(이제는 너무나도 당연한 것이라 잘 사용하지 않는 용어이지만) 시대임에도 여전히 통계적 개념이 필요하고 강조되는 것은 수많은 데이터로부터 발견한 사실이 실제로 통용될 수 있는 것인지, 그래서 인사이트라고 불러도 될만한 것인지는 결국 통계적 검정 절차를 통해 가능하기 때문이다.

 

이번 분석 과제의 경우 아래 세 가지 질문에 대한 통계적 확인이 필요했다.


① 임의로 상/중/하 3개 그룹으로 나누어 확인한 각 그룹 간의  평균은 통계적으로도 차이가 나는 수준인가?

② 평균의 통계적 차이가 있다면, 세 그룹 중 어떤 그룹 간의 차이가 있는 것인가?

③ 그렇다면 리커트 스코어와 감성분석 스코어 간 연관성은 어느 정도인가?


1. 분산분석 (ANOVA : Analysis of Variance)

 

우선 평균 비교를 위해 임의로 구분한 상/중/하 3개 그룹 간의 평균 차이가 통계적 유의미한지 확인하기 위해 분산 분석을 진행하였다. 분산분석을 진행하는 이유는 여러 집단 간의 평균을 비교하여, 차이가 우연이 아닌지 확인하는 것이다. 후에 별도의 포스팅을 통해 통계적인 개념들에 대해서 더 자세히 기술할 기회가 있을지 모르겠으나 내가 이해한 핵심만 요약하자면 분산분석은 3개 이상 그룹에 대한 비교를 위한 것으로, 모든 그룹의 평균이 같다는 귀무가설을 두고 그것을 기각하기 위한 확인 작업을 진행한다. (cf. 확인이 필요한 그룹이 2개라면 분산분석 대신 T-test 를 진행한다.)

 

분산 분석표

 

분산 분석 결과에 따르면 상/중/하 3개 그룹의 감성분석 스코어들 간의 차이에 대한 F값은 455.77, P-value는 0.001보다 작은 값으로 나타나, 상/중/하 3개 그룹의 감성분석 스코어는 통계적으로 유의미한 차이가 있는 것으로 확인되었다. 즉, 분산분석의 기본 가설인 모든 그룹의 평균이 같다는 귀무가설은 기각되고 그룹 간 평균 차이가 있음을 확인하였다.

 

2. 사후 검정 (Tukey’s HSD)

 

이후 진행한 통계적 검정 절차는 분산분석과는 세트라고 볼 수 있는 사후 검정으로 사후 검정은 분산분석에서 유의미한(그룹 간 평균 차이가 있다는) 결과가 나왔을 때, 구체적인 집단 간 차이를 비교하는 방법으로 사후 검정을 통해 구체적으로 어떤 집단 간에 차이가 있는지를 확인할 수 있다. 즉 분산분석을 통해서 확인 가능한 것은 “구체적으로 어떤 그룹이 다른지는 모르겠으나 어쨌든 상/중/하 그룹 간 평균에는 차이가 있다” 수준이라면 사후 검정을 통해 실제로 어떤 그룹의 평균이 차이 나는지를 확인하게 되는 것이다. 이는 평균 차이를 확인하기 위해 택한 방식이 분산분석이었기에 거쳐야만 했던 과정으로 만일 첫 번 째 단계에서 분산분석이 아닌 T-test를 통해 2개 그룹씩을 짝지어 평균 차이를 직접 비교했다면 굳이 진행하지 않았어도 되는 과정일 것이다.

 


사후분석 ( Tukey's HSD)

 

데이터 특성에 따라 다양한 사후 검정 방법이 있겠으나 이번 분석의 경우 Tukey’s HSD 검정을 수행하였고, 유의 수준은 0.001로 설정하였다. 사후 검정 결과, 모든 그룹의 감성분석 스코어들이 통계적으로 유의미한 차이가 있는 것으로 나타났다. 이는 모든 그룹의 평균 차이가 있음을 뜻하며, 리커트 기준 상/중/하 세 그룹의 감성분석 스코어 평균을 박스 플롯을 통해 시각화하면 아래와 같다.

 

 

3. 교차분석 (Cross Analysis between Likert Score and Sentiment Analysis Score)

 

마지막으로 리커트 스코어와 감성분석 스코어 간의 연관성을 확인하기 위해 교차분석을 진행하였다. 교차분석은 두 범주형 변수 간의 관계를 교차 표를 통해 분석하는 방법으로 비교 대상이 되는 항목들의 빈도 확인을 통해 관계 유의성을 파악하는 것이다. 우선 이 작업을 위해 리커트 스코어와 마찬가지로 감성분석 스코어 또한 같은 기준으로 상/중/하 3개 집단으로 묶어 범주 변수화 하는 작업을 수행하였으며, 이후 진행한 교차분석 결과는 다음과 같다.

 

리커트 점수-감성분석 스코어 그룹 간 교차분석표

 

리커트 점수와 감성분석 스코어 간 교차분석을 진행한 결과 리커트 점수와 감성분석 스코어 결과가 모두 동일한 응답자 분포는 0.0 이상 0.4 미만 68 명 , 0.4 이상 0.7 미만 140 명 , 0.7 이상 1.0 이하 16,233 명으로 리커트점수와 감성분석 스코어가 동일한 그룹에 속하는 인원이 전체 응답자의 81.6% 에 해당하였다. 이는 리커트 스코어와 감성분석 스코어 두 변수 간 강한 연관성이 있음을 뜻한다. 리커트 점수보다 감성분석 스코어가 높은 응답자는 전체 응답자 중 5.9% 이며, 반대의 경우는 12.6% 이다.  



이상의 통계적 검정 절차를 통해 데이터를 통해 발견한 교육만족도 설문에서 객관식 문항을 높게 응답할수록 주관식 서술형 문항 또한 긍정적으로 작성하는 경향이 있다는 것이 통계적으로 유의미함을 확인할 수 있었다. 다음 포스팅에서는 이러한 발견의 결과를 활용해 실무 관점에서는 어떤 추가 작업을 진행했는지에 대해 정리해 보도록 하겠다.

작가의 이전글 객관식 평가와 서술형 주관식 평가 간 상관 분석 사례①
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari