CCRPM 다중 회귀 분석(2)
원래 1편을 작성하고 2편도 바로 쓸려고 했지만 어쩌다보니 한달도 더 지나고 나서야 마무리 글을 쓰게되었다...(사실 미루고 미루다 시험 공부하기 싫어서 공부하다말고 이제서야 쓰게됐다는...)
지난 1편에서는 설문 데이터를 분석하기 좋은 형태로 만드는 '데이터 전처리' 과정을 다루었다. 이번에는 이 데이터를 가지고 본격적으로 통계 분석을 진행하는 과정을 정리하고자 한다.
일단 들어가기에 앞서 설문 구성에 대해서 간단히 설명하자면, 설문은 Sander van der Linden(2015)의 "기후변화 위험인식 모델(CCRPM)"의 이론적 틀을 기반으로 설계하였다. 따라서 설문 문항을 크게 5개의 파트로 구성되었다.(종속변수인 '위험인식' + 독립변수인 CCRPM의 4가지 요인들 = 총 5개 파트)
분석의 순서는 크게 기술통계 분석 -> 신뢰도 분석(크론바흐 알파값 확인) -> 상관관계 분석 -> 다중 회귀분석(위계적 다중 회귀분석) 순서로 진행하였으며, 각 분석의 목적과 Jamovi에서의 실행 방법을 순서대로 다루고자 한다.
1. 표본의 기본 특성 파악하기: 기술통계 분석 (Descriptive Statistics)
첫 번째 단계에서는 표본(설문 응답자)의 기초 통계(인구사회적 변인들)를 확인하여, 응답자 집단의 특성과 주요 변수의 분포를 확인하는 과정이다.
일단 Jamovi에서 Analyses > Exploration > Descriptives 를 클릭한다.
그리고 Variables 칸에 인구통계학적 변인들을 전부 넘기면, 결과창에 자동으로 N(표본 수), 평균(Mean), 표준편차(Standard deviation) 등이 계산되어 나타난다. 'Frequency tables'를 체크하면 성별, 학년 등 범주형 변수의 빈도와 비율까지 한눈에 파악할 수 있다.
인구통계학적 변인 뿐만 아니라 응답자의 '위험인식'이나 '가치' 등의 다른 주요 변수들의 평균 점수도 확인할 수 있었다.
*추가로 인구통계학적 변인은 평균이나 표준편차보다 빈도와 비율을 확인하는 것이 가장 정확하고 직관적인 방법이지만 반대로 '위험인식' 이나 각 '지식 수준', '가치' 등은 연속형 변수이므로 평균, 중앙값, 표준편차, 최대, 최소값을 확인해야 한다.
2. 설문 문항의 일관성 확인하기: 신뢰도 분석(cronbach's Alpha)
다음으로, 여러 문항을 사용해 하나의 개념을 측정한 변수가 있다면, 그 문항들의 '내적 일관성(internal consistency)'를 확인해야 한다. 이 과정이 바로 신뢰도 분석이다.
Analyses > Factors > Reliability Analysis 를 선택하고, Items 칸에는 각 주요 요인(개념)을 측정한 문항들을 왼쪽 칸에서 선택하여 옮겨 넣는다.(예를 들어 '위험인식'이라는 변인을 측정하기 위해 총 8개의 문항을 사용했으므로 Items 칸에 8개의 문항을 집어넣어야 한다)
그리고 Scale Statistics 에서 Cronbach's Alpha를 선택한다.
�크론바흐 알파 (Cronbach's α)란?
여러 문항으로 구성된 측정도구의 신뢰도를 나타내는 지표다.
일반적으로 0~1 사이의 값을 가지며 보수적으로 이 값이 0.7 이상이면 신뢰도가 양호하다고 평가할 수 있다.
참고로 인지적 원인 부분에서는 설문 응답자의 지식 수준을 측정하는 문항들로 이루어져 있는데 이 부분은 신뢰도 분석을 하지 않았다. 그 이유는 지식 문항들은 각각이 독립적인 사실에 대한 정답 여부를 묻는 것이기 때문이다.
3. 변수 간의 관계 미리보기: 상관관계 분석(Correlation Matrix)
회귀분석에 앞서, 각 변수들이 서로 어떤 관계를 맺고 있는지 알아보기 위해 상관관계 분석을 실시했다. 이 분석을 통해 변수간 관계의 방향성과 강도를 파악할 수 있다.
Jamovi에서 Analyses > Regression > Correlation Matrix를 선택한다.
분석할 변수들을 오른쪽 칸으로 옮기면, 결과창에 각 변수들의 상관계수와 p-value가 나타난다.
그리고 아래에 Additional Options에서 Flag significant correlations를 꼭 체크해준다. 그러면 통계적으로 유의미한 상관관계 결과에 자동으로 *표시가 뜨게 된다. (*개수는 유의수준의 정도를 의미함)
� p-값 (p-value)란? '이 결과가 우연히 나타났을 확률'을 의미한다.
일반적으로 이 확률이 5% 미만일 때, 즉 p < .05 일 때 '통계적으로 유의미하다'고 판단한다.
이는 두 변수 간의 관계가 우연이 아닌, 의미 있는 관계일 가능성이 높다는 뜻이다.
참고로 보고서랑 발표 자료에 저렇게 지저분한 표를 그대로 가져다 쓸수는 없었기 때문에 나는 간단하게 엑셀을 활용해서 상관관계 매트릭스를 좀 더 보기 편하게 바꿔줬다. 참고로 엑셀은 셀안에 *표시가 불가능하기 때문에 유의미한 상관관계는 따로 표시를 해줘야 했다.
4. 핵심 원인 찾기: 위계적 다중 회귀분석(Hierarchical Regression Analysis)
내가 진행한 연구의 핵심 질문인 '무엇이 대학생의 기후변화 위험인식에 영향을 미치는가?'에 답하기 위해 다중 회귀분석을 실시했다. 특히, 변수 집단(인구통계, 인지적, 경험적, 사회문화적)의 영향력을 순서대로 확인하기 위해 위계적 다중 회귀분석으로 진행했다.
Analyses > Regression > Linear Regression 을 선택한다.
종속변수인 '위험인식'을 Dependent Variable로 옮긴다. 그리고 독립변인들 중 연속형과 서열형인 변인들은 Covariates에 명목형인 변인들은 Factors로 옮긴다.
그리고 Model Builder를 열어 각 Block 별로 변수들을 묶어서 투입한다. Block 1에는 인구통계학적변수들을 넣고, Block 2에는 인지 요인 3개, Block 3에는 경험 요인 2개, Block 4에는 사회문화적 요인 6개 이런식으로 Block을 만들었다. (각 Block을 만드는 기준은 위의 CCRPM을 참고하면 된다)
그 다음에는 Model Builder 아래에 있는 Assumption Checks, Model Fit, Model coefficients 등을 아래와 같이 체크해준다.
다 선택했다면 결과창에서 각 Block들이 점차 추가되었을때 어떻게 변하는지 확인할 수 있게 된다.
이제 결과 해석은 어느 부분을 중점적으로 보면서 해야하는지 간단히 정리해 보겠다.
모델 적합도 Model Fit Measures 부분에서는 각 모델의 p값과 모델 설명력인 R² 값을 확인한다. 즉 모델 4의 설명력은 58.1%이며 p-값은 <.001로 통계적으로 매우 유의미함을 보여준다.
모델 비교 Model Comparisons 부분은 각 모델이 넘어갈 때의 R² 을 보여준다. 3에서 4로 넘어갈때 설명력(R²)의 증가량이 가장 크고 p-값을 통해 통계적으로도 유의미함을 확인 할 수 있다.
각 모델을 선택해서 모델별 결과값을 확인할 수 있다.
Estimate(B)는 비표준화 회귀계수로 다른 모든 변수가 고정되어 있을 때, 해당 독립변수가 1단위 증가하면 종속변수가 실제 값으로 얼마나 변하는지를 보여주는 수치이다. 즉, 이타적 가치의 Extimate 값은 0.23442이므로, 이타적 가치가 1 증가할 때마다 종속 변인의 '위험인식' 은 0.23442 증가한다는 의미이다.
Stand. Estimate (β)는 표준화 회귀계수(Beta)로 모든 변수의 단위를 '표준편차'로 통일했을 때의 영향력이다. 즉, 독립변수가 1 표준편차만큼 증가할 때 종속변수가 몇 표준편차만큼 변하는지를 보여준다.
따라서 여기서는 각 모델에 따른 각 독립변수의 베타값(β)과 p-값을 중심으로 비교, 확인해주면 된다.
Durbin-Watson Test: 더빈 왓슨 통계량은 0~4 사이의 값을 가지는데 1.79로 2에 가깝기에 오차항 간 자기상관이 없어 독립성 가정을 충족하는것을 확인할 수 있다.
다중공선성 VIF: 독립변수들 간의 상관관계가 너무 높은지 확인하는 지표이다. 모든 변수의 VIF값이 10 미만이므로 다중공선성 문제없이 변수들이 적절하게 투입되었음을 확인할 수 있다.
Shapiro-Wilk: p-값이 0.464로 유의수준 0.05보다 크므로(p > 0.05 이므로 "데이터는 정규분포를 따른다"는 귀무가설을 기각하지 못함 = 정규성 만족), 잔차가 정규분포를 따른다는 가정을 만족한다.
이렇게 해서 지난 학기에 배웠던 Jamovi를 통한 다중 회귀분석에 대한 내용을 정리해보았다.
이 분석결과에 대한 우리 조의 최종 결론 및 논의하는 과정도 블로그에 남길까 했지만 그건 이미 보고서를 작성하면서 충분히 했기 때문에 굳이 블로그에 또 쓰진 않겠다.
어떤 메뉴를 클릭하고, 어떤 숫자를 봐야 하며, 그 숫자가 과연 무엇을 의미하는지를 파악하는 것. 이 부분이 데이터 분석의 가장 어렵고도 핵심적인 단계라고 생각하기 때문에 이렇게 해서라도 복습을 하고 혹시라도 잊어버리더라도 다시 공부할 수 있게 기록을 남기는 것이 목적이기 때문이다.