4-4. 논문을 쉽게 쓰는 방법 ▶ 통계를 화장실에서 배운다.
세 권의 책에서 제시하는 공통된 목차를 통해 꼭 필요한 부분만 정확히 이해하고 넘어가는 방식으로 접근한다. 지금 책을 보고 있는 독자와 다수의 대학원생은 논문 쓰기를 접하면서 통계에 관심을 가진다. 이전에는 전혀 관심을 저 멀리 보냈다가 가끔 우리나라 군사력 순위, 올림픽 메달 순위, 국가 안전도 순위 같은 자료에 관심을 보인다.
선거철이 되면 후보들의 사전 인기도 조사와 선거 당일 출구조사를 통해 누가 당선이 될지 후보자들의 득표율을 예측하여 발표하는데 조사에 응답한 투표자 수, 후보자 득표수, 신뢰수준과 표준오차를 함께 제공한다.
공개 내용은 믿을 수 있는 기관에서 작성한 자료라고 신뢰수준과 표준오차를 제시하는데 어떤 과정을 거치는지 모른다. 사회생활에 큰 지장이 없기 때문이다. 확률과 통계는 고교 시절에 배우지만 흐르는 시간에 속절없이 흘려보내 첫 만남처럼 생소하기만 하다. 그래도 우린 대통령이나 국회의원을 뽑는 선거에서 누가 당선될 것인지 궁금해 서로 갑론을박한다. 이때 방송사에서는 특정한 시기에 리서치 업체가 발표한 설문조사 자료를 분석하여 당선 가능성이 높은 예상 후보가 누구인지 예측하고 공개 방송을 시작한다.
독립표본 t-검정(independent samples t-test)은 정규분포를 기초로 하는 모수검정으로 두 독립표본들의 평균을 비교하는 분석 방법이다. 비교할 두 그룹은 상호 독립적이다. 종속변수는 등간이나 비율척도로 측정하나 독립변수들은 2개의 명목 자료를 가져야 한다. t-검정은 t-분포를 이용하여 두 집단을 비교한다. 예컨대 국제결혼 커플의 이혼 발생에 따른 성별 귀책사유를 내국인 중심으로 비교한다면 두 표본의 평균 간 차이의 유의성을 검정하면 된다.
그룹변수(grouping variable)에 해당 변수는 독립변수의 값을 가지며, 3개 이상의 명목 자료를 가지는 독립변수가 있을 때 종속변수에 대한 분석으로 ANOVA(Analysis of Variance : 분산분석)를 수행한다. ANOVA, 분산분석, 변량분석은 서로 같은 이름으로 일명 삼태자로 명명한다. t-검정이 두 집단을 비교한다면 F-검정은 F-분포를 이용하여 세 개 이상의 집단을 동시에 비교하는데 집단 간의 분산과 집단 내의 분산을 이용하여 분산분석이라고 한다. 분산분석의 조건은 세 가지로 비교 집단들은 독립적이고, 종속변수는 정규분포이고, 모든 집단에서 분산이 같은 경우라야 F-검정이 가능하다.
2개 이상의 종속변수들에 대한 공분산을 통해 변수들의 차이를 MANOVA(Multivariate Analysis of Variance : 다변량 분산분석)로 수행한다. 다변량 분산분석에서 공분산행렬에 대한 동질성 검정인 Box의 동일성 검정(test for homogeneity of variance-covariance)인 Box’s test, 일원분산분석(One-way ANOVA) 및 일변량 사후검정을 제시한다.
SPSS를 통한 MANNOVA 수행은 다음과 같다. “분석/일반선형모형/다변량”을 지정한다. 생성된 “다변량” 대화상자에서 “종속변수” 박스에 2개 이상의 해당 변수를, “고정요인” 박스에 통제변수를 이동시킨다. “사후분석” 단추를 클릭한 다음, 사후검정 변수박스에 통제변수를 이동시키고, Bonferroni를 지정한 뒤 “계속”을 클릭한다. “옵션” 단추를 클릭한 뒤 기술통계량과 동질성 검정을 지정한 뒤 “계속”, “확인”을 클릭한다.
동일성 검정은 MANOVA의 검정가정으로, 다변량 검정을 해석하는 방식에 대한 의미를 갖는 Box의 검정 결과가 우선 평가되어야 하며 전형적으로 Box의 검정에 대한 유의확률이 0.1% 미만이면 Box의 동일성 검정은 유의하다[Hinton et al.(2014), 222-225].
변수(variable)는 어떤 사상이나 행동, 특징과 특성, 속성 등의 측정 가능한 상징으로. 추상적 구성개념의 표현을 위해서 하나 이상인 표지(관찰)변수를 사용할 수 있다. 연구에서는 추상적인 종속, 독립, 매개변수에 대하여 측정이나 검정에 알맞은 특수한 기준들에 충족하도록 구성개념들의 특징을 구체화 가능한 개념으로 변수의 조작적 정의를 규정한다[Schindler(2022), 14].
외재변수(extraneous variables : EVs)는 종속변수에 영향을 주는 독립변수 이외의 변수이며, 가외변수라고도 한다. 외재변수들은 자료수집 과정이나 실험설계에서 통제되지 않아 효과나 영향이 알려지지 않은 변수들이어서 자료수집이나 결과 해석에 오류나 불확실성을 초래하기 때문에 측정하는 시점에서 통제되어야 한다.
① 통제변수(Control variables : CV)는 분석하려는 인과관계에 영향을 주어 왜곡을 발생시킬 수 있는지 결정하기 위해 측정하는 외재변수이다. 따라서 통제변수는 종속변수에 대한 독립변수의 효과에 영향을 주는 것을 회피하도록 일정하게 유지시킬 필요가 있는 추가변수이며, 관찰 및 측정이 가능한 변수이다.
② 조절변수(Moderating Variables : MV)는 분석하려는 인과관계에 유의적인 기여효과를 갖는 것으로 믿어지는 2번째의 독립변수이며, 독립변수와 종속변수 간의 관계 특성에 영향을 미친다.
③ 교락변수(confounding variables : CFVs)는 분석하려는 인과관계에 대해 조절변수와 유사하게 영향을 주어 독립변수들의 효과를 왜곡시키는 원인이 되는 요소(인자)이다. 한편 교락변수는 독립변수와 종속변수 간의 추론에 대해 교란을 줄 수 있지만 관찰이나 측정이 곤란한 변수이다.
④ 매개(개입)변수(Mediating(intervening) variable : IVV)는 독립변수의 종속변수에 대한 효과를 전달해 주는 변수이며, 이론적으로는 종속변수에 영향을 주지만 관찰하거나 측정할 수 없는 요인이다. 이러한 변수의 효과는 관찰된 현상에 대한 독립변수와 조절변수들의 효과들로부터 추론해야 한다[Schindler(2022), 16-19; Saunder et al.(2023), 193].
독립변수 X가 종속변수 Y에 주는 영향 과정에서 하나 이상의 개입변수들(intervening variables) M의 역할을 찾는 경로분석을 수행하여 매개변수의 효과를 알아보도록 매개분석(mediation analysis)을 수행한다.
조절변수(moderator variable) W가 독립변수 X의 종속변수 Y에 대한 인과적 효과의 영향 여부와 그 효과를 알기 위해서 선형교호작용(linear interaction)을 규명하는 조절분석을 수행한다.
매개된 조절, 조절된 매개 및 조건부 간접효과들(conditional indirect effects)을 동시 추정하여 그 효과를 규명하도록 이들을 다 함께 결합한 인과 체계를 통해 Y에 대한 X의 간접효과와 직접효과들(매개성분)의 조건부 특성(조절성분)을 추정하고 해석에 초점을 두는 조건부프로세스분석 과정을 수행한다.
모형에 대한 인과 과정에 따른 개념도(concept map)를 제시한 후 추정 결과를 통계 과정에 따른 효과변수 영향을 제시한다. 회귀계수, 표준오차와 표준화계수, t통계량에 따른 유의수준(p-값) 또는 95% 신뢰구간 하한 및 상한을 제공한다[Hayes(2022), 84, 240, 418].
공통성(communality)은 어떤 변수에 포함되어 다른 변수들과 공유하는 분산의 크기로, 추출된 표지변수의 전체 요인들이 얼마나 설명할 수 있는지에 대해 요인적재량((factor loading)을 제곱한 값들의 합으로 계산한다. 변수들이 요인분석에 적용되기 위해서는 0.50을 초과해야 한다. 따라서 표지변수의 신뢰도인 공통성(communality)을 최대 유지하면서 유의확률 5% 수준에서 0.30 이상의 유의미한 상관관계를 보여주는 표지변수들의 요인들을 도출한다. 그리고 관찰변수와 요인 간에 계산된 단순 피어슨 상관계수(Peason Correlation Coefficient, PCC)의 요인적재량(factor loading)이 0.4를 초과하는 것에 대해 유효하게 표시한다.
요인적재량을 제곱한 값은 해당 표지변수의 명시변수로 그 요인의 실질적 중요성을 측정하는 수단으로 역할을 한다. 또한 모든 요인의 적재량들이 0.70을 초과하면 그 단일요인의 적재량으로 해당 표지변수들의 분산들이 절반 이상 설명하는 것을 의미한다.
중요성이 큰 요인에 관해 높은 적재량을 갖지만, 다른 요인들에 대해서 낮은 적재량을 가지게 되면 해석 접근성을 어렵게 한다. 이런 문제를 해결하기 위해 수직 및 수평축을 모두 회전시켜서 요인들이 독립적 또는 비관련성을 유지하면서 회전시키는 직각회전(orthogonal rotation)의 배리맥스(Varimax) 방법을 사용한다.
배리맥스 직각회전은 변수들 내부에서 요인들의 적재량 제곱들의 합을 통해 분산이 최대화되어 해석 가능성이 높은 요인들을 가져오게 하고 작은 요인들은 줄여 변수 요인들을 높게 적재시키는 방식으로 다요인 구조에서 요인들 의미를 뚜렷하고 쉽게 해석하기 좋은 방법이다.
신뢰도(reliability)란 하나의 대상에 대해 유사 및 반복 측정했을 때 산출된 결과의 일관성을 산출하는데 크론바흐 알파(Cronbach's alpha)는 리커트 척도형 검정 항목들의 반영 또는 효과 지표들(reflective or effect indicators)이 단일 구성개념 또는 개념을 일관성 있게 측정하는 문제에 대해 내적 일관성(internal consistency) 검정을 위해 가능한 모든 반분 신뢰도 계수들(split-half reliability coefficients) 평균을 계산한 결과에 따른 크론바흐 알파(Cronbach's alpha)가 0.70 이상을 임계치로 한다.
타당도(validity)는 사용 표지변수들의 조작적 정의가 실제 표지변수들의 사용 적합성을 내용타당도(content validity), 구성타당도(construct validity), 수렴타당도(convergent validity), 판별타당도(discriminant validity) 검정으로 수행할 수 있다.
수렴타당도(convergent validity) 검정은 확인요인분석에서 이용되는 평균분산추출량(Average Variance Extracted : AVE) 계산으로 적용한다. 하나의 요인에 대해서 각각의 표지변수들의 R²을 표준화 요인적재량 제곱을 구한다. 그 합계를 표지변수들 수로 나누고 표지변수들 요인적재량 제곱의 평균에서 AVE를 구해서 0.5보다 크면 해당 구성개념의 수렴타당도 적정성을 확인한다.
탐색요인분석을 통해 해당 요인 표지변수들의 상관계수행렬에서 평균단조특성 상관계수(average monotrait correlation) 값을 구하여 0.5 이상이 되면, 평균분산추출량(AVE) 기준의 충족조건을 달성한다.
판별타당도(discriminant validity) 검정을 위해서는 표지변수들의 상관계수행렬을 기초로 하는 HTMT(Heterotrait-Monotrait Ratio of Correlations) 판별분석을 사용하며, 표지변수들이 사용하는 요인들 사이 HTMT를 계산하여 0.85 미만의 값에 대해서 판별타당도를 확인한다[Johnson and Christensen(2014), 168-178; Aaker et al.(2019), 408-418; Hair et al.(2019), 125-133; Collier(2020), 85-87; Malhotra(2020), 608-623; Babbie(2021), 480-482; Hair et al.(2021), 383-385].
[행복함]
바흐, 헨델 소망을 점한다.
온천욕으로 신망을 늘린다.
다리에 바람이 산들산들 불어온다.
포근한 이불에 누워 오감을 부른다.
모든 편안함을 한 곳에 모아둔다.
심장 소리 파랑이고 뇌 새김 파동에 신난다.
충만함을 경험한다.
사랑을 분출하고 아이가 태어나고 감격을 맞는다.
모든 감정이 한 번에 이뤄진다.
가슴이 벅차올라 하부 압박이 풀리면 눈물이 흐른다.