변수의 척도가 범주형인지 연속형인지에 따라 데이터를 분석하는 방법이 다릅니다. 가설의 독립변수가 범주형이고 종속변수가 연속형일 때 사용할 수 있는 검정 방법은 t-test 입니다. 분산 분석은 3개 이상의 집단에서 독립변수는 성별 또는 나이대와 같은 범주형 데이터이고 종속 변수는 평균을 산출할 수 있는 연속형 데이터입니다.
t-test는 2개의 독립된 모집단 평균 차이를 검증하기 위해 두 모집단이 정규분포를 이루고 분산은 같다는 것을 가정하였습니다. 분산 분석은 ANOVA (Analysis of Variance)라고 하며, 세 개 이상의 집단에서 평균 차이를 검정하기 위한 방법입니다. 집단 내의 분산과 총평균 그리고 집단 간의 평균 차이에 의해 생긴 분산을 비교하는 F 분포를 이용하여 가설을 검정합니다.
각 집단의 모집단의 분포는 정규분포를 따르고, 모집단의 분산은 동일하다는 가정입니다. 분산의 동질성은 Levene's test로 검정합니다.
분산 분석으로 상호 작용 효과가 있는 경우와 없는 경우의 그래프는 다음과 같은 모양을 같습니다.
일원분산분석 (One-way ANOVA, 독립 변수 1개, 종속 변수 1개)
일원 분산 분석은 독립 변수가 1개이고 종속변수가 1개일 때 사용합니다. 여기서 독립 변수는 3개 이상의 카테코리 또는 범주를 가집니다. 예를 들면, 도시별 노동자 평균 임금을 분석할 때 독립 변수 도시를 대도시, 중도시, 소도시로 나눕니다. 또, 가구 소득에 따른 식표품비 차이를 분석할 때 독립 변수 가구소득은 저소득, 중소독, 고소독층으로 나눕니다.
이원분산분석(Two-way ANOVA, 독립 변수 2개, 종속 변수 1개)
이원 분산 분석은 독립 변수가 2개이고 종속변수가 1개일 떄 사용합니다. 예를 들면, 학력 및 성별에 따른 휴대폰 요금의 차이를 분석할 때 독립 변수는 학력과 성별입니다. 학력은 중졸, 고졸, 대졸로 범주를 나눌 수 있고, 성별은 남성과 여성으로 나눌 수 있습니다.
다원변량분석(MANOVA)
단순 분산분석을 확장하여 두 개 이상의 종속 변수에 대한 차이를 검증합니다.
공분산분석 (ANCOVA)
다원변량 분석에서 특정 독립 변수에 초점을 맞추고 다른 독립변수를 통제변수로 하여 분석합니다.
분산 분석 결과가 통계적으로 유의미하다는 결과를 얻고 그룹별로 차이가 있다는 것을 알려주지만, 어떤 그룹에 차이가 있는 지는 알려주지 않습니다. 사후분석은 N개의 그룹 중에 어떤 그룹간에 차이가 있는 지를 살펴봅니다. t 테스트를 여러번 하면 가능하지만, 비교 대상이 증가할수록 신뢰수준이 낮아집니다. 예를 들면 신뢰수준 95%일 때 두 개의 집단의 결과가 동일할 확률은 95%*95% 이므로 점점 낮아집니다.
SPSS에서 사용하는 사후 분석 방법은 몇 가지가 있습니다. 그중 Scheffe법이 일반적으로 사용합니다.
Scheffe (샤페)법
Scheffe 법은 전형적인 사후 비굑법으로 헨리 샤페의 이름딴 기법입니다. 가장 보수적이고 엄격한 사후 검정 방식이지만, 통계적으로 유의미한 차이를 도출하기는 쉽지 않습니다.
Tucky
Tucky는 비교 대상 표본수가 동일한 경우에만 사용하고 표본수가 적을수록 정확도가 떨어집니다. 표본수가 동일한 경우 가장 많이 사용하는 사후 검정 기법입니다.
"A 잡지 회사의 영업부에서 영업사원 교육을 위한 네가지 교육 프로그램 (A, B, C, D)의 효과에 차이가 있는 지를 조사하기 위하여 무작위로 나눈 4개 집단에 네 가지 교육 프로그램을 실시하였습니다. 네가지 교육 프로그램에 따른 판매실적에 차이와 어떤 교육 프로그램이 더 나은 지를 분석합니다."
연구가설을 설정하고, 가설 검증을 위한 귀무가설과 대립가설을 설정합니다.
연구가설
네가지 교육 프로그램에 따른 판매실적에 차이가 있을 것이고, 그 중 더 나은 프로그램이 있을 것이다
귀무가설
네가지 교육 프로그램은 등분산이다.
(네가지 교육 프로그램에 따른 판매 실적은 같다)
대립가설
네가지 교육 프로그램은 등분산이 아니다
(네가지 교육 프로그램에 따른 판매 실적은 같지 않다)
연구 결과가 귀무가설을 채택할지 또는 기각할 지 확인하기 위해 일원 분산 분석을 사용합니다.
1) 메뉴바에서 "분석 >> 평균비교 >> 일원배치 분산분석"을 선택합니다.
2) 일원배치 분산분석 창에서 종속변수목록(Dependent List)에 판매실적을 배치하고, 독립변수 목록(Factor)에 교육방법을 배치합니다.그리고, 사후분석 버튼을 선택하고 일원배치 분산분석 사후분석 창에서 Scheffe(샤페)를 선택합니다.
3) 옵셥창에서 기술통계(Descriptive)과 분산 동질성 검정(Homogeneity of cariance test) 그리고 평균 도표(Means plot)을 선택합니다.
기술통계(Descriptives) 표에서 네 가지 교수법의 평균을 확인합니다. 대충 교수법에 따라 평균의 차이가 크다는 것을 확인할 수 있습니다.
분산의 동질성 검정 (Test of Homogeneity of Cariances) 표에서 종속변수 판매실적은 평균을 기준 (Based on Mean) 부분만 봅니다. 레베네 통계(Levene Statistics )는 1.218이고, 유의확률(Sig.)은 0.330입니다. 유의확률은 0.05보다 크기 때문에 Levene 등분산의 귀무가설 "집단의 분산은 동일하다" 는 기각할 수 없습니다. 따라서, 네 가지 교수법은 등분산 가정을 충족합니다.
논문에서 등분산 검정의 결과를 별도로 언급할 필요는 없습니다. 그러나 연구자가 사전에 반드시 확인해야 합니다.
분산 분석(ANOVA)의 결과는 네 집단의 평균차이에 대한 F값이 3.771, 유의확률 p값은 0.028로서 영가설을 기각합니다. 따라서, 논문에 다음과 같이 명기합니다.
"네 가지 교육 프로그램에 따라 매출실적에 유의한 차이가 있는 것으로 나타났다 (F = 3.771, p <.05)"
그러므로, 분산분석은 네 가지 교육 프로그램에 따라 매출실적에 차이가 있다는 것은 확인할 수 있지만, 어떤 프로그램에서 차이가 있는 지를 확인할 수 없기 때문에 사후 검정을 진행합니다.
사후 검정 방법으로 Scheffe를 선택합니다. 다중비교(Multiple Comparisons)는 네가지 교육 프로그램의 평균의 차이를 비교합니다. 여기서 중요한 것은 유의확률 p값이 0.5 이하인 것으로 *표시가 된 값을 찾습니다. 프로그램 C와 프로그램 D가 *별표시를 가지고 있습니니다. 이것을 논문에 다음과 같이 적을 수 있습니다.
"Scheffe 사후검정 결과 프로그램 C와 D간의 유의미한 차이가 있는 것으로 나타났다. 즉, 프로그램 D는 프로그램 C보다 판매실적에 있어 평균 16.92만큼 높은 결과를 가져왔습니다. (p <. 05)"
그리고, 논문에 Scheffe 사후 검정 결과를 다음과 같이 제시합니다.
"3가지 종류의 광고 유형(이성적, 감성적, 유머)에 따른 제품 판매량을 조사하였습니다. 광고 유형에 따라 제품의 판매량에 차이가 있을까? 차이가 있다면 어떤 유형의 광고에서 얼마의 차이가 있을까?"
연구가설을 설정하고, 가설 검증을 위한 귀무가설과 대립가설을 설정합니다.
연구가설
세 가지 광고 유형에 따른 판매실적에 차이가 있을 것이고, 그 중 더 나은 광고 유형이 있을 것이다.
귀무가설
세 가지 광고 유형은 등분산이다.
(세 가지 광고 유형의 판매실적은 같다)
대립가설
세 가지 광고 유형은 등분산이 아니다.
(세 가지 광고 유형의 판매실적은 같지 않다)
연구 결과가 귀무가설을 채택할지 또는 기각할 지 확인하기 위해 독립표본 t 검정을 사용합니다.
기술통계(Descriptives) 표에서 세 가지 광고 유형의 평균을 확인합니다. 광고유형에 따라 평균의 차이가 크다는 것을 확인합니다.
분산의 동질성 검정 (Test of Homogeneity of Cariances) 표에서 종속변수 판매량은 평균을 기준 (Based on Mean) 부분만 봅니다. 레베네 통계(Levene Statistics )는 0.311이고, 유의확률(Sig.)은 0.738입니다. 유의확률은 0.05보다 크기 때문에 Levene 등분산의 귀무가설 "집단의 분산은 동일하다" 는 기각할 수 없습니다. 따라서, 세 가지 광고 유형에 대한 등분산 가정은 충족합니다.
논문에서 등분산 검정의 결과를 별도로 언급할 필요는 없습니다. 그러나 연구자가 사전에 반드시 확인해야 합니다.
분산 분석(ANOVA)의 결과는 세 집단의 평균차이에 대한 F값이 33.867, 유의확률 p값은 0.000 으로 영가설을 기각합니다. 따라서, 논문에 다음과 같이 명기합니다.
"세 가지 광고 유형에 따른 매출실적에 유의미한 차이가 있는 것으로 나타났다 (F = 33.867, p <.001)"
그러므로, 분산분석은 세 가지 광고 유형에 따라 판매량에 차이가 있다는 것은 확인할 수 있지만, 어떤 광고 유형에서 차이가 있는 지를 확인할 수 없기 때문에 사후검정을 진행합니다.
사후 검정 방법으로 Scheffe를 선택합니다. 다중비교(Multiple Comparisons)는 세가지 광고 유형의 평균의 차이를 비교합니다. 여기서 중요한 것은 유의확률 p값이 0.5 이하인 것으로 *표시가 된 값을 찾습니다. 이성적 소구, 감성적 소구, 유머 소구 모두 *별표시를 가지고 있습니니다. 이것을 논문에 다음과 같이 적을 수 있습니다.
"Sheffe의 사후 검정 결과, 감성적 소구와 이성적 소구, 유머 소구와 이성적 소구, 그리고 유머 소구와 감성적 소구 간에는 유의미한 차이가 있는 것으로 나타났다. 즉 감성적 소구는이성적 소구보다 제품 판매량이 2.4 높은 것으로 나타났다(p<.01). 유머 소구는 이성적 소구보다 제품판매량이 5.2(p<.001) 높은 것으로 나타났으며, 감성적 소구에 비해서도 2.8(p<.01) 높은 것으로 나타났다."
그리고, Scheffe 사후 검정 결과는 세 가지 광고 유형에 따라 유의미한 차이가 있습니다.