쬐곰 복잡하지만 그래도 더 파워풀 한~ 카이스퀘어 분석
다음은 좀 더 엑셀에서 쉬울 수 있지만, 엑셀 통계분석툴에서는 지원이 안되어서 엑셀시트로 만들어서 분석을 해야 하는 쬐곰 불편한 점을 제외하고는 간단하고 심플한 분석인 카이스퀘어 분석을 말씀드리도록 하겠습니다.
카이스퀘어 분석은, 숫자가 아닌 명목형 변수의 집단 간 차이 또는 변수 간 연관성을 검정할 때 널리 쓰이는 기본적인 통계 기법으로 복잡한 수식 없이 빈도만으로도 쉽게 적용할 수 있어 설문조사, 마케팅, 사회과학 등 다양한 분야에서 활용됩니다.
* 예를 들면
1) 남녀별 구매제품군의 차이가 있는지
2) A안과 B안의 광고 클릭률이 다른지
3) A안과 B안과 C안의 남녀별 광고 선호 비율이 다른지
등을 구분할 때 사용이 가능합니다.
* 하지만 전제조건은 있는데 보통 실무에서 쉽게 충족되는 경우가 대부분입니다.
1) 데이터는 무작위로 수집되어야 함(무작위로 보통 수집된다고 가정합니다)
2) 기대 빈도가 각 셀마다 5 이상이어야 함(관측된 사람의 수가 최소 5명은 넘어야 합니다)
3) 데이터는 범주형(명목척도 A/B 등 적용) 이어야 하며, 각 관측치는 독립적이어야 함.
수식은 있는데, 엑셀 사용하시는 방법을 아시는 것이 중요합니다. 그냥 참고로 넣어 놓겠습니다.
여기에서 O는 관측치(관측빈도) E는 기대치(기대빈도)의 값입니다. 약; 관측 빈도(O)와 기대 빈도(E)의 차이를 바탕으로 카이제곱 통계량을 계산합니다.
그렇다면 실무에서는 어떻게 사용하는지를 보여드리도록 하겠습니다.
앞서 엑셀로 진행한 이분산 가정 T-Test 분석 데이터, 광고 A/B의 통계적 유의성을 분석한 자료를 가지고 다시 카이스퀘어 분석을 해보도록 하겠습니다.
Data는 다음과 같았습니다. 광고 A는 30%의 선택률, 광고 B는 20.7%의 선택률을 보였습니다.
이 자료를 다음과 같이 카이스퀘어 분석에서는 클릭률과 N클릭률로 넣어서 기댓값을 계산하고 카이스퀘어 분석을 하게 됩니다. (엑셀로 한 번만 만들어 놓으면 Test하시는 샘플 구조에 따라 계속해서 사용가능 하므로 편리합니다(제가 그렇게 사용하고 있어서 말씀드립니다))
카이제곱 검정에서는 두 변수(여기서는 그룹과 클릭 여부)가 독립일 경우 기대되는 값(빈도)을 계산합니다.
여기에서 기댓값을 계산해야 하는데, A를 클릭할 기댓값은 (해당행의 합 X 해당열의 합)/전체의 합으로 계산하게 된다. 즉 (90X54)/220이 A광고 Click의 기댓값이라고 할 수 있습니다.
그렇다면 A광고의 Nclick기댓값은 (90X166)/220이 A광고 Nclick의 기댓값 입니다. 이런 식으로 B도 구해보면 다음과 같은 결과를 얻게 됩니다.
이렇게 기댓값을 모두 구했다고 하면, 이제 카이스퀘어 통계량을 계산해야 합니다. 카이스퀘어 통계량을 계산하는 방법은 앞서 살펴보았던 수식을 적용하게 됩니다.
표준서식에서 관측치에서 기댓값을 뺀 값을 제곱한다고 쓰여 있는데, 실제로는 각 칸의 실제 관측치에서 각 칸의 기대치를 뺀 값을 제곱하여 그 칸의 기대치로 나눠주는 과정을 거치게 됩니다.
예를 들어 A광고의 클릭한 경우를 보면 클릭은 27명 이하였고, 기댓값은 22.09였습니다. 그러므로 이 계산은 (27-22.09)을 제곱한 다음에 22.09로 나누면 A광고의 클릭한 카이스퀘어 값이 됩니다.
정리해보면 전체 셀의 카이스퀘어 값 계산은 아래와 같이 하게 됩니다.
그래서 전체 카이스퀘어 값은 이 4가지의 값을 모두 더해서 만들게 됩니다.
고생하셨습니다. 이렇게 최종적인 카이스퀘어 값을 만들었습니다.
사실 엑셀로 만들면 간단한 수식으로 만들 수 있는 결과라고 생각됩니다. 좋은 것은 T-Test처럼 A/B만 할 수 있는 것이 아니라 A/B/C/D 4개도 할 수 있습니다. 실무에서 2개씩 비교하는 경우도 많이 있겠지만 3개 혹은 4개를 비교할 수 없다면 좀 불편할 수 있습니다.
3개, 4개를 비교할 수 있다면 한 번에 해결할 수 있는 문제를, 굳이 A/B 두 개씩으로 나눠서 여러번 분석할 필요는 없지 않을가요? 단 잊지 말아야 할 것은 각 측정치가 적어도 5개 이상씩은 되어야 한다는 점은 잊지 않는게 좋습니다.
이렇게 카이스퀘어 값을 확인했다면, 이제 자유도를 계산해야 하는데 자유도는 개념이 좀 쉽지는 않습니다.
변수의 자유로운 정도라고 하기에도 좀 어렵고 하니 실무에서는 간단하게 이렇게 생각하시는 게 편합니다
(행의 수 - 1) X (열의 수 - 1) = (2-1)X(2-1) = 1
자 그렇다면, 카이스퀘어 값과 자유도를 알게 되었다고 한다면. 그럼 이제 다음 단계로 넘어가 보시죠
우리는 엑셀로 이 분석을 하고 있다고 가정하고 있습니다. 그래서 엑셀 페이지에 이 계산이 주르륵 될 수 있게 만들었고, 자유도와 카이스퀘어 값을 알게 되었습니다. 그렇다면 다음 단계는 어떻게 하면 될까요?
다음단계는 직접 카이스퀘어 P밸류표를 자유도와 활용해서 확인하는 방법과 엑셀에 있는 CHISQ.DIST.RT함수를 사용해서 P-value를 구하는 방법이 있습니다.
우선 아주 일반적으로 사용하는 카이스퀘어 P-value표와 자유도를 통해 확인하는 방법은 통계학책이나 인터넷이 많이 있는 카이스퀘어 분포표를 가지고 확인하는 것입니다. 이런 카이스퀘어표는 온라인 어디에서나 쉽게 구할 수 있습니다.
이 표를 구하셨다고 가정하고, 우리가 확인해야 할 내용은 5% 유의수준, 자유도 1일 때의 카이스퀘어 값을 확인하는 것입니다. 아래에서 보면 0.05라고 된 부분이 있습니다. 이 의미는 유의수준이 0.05라는 의미이므로 그 아래 부분에서 왼쪽 자유도 1을 찾아보면 3.84 값이 나옵니다. 이 값을 넘어서야 A/B광고의 성과가 동일하다는 귀무가설을 기각하고 A/B광고의 성과가 다르다고 말 할 수 있게 됩니다.
그런데 우리가 얻은 통계량은 얼마였었나 보시면 ? 2.46이었습니다.
값을 비교해 보면 2.46 < 3.84가 되고 2.46이 3.84보다 작은 값을 갖고 있으므로 (거의 0.1에 가까운 값이죠?) 다시말해서 카이스퀘어 통계량을 가지고 표를 확인할 때에는 자유도와 유의수준이 교차하는 위치에 나와있는 숫자보다 커야 그 유의수준을 기각할 수 있다고 보시면 됩니다.
이 분석결과를 토대로 해서, 결론적으로 A/B의 광고클릭률 차이는 없으며 우연하게 발생한 차이다라고 이야기할 수밖에 없습니다.
그런데 왼쪽에 0.995, 0.99 이런 건 뭐냐고 물으신다면 이야기가 좀 더 어려워집니다. 카이제곱 분포는 T분포와 다르게 좌우 대칭이 아닙니다. 따라서 왼쪽 면적을 구하기 위해서 사용하는 부분이라고 생각하시면 되고, 우리는 현업에서 사용하는 보통 사용하는 유의수준 0.1부터 오른쪽의 값을 주로 활용하면 되겠습니다.
하단에 있는 표는 인터넷 어디에나 있으므로 한 개 얻어서 옆에 붙여놓고 참고로 사용하시면 좋겠습니다. 자유도에 대해서 첨언하면, 30대 40대 50대의 광고 A/B/C/D에 대한 평가를 하면 3 X 4 테이블이 되고 자유도는? 그렇습니다 (3-1)X(4-1) = 6으로 찾으시면 됩니다.
자 그럼, 표를 사용하지 않고 엑셀에서 CHISQ.DIST.RT함수를 사용하는 방법에 대해서 이야기해보시죠.
엑셀에서 앞에서 진행했던 것과 같이 카이스퀘어 값과, 자유도를 얻었다면 엑셀의 함수 중에서 다음 함수를 사용하면 됩니다.
함수의 사용법은 모두 아시겠지만, 빈셀에 +를 치고 다음에 나오는 CHISQ.DIST.RT(X,Y)를 넣어주면 된다 여기서 X는 내가 얻은 카이스퀘어 값, 그리고 Y는 계산한 자유도를 넣으면 됩니다.
을 넣게되면 이 카이스퀘어 분포의 P값을 보여주게 됩니다.
이번 분석 결과는 P값이 0.117이 나왔으며, 이 의미는 P-value가 0.05를 한참 넘어선 큰 값을 보여주므로 귀무가설인 두 광고의 성과차이가 없다는 가정을 기각하지 못합니다. 즉 두 광고는 동일한 성과를 보여주고 있다라고 말 할 수 있습니다.
위의 그림은 이 풀이과정을 엑셀로 만들었을 경우를 보여주는 유첨입니다(한번 만들어 놓고 사용하시면
편하시니까 만들어서 사용해 보세요).