brunch

실무에 바로 쓰는 일잘러의 엑셀 데이터 분석(3)

데이터를 비교 및 유의미한 차이 알아내기(1)

by 브래드

안녕하세요, 브래드입니다.


오늘은 「실무에 바로 쓰는 일잘러의 엑셀 데이터 분석」세 번째 시간으로 데이터를 비교하여 유의미한 차이를 알아내는 방법에 관해 함께 살펴보아요.



Z검정과 T검정

22.jpg

Z검정과 T검정은 평균의 차이만으로 두 집단을 비교하는 것을 넘어 그 차이의 정도가 통계적 유의성이 있는지 검정할 때 사용합니다.

- Z검정: 모집단의 분산 값을 알고 있을 때 사용
- T검정: 모집단의 분산 값을 모를 때 사용


통계학 내에서는 대표적으로 사용되는 두 가설인 대립가설귀무가설을 사용하여 유의미한 차이를 증명할 수 있습니다.


대립가설인 '두 집단의 평균에는 유의미한 차이가 있다.'를 증명할 때는 반대되는 가설인 귀무가설인 '평균의 차이가 없다'를 기각하는 방법을 사용합니다.


이때 P값을 사용하며, P값이란 귀무가설이 참이라고 주장할 수 있는 값들이 실제로 관측될 확률입니다. 일반적으로 P값이 0.05보다 작으면 귀무가설이 기각되어 두 집단에 유의미한 차이가 있다는 대립가설이 참이 됩니다.




00.jpg

모집단의 분산 값을 모를 때 사용하는 T검정등분산 검정이분산 검정으로 구분할 수 있습니다.


등분산은 두 집단의 분산이 같다고 가정하는 것이며, 이분산은 두 집단의 분산이 다르다고 가정하는 것입니다.


추가적으로 검증 단계 이전에 가설을 세울 때는 어느 한쪽으로 방향을 정할 수도 있고 혹은 방향을 정하지 않을 수도 있습니다.


'C집단의 평균이 더 크지 않을까?'처럼 가설의 방향이 일방향적으로 존재한다면 단측검정이며, 'C집단과 D집단 사이에 차이가 있다'와 같이 어느 한쪽으로 방향을 결정하지 않는다면 양측검정에 해당합니다.




Z검정 실습

4.JPG *해당 실습 데이터는 도서 구매 시 확인할 수 있습니다.

앞서 살펴본 Z검정과 T검정 중 먼저 Z검정을 살펴보겠습니다.


Z검정은 비교할 두 집단의 분산 값을 알고 있을 때 사용하므로 먼저 두 집단의 분산을 구하기 위해 엑셀 내에서 VAR.P 함수를 사용하여 모집단의 분산을 구합니다.

=VAR.P(모집단 범위)
=VAR.S(표본 집단 범위)




7.JPG

분산을 구한 후에는 데이터 분석 탭을 활용하여 Z-검정: 평균에 대한 두 집단을 선택합니다.


우선적으로, 변수 1 입력 범위와 변수 2 입력 범위를 지정한 후 가설 평균차를 0으로 입력합니다.

가설 평균차를 0으로 입력하는 이유는 가설 검증은 귀무가설(두 집단의 평균 차이가 0이다)을 검증하여 기각함으로써 주장하고자 하는 바가 참임을 증명하기 때문입니다.


분산-기지값에는 앞서 구해준 성별 분산 값을 각각 입력합니다. 그리고 출력 범위를 지정한 후 확인을 눌러줍니다.




45.JPG

검정 결과가 다음과 같이 나옴을 알 수 있습니다.


만약, P값이 6.15E-07처럼 나온다면 소수점 자릿수가 많아 값이 제대로 표시되지 않은 것이니, [셀 서식] - 숫자 - 소수 자릿수 10을 입력하여 위 이미지처럼 표시되도록 합니다.


예시에서 P값은 단측과 양측 모두 P값이 0.05보다 작음을 알 수 있습니다. 따라서 두 집단 간에는 유의미한 평균 차이가 없다는 귀무가설이 기각되었으며, 대립가설이 참이라는 결론을 얻을 수 있습니다.





T검정 실습

1) 등분산 검정

67.JPG

T검정은 Z검정과는 다르게 두 집단의 분산을 모를 때 사용합니다. 따라서, 일반적으로는 T검정이 주로 사용되는 편입니다.


T검정의 두 분류 중 먼저 등분산 검정을 알아보겠습니다. [데이터 탭] - [데이터 분석 ] - [T검정: 등분산 가정 두 집단]을 클릭합니다.


그리고 입력 범위를 각각 입력, 이름표 항목에 클릭, 가설 평균치는 0으로 입력하고 출력범위를 지정해 줍니다.




33.JPG

Z검정과 마찬가지로 소수점이 제대로 표시되지 않는다면 셀 서식에 들어간 후 소수점 자리 수를 늘려주도록 합니다.


위 결과에서 볼 수 있듯이 P값은 단측과 양측 모두 0.05보다 작다는 것을 알 수 있습니다.


따라서, 두 집단 간에 유의미한 차이가 없다는 귀무가설이 기각되었으며, 대립가설이 참임을 파악할 수 있습니다. (즉, 두 집단 간에는 유의미한 차이가 존재한다.)




2) 이분산 검정

666.JPG

이분산 검정도 마찬가지로 데이터 분석 탭에서 선택한 후 값을 각각 입력하여 다음과 같이 출력할 수 있습니다.


마찬가지로 두 P값 모두 0.05 보다 작으므로, 귀무가설이 기각되고 대립가설이 참임을 알 수 있습니다.





오늘은 「실무에 바로 쓰는 일잘러의 엑셀 데이터 분석」세 번째 시간으로 Z검정과 T검정의 기본 개념 및 각각의 개념을 엑셀 데이터 분석 기능을 통해 실습해 보는 시간을 가져보았습니다.


다음 시간에는 관련된 내용에 이어서 세 집단 이상의 표본을 비교하는 분산 분석을 함께 알아보겠습니다.


감사합니다.

keyword
매거진의 이전글실무에 바로 쓰는 일잘러의 엑셀 데이터 분석(2)