brunch

You can make anything
by writing

C.S.Lewis

by 브래드 Jun 15. 2023

실무에 바로 쓰는 일잘러의 엑셀 데이터 분석(3)

데이터를 비교 및 유의미한 차이 알아내기(1)

안녕하세요, 브래드입니다.


오늘은 「실무에 바로 쓰는 일잘러의 엑셀 데이터 분석」세 번째 시간으로 데이터를 비교하여 유의미한 차이를 알아내는 방법에 관해 함께 살펴보아요.



Z검정과 T검정

Z검정과 T검정은 평균의 차이만으로 두 집단을 비교하는 것을 넘어 그 차이의 정도가 통계적 유의성이 있는지 검정할 때 사용합니다.

- Z검정: 모집단의 분산 값을 알고 있을 때 사용
- T검정: 모집단의 분산 값을 모를 때 사용 


통계학 내에서는 대표적으로 사용되는 두 가설인 대립가설귀무가설을 사용하여 유의미한 차이를 증명할 수 있습니다.


대립가설인 '두 집단의 평균에는 유의미한 차이가 있다.'를 증명할 때는 반대되는 가설인 귀무가설인 '평균의 차이가 없다'를 기각하는 방법을 사용합니다.


이때 P값을 사용하며, P값이란 귀무가설이 참이라고 주장할 수 있는 값들이 실제로 관측될 확률입니다. 일반적으로 P값이 0.05보다 작으면 귀무가설이 기각되어 두 집단에 유의미한 차이가 있다는 대립가설이 참이 됩니다.




모집단의 분산 값을 모를 때 사용하는 T검정등분산 검정이분산 검정으로 구분할 수 있습니다.


등분산은 두 집단의 분산이 같다고 가정하는 것이며, 이분산은 두 집단의 분산이 다르다고 가정하는 것입니다.


추가적으로 검증 단계 이전에 가설을 세울 때는 어느 한쪽으로 방향을 정할 수도 있고 혹은 방향을 정하지 않을 수도 있습니다.


'C집단의 평균이 더 크지 않을까?'처럼 가설의 방향이 일방향적으로 존재한다면 단측검정이며, 'C집단과 D집단 사이에 차이가 있다'와 같이 어느 한쪽으로 방향을 결정하지 않는다면 양측검정에 해당합니다.




Z검정 실습

*해당 실습 데이터는 도서 구매 시 확인할 수 있습니다.

앞서 살펴본 Z검정과 T검정 중 먼저 Z검정을 살펴보겠습니다.


Z검정은 비교할 두 집단의 분산 값을 알고 있을 때 사용하므로 먼저 두 집단의 분산을 구하기 위해 엑셀 내에서 VAR.P 함수를 사용하여 모집단의 분산을 구합니다.

=VAR.P(모집단 범위)
=VAR.S(표본 집단 범위)




분산을 구한 후에는 데이터 분석 탭을 활용하여 Z-검정: 평균에 대한 두 집단을 선택합니다.


우선적으로, 변수 1 입력 범위와 변수 2 입력 범위를 지정한 후 가설 평균차를 0으로 입력합니다.

가설 평균차를 0으로 입력하는 이유는 가설 검증은 귀무가설(두 집단의 평균 차이가 0이다)을 검증하여 기각함으로써 주장하고자 하는 바가 참임을 증명하기 때문입니다.


분산-기지값에는 앞서 구해준 성별 분산 값을 각각 입력합니다. 그리고 출력 범위를 지정한 후 확인을 눌러줍니다.




검정 결과가 다음과 같이 나옴을 알 수 있습니다.


만약, P값이 6.15E-07처럼 나온다면 소수점 자릿수가 많아 값이 제대로 표시되지 않은 것이니, [셀 서식] - 숫자 - 소수 자릿수 10을 입력하여 위 이미지처럼 표시되도록 합니다.


예시에서 P값은 단측과 양측 모두 P값이 0.05보다 작음을 알 수 있습니다. 따라서 두 집단 간에는 유의미한 평균 차이가 없다는 귀무가설이 기각되었으며, 대립가설이 참이라는 결론을 얻을 수 있습니다.





T검정 실습

1) 등분산 검정

T검정은 Z검정과는 다르게 두 집단의 분산을 모를 때 사용합니다. 따라서, 일반적으로는 T검정이 주로 사용되는 편입니다.


T검정의 두 분류 중 먼저 등분산 검정을 알아보겠습니다. [데이터 탭] - [데이터 분석 ] - [T검정: 등분산 가정 두 집단]을 클릭합니다.


그리고 입력 범위를 각각 입력, 이름표 항목에 클릭, 가설 평균치는 0으로 입력하고 출력범위를 지정해 줍니다.




Z검정과 마찬가지로 소수점이 제대로 표시되지 않는다면 셀 서식에 들어간 후 소수점 자리 수를 늘려주도록 합니다.


위 결과에서 볼 수 있듯이 P값은 단측과 양측 모두 0.05보다 작다는 것을 알 수 있습니다.


따라서, 두 집단 간에 유의미한 차이가 없다는 귀무가설이 기각되었으며, 대립가설이 참임을 파악할 수 있습니다. (즉, 두 집단 간에는 유의미한 차이가 존재한다.)




2) 이분산 검정

이분산 검정도 마찬가지로 데이터 분석 탭에서 선택한 후 값을 각각 입력하여 다음과 같이 출력할 수 있습니다.


마찬가지로 두 P값 모두 0.05 보다 작으므로, 귀무가설이 기각되고 대립가설이 참임을 알 수 있습니다.





오늘은 「실무에 바로 쓰는 일잘러의 엑셀 데이터 분석」세 번째 시간으로 Z검정과 T검정의 기본 개념 및 각각의 개념을 엑셀 데이터 분석 기능을 통해 실습해 보는 시간을 가져보았습니다.


다음 시간에는 관련된 내용에 이어서 세 집단 이상의 표본을 비교하는 분산 분석을 함께 알아보겠습니다.


감사합니다.

매거진의 이전글 실무에 바로 쓰는 일잘러의 엑셀 데이터 분석(2)
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari