실무에 바로 쓰는 일잘러의 엑셀 데이터 분석(4)

데이터 비교 및 유의미한 차이 알아내기(2)

by 브래드

Jun 16. 2023

안녕하세요, 브래드입니다.

오늘은 「실무에 바로 쓰는 일잘러의 엑셀 데이터 분석」네 번째 시간으로 세 집단 이상의 표본을 비교하는 분산 분석에 관해 함께 알아보아요.

세 집단 이상의 표본을 비교하는 분산 분석

분산 분석은 비교할 집단이 2개인 T검정 혹은 Z검정과는 다르게 세 개 이상의 집단을 비교할 때 사용합니다.

크다와 작다를 파악하는 T검정 혹은 Z검정과는 다르게 분산 분석에서는 같다 혹은 같지 않다를 파악하며, 분산을 활용하여 집단 간의 비교를 진행합니다.

분산 = 데이터 간의 치우침 정도
*분산이 크다 = 데이터 간의 치우침이 크다 → 평균이 서로 다르다
*분산이 작다 = 데이터 간의 치우침이 작다 → 평균이 같다
*통계에서는 오차를 인정하기 때문에 값이 완전히 같지 않더라도 같은 것으로 결론짓는 경우 多

일원배치와 이원배치

분산 분석도 P값이 0.05보다 작다면 '세 집단 간 데이터의 치우침이 크다'라고 파악할 수 있으며 즉, 세 집단의 평균에는 유의미한 차이가 있다고 볼 수 있습니다.

위의 예시 이미지에서 볼 수 있듯이 분산 분석은 독립 변수의 개수에 따라 일원배치와 이원배치로 나눌 수 있습니다.

왼쪽 이미지처럼 독립변수가 '나이' 하나인 경우에는 일원배치 분산 분석을 사용하며, 오른쪽 이미지처럼 독립변수가 '나이', '시설의 종류'로 2개라면 이원배치 분산 분석을 사용합니다.

이원배치 분산 분석은 2개의 독립변수가 상호작용하므로 두 독립변수가 각 집단에 서로 영향을 주고받으면서 동시에 평균에 영향을 주는 것입니다.

두 독립변수의 상호작용은 이원배치 분산분석 중 반복이 있는 경우에 주로 확인할 수 있으며, 위의 예시에서는 어제 혹은 오늘로 데이터의 반복 유무에 따라 다시 한번 나뉘게 되는 모습입니다.

일반적으로 반복이 없다면 변수 간의 상호작용을 확인하기 어렵고, 반복이 있을 때 상호작용을 확인하기 쉬워집니다.

분산 분석 실습

1) 일원배치 분산 분석

분산 분석을 위해선 [데이터] 탭 - [데이터 분석] 항목에 들어가 분석 도구를 설정합니다. 해당 실습은 일원 배치법을 사용하므로 [분산 분석: 일원 배치법]을 선택합니다.

입력범위는 문화시설이 존재하는 A열을 제외하고 B열부터 D열까지의 데이터로 설정한 후 첫째 행 이름표 사용에 체크 및 출력 범위를 지정해 줍니다.

분산 분석 일원 배치법을 실시한 결과 P값이 0.05보다 작다는 것을 파악할 수 있습니다.

즉, 연령대별 세 집단의 평균 유동인구에는 유의미한 차이가 존재한다고 결론지을 수 있습니다.

2) 이원배치 분산 분석(반복 X)

반복 없는 이원배치 분산 분석을 실습해 보겠습니다.

마찬가지로, [데이터] 탭 - [데이터 분석] 항목에 들어가 [분산 분석: 반복 없는 이원 배치법]을 클릭해 줍니다.

일원배치법과는 다르게 입력범위를 전체로 설정한 후 이름표를 체크해 줍니다. 그리고 출력범위를 설정하여 결괏값을 출력합니다.

결과를 확인해 보면, 인자 A(행)의 P값은 0.1717, 인자 B(열)의 P값은 0.038 임을 알 수 있습니다.

인자 A(행)은 문화시설의 종류로 구분되어 있으므로 인자 A는 문화시설의 종류라는 독립 변수임을 알 수 있습니다. 즉, 문화시설의 종류(=인자 A)의 P값은 0.1717로 0.05보다 크므로 '유동인구수의 평균은 문화시설의 종류를 기준으로 서로 유의미한 차이가 없다'는 결론을 얻을 수 있습니다.

인자 B(열)은 나이라는 독립 변수이고, P값이 0.038로 0.05보다 작으므로 '유동인구수의 평균은 나이를 기준으로 서로 유의미한 차이가 있다.'는 결론을 얻을 수 있습니다.

3) 이원배치 분산 분석(반복 O)

반복이 있는 이원배치 분산 분석도 마찬가지로 데이터 탭을 통해 분석 도구를 선택할 수 있습니다.

입력 범위를 D열까지로 설정한 후 표본당 행수를 '2'로 입력해 줍니다. 예시 데이터에서는 어제와 오늘로 두 차례 반복된 데이터이므로 2를 입력해 주는 것입니다. 이후 출력범위를 지정하여 실행해 줍니다.

반복이 있는 이원 배치 분석의 결과 값에서도 마찬가지로 인자 A(행) 및 인자 B(열)의 P값을 각각 확인할 수 있습니다.

인자 A는 문화시설의 종류라는 독립 변수이고 해당 P값이 0.05보다 작으므로 '유동인구수의 평균은 문화시설의 종류를 기준으로 세 집단이 서로 유의미한 차이가 있다'라고 결론지을 수 있습니다.

인자 B는 나이라는 독립변수이고, 해당 P값이 0.05보다 작으므로 '유동인구수의 평균은 문화시설의 종류를 기준으로 세 집단이 서로 유의미한 차이가 있다'라고 결론지을 수 있습니다.

추가로, 반복이 없는 이원배치 분석과는 다르게 반복이 있는 이원배치 분석에는 교호작용의 P값을 확인할 수 있습니다. 교호작용은 변수 간의 상호작용을 의미하며, 두 요인이 각 집단에 서로 영향을 주고받으면서 동시에 평균에 영향을 주는 상호작용 여부를 해당 값을 통해 파악할 수 있습니다.

예시에서의 교호작용 P값은 0.00127로 0.05보다 작은 값임을 알 수 있습니다. 즉, '나이와 문화시설의 상호작용 효과가 있다'라고 결론지을 수 있습니다.

오늘은 「실무에 바로 쓰는 일잘러의 엑셀 데이터 분석」네 번째 시간으로 세 집단 이상의 표본을 비교하는 분산 분석에 관해 함께 공부해 보았습니다.

다음 시간에는 특성이 다른 데이터를 비교하는 정규화와 표준화에 관해 함께 알아보겠습니다.

브래드였습니다. 감사합니다.

keyword

매거진의 이전글실무에 바로 쓰는 일잘러의 엑셀 데이터 분석(3)실무에 바로 쓰는 일잘러의 엑셀 데이터 분석(5)매거진의 다음글