데이터 비교 및 유의미한 차이 알아내기(2)
안녕하세요, 브래드입니다.
오늘은 「실무에 바로 쓰는 일잘러의 엑셀 데이터 분석」네 번째 시간으로 세 집단 이상의 표본을 비교하는 분산 분석에 관해 함께 알아보아요.
분산 분석은 비교할 집단이 2개인 T검정 혹은 Z검정과는 다르게 세 개 이상의 집단을 비교할 때 사용합니다.
크다와 작다를 파악하는 T검정 혹은 Z검정과는 다르게 분산 분석에서는 같다 혹은 같지 않다를 파악하며, 분산을 활용하여 집단 간의 비교를 진행합니다.
분산 = 데이터 간의 치우침 정도
*분산이 크다 = 데이터 간의 치우침이 크다 → 평균이 서로 다르다
*분산이 작다 = 데이터 간의 치우침이 작다 → 평균이 같다
*통계에서는 오차를 인정하기 때문에 값이 완전히 같지 않더라도 같은 것으로 결론짓는 경우 多
분산 분석도 P값이 0.05보다 작다면 '세 집단 간 데이터의 치우침이 크다'라고 파악할 수 있으며 즉, 세 집단의 평균에는 유의미한 차이가 있다고 볼 수 있습니다.
위의 예시 이미지에서 볼 수 있듯이 분산 분석은 독립 변수의 개수에 따라 일원배치와 이원배치로 나눌 수 있습니다.
왼쪽 이미지처럼 독립변수가 '나이' 하나인 경우에는 일원배치 분산 분석을 사용하며, 오른쪽 이미지처럼 독립변수가 '나이', '시설의 종류'로 2개라면 이원배치 분산 분석을 사용합니다.
이원배치 분산 분석은 2개의 독립변수가 상호작용하므로 두 독립변수가 각 집단에 서로 영향을 주고받으면서 동시에 평균에 영향을 주는 것입니다.
두 독립변수의 상호작용은 이원배치 분산분석 중 반복이 있는 경우에 주로 확인할 수 있으며, 위의 예시에서는 어제 혹은 오늘로 데이터의 반복 유무에 따라 다시 한번 나뉘게 되는 모습입니다.
일반적으로 반복이 없다면 변수 간의 상호작용을 확인하기 어렵고, 반복이 있을 때 상호작용을 확인하기 쉬워집니다.
1) 일원배치 분산 분석
분산 분석을 위해선 [데이터] 탭 - [데이터 분석] 항목에 들어가 분석 도구를 설정합니다. 해당 실습은 일원 배치법을 사용하므로 [분산 분석: 일원 배치법]을 선택합니다.
입력범위는 문화시설이 존재하는 A열을 제외하고 B열부터 D열까지의 데이터로 설정한 후 첫째 행 이름표 사용에 체크 및 출력 범위를 지정해 줍니다.
분산 분석 일원 배치법을 실시한 결과 P값이 0.05보다 작다는 것을 파악할 수 있습니다.
즉, 연령대별 세 집단의 평균 유동인구에는 유의미한 차이가 존재한다고 결론지을 수 있습니다.
2) 이원배치 분산 분석(반복 X)
반복 없는 이원배치 분산 분석을 실습해 보겠습니다.
마찬가지로, [데이터] 탭 - [데이터 분석] 항목에 들어가 [분산 분석: 반복 없는 이원 배치법]을 클릭해 줍니다.
일원배치법과는 다르게 입력범위를 전체로 설정한 후 이름표를 체크해 줍니다. 그리고 출력범위를 설정하여 결괏값을 출력합니다.
결과를 확인해 보면, 인자 A(행)의 P값은 0.1717, 인자 B(열)의 P값은 0.038 임을 알 수 있습니다.
인자 A(행)은 문화시설의 종류로 구분되어 있으므로 인자 A는 문화시설의 종류라는 독립 변수임을 알 수 있습니다. 즉, 문화시설의 종류(=인자 A)의 P값은 0.1717로 0.05보다 크므로 '유동인구수의 평균은 문화시설의 종류를 기준으로 서로 유의미한 차이가 없다'는 결론을 얻을 수 있습니다.
인자 B(열)은 나이라는 독립 변수이고, P값이 0.038로 0.05보다 작으므로 '유동인구수의 평균은 나이를 기준으로 서로 유의미한 차이가 있다.'는 결론을 얻을 수 있습니다.
3) 이원배치 분산 분석(반복 O)
반복이 있는 이원배치 분산 분석도 마찬가지로 데이터 탭을 통해 분석 도구를 선택할 수 있습니다.
입력 범위를 D열까지로 설정한 후 표본당 행수를 '2'로 입력해 줍니다. 예시 데이터에서는 어제와 오늘로 두 차례 반복된 데이터이므로 2를 입력해 주는 것입니다. 이후 출력범위를 지정하여 실행해 줍니다.
반복이 있는 이원 배치 분석의 결과 값에서도 마찬가지로 인자 A(행) 및 인자 B(열)의 P값을 각각 확인할 수 있습니다.
인자 A는 문화시설의 종류라는 독립 변수이고 해당 P값이 0.05보다 작으므로 '유동인구수의 평균은 문화시설의 종류를 기준으로 세 집단이 서로 유의미한 차이가 있다'라고 결론지을 수 있습니다.
인자 B는 나이라는 독립변수이고, 해당 P값이 0.05보다 작으므로 '유동인구수의 평균은 문화시설의 종류를 기준으로 세 집단이 서로 유의미한 차이가 있다'라고 결론지을 수 있습니다.
추가로, 반복이 없는 이원배치 분석과는 다르게 반복이 있는 이원배치 분석에는 교호작용의 P값을 확인할 수 있습니다. 교호작용은 변수 간의 상호작용을 의미하며, 두 요인이 각 집단에 서로 영향을 주고받으면서 동시에 평균에 영향을 주는 상호작용 여부를 해당 값을 통해 파악할 수 있습니다.
예시에서의 교호작용 P값은 0.00127로 0.05보다 작은 값임을 알 수 있습니다. 즉, '나이와 문화시설의 상호작용 효과가 있다'라고 결론지을 수 있습니다.
오늘은 「실무에 바로 쓰는 일잘러의 엑셀 데이터 분석」네 번째 시간으로 세 집단 이상의 표본을 비교하는 분산 분석에 관해 함께 공부해 보았습니다.
다음 시간에는 특성이 다른 데이터를 비교하는 정규화와 표준화에 관해 함께 알아보겠습니다.
브래드였습니다. 감사합니다.