brunch

You can make anything
by writing

C.S.Lewis

by 별더하기 Nov 22. 2021

크루스칼-왈리스 검정 2

크루스칼-월리스 검정은 일원배치 분산분석의 비모수적 검정 기법으로, 서로 독립적인 환경에서 관측된 3개 이상의 집단을 검정하는 방법입니다.

크루스칼-왈리스 검정의 기본 흐름은 윌콕슨 순위합 검정과 유사합니다.

시계를 1950년대 초반으로 돌려 시카고 대학교의 한 연구실에서 일어나는 일을 잠깐 살펴 볼까요?

다음 이야기는 크루스칼-왈리스 검정을 이해하기 쉽게 각색한 허구의 이야기입니다.


미국 시카고 대학교의 한 연구실, 대공황과 제2차 세계 대전을 겪은 미국의 경제 현실에 대해 두 석학이 연일 심도 깊은 의견을 주고받았습니다.

그들은 현재 미국 경제 상황을 파악하기 위해 가장 먼저 3개 대도시를 선택하고 각종 경제 지표를 활용해 최근 5년간 도시 경제에 점수를 부여했습니다.

오늘은 그 점수를 함께 검토하는 날입니다.


“크루스칼 교수, 세 도시의 경제 점수를 뽑았습니까?”

“네, 다양한 지표를 활용해 점수를 부여했습니다. 이 표를 보시죠.”

“크루스칼 교수가 부여한 점수의 평균만 보면 세 도시 모두 큰 차이가 없는데, 보이는 그대로 받아들일 수 있을까요? 구체적인 비교가 필요해 보입니다.”

“맞습니다. 왈리스 교수님. 저도 지금 고민하고 있습니다. 서로 다른 환경에서 1차로 분석된 자료라서 모수적 검정을 진행하기는 곤란합니다. 몇몇 논문을 검토해 찾은 비모수적 검정인 만-위트니 검정으로 두 도시씩 검정을 진행할까 생각하고 있습니다.”

“그것도 좋은 방법이네요. 추가로 윌콕슨의 순위합 검정을 응용해다집단 비모수적 검정을 새롭게 연구해 보는 건 어떨까요?”

“아! 좋은 방법인 것 같습니다. 연구하고 다음에 결과를 알려드리겠습니다.”


며칠 뒤, 크루스칼이 정리한 순위표를 검토하는 자리에서 두 사람은 다시 만났습니다.

“정리된 표를 보면 윌콕슨 순위합 검정대로 세 도시의 경제 점수를오름차순으로 정리하고 그에 따른 순위를 부여하였습니다. 정렬된 경제 점수 뒤에 붙은 이니셜은 N은 뉴욕, C는 시카고, L은 LA입니다. 이를 기준으로 도시별 순위의 합을 다음과 같이 구했습니다.”


뉴욕의 순위합: 3+5+6+11.5+15 = 40.5, 평균 순위: 40.5/5 = 8.1

시카고의 순위합: 2+7+8+9+13 = 39, 평균 순위: 39/5 = 7.8

LA의 순위합: 1+4+10+11.5+14 = 40.5, 평균 순위: 40.5/5 = 8.1


“세 도시의 순위합을 구한 후 평균 순위를 구했는데 셋 다 비슷합니다. 세 도시 모두 경제적 어려움이 있는 것으로 보입니다.”

“크루스칼 교수, 무엇보다 3개의 독립적인 표본도 비모수적 검정이가능하다는 사실이 중요한 거 같습니다. 정말 수고하셨습니다.”


이야기가 너무 비약적이고 즉흥적인 면도 없지 않아 있지만, 크루스칼-월리스 검정을 이해하기에는 충분할 것입니다.

크루스칼-왈리스 검정은 관측된 값들의 중앙값을 기본으로 한다는 점에서 윌콕슨 순위합 검정이나 만-위트니 검정과 유사합니다.



매거진의 이전글 크루스칼-왈리스 검정 1
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari