brunch

You can make anything
by writing

C.S.Lewis

by 별더하기 Aug 31. 2020

분산분석과 실험계획법

http://www.yes24.com/Product/Goods/71859635?scode=032&OzSrank=1


분산분석(analysis of variance, ANOVA)은 가설을 검증하는 방법이다. 앞서 T-검정을 통해 가설 검증을 했지만, 분산분석으로도 가설 검증을 할 수 있다. 물론 두 방식에는 약간의 차이가 있다.

서울에 거주하는 사람과 경기도에 거주하는 사람 중 어느 지역 사람이 삶의 만족도가 높을까? ‘서울에 사는 사람이 경기도에 사는 사람보다 삶의 만족도가 높다’라는 귀무가설을 세우고 이를 검증하기 위해 T-검정을 수행한다. 여기까지는 앞서 살펴본 내용과 크게 다르지 않다. 그런데 서울과 경기도, 인천시에 거주하는 사람들까지 포함해 삶의 만족도를 분석하면 어떨까? 역시나 T-검정을 수행하면 될까? 대답은 아니다. T-검정은 두 집단의 검정만 가능하며, 2개 이상의 집단을 비교 검정할 때는 분산분석을 수행해야 한다.



‘T-검정을 통해 두 집단씩 검정하면 되지 않을까?’란 의문이 들 수도 있다. 맞다. 서울과 경기, 경기와 인천, 서울과 인천의 순으로 검정해 비교해도 된다. 하지만 집단이 항상 3개 일리는 없다. 4개일 수도, 5개 또는 그 이상일 수도 있다. 또한 이렇게 검정을 진행하면 가설검정의 두 가지 오류 중에서 제1종 오류(귀무가설이 참임에도 불구하고 거짓으로 오판한 결과)를 범할 소지가 있다.

서울-경기-인천을 가정해 보면 다음과 같은 오류를 포함한 결론이도출된다. 먼저 서울과 경기를 비교해 보니 서울시민의 삶의 만족도가 높았다(서울>경기). 두 번째로 경기와 인천을 비교해보니 경기도민이 인천시민보다 삶의 만족도가 높게 나왔다(경기>인천). 여기까지 진행한 결과를 놓고 볼 때 서울시민은 인천시민보다 삶의 만족도가 높다는 결론은 유추할 수 있다. 그러나 실제 조사해 보니 인천시민의 삶의 만족도가 서울시민보다 높게 나왔다(서울<인천). 이때 분산분석을 수행한다.

분산분석은 비교 검정하고자 하는 집단들의 평균이 다를 때 집단들의 분산을 비교해 생성된 F-분포로 가설을 검정하는 방법이다. 분산분석의 개념을 정립하고 만든 사람은 앞서 소개한 로널드 피셔다. F-분포의 F도 피셔의 이름에서 ‘F’를 따서 명명됐다.



피셔는 그의 저서 『실험 계획법』에서 농작물 비교 실험을 논하며 분산분석의 개념을 전개했다. 여기에는 세 가지 핵심적인 원리가 있다. 무작위randomization와 반복reiteration, 통제blocking란 개념이다. 피셔는 세 가지 제어 환경에서 여러 속성이 각각 어떤 차이(오차)와 특성을 보이는지에 주목했다. 분석 대상의 선정에서 오는 차이와 특성(무작위), 실험 방법에 따른 결과의 차이와 특성(반복), 같지 않은 환경에서 오는 평가의 차이와 특성(통제) 등이다.

분산분석은 이러한 제어 환경에서 발생한 특성값의 변화(변동)를 분산으로 나타내고, 이 분산을 실험에 반영한 여러 제어 환경의 요인별로 분해해, 제어 환경에서 발생한 오차 값보다 더 큰 영향을 주는 요인이 무엇인가를 찾아내는 것이다. 결국 분산분석은 특성값의 분산과 변동을 분석하고 어떤 특성이 여러 조건하에서 어떻게 차이가 나는지를 판단하는 기법이다.

내용이 다소 어려울 수 있으니 참고만 하고, 분산분석은 3개 이상의 대상을 기준으로 가설을 검증하는 기법이라는 점만 기억하자. 가설 검정은 2개일 때 T-검정, 3개 이상일 때 분산분석을 쓴다.

매거진의 이전글 가까이, 가까이, 더 가까이-분산
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari