brunch

You can make anything
by writing

C.S.Lewis

by 별더하기 Sep 15. 2020

독립변수, 종속변수 그리고 분산분석

분산분석은 변수의 개수에 따라 일원배치 분산분석(one-way ANOVA)과 이원배치 분산분석(two-way ANOVA)으로 나눈다. 

일원배치 분산분석은 결과(종속변수)와 연결되는 하나의 독립변수에 영향을 받는3개 이상의 조건을 분산으로 분석해 결과(종속변수)를 도출하는 방법을 말한다. 

이원배치 분산분석은 의미 그대로 두 개의 독립변수로 검정하는 것(결과인 종속변수를 도출하는 것)을 말한다. 

각각의 독립변수는 각각의 범주(조건 또는 수준)에서 변화가 종속변수에 어떤 영향을 주는지를 파악하는 것이다. 

일원배치 분산분석이 2개의 독립변수에 따라 각각 수행된다고 생각할 수 있다. 

다만, 이원배치 분산분석은 각 독립변수의 영향력을 검정하는 것은 물론 두 독립변수의 결합으로 발생하는 영향력까지 고려해 검정한다. 

이 부분이 일원배치 분산분석과 이원배치 분산분석의 가장 큰 차이점이다. 

단순히 독립변수의 개수가 1개인지 2개인지만으로 구분한 것이 아니다. 

따라서 일원배치 분산분석은 독립변수의 주된 영향력을 검정하는 것이고 이원배치 분산분석은 상호작용의 영향력까지 검정하는 것이다. 

예를 들어, 한 독립변수의 변화가 종속변수에 미치는 영향이 또 다른 독립변수의 변화에 따라 달라질 수 있는가까지 보는 것이다.


분산분석을 수행할 때는 다음 가정이 충족돼야 한다. 

첫째, 독립변수의 조건이 서로 독립적이어야 한다(독립성).

영향을 주는 요인은 서로 독립적이어야 한다. 

둘째, 독립변수에 영향을 받는 결괏값인 연속된 종속변수의 값들은 정규분포를 만족해야 한다(정규성). 

마지막으로 독립변수의 각 조건에 따른 결과인 종속변수의 분산은 조건마다 같아야 한다(등분산성).


이쯤에서 분산분석의 핵심인 독립변수와 종속변수에 대해 생각해보자.

앞서 독립변수와 종속변수는 골턴의 회귀 모형을 이야기하며 잠깐 언급했다(분산분석과 회귀분석은 유사하다).

독립변수와 종속변수는 인과관계를 설명하는 변수로, 영향을 주는 변수(독립변수)와 영향을 받는 변수(종속변수)로 쉽게 설명할 수 있다.

독립변수에서 독립independent은 ‘다른 무언가에 의존하거나 속하지 않는 상태’로 정의된다. 

이와는 반대로 종속변수에서 종속dependent은 ‘주가 되는 무언가에 의존적인 상태’란 의미다. 

따라서 독립변수의 변화에 따라 종속변수는 의존적으로 영향을 받는다. 

그렇다면 독립변수는 ‘자주성’이 확보된 변수고 종속변수는 ‘자주성’이 확보되지 않은 변수를 의미할까? 

일반적으로는 그렇다.

근로자의 연봉 수준과 삶의 만족도를 분석한다고 가정해 보자. 

이때 귀무가설은 ‘연봉이 높으면 삶의 만족도가 높다’라고 설정한다. 

여기서 독립변수는 연봉 수준, 종속변수는 삶의 만족도임을 쉽게 알 수있다. 

이유는 연봉수준에 따라 삶의 만족도가 다를 것이라고 가설을 설정했기 때문이다. 

독립변수인 연봉 수준은 종속변수인 삶의 만족도에 영향을 주는 요인이다.

조사 대상이 1,000명이라고 가정하면 1,000명의 연봉은 대부분 다를 것이다. 

따라서 독립변수는 자주성이 확보된다고 말할 수 있다. 

영향을 받는 종속변수인 삶의 만족도가 어떤 결론으로 도출되든 독립변수를 변하게 할 수는 없다. 

또 한 가지는 유추된 결론으로부터 실험을 진행한 사람은 독립변수의 값을 임의로 조정할 수 있다. 

연봉을 10%나 20%를 올리는 경우다. 

하지만 종속변수는 값을 임의로 변경할 수 없다. 

그래서 종속변수의 변화를 보는 것이 분석의 최종 목표가 되기도 한다.



매거진의 이전글 분산분석과 실험계획법
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari