brunch

You can make anything
by writing

C.S.Lewis

by 브래드 Jun 21. 2023

실무에 바로 쓰는 일잘러의 엑셀 데이터 분석(7)

변수의 관계를 찾는 상관 분석과 회귀 분석(2)

안녕하세요, 브래드입니다.


오늘은 「실무에 바로 쓰는 일잘러의 엑셀 데이터 분석」일곱 번째 시간으로 단순회귀 분석 검증을 위한 T검정과 F검정에 관해 함께 알아보아요.



단순회귀 분석 검증

T검정과 F검정

단순 회귀 분석을 검증하는 방법은 T검정 F검정이 존재합니다.


T검정은 회귀계수별 통계적 유의성을 검정하는 방법이며, F검정은 모든 회귀계수를 한꺼번에 검증하여 회귀 모형의 통계적 유의성을 검정하는 방법입니다. 


단순 회귀에서 관심을 갖는 회귀계수는 베타 원(기울기) 하나이므로 T검정과 F검정의 결과가 동일하게 나타납니다.




 1) T검정

T검정은 단순 회귀 분석의 검증 방법 중 하나로 모집단의 분산이나 표준 편차를 알지 못할 때 사용함으로써 귀무가설을 기각하여 대립가설을 입증합니다.


앞서 살펴본 대로, 단순 회귀에서는 회귀계수 베타 원(기울기)의 유의성을 판단하기 위한 가설을 검증해야 합니다. 이때 회귀계수의 P값을 이용합니다.

*P값은 1종 오류를 범할 확률
**1종 오류는 귀무가설이 참인데 귀무가설을 기각하는 경우


위 회귀 분석 이미지 예시에서는 GDP 변수의 유의성을 검정하였는데 P값이 0으로 나옴으로써 0.05보다 작은 값이 출력되었음을 알 수 있습니다.


즉, 귀무가설을 기각하고 대립가설을 채택하므로 독립 변수는 종속 변수에 유의미한 영향을 미치며 해당 회귀식을 사용해도 된다는 의미입니다. (= 세계 행복 데이터에서 1인당 GDP 변수는 행복에 영향을 미치는 유의미한 변수입니다)




 2) F검정

F 검정 통계량

F검정이란 두 모집단의 분산 차이가 있는지를 검정할 때 사용하는 통계적 검정 방법입니다.


F검정은 두 표본 집단의 분산 비율이며, F값이 클수록 두 집단 간에 분산의 차이가 커진다는 의미입니다.


따라서 귀무가설은 '두 모집단의 분산 차이가 없다'로, 대립가설은 '두 모집단의 분산 차이가 있다'로 설정할 수 있습니다.


F 검정 통계량 식을 살펴보면 MSR(=회귀 식으로 설명 가능한 변동력)이 커질수록 F값이 커지므로, F값이 크다면 회귀식이 모형에 대한 설명을 잘한다고 할 수 있습니다.




추가적으로 F 검정 통계량을 활용하여 회귀 모형 자체의 유의성을 살펴봐야 합니다.


F 검정도 T검정과 마찬가지로 베타 원(기울기)이라는 회귀계수만을 고려하므로 회귀계수는 베타 원 한 개입니다.


즉, 귀무가설은 기울기(=베타 원)가 0이라는 의미이고, 기울기가 0이면 종속 변수와 독립 변수가 관계가 없어 회귀식이 유용하지 않다는 뜻입니다. 




T검정과 마찬가지로 F검정에서도 회귀계수 베타 원의 유의성을 검증하기 위하여 회귀계수 P값을 이용합니다.


위 예시에서 살펴보면 유의한 F는 0 임을 확인할 수 있으며, 즉 P값이 0.05보다 작으므로 해당 회귀식이 유용하다고 할 수 있습니다.(=P값이 0.05보다 작으므로 모든 회귀식의 계수가 통계적 유의성이 있다)




 3) 회귀 분석을 이용한 미래 예측

단순 회귀 식을 사용하면 일정한 확률로 미래 예측이 가능합니다.


위 회귀 분석 결과에서도 볼 수 있듯이 해당 식의 결정계수는 0.61로 약 61%의 결정계수를 가집니다.


해당 회귀식에서의 독립변수인 1인당 GDP를 의미하는 X, X의 기울기인 베타 원, 절편인 베타 제로를 구하면 Y값(=앞으로의 행복 점수)을 예상할 수 있습니다.


이를 위해서 베타 원과 베타 제로를 알아야 하므로, Y절편과 1인당 GDP의 각각의 계수가 베타 원(=기울기=2.17012), 베타 제로(=Y절편=3.39643) 임을 알 수 있습니다.


따라서 앞으로의 행복 점수 Y는 다음과 같은 식을 통해 도출할 수 있습니다.

Y = 3.396427 + 2.170122 X




우리가 앞서 도출한 식을 활용하여 1인당 GDP에 따른 행복점수를 예측해 볼 수 있습니다.


여기서 주의해야 할 점은, Y절편 및 기울기 값은 변하지 않으므로 절대참조로 고정해야 합니다.


값을 차례로 구한 후, 1인당 GDP가 1인 데이터를 새로 입력하였더니 5.5라는 행복 점수가 예측되었음을 알 수 있습니다.


즉, 1인당 GDP가 1인 경우에 5.5라는 행복점수가 예측되며 이 값은 62%의 인과관계가 있다고 판단할 수 있습니다.





오늘은 「실무에 바로 쓰는 일잘러의 엑셀 데이터 분석」일곱 번째 시간으로 단순 회귀 분석을 위한 T검정과 F검정에 관해 함께 알아보았습니다.


다음 시간에는 독립 변수가 둘 이상인 다중 회귀 분석 및 다중 회귀 분석을 위한 T검정과 F검정에 대해 함께 알아보겠습니다.


브래드였습니다. 감사합니다.

매거진의 이전글 실무에 바로 쓰는 일잘러의 엑셀 데이터 분석(6)
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari