brunch

You can make anything
by writing

C.S.Lewis

by 브래드 Jun 22. 2023

실무에 바로 쓰는 일잘러의 엑셀 데이터 분석(8)

변수의 관계를 찾는 상관 분석과 회귀 분석(3)

안녕하세요, 브래드입니다.


오늘은 「실무에 바로 쓰는 일잘러의 엑셀 데이터 분석」여덟 번째 시간으로 독립 변수가 둘 이상인 다중 회구 분석에 관해 함께 알아보아요.




다중 회귀 분석

다중 회귀 분석 식

다중 회귀 분석2개 이상의 연속형 독립 변수가 연속형 종속 변수인 Y에 미치는 영향을 검증하는 방법입니다.


다중 회귀 분석은 베타 제로를 절편으로, 베타 원에서 베타 k까지를 기울기로, 엡실론을 오차항으로 갖는 함수식으로 표현됩니다.



 1) 다중 회귀 분석 실습

다중 회귀 분석 실습으로 행복 점수에 영향을 미치는 요인들(1인당 GDP, 가족, 건강, 자유)이 각각 얼마나 영향을 미치는지 알아보겠습니다.


먼저 상관분석을 위하여 [데이터] 탭 - [데이터 분석] - [상관 분석]을 선택하여 입력 범위 및 첫째 행 이름표 사용 체크, 출력 범위 입력을 진행해 줍니다.


이때 입력범위는 종속 변수인 행복 점수부터 독립변수인 '1인당 GDP ~자유'까지를 입력해 줍니다.




 

출력된 결과 값은 다음과 같습니다.


상관계수 절댓값의 크기가 1에 가까울수록 강한 상관관계이므로 상관계수가 0.78인 1인당 GDP와 행복 점수 간에 강한 양의 상관관계가 존재하며, 자유는 상대적으로 상관관계가 약함을 알 수 있습니다.




본격적인 다중 회귀 분석을 위하여 앞서 상관분석을 할 때 가장 상관관계가 약했던 자유 항목을 제외하고 회귀 분석을 진행하겠습니다.


자유 데이터를 제외하는 이유는 회귀 분석 시 변수가 많을수록 오차가 많아지므로 상관분석 시 상대적으로 약한 상관관계를 가지는 데이터를 제외하는 것이 좋습니다.


[데이터] 탭 - [데이터 분석] - [회귀분석]을 클릭하여 Y축 입력 범위, X축 입력 범위, 이름표, 출력 범위, 잔차를 각각 입력하여 실행해 줍니다.




다중 회귀 분석 결과 값입니다.


해당 출격 값에서 결정계수와 함께 조정된 결정계수를 살펴봐야 하며, 예시 이미지에서는 약 0.7로 70% 임을 알 수 있습니다.


즉, 약 70% 확률로 유의미한 예측이 가능하다고 판단할 수 있습니다. 




 2) 다중 회귀 분석 결과 검정

   2-1. T검정: 회귀 계수별 유의성 검정

다중 회귀 분석 검증을 위한 T검정과 F검정

다중 회귀 분석에서도 마찬가지로 회귀계수별 통계적 유의성을 검정하기 위하여 T검정모든 회귀계수를 한꺼번에 검증하여 유의성을 검정하는 F검정을 사용합니다.


다중 회귀 분석에서는 회귀계수가 베타 원부터 베타 K까지 여러 개이므로 T검정과 F검정의 결과가 다르게 도출됩니다.

 



가설 설정 예시

다중 회귀 분석에 앞서서 우리는 위와 같이 귀무가설대립가설을 설정할 수 있습니다.


다중 회귀 분석에서는 회귀계수가 여러 개 존재하므로 1부터 k까지 범위를 모두 포함할 수 있도록 관심 있는 i번째 회귀계수를 베타 i라고 설정합니다.


추가적으로, 우리가 원하는 것은 종속 변수와 독립 변수 Xi의 관계이므로 Xi 이외의 독립 변수가 고정되었다고 가정합니다. 




먼저 T검정을 통해 회귀계수별 유의성 검증입니다.


회귀계수 베타 원부터 베타 K까지의 유의성 검증을 위하여 마찬가지로 P값을 이용하며 예시 내 각각의 P값들은 모두 0 임을 알 수 있습니다.


즉, P값이 0.05보다 작으므로 각각의 독립 변수 모두 종속 변수에 유의미한 영향을 미친다고 해석할 수 있습니다.


이때 앞선 가정에서 다른 독립 변수들이 변하지 않는다는 조건이 존재하였으므로 조건에 맞춰 유의성을 다음과 같이 해석할 수 있습니다.

- 다른 독립 변수(가족, 건강)가 변하지 않을 때, 독립 변수 1인당 GDP는 종속 변수 행복 점수에 유의미한 영향을 미친다.

- 다른 독립 변수(1인당 GDP, 건강)가 변하지 않을 때, 독립 변수 가족은 종속 변수 행복 점수에 유의미한 영향을 미친다.

- 다른 독립 변수(1인당 GDP, 가족)가 변하지 않을 때, 독립 변수 건강은 종속 변수 행복 점수에 유의미한 영향을 미친다.




   2-2. F검정: 회귀 모형의 통계적 유의성 진단

F검정 통계량

다중 회귀 분석 검정에서도 F검정을 통해 두 집단의 분산이 같은지 다른지 판단합니다.


F값은 모든 독립 변수와 종속 변수 간에 선형관계가 존재하는 정도를 의미하므로, 만약 모든 회귀계수의 F값이 유의하지 않으면 통계적으로 모든 회귀 계수는 사실상 0으로 간주됩니다. 




회귀 모형의 유의성 파악은 회귀계수의 P값을 사용하므로 0.05 미만일 시 회귀 모형이 통계적으로 유의하다고 말할 수 있습니다.


위 예시에서는 유의한 F(P값)가 0이므로 회귀 모형이 통계적으로 매우 유의하다고 말할 수 있습니다.(=이 회귀식은 통계적 유의성을 갖는다)




 3) 다중 회귀 분석을 이용한 미래 예측

다중 회귀 분석식

단순 회귀 분석과 마찬가지로 다중 회귀 분석 식을 활용하여 미래 예측을 해볼 수 있습니다.


위 분산 분석 내 데이터를 활용하여 다중 회귀 분석식을 작성해 보면, [Y = 2.65 + 1.24X1 + 0.83X2 + 1.11X3]로 나타낼 수 있습니다.(여기서 X는 곱하기가 아닌 변수 X)




위의 식을 활용하여 작성한 후 드래그 하여 각각의 행복 점수 값을 채워줍니다.


그리고 1인당 GDP, 가족, 건강에 새로운 데이터를 입력하면 자동으로 행복 점수 값이 예측됨을 알 수 있습니다.


즉, 새로운 데이터 대해 미래의 행복 점수를 예측했을 때 행복 점수가 6.41이라는 것을 알 수 있으며, 이 값이 약 70%의 확률로 인과관계가 있다고 판단할 수 있습니다.






오늘은 「실무에 바로 쓰는 일잘러의 엑셀 데이터 분석」여덟 번째 시간으로 독립 변수가 둘 이사인 다중 회귀 분석에 관해 함께 알아보았습니다.


다음 시간부터는 탐색적 데이터 분석을 위한 시각화에 관해 공부해 보아요.


브래드였습니다. 감사합니다.

매거진의 이전글 실무에 바로 쓰는 일잘러의 엑셀 데이터 분석(7)

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari