brunch

회귀 분석(Regression)에서 β계수 추정하기

출퇴근길에 공부하는 머신러닝

by 별똥별 shooting star


들어가며

회귀분석을 할 때 가장 중요한 것 중 하나가 계수, 즉 β를 어떻게 추정하느냐이다. 조금 더 쉽게 설명하자면 β는 변수들의 중요도나 영향도를 나타내는 지표라고 보면 된다. 이번 편에서는 β를 어떻게 추정하는지, 그리고 추정한 β가 어떤 의미를 가지는지에 대해서 살펴보고자 한다.



1. β(계수) 추정하는 방법

β를 추정할 때는 편미분을 이용해서 추정을 진행한다. Linear Regression의 Loss Function은 Closed Form Quadratic 형태라서 미분만으로도 쉽게 추정할 수 있다. 여러 개의 β가 있을 때에도 각 β에 대해 미분을 해서 추정을 진행할 수 있다.



2. 추정한 β 검증하는 방법, P-Value

추정한 β를 그냥 무작정 믿으면 안 된다. 반드시 검증 과정을 거쳐야 한다. 이러한 검증에 사용되는 것이 P-Value이다. β에 대한 P-Value가 낮으면 그 β의 기울기가 0이 아닌 것으로 판단한다. 보통 P-Value가 0.05 이하면 그 β는 의미가 있다고 본다. (β의 기울기가 0일 확률이 5% 미만이라는 의미이다.) 즉, P-Value가 0.05 이하이면 귀무가설을 기각하고 대립가설을 채택하게 된다.


여기에서 귀무가설, 대립가설이라는 용어가 생소하신 분들이 있을 것 같아, 아래에 짧게 설명해 놓았다.

귀무가설 : 변화가 없다. 효과가 없다는 주장을 나타내는 가설이다.

대립가설 : 귀무가설의 반대 상황을 나타내는 가설로, 연구자가 검증하고 싶은 주장을 표현한다.



3. β(계수)를 해석하는 방법

모델의 결과를 해석할 때 중요한 두 가지 포인트가 있다. 첫 번째는 βi (계수) 값이고 두 번째는 p-value이다.


1) βi (계수) 값

X가 1만큼 올랐을 때 Y가 얼마나 변화하는지를 보여주는 것이다. 예를 들어서, β1이 10이면, X1이 1만큼 올랐을 때 Y는 10만큼 올라간다는 의미이다. 그러나 여기에서 주의할 점이 있다. 다른 X 변수들과 비교할 때 스케일이 달라서 그냥 크기만 보고 판단하면 안 된다. 또다시 예를 들면, 키와 몸무게처럼 단위가 다른 두 변수를 비교할 때, 그냥 β값만 봐서는 어떤 변수가 중요한지 알기 어렵다는 것이다.


2) p-value

β이 크다고 해서 무조건 좋은 것은 아니다.β값이 크더라도 이 값이 우연히 나온 것인지, 아니면 실제로 의미 있는 값인지 확인해야 한다. 그러기 위해서 필요한 지표가 p-value이다. p-value가 작으면, 그 β값이 실제로 의미가 있다고 볼 수 있다. 보통 0.05 보다 작으면 의미가 있다고 판단한다.



마치며

이렇게 β를 추정하고 검증을 하면, 이 과정을 통해서 데이터의 패턴을 제대로 파악하고 예측하는데 큰 도움이 될 것이다. 이어서 다음 편에서는 회귀 분석 모델을 평가하는 방법에 대해서 알아보도록 할 예정이다.

keyword
매거진의 이전글회귀 분석, Loss Function에 대해 알아보기