brunch

You can make anything
by writing

C.S.Lewis

by 도안 Dec 28. 2022

2.2.1 선형회귀 예측분석

소규모 사업을 위한 데이터분석 마케팅 기법

마케터는 어떤 행동을 취했을 때 고객들이 어떤 반응을 보일지 예상하고 싶을 것입니다. 데이터를 이용하여 미래를 예측하는데 회귀분석이 널리 쓰입니다. 회귀분석은 특정 요인들이 어떻게 성과에 영향을 주는지 이해하고, 같은 전략을 계속 쓰면 어떤 결과가 나올지 예측하는 기법입니다. 


선형회귀(Linear regression)

선형회귀는 회귀분석에 기본적인 방법으로 독립변수와 종속변수의 관계를 알아냅니다. 독립변수와 원인변수,  종속변수와 결과변수는 같은 뜻으로 용어가 섞여서 쓰입니다. 선형회귀를 이용하면 다음과 같은 질문들에 답할 수 있습니다. 

인스타그램 광고를 늘리면 매출이 얼마나 증가할까?

할인판매 횟수를 늘리면 매출이 얼마나 늘어날까?

첫 번째 질문에서 독립변수는 광고 횟수이고 종속변수는 매출액입니다.

두 번째 질문에서 독립변수는 할인판매 횟수이고 종속변수는 매출액입니다.



공식 (단순회귀, 다중회귀)

Y는 종속변수, X는 독립변수, a는 절편, b는 계수입니다. 

예를 들어 광고 횟수와 매출액의 관계를 알아보는 경우입니다. 독립변수 X는 광고 횟수이며 Y는 매출액이 됩니다. 절편 a는 광고를 하지 않았을 때 기본적으로 발생하는 매출액을 뜻합니다. 계수 b는 독립변수의 영향력을 나타냅니다. b는 음수가 될 수 도 있습니다. 


두 번째 공식은 독립변수 X가 여러 개 임을 볼 수 있습니다. 광고와 할인판매 횟수등 2개 이상의 독립변수를 사용하여 종속변수인 매출액과의 관계를 알아낼 때 사용합니다. 독립변수가 하나이면 단순회귀, 여러 개이면 다중회귀라고 합니다.



선형회귀의 해석

선형회귀는 프로그램을 돌림으로써 데이터의 관계를 나타내는 최적에 직선을 찾아냅니다. 직선을 찾아낸다는것은 절편 a와 계수 b를 알아내고 공식을 완성하는것입니다. 공식에 새로운 독립변수를 입력하면 예측값 Y를 얻을 수 있습니다.


선형회귀를 해석하기 위해서는 다음에 값들을 알아야 합니다.


1) R제곱(R-squared)

선형회귀에서 직선은 추세를 나타냅니다. 그렇다면 직선은 데이터에 얼마나 적합할까요? 다시 말해 데이터가 추세에 잘 들어맞 있을까요? 선형회귀로 얻은 직선은 과거의 데이터로 미래를 예측 합니다. 직선이 적합하다면 새로운 데이터가 들어왔을 때 높은 정확도로 예측합니다. R제곱은 직선이 예측을 하는데 얼마나 유용한가를 나타냅니다..

R제곱은 0과 1 사이의 값을 가집니다.  R은 상관관계를 뜻합니다. 따라서 상관계수를 먼저 찾고 제곱을 합니다. R값이 1에 가까울수록 적합도가 높고 0에 가까우면 낮습니다. 

공학적 연구에서 회귀식을 사용하면 R제곱은 최소한 0.9 이상되어야 합니다. 그러나 고객의 행동 예측과 같은 사회과학에서는 0.6 이상이면 수용가능하고 0.8 이상이면 높다고 판단합니다. 

좌측 그림은 직선이 평행하고 우측 그림은 우상향 하고 있습니다. 눈으로 보면 오른쪽이 추세를 더 잘 반영하는 것으로 보입니다. 프로그램을 이용하면 R값을 계산해줍니다. R값이 높아질수록 확실성이 높고 잘 예측할 수 있습니다. 

R제곱 값은 통계학에서 결정계수라고 부릅니다. 자세한 설명은 위키피디아에서 볼 수 있습니다. 

https://ko.wikipedia.org/wiki/결정계수


2) P값(P-value)

R제곱 값으로 적합도를 확인하고 나면 P 값을 확인해야 합니다. 결론부터 말하면 P값은 0.05보다 작아야 합니다. 

P값은 귀무가설이 사실일 때 때 적어도 그 정도에 극단적인 값이 나올 확률을 말합니다. P 값을 귀무가설이 맞을 확률로 오해하면 안 됩니다. 귀무가설은 아무런 차이가 없음을 말합니다.

예를 들어 귀무가설은 <인스타그램으로 광고를 하여도 매출에 차이가 없다>입니다. 

대립가설은 <인스타그램으로 광고를 하면 매출이 늘어난다>입니다.

P값은 우연에 의해 귀무가설이 일어나는 정도를 나타냅니다. 일반적으로 P값이 0.05보다 작으면 <통계적으로 유의적이다>라고 하며 0.05보다 크거나 같으면 <통계적으로 비유의적이다>라고 말합니다. 

P값의 계산은 엑셀이나 파이썬 같은 프로그램으로 합니다. P값으로 독립변수들이 통계적으로 유의적인지 확인하고 회귀 공식을 완성합니다.


선형회귀는 비교적 간단하지만 강력한 예측분석 기법입니다. 선형회귀를 해석하기 위해 R제곱과 P값에 대해 알아보았습니다. 예제를 통하여 선형회귀를 돌리고 결과를 해석해보겠습니다.


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari