brunch

4장. 고객 행동 데이터 분석(3)

인과관계 분석을 위한 회귀분석 과정

by 야갤이 윤태

두 변수간의 관계성을 살펴보는 방법인 상관관계 분석에 대한 설명을 앞장에서 드렸습니다. 잊지 않으셔야 하는 부분은 상관관계는 강도와 방향성을 보여주는 분석임에는 틀림이 없지만, 그 인과 관계를 보여주는 것은 아니라는 점을 다시한번 말씀 드립니다.


이제, 인과관계 즉 어떤 변수의 원인으로 인해(독립변수) 어떤 변수(종속변수)의 결과가 달라지는지를 살펴볼 수 있는 상관관계 분석에 대해서 알아보도록 하겠습니다.


그럼, 앞서 살펴본 광고와 매출의 상관관계 데이터를 가지고 먼저 단순회귀(종속변수와 독립변수가 각각 1개 뿐인)를 먼저 분석 해보도록 하겠습니다.


데이터는 앞서 살펴본 데이터에 분석을 회귀분석으로 넣고 독립변수와 종속변수를 넣어줍니다.

회귀1.jpg


회귀2.jpg

매출변수를 Y축에 종속변수로, 광고비를 X축에 독립변수로 넣어서 첫번째 행을 이름표로 사용하고 잔차와 정규확률도까지 모두 표시해 달라고 하였습니다.


그리고, 확인을 누르면 다음과 같은 결과가 나옵니다.


회귀3.jpg

엇! 그런데 이게 뭘까요? 관측수가 1로 나온것은 물로 절편값도 그렇고 유의한 F값도 안나왔습니다.

왜 이런 일이 생긴걸까요? 상관관계의 결과는 그래도 다 제대로 나왔는데 말입니다.


여기에서 확인해야 할 부분이 상관관계 분석에서는 문제가 없던 데이터의 형태가, 엑셀에서 회귀분석을 할 때에는 문제가 된다는 점을 알아야 합니다. 엑셀에서 회귀분석을 하기 위해서는 데이터가 각 열에 위치해야 제대로 된 분석을 할 수 있습니다(현재는 행으로 저장되어 있습니다).


그래서, 데이터를 다시 열로 바꿔서 넣고 그 열을 기준으로 매출변수를 Y축에 종속변수로, 광고비를 X축에 독립변수로 넣어서 앞에서와 마찬가지로 첫번째 행을 이름표로 사용하고 잔차와 정규확률도까지 모두 표시해 달라고 하였습니다.


회귀4.jpg

그리고, 확인을 누르면 다음과 같은 결과가 나옵니다.


회귀5.jpg


이번 회귀분석은 광고비가 매출에 미치는 영향을 분석하기 위한 분석입니다.

회귀분석 결과, 다중 상관계수(Multiple R)는 0.634로 나타나 광고비와 매출 간에 중간 정도의 양의 상관관계가 있음을 보여줍니다.

독립변수가 종속변수를 설명하는 정도를 보여주는 결정계수(R²)는 0.402로, 광고비가 매출 변동의 약 40.2%를 설명하고 있는 것으로 나타났습니다.


조정된 결정계수는 0.356으로, 모델에 포함된 변수 수를 고려했을 때도 여전히 일정 수준의 설명력을 유지하고 있음을 의미합니다(참고는 하지만 사실 그다지 많이 언급하지는 않습니다).


회귀분석을 하고 나면, 엑셀에서 분산분석 결과를 함께 보여주는데 회귀분석을 하고 이 모델에 대한 분산분석을 하는 이유는 회귀모델이 통계적으로 유의미한지를 판단하기 위해서(이부분은 회귀분석 후에 꼭 확인하는 것이 중요합니다)입니다. 즉, 독립변수가 종속변수에 실제로 영향을 미치고 있는지를 검정하는 것이라고 할 수 있습니다.


분산분석은 총 변동 중에서 회귀모델이 설명한 부분과 설명하지 못한 부분을 나누어 비교하고, F-검정을 통해 모델 전체의 유의성을 평가하게 됩니다. 만약 F 통계량에 대한 p-값이 유의수준보다 작다면, 해당 회귀모델은 종속변수의 변화를 설명하는 데 통계적으로 의미가 있다고 판단할 수 있습니다.


이번 회귀모델에 분산분석(ANOVA) 결과, 회귀 모델의 F 통계량은 8.731146173으로 나타났으며, 이에 대한 유의확률(p-value : 유의한 F비)은 0.011167264로 유의수준 0.05보다 작아 통계적으로 유의미하다고 판단됩니다. 엑셀 회귀 분석 결과표에서 유의한 F비는 F 통계량에 해당하는 p-value입니다. 즉, 회귀 모델의 설명력이 통계적으로 유의한지 여부를 판단하는 기준이 됩니다. 이는 광고비가 매출에 유의한 영향을 미친다는 것을 의미합니다.


회귀 계수 분석에서는 광고비의 계수가 1.214***로 나타났습니다. 이는 광고비가 한 단위 증가할 때마다 매출이 평균적으로 약 1.21 단위 증가한다는 것을 의미합니다(에를들어 광고비의 기준이 백만원이고 매출의 기준이 천만원이라면 광고비 1백만원이 늘어나면 매출은 1.214천만원이 늘어난다고 보시면 됩니다). 해당 계수의 p-value는 0.011로, 유의수준 0.05에서 통계적으로 유의미하다고 할 수있습니다. 한편, 절편(intercept)은 82.28로 나타났으나, p-value가 0.521로 통계적으로 유의하지는 않았습니다.


잔차 분석에서는 대부분의 표준화된 잔차가 ±2 범위 내에 있어야 한다는 기준이 있어서 분석결과가 어느정도 정규성을 만족한다고 볼 수 있으나, 일부 관측값(특히 14번과 15번)은 -2.2와 -2.6 수준으로 다소 큰 잔차를 보였다. 이는 이상치나 특이값일 가능성이 있으며, 추가적인 검토가 필요하다.

하지만, 실무에서는 큰 문제가 없다고 판단되면 무시하고 진행하는 경우가 흔하다(통계학 선생님들께 정말 크게 욕먹을 수준의 설명이지만 그게 또 현실입니다)


이번 회귀분석을 통해서 우리는 광고비가 매출에 통계적으로 유의미한 영향을 주는 변수임을 확인할 수 있게 되었습니다. 회귀계수의 해석에 따르면 광고비가 증가할수록 매출도 증가하는 경향이 있으며, 이는 실제 마케팅 전략 수립 시 광고 투입에 대한 합리적 근거로 활용될 수 있습니다. 다만, 분석된 모델은 매출의 약 40%만을 설명하고 있으며, 일부 이상값이 존재하므로 모델의 예측력을 높이기 위해서는 추가적인 설명 변수의 도입과 이상치에 대한 추가 분석이 필요할 수 도 있습니다.


분석결과를 토대로 이 회귀모델의 방정식을 만들어보면 다음과 같습니다.


매출=82.28+1.21×광고비



keyword
이전 12화4장. 고객 행동 데이터 분석(2)