통계 이론 | 통계 분석 | 데이터 분석
이 매거진은 업무에 활용하는 통계 개념이라는 제목으로 수회 차 연재될 예정이며, 개념에 대한 설명과 이 개념을 업무에 활용할 방법에 대해서 설명합니다.
이전 글에서는 데이터 분석 방법 중 단순 선형 회귀분석에 대해 소개하였습니다.
이 글에서는 데이터 분석 방법 중 다중 선형 회귀분석에 대해서 소개하고 업무에 이 통계 분석을 활용하는 스킬을 다룹니다.
이 글과 함께 읽으면 좋은 글을 아래에 링크합니다.
업무에 활용하는 통계 개념 : 단순 선형 회귀분석 바로가기 >
이전 글에서 설명했던 것과 같이, 회귀분석이란 연속형 변수들에 대해 변수들 간의 관계를 추정하는 분석 방법입니다.
회귀분석은 독립변수가 종속변수에게 미치는 영향을 확인할 수 있는 분석 방법으로 상관분석과 달리 인과 관계를 예측할 수 있는 분석 방법이기도 합니다.
* 상관분석에 대한 자세한 설명은 업무에 활용하는 통계 개념 : 상관분석 에서 확인할 수 있습니다.
오늘은 개인적으로 업무에서 가장 활용도가 높다고 생각하는 다중 선형 회귀분석에 대해 설명하겠습니다.
다중 선형 회귀분석은 독립변수가 2개 이상, 종속변수가 1개 일 때의 회귀분석 방법입니다.
회귀분석이란 앞서 이야기한 것처럼 독립변수가 종속변수에게 미친 영향력을 분석하는 것으로 여러 독립변수가 1개의 종속변수에 어떤 영향력이 있는가를 확인할 수 있는 분석 방법입니다.
'선형'이라는 이름에서 알 수 있듯이, 다중 선형 회귀분석 역시 단순 선형 회귀분석처럼 선형 예측 모델을 찾는
이 전 글에서 설명한 것과 같이 단순 선형 회귀분석의 회귀식은 아래와 같습니다.
Y=α+βX+e
(Y는 종속변수, X는 독립변수, α는 절편, β는 기울기, e는 오차)
* 단순 선형 회귀분석에 대한 자세한 설명은 업무에 활용하는 통계 개념 : 단순 선형 회귀분석 에서 확인할 수 있습니다.
반면, 다중 선형 회귀분석의 회귀식은 아래와 같습니다.
Y=α+β1·X1+β2·X2+β3·X3....+e
(Y는 종속변수, X는 독립변수, α는 절편, β는 기울기, e는 오차)
다중 선형 회귀분석의 특징은 여러 독립변수 중 하나의 독립변수만 변화된다고 가정할 때 종속변수가 얼마나 변하는가를 측정한다는 점입니다.
이 분석 방법은 독립변수에 의한 종속변수의 변화를 비교적 정확히 예측하기 때문에 매우 유용하지만, 현실에서는 여러 독립변수가 함께 변화하면서 서로 영향력을 주기 때문에 다중 선형 회귀분석에서 나타난 종속변수에 대한 영향력과 차이가 있을 수 있어 다중공선성을 제거하는 것이 중요합니다.
* 다중공선성에 대한 부분은 추후에 자세히 다루도록 하겠습니다.
다중 선형 회귀분석은 상관분석과 마찬가지로 복잡한 계산식이나 통계 프로그램이 없어도 Excel을 통해 쉽게 계산할 수 있습니다.
* 단순 선형 회귀분석 역시 아래와 동일하게 계산할 수 있습니다.
아래와 같은 순서로 Excel의 데이터 분석 기능을 활용하여 회귀분석을 할 수 있습니다.
데이터(리본 메뉴) > 분석(리본)의 데이터 분석 > 회귀 분석 > Y축 입력 범위 지정 > X축 입력 범위 지정 > 이름표 체크 > 확인
* 만약 데이터(리본 메뉴)에서 데이터 분석 버튼이 없는 분들은 파일 > 옵션 > 리본 사용자 지정 > 개발 도구 > Excel 추가 기능 > 분석 도구 체크박스 설정을 하시면 데이터 분석 옵션이 생깁니다.
해석을 위해서는 상수, 비표준화계수(B), R², F와 유의확률 등 몇 가지 항목들의 개념을 이해할 필요가 있습니다.
* 각 항목들의 개념에 대한 자세한 설명은 업무에 활용하는 통계 개념 : 단순 선형 회귀분석 에서 확인할 수 있습니다.
Excel을 활용한 회귀분석을 해석하기에 앞서 엑셀에서는 회귀분석 항목들의 용어가 다소 다르게 표현되기 때문에 각 항목이 무엇인지에 대해 아래의 박스에 정리하였습니다.
· Y 절편 계수 = 상수
· 계수 = 비표준화계수(B)
· 조정된 결정계수 = R²
· 유의한 F = F와 유의확률
· P-값 = 유의확률(P)
회귀분석의 결과를 해석하는 방법은 아래의 예시를 통해 설명하겠습니다.
아래 데이터는 구매(종속변수)에 미치는 앱 오픈, 상품 조회, 검색, 카테고리 조회, 장바구니(독립변수들)의 영향력을 확인하기 위해 Excel의 회귀 분석 결과를 출력한 데이터입니다.
회귀분석 결과는 아래의 5가지 과정을 통해 해석할 수 있습니다.
① '조정된 결정계수' 확인
'조정된 결정계수'는 상관계수(R²)를 나타냅니다.
아래와 같이 상관계수(R²)의 값에 따라 상관관계 정도를 확인할 수 있습니다.
상관계수(R²)의 값이 ±0.7 이상일 때 회귀분석의 유의미한 해석이 가능합니다.
* 상관관계에 대한 자세한 내용은 업무에 활용하는 통계 개념 : 상관분석 에서 확인할 수 있습니다.
② '유의한 F값'이 0.05 미만인지 확인
'유의한 F값', 즉 유의확률 0.05 미만일 때 통계적으로 유의하여 회귀분석의 해석이 가능합니다.
*만약 이 값이 지수 형태(ex. 6E-100)로 나온다면 Ctrl + 1을 누른 뒤 숫자로 표시 형식을 바꾸면 됩니다.
③ 독립변수별 'P-값'이 0.05 미만인지 확인
앱 오픈, 상품 조회 등 독립변수에 해당하는 행의 'P-값'이 0.05 미만일 때 회귀분석의 해석이 가능합니다.
만약 'P-값'이 0.05 이상인 독립변수가 있을 경우 해당 독립변수를 제외하고 회귀분석 결과를 다시 출력합니다.
예시의 경우에는 독립변수 장바구니의 'P-값'이 0.05 이상이라 제외하고 다시 분석을 진행해야 합니다.
④ 독립변수별 '계수' 확인
독립변수의 '계수'는 회귀식에서 특정 독립변수의 종속변수에 대한 영향력을 나타내는 중요한 역할을 합니다.
⑤ 회귀식 작성
회귀식은 아래와 같이 작성할 수 있습니다.
Y(종속변수)=α(Y 절편)+β1(앱 오픈의 계수)·X1(독립변수1)+β2(독립변수2의 계수)·X2(독립변수2)+β3(독립변수3의 계수)·X3(독립변수3).....+β99(독립변수99의 계수)·X99(독립변수99)
아래의 예시에서는 ③ 을 확인한 결과 독립변수 장바구니의'P-값'이 0.05 이상이라 해당 변수를 제외하고 다시 결과를 출력하였습니다.
출력된 위 데이터는 ①~⑤과정이 모두 성립되므로 이에 이에 대해 회귀식을 세우면 아래와 같습니다.
Y(구매)=α(Y 절편인 45.23)+β1(앱 오픈의 계수인 0.01)·X1(앱 오픈)+β2(상품 조회의 계수인 -0.01)·X2(상품 조회)+β3(검색의 계수인 0.02)·X3(검색)+β4(카테고리 조회의 계수인 0.04)·X4(카테고리 조회)
∴구매=45.23+0.01·앱 오픈-0.01·상품 조회+0.02·검색+0.04·카테고리 조회
*소수점 셋째 자리에서 반올림
회귀식을 해석하면 구매에 대한 각 앱 이벤트의 영향력은 카테고리 조회(0.04)가 가장 높고 이후로 검색(0.02), 앱 오픈(0.01) 순이며, 상품 조회(-0.01)는 오히려 구매에 마이너스 영향력이 있다고 해석할 수 있습니다.
지금까지 업무에 활용하는 통계 개념 중 다중 선형 회귀분석에 대해 설명했습니다.
이론이 많아 복잡하게 느껴질 수 있지만, 이 글을 따라서 엑셀을 이용해 회귀분석 결과를 직접 출력해보면 생각보다 어렵지 않을 것입니다.
회귀분석은 여러 업무에서 활용도가 매우 높은 분석 방법으로 엑셀을 활용한 데이터 분석 중 가장 고급 스킬이라고 할 수 있으니, 꼭 한 번 분석해보시길 바랍니다.