9-Box Grid & 데이터 분석 [3편] - 회귀분석
오늘의 학습 방향
안녕하세요? 지난 시간에는 HR의 인력 운영에 관한 전략적 포트폴리오인 9-Box Grid 이론과 관련 데이터 샘플을 토대로 분산분석(ANOVA)을 시도하였습니다. 분산분석은 세 개 이상의 데이터 그룹 간의 평균 차이가 통계적으로 유효한 의미를 가질 수 있는지를 검증하는 것이었습니다. 9개의 박스 중에서 HiPo Core Leader, Core Talent, Role Mismatch의 3개 그룹을 활용했고, 이들 그룹 간의 평균 차이(SS_between)가 각 그룹 내의 평균 차이(SS_within)보다 크다는 점을 통계적으로 살펴보았습니다.
이번 학습은 9-Box Grid 모델 및 데이터 샘플을 활용한 통계 검정의 마지막 편입니다. 이번 편에서는 회귀분석(Regreesion analysis)을 활용한 통계 검정 및 결과를 해석해 보고자합니다. 자, 그럼 시작하겠습니다.
01. 데이터 샘플 소개
지난 시간에 사용했던 데이터 샘플과 동일한 버전입니다. 총 60개의 표본으로 구성되어 있으며, 각 열은 아래와 같은 정보를 담고 있습니다.
A열: Employee_ID (직원 고유번호)
B열: Performance (High/Mid/Low)
C열: Potential (High/Mid/Low)
D열: Box (HiPo Core Leader, Core Talent, Expert Track ...)
E열: Perf_Score (전년도 성과평가: High=3, Mid=2, Low=1)
F열: Pot_Score (전년도 잠재력 평가: High=3, Mid=2, Low=1)
G열: NextYear_Score (1~4등급, * 내년에 달성된 종합 평가등급)
H열: Promotion_12M (1=1개월 내 승진)
I열: Attrition_12M (1=12개월 내 퇴사)
Excel의 [Pivot Table]을 통해 각 박스에 포함된 인원 수를 정리하면 다음과 같습니다.
02. 회귀분석(Regreesion analysis)
:: Perf/Pot_Score을 통한 성과 예측
(1) 회귀분석이란 무엇인가?
통계학에서 회귀분석(回歸分析, Regreesion analysis)은 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법이다. 하나의 종속변수와 하나의 독립변수 사이의 관계를 분석할 경우 단순회귀분석(Simple regreesion analysis), 하나의 종속변수와 여러 독립변수 사이의 관계를 규명하고자 할 경우를 다중회귀분석(Multiple regreesion analysis)이라고 한다. (위키백과)
(2) Excel의 [데이터 분석] 기능을 활용한 회귀분석
이번 시간에는 60명의 전체 데이터를 사용해서 아래와 같은 질문에 대해 회귀분석을 시도하겠습니다.
"Perf_Score와 Pot_Score를 알면 NextYear_Score를 얼마나 잘 예측할 수 있을까?"
이를 수식으로 표현하면 다음과 같습니다.
NextYear_Score = β0 + β1 * Perf_Score + β2 * Pot_Score
Per_Socre와 Pot_Score는 각각 3점 만점으로 점수가 높을수록 좋은 수치입니다. 반면, NextYear_Score는 최고 1등급부터 최하 4등급으로 등급이 낮을수록 높은 수준입니다. 따라서 회귀 계수인 β1, β2가 음수(-)가 나온다면, 정합성이 있는 모델로서 작동한다는 뜻입니다.
1단계. 데이터 범위 확인
우선, 종속변수와 독립변수를 다시 확인합니다. 종속변수(Y)는 NextYear_Score, 독립변수(X)는 Perf_Score 와 Pot_Score입니다. 그리고 데이터의 개수는 60개입니다. 데이터 샘플을 보면, E1은 [Perf_Score], F1은 [Pot_Score], G1은 [NextYear_Score] 입니다. 즉, E열, F열, G열의 1행에는 변수의 이름이 입력되어 있습니다. 이렇게 각 변수의 1행에 이름이 입력되어 있어야 Excel의 데이터 분석에서 Lables(레이블) 옵션을 사용할 수 있습니다.
2단계. 데이터 분석 도구 사용
Excel 상단 메뉴에서 [데이터] → 오른쪽에 [데이터 분석] 버튼이 있어야 합니다. 만약, 데이터 분석 버튼이 없다면, ① [파일] → [옵션] → [추가 기능], ② 아래쪽에 [관리(A): Excel 추가 기능] → [이동], ③ [사용 가능한 추가 기능] 목록에서 [분석 도구(Pak)] 체크 → [확인] 과정을 거칩니다. 이 과정을 거치면 다시 상단에 [데이터] 탭을 클릭하면 오른쪽에 [데이터 분석] 아이콘이 생깁니다. 한 번만 설정하면 앞으로는 계속 고정된 탭의 위치에서 사용할 수 있습니다.
3단계. 회귀분석 설정 및 실행
Excel의 상단 메뉴에서 [데이터] 탭을 클릭합니다. 그러면 맨 오른쪽에 [데이터 분석] 버튼을 클릭할 수 있습니다. 클릭과 동시에 뜨는 창에서 [회귀(Regreesion)]를 선택하고, [확인] 버튼을 클립니다. 이 순서를 끝내면 회귀 분석을 설정하는 창잉 위 그림과 같이 나타납니다. 여기서부터 하나씩 설정을 채워보겠습니다.
① [입력 Y 범위]는 [종속변수]를 뜻합니다. 마우스로 G1:G61을 헤더(이름)를 포함하여 드래그합니다. 또는 [$G$1:$G$61]이라고 직접 입력해도 됩니다. ② [입력 X 범위]는 [독립변수]를 뜻합니다. 마우스로 E1:F61 까지를 헤더(이름)를 포함하여 드래그합니다. 또는 [$E$1:$F$61]이라고 직접 입력해도 됩니다. 이렇게 하면 E열은 첫 번째 독립변수로서 Perf_Score, F열은 두 번째 독립변수로서 Pot_Score라고 인식합니다. 참고로 두 개 이상의 독립변수를 분석하려면, 열이 서로 붙어 있어야 합니다.
③ [이름표]를 체크합니다. Y 범위와 X 범위 모두 1행에 해더가 포함되어 있기 때문에, 회귀분석 창에서 [이름표] 체크박스를 반드시 체크해야 합니다. 만약 체크를 하지 않으면, Excel이 헤더 부분까지 데이터로 간주하여 엉뚱한 계산이 될 수 있습니다. ④ 원하는 [출력 옵션]을 선택합니다. [출력 범위]를 선택할 경우, 어느 빈 셀에 커서를 두고 클릭하면 됩니다. 그러면 Excel이 클릭한 빈 셀부터 오른쪽과 아래쪽으로 결과를 생성하여 보여줍니다. 또는 [새로운 워크시트]를 선택할 경우, 새로운 시트에서 오른쪽과 아래쪽으로 결과를 생성하여 보여줍니다. 회귀분석의 결과를 같은 시트에서 직관적으로 보고 싶다면, [출력 범위]를 사용하면 됩니다. ⑤ 기타 체크 옵션으로 [신뢰수준]이 있습니다. 기본 95% 수준으로 하면 됩니다. 그리고 잔차(Residuals) 부분이 있습니다. 잔차는 각 사람에 대한 실제 데이터와 예측값의 차이를 Table을 형태로 나타냅니다.
4단계. 회귀분석 결과 및 해석
3단계에 따라 진행한 후, [확인] 버튼을 누르면 위 그림과 같이 회귀분석 결과가 생성됩니다. 전체 구조는 맨 상단에는 회귀분석 통계량 [요약 출력], 분산 분석(ANOVA) 블록 및 계수표가 나열되는 형식입니다. 하나씩 순서대로 살펴보겠습니다.
<1> 요약 출력 (회귀분석 통계량)
① 다중 회귀계수(Multiple R)=0.957186입니다. 다중 회계계수는 실제로 NextYear_Score와 회귀식이 예측한 Y값 사이의 상관계수를 뜻합니다. 0.96에 가깝기 때문에 거의 직선적으로 잘 맞는다는 뜻입니다. 현재의 성과와 잠재력이라는 두 변수로 내년의 성과를 예측했을 때, 실제 값과 예측 값 사이의 상관이 0.96이라면, 이 모델은 예측력 면에서는 매우 강력한 모형이라고 볼 수 있습니다.
② 결정계수(R square)=0.916205입니다. 결정계수는 NextYear_Score의 전체 변동(분산) 중에서 91.6%를 Perf_Score 및 Pot_Score의 두 변수가 설명하고 있다는 뜻입니다. 0.91 이상이면 현실의 데이터에서는 거의 보기 힘들 정도로 높은 수준이라고 할 수 있습니다. 즉, "내년 성과"라는 결과는 이 모형 안에서 거의 전적으로 현재의 성과와 잠재력으로 설명이 된다는 뜻입니다.
③ 조정된 결정계수 (Adjusted R square)=0.913213입니다. 조정된 결정계수는 독립변수의 개수를 고려하여 약간의 패널티를 가한 R²라고 할 수 있습니다. 달리 말해 '과적합(Overfitting)'된 부분을 보정한 값이라는 의미를 갖습니다. 그래서 결정계수는 0.916이었는데, 조정된 결정계수는 0.913으로 조금 낮아졌습니다. 이는 변수를 두 개 넣었다고 하여 조정된 결정계수가 부풀려진 것이 아니라, 정말 의미 있게 설명력이 높은 상태에 있는 것으로 볼 수 있습니다.
④ 표준오차(Standard error)=0.18735입니다. 표준오차는 예측값과 실제값의 평균적인 차이(오차)의 크기를 뜻합니다. 사람 1명에 대하여 평균적으로 0.19점 정도의 오차가 발생한다고 이해할 수 있습니다. NextYear_Score가 1등급에서 4등급 사이의 어떠한 숫자로 움직인다고 한다면, 0.19는 그러한 척도에 비한다면 꽤 작은 오차라고 할 수 있습니다. 그렇다면 "개인 단위에서도 예측이 꽤 정밀한 모델"이라고 판단할 수 있는 가능성이 높아집니다.
<2> 분산 분석(ANOVA)
① 구분값 중 [회귀]에 대한 표의 내용을 보겠습니다.
자유도(df)=2입니다. 두 개의 독립변수(Perf, Pot)를 반영한 값입니다.
제곱합(SS_regreesion)=21.49181입니다. 전체 변동분이 23.45742인데 그 중에서 모형이 설명하고 있는 변동량이 21.49 정도 된다는 뜻입니다.
제곱 평균(MS_regreesion)=10.7459입니다. 즉, 21.49181을 자유도 2로 나눈 값입니다. 독립변수 1개당 평균적으로 설명하고 있는 변동의 크기를 뜻합니다.
F 비=306.1498입니다. 이건 F=MS_reg/Ms_res=10.7459/0.0351입니다. 말로 풀면, 모형이 설명하고 있는 변동이 우연하게 발생한 잔차의 변동보다 306배 정도 크다는 것을 뜻합니다.
유의한 F(Significance F)=7.08E-31(≒0.0000.......0.007)입니다. 이 모형에 대한 귀무가설은 "이 회귀모형은 아무런 설명력도 없다."입니다. F값 306.1498을 우연하게 얻을 수 있는 확률이 10⁻³¹ 수준이라는 뜻입니다. 즉, "Perf, Pot이 내년 성과에 미치는 영향은 통계적으로 봤을 때 거의 100% 유의하다."는 것입니다.
②-1. 구분값 중 [잔차]에 대한 표의 내용을 보겠습니다.
자유도(df)=56입니다. 총 자유도 58에서 2개의 독립변수를 제외한 잔차의 자유도를 뜻합니다.
SS_residual=1.965608입니다. Perf_Score와 Pot_Score의 두 독립변수로 NextYear_Score를 설명하고도 끝까지 설명되지 않고 남아 있는 전체 변동분의 총합을 뜻합니다.
MS_residual=0.0351입니다. 개별 직원의 차이나 측정의 오차 등을 포함하여 이 모형이 설명하지 못하는 부분의 평균적인 오차 크기가 0.0351 정도의 수준이라는 뜻입니다.
앞의 F값은 결국 MS_bewteen / MS_within=10.7459 / 0.0351=306.1498로 계산된 값입니다.
②-2. 구분값 중 [계]에 대한 표의 내용을 보겠습니다.
전체 NestYear_Score의 총 변동량이 23.45742입니다. 전체 변동량에서 우리가 설정한 모형으로 설명이 되는 변동량이 21.49181이었습니다. 여기서 21.49181을 23.45742로 나눈 값이 0.916입니다. 즉, 이것이 R square(결정계수)가 되는 것입니다.
<3> 계수표: 회귀식과 각 변수의 통계적 의미
① Y절편(Intercept)=4.904278 입니다. Y절편은 Perf_Score=0, Pot_Score=0일 때, 예측되는 NextYear_Score의 값입니다. 현실에서 Perf_Score 및 Pot_Score이 0이 나올 일은 없기 때문에 절편값 그 자체의 의미는 크지 않고, 회귀식의 기준점을 잡아주는 역할입니다. Y절편값에 대한 95% 신뢰구간이 [4.68, 5.13] 이기 때문에, 본 모델을 통한 추정의 정밀도가 높다고 볼 수 있습니다.
② 변수 "2"는 Perf_Score, 변수 "1"은 Pot_Score를 뜻합니다. 위 회귀분석의 결과를 바탕으로 두 개의 독립변수와 종속변수 간의 관계를 수식으로 나타내면 아래와 같습니다.
Perf_Score가 1점 높아질수록 NextYear_Score는 평균적으로 0.586점이 내려갑니다. NextYear_Score는 점수(등급)이 낮은 숫자일수록 좋은 등급이기 때문에, "현재의 성과점수가 높아질수록 내년의 성과도 좋아진다."는 방향을 나타내고 있습니다. t통계량이 (-)17.02666이고, p-value가 거의 10⁻²³ 수준인데, 이 말은 Perf_Score의 계수가 어떠한 영향도 없다고 가정하였을 때, 위와 같은 절댓값 17 이상의 t값이 나올 확률이 10⁻²³ 수준이라는 뜻입니다. 즉, Perf_Score의 효과는 통계적으로 매우 유의하다는 것입니다. Perf_Score에 대한 95% 신뢰구간을 보면, [-0.655, -0.517] 입니다. Perf_Score의 1점 변화가 NextYear_Score를 최소한 0.52부터 최대 0.66 정도로 바꿀 것이라고 95% 확신할 수 있다는 것입니다.
Pot-Score가 1점 높아질수록 NextYear_Score는 평균적으로 0.641점이 내려갑니다. NextYear_Score는 점수(등급)이 낮은 숫자일수록 좋은 등급이기 때문에, "현재의 잠재력이 높을수록 내년의 성과가 더 좋아질 가능성이 크다."는 뜻입니다. t통계량이 (-)17.7601이고, p-value 1.13E-24 값인데, 이 말 역시 잠재력의 회귀계수도 아무런 영향이 없는 '0'이라고 볼 가능성이 사실상 없다는 것입니다. 즉, 잠재력은 내년 성과를 예측하는 데 매우 강력한 지표로 활용될 수 있음을 시사합니다. Pot_Score에 대한 95% 신뢰구간을 보면, [-0.7133, -0.5687] 입니다. Pot_Score가 1점이 향상된다면, NextYear_Score를 0.57~0.71점 정도 더 좋게 만들 수 있다고 95% 수준에서 확인할 수 있다는 것입니다.
두 독립변수의 상대적인 영향력을 비교해 보면, ㅣ-0.641ㅣ>ㅣ-0.586ㅣ으로 계수의 절댓값을 기준으로 잠재력(pot)의 영향력이 현재 성과(Perf)보다 약간 더 크다고 볼 수 있습니다. 즉, 현재의 성과도 중요하지만, 잠재력에 투자하는 전략이 미래 성과 예측 측면에서 좀 더 큰 레버리지(Leverage)를 준다는 메시지를 얻을 수 있습니다.
03. 상관계수로 다시 보는 회귀분석
지금까지 Excel의 데이터 분석 기능을 활용하여 회귀 분석을 실행하였습니다. 이를 통해 Perf_Score, Pot_Score가 NextYear_Score를 얼마나 잘 설명하는지 살펴봤습니다. 이제는 지금까지 다뤘던 내용을 '상관계수'라는 개념으로 다시 바라보고자 합니다. 회귀분석이라는 것이 상관관계에서 출발하는 논리라는 점을 소개하기 위함입니다.
(1) 상관계수란 무엇인가?
상관계수(r)는 아주 단순히 말하자면, "두 변수가 '같이' 움직이는 정도"를 -1에서 +1 사이의 숫자로 표현한 값입니다. r이 +1에 가까워질수록 강력한 정(+)의 관계를 가집니다. 하나가 오를수록 다른 하나도 함께 오르는 일치된 방향을 상상해보면 됩니다. 반면, r이 -1이 가까워질수록 아력한 부(-)의 관계를 가집니다. 하나가 오를수록 다른 하나는 내려가는 상반된 방향을 상상해보면 됩니다.
우리가 다루고 있는 60개의 데이터 샘플에서는 크게 아래와 같은 세 가지의 상관계수를 생각할 수 있습니다. 첫째는 [r_Y1] 입니다. 즉, NextYear_Score (Y)와 Perf_Score (X1)의 상관입니다. 둘째는 [r_Y2] 입니다. 즉, NextYear_Score (Y)와 Pot_Score(X2)의 상관입니다. 셋째는 [r_12] 입니다. 이는 Perf_Score와 Pot_Score 끼리의 상관입니다. Excel에서는 [=correl(변수1,변수2)] 함수를 사용합니다.
[r_Y1]=CORREL($E$2:$E$61,$G$2:$G$61)=(-)0.65466527
[r_Y2]=CORREL($F$2:$F$61,$G$2:$G$61)=(-)0.71010614
[r_12]=CORREL($E$2:$E$61,$F$2:$F$61)=(+0.017250783
실제 상관관계를 구해보면, 회귀분석 결과와 마찬가지로 Perf_Score와 Pot_Score는 NextYear_Score와 부(-)의 관계를 보인다는 것을 알 수 있으며, 현재의 성과(Perf)보다 미래의 잠재력(Pot)이 내년도 종합평가와 더욱 높은 수준의 부(-)의 관계를 가진다는 것을 알 수 있습니다.
(2) 상관계수와 회귀계수의 관계
:: 표준화 회귀계수의 등장
예를 들어 Perf_Score만 있는 회귀방정식과 같이 독립변수가 하나뿐인 경우에는 다음과 같은 명제가 성립할 수 있습니다.
표준화 회귀계수(β*) = 상관계수 r
표준화 회귀계수의 개념은 뒤로 미루고, 위의 명제는 "Y와 X의 상관관계가 곧 X가 Y를 예측하는 힘"이라고 이해할 수 있습니다. 이 해석이 중요한 이유는 상관계수가 0에 매우 가까워질수록 회귀 예측력도 0에 가까워지며, 상관계수가 클수록 회귀 예측력도 커진다는 직관을 그대로 가져올 수 있기 때문입니다.
그러나 우리가 회귀분석을 한 것처럼 독립변수가 두 개 이상인 경우에는 단순히 "상관계수 r이 크면 영향력이 크다."고 말할 수가 없게 됩니다. 그 이유는 Perf와 Pot라는 독립변수 사이에서도 상관관계 [r_12]가 있기 때문입니다. 이렇게 두 변수 간에 영향력 측정에 있어 겹치는 부분이 존재합니다. 예를 들어 현재의 성과가 좋은 사람이 잠재력도 좋은 경우가 많은 경우가 있다는 것입니다. 이러한 상태라면 단순히 r만 보고 "누가 더 중요하다."라고 말하기 어렵습니다. 그래서 여기에 등장하는 개념이 바로 "표준화 회귀계수"입니다.
(3) 표준화 회귀계수
:: "공정한 비교"를 위한 계수
✨ 표준화 회귀계수란?
표준화 회귀계수(Standardized coefficient, β*)는 모든 변수를 "표준점수(z-score)"로 바꾼 뒤 회귀분석을 한 계수라고 말할 수 있습니다. 즉, Perf_Score, Pot_Score, NextYear_Score 각각에 대하여 z값으로 변환하고, 그 z값들로 회귀분석을 한 후 나오는 계수를 말합니다. 이렇게 하면 모든 변수가 같은 단위를 갖게 됩니다. 그런 점에서 β*의 의미는 "X가 자기 표준편차 기준으로 1칸이 변할 때, Y가 자기 표준편차를 기준으로 몇 칸이 변하는가?"로 접근할 수 있게 됩니다. 변수마다 단위가 다르더라도(점수 스케일, 분산 크기 등), β*로는 공정하게 비교를 할 수 있게 되는 것입니다.
✨ 표준화 회귀계수의 사용 목적
언뜻 표준화 회귀계수는 매우 복잡한 개념 같습니다. 그럼에도 불구하고, 이 개념을 사용하는 이유는 크게 두 가지입니다. 첫째, 단위의 차이를 없애기 위함입니다. Perf_Score, Pot_Score, NextYear_Score 각각의 분포는 그 폭이 다르기 때문에 원래의 계수 값만으로는 "어느 쪽이 더 중요한지"를 바로 비교하기가 어렵습니다. 둘째, 독립변수들끼리의 겹침(상관관계) 현상을 고려하기 위함입니다. Perf_Score와 Pot_Score가 서로 상관관계를 가지게 될 경우, NextYear_Score를 설명하는 데 있어 "같은 영역"을 함께 설명하는 부분이 생기게 됩니다. 표준화 회귀계수는 이와 같이 겹치는 영역의 설명력을 정리하여, "각자가 순수하게 기여하는 부분"을 수식으로 분리해 주는 역할을 합니다.
✨ 표준화 회귀계수 공식
:: 상관계수로만 만드는 β*
Nextyear_Score를 "Y", Perf_Score를 "X1", Pot_Score를 "X2"라고 할 경우, 표준화 회귀계수 β* 는 다음과 같이 쓸 수 있습니다.
r_Y1 = Y와 X₁(Perf)의 상관계수
r_Y2 = Y와 X₂(Pot)의 상관계수
r_12 = Perf와 Pot 사이의 상관계수
① β₁*를 말로 풀어서 정리하면, "잠재력(Pot)의 영향을 빼고도 남는 현재 성과(Perf)가 내년 성과(Y)를 설명하는 순수한 영향력"을 의미합니다. [r_Y1]은 "Y와 Perf 간에 전체적으로 함께 움직이는 모둔 부분의 크기", [r_Y2×r_12]는 "Perf와 Pot이 서로 상관성이 있다는 점으로 인해, 사실은 Pot이 설명하는 부분을 Perf가 설명하는 것처럼 보이는 현상", [r_Y1-r_Y2×r_12]는 "겹치는 부분을 빼고 남는, Perf만의 순수한 설명력"을 나타냅니다. 분모의 [1-r2_12]는 Perf와 Pot 사이의 상관이 높을수록(즉, 겹치는 정보가 많을수록) 공정하게 나눠줘야 하기 때문에, 그 정도를 반영한 비율을 나타냅니다.
② β₂*를 말로 풀어서 정리하면, "현재 성과(Perf)의 영향을 빼고도 남는 잠재력(Pot)의 독립적인 영향력"을 의미합니다. [r_Y2]은 "Y와 Pot 간에 전체적으로 함께 움직이는 모둔 부분의 크기", [r_Y1×r_12]는 "Pot과 Perf가 서로 상관성이 있다는 점으로 인해, 사실은 Perf가 설명하는 부분을 Pot가 설명하는 것처럼 보이는 현상", [r_Y2-r_Y1×r_12]는 "겹치는 부분을 빼고 남는, Pot만의 순수한 설명력"을 나타냅니다. 분모의 [1-r2_12]는 Perf와 Pot 사이의 상관이 높을수록(즉, 겹치는 정보가 많을수록) 공정하게 나눠줘야 하기 때문에, 그 정도를 반영한 비율을 나타냅니다.
✨ 표준화 회귀계수 비교: 성과 VS 잠재력
Excel의 [sample] 시트에서 아래와 같이 상관계수 r값을 구하면 다음과 같습니다. [r_Y1]은 Y와 Perf, [r_Y2]는 Y와 Pot, [r_12]는 Perf와 Pot 간의 상관도를 뜻합니다.
[r_Y1]=CORREL($E$2:$E$61,$G$2:$G$61)=(-)0.65466527
[r_Y2]=CORREL($F$2:$F$61,$G$2:$G$61)=(-)0.71010614
[r_12]=CORREL($E$2:$E$61,$F$2:$F$61)=(+0.017250783
① β* 계산 결과
위 그림과 같이 Perf에 대한 β₁* 값은 -0.0643, Pot에 대한 β₂* 값은 -0.0699 입니다. 두 값의 절댓값을 기준으로 하면 Pot(잠재력)의 표준화 회귀계수가 더 큽니다. 즉, 독립변수로서 Perf와 Pot을 동시에 고려하였을 때, "자기 표준편차를 기준으로 1칸의 움직임이 있을 때, 내년의 종합 평가(NextYear_Score)를 더 크게 움직이는 변수"는 Pot_Score(잠재력) 입니다. 우리는 표준화 회귀 계수에 대한 계산을 통해서도 앞선 결과와 마찬가지로 "잠재력이 높은 사람에게 투자를 하는 것이 장기적인 성과 측면에서 더 강한 레버리지를 가진다."라는 결론에 도달할 수 있습니다.
② β*를 원래 회귀 방정식의 계수로 돌리려면?
방금까지 계산한 표준화 회귀계수 β*는 "표준화된 차원의 세계"를 가정하고 구했던 값입니다. 하지만 우리가 실제로 회귀분석을 통해서 보고 있는 계수는 원래 단위의 회귀 계수입니다. 이 둘은 각 변수에 대한 표준편차를 사용하여 서로 연결되는 지점을 만들 수 있습니다.
[b₁]=β1∗×{sd(Y) / sd(perf)}
[b₂]=β2∗×{sd(Y) / sd(pot)}
Excel에서 NextYear, Perf_Score, Pot_Score에 대한 각 표준편차를 구하면 다음과 같습니다.
sd(Y)=STDEV.S($G$2:$G$61)=0.648046412
sd(perf)=STDEV.S($E$2:$E$61)=0.708902231
sd(pot)=STDEV.S($F$2:$F$61)=0.692983397
위와 같이 계산한 표준편차를 활용하여 원래 회귀 계수를 구하면, [b₁]≒-0.5874, [b₂]≒-0.6537이 나옵니다. 따라서 표준화 회귀 계수나 원래의 회귀 계수도 모두 같은 데이터와 같은 구조에서 일관되게 나오는 결과라고 할 수 있으며, 이 모델에서는 Pot(잠재력)의 순수한 설명력이 Perf(현재의 성과)보다 약간 더 크다고 보는 것이 맞다는 결론을 내릴 수 있습니다.