로지스틱 회귀 분석 & 데이터 실습
Intro: 통계 분석의 또 다른 측면
안녕하세요? 우리는 지난 세 편의 이야기를 통해 9-Box Grid Model을 살펴 보았습니다. 특히 이 이론과 관련한 직원 60명의 데이터 샘플을 활용하여 카이제곱 검정, 분산분석, 회귀분석을 수행했습니다. 각각의 통계 분석을 통해 주요한 두 가지를 학습했습니다. 첫째, 각 인력 운영 그룹의 승진율과 성과 및 잠재력의 차이가 통계적으로도 의미가 있다고 볼 수 있는지 여부를 판별했습니다. 둘째, 직원 60명의 현재 성과 및 미래 성장 잠재력에 대한 수준을 바탕으로 내년에 달성할 것으로 예측되는 종합 평가 점수(등급)가 어느 정도인지를 실제 수치로 도출해 봤습니다. 이처럼 지난 세 편에서 다룬 통계 분석은, 성과, 잠재력, 승진, 미래에 예측되는 성과를 전체적으로 보여주는 전개 방식이었습니다.
이번 학습에서는 '이직'(Turnover)이란 주제를 다루고자 합니다. 즉, "실제 조직에서는 누가 떠나고, 누가 남을 것인가?"를 예측해 보는 것입니다. 단순히 질문만 가지고는 예측할 수 없습니다. 그래서 통계분석의 관점으로 옮겨 "성과, 잠재력, 몰입도, 근속연수 등의 요인들이 이직의 확률을 어떻게 바꾸는가?"를 살펴볼 것입니다. 우리가 궁극적으로 도달하고자 하는 것은 "누가 이직을 하게 되고, 누가 조직에 남게 될 것인지를 0과 1 사이의 확률로서 예측하는 과정에 대한 이해"에 있습니다. 이를 가능하게 하는 통계 분석 방법으로서 로지스틱 회귀에 대하여 살펴보겠습니다. 자, 그럼 시작하겠습니다.
01. 왜 사람들은 이직하는가?
이직 예측을 위한 로지스틱 함수의 원리를 살펴보기에 앞서, '이직'에 대한 이야기를 잠시 하고 넘어가겠습니다. 왜 사람들은 이직을 하는 걸까요? 누가 조직에 남을 것인지, 누가 조직을 떠날 것인지를 묻기 전에 사람들이 어떠한 이유로 조직을 떠나게 되는 것인지를 이해하는 것도 중요합니다. 일찍이 여러 연구에서 이직에 관한 다양한 관점을 바탕으로 몇 가지 이론이 제시하기도 했습니다. 그 중에서 이직을 선택하게 되는 과정이나 이직을 하려는 동기가 일어나는 과정을 연구했던 내용들을 몇 가지 소개하고자 합니다. 이 내용들은 이직 예측을 위한 로지스틱 회귀 분석의 기초를 다지는 데에도 유용한 지식이 됩니다.
✨ March & Simon (1958)
:: "떠나고 싶은가? & 떠날 수 있는가?"
1950년대 조직학을 연구했던 학자들은 "연봉이 낮아서 조직을 떠난다."라는 말로는 이직의 이유에 대한 설명력이 떨어진다고 보았습니다. 그 이유는 똑같이 연봉이 낮더라도 어떤 사람은 떠나고, 어떤 사람은 잔류하는 경우가 있기 때문입니다. 또, 조직에 대한 만족도가 낮아도 현실적으로 다른 선택지가 없는 사람도 있고, 반대로 조직 만족도가 높더라도 더 좋은 기회가 많은 사람도 있습니다. 그래서 March & Simon은 "사람들이 이직을 생각하고, 실제로 행동으로 옮기게 만드는 요인은 무엇인가?"에 관심을 가졌습니다.
그들은 이직은 두 가지 조건이 동시에 충족할 때 발생한다는 가설을 세웠습니다. 첫째,『Desirability of Movement』(옮기고 싶은 마음)입니다. 직무에 대한 불만족, 보상에 대한 불만족, 그리고 성장할 기회의 부족 등으로 인하여 발생하는 요인입니다. 둘째, 『Ease of Movement』(옮길 수 있는 현실적 가능성) 입니다. 노동시장의 기회 요인, 개인의 능력 및 경쟁력, 직무 경력에 대한 시장에서의 매력도 등으로 인하여 발생하는 요인입니다. 본 가설은 이 두 가지가 모두 높은 수준일수록 이직 확률이 증가한다고 보았습니다.
가설에 대한 검증으로 위해 조사 및 사례 분석을 시도한 결과, ① 만족도가 낮아도 다른 기회가 없으면 실제 이직은 적다는 점, ② 기회가 많더라도 현재에 매우 만족하면 이직이 적다는 점, ③ 직장 불만족 및 대안이 풍부한 조건에서 이직이 많이 발생한다는 점을 발견했습니다. 그래서 이직을 선택하는 행위는 단순히 연봉 등의 특정 조건에 대한 만족/불만족이 아니라,『이직 매력도(Desirability) × 이직 용이성(Ease)』의 함수라는 이론적 근거가 등장하였습니다.
로지스틱 모형을 설계할 때도 Desirability 또는 Ease와 같은 변수를 반영할 필요가 있습니다. 만약 Desirability와 같은 변수를 사용한다면, Engagement(몰입), Job Satisfaction(직무 만족도), 보상에 대한 만족도 등의 항목을 같이 고려하여 측정합니다. 또, Ease와 같은 변수를 사용한다면, Performance(외부 시장에서의 경쟁력), Potential(성장 가능성 및 이직 시장에서의 가치), 근속연수(낮을수록 이동 용이) 등의 항목을 같이 살펴볼 필요가 있습니다.
✨ Mobley (1977)
:: "이직은 심리적인 매커니즘에 따른 선택의 결과다"
이 이론은 이직이라는 것이 즉흥적인 행동에 따른 것이 아니라 여러 심리적인 단계를 거쳐 결정되는 연속적인 프로세스라는 점에 착안합니다. 그래서 이직을 했거나 안 했거나에 집중하기보다는 이직을 결정하게 되는 여러 단계에서 일어나는 심리 과정에 주목했습니다. 이 가설에 대한 연구 과정에서 인터뷰나 설문이 이뤄졌고, 그 결과 퇴사를 할 때까지 6단계의 심리적 변화가 일어난다는 점을 발견했습니다. 구체적으로 ① 직무 불만족, ② "한번 밖으로 나가볼까?" 하는 생각, ③ 일자리 탐색 시작, ④ 여러 대안 비교, ⑤ 이직 결심, ⑥ 실제 퇴사 결정이라는 패턴이 반복되었습니다.
이 연구 결과에 비추어 볼 때, 이직을 결정하게 되는 여러 심리적 단계 중 직무 불만족과 같은 조직의 이슈를 사전에 잘 파악하는 것이 중요합니다. 즉, 이직에 대한 동기를 일으키는 각종의 징후들에 관심을 가질 필요가 있습니다. 여기에는 Engagement의 급락, 지속되는 성과평가의 하락, 리더와의 갈등, 맡은 직무와 개인의 커리어 비전과의 불일치(Role mismatch) 등이 있습니다. 로지스틱 함수나 일반 회귀분석 시에 독립(설명) 변수의 성질을 가진 것들이라고 할 수 있습니다.
✨ Mitchell et. al., (2001)
:: Job Embeddedness Theory
이 이론은 조직에서 떠나는 사람들이 아니라 "조직에 남는 사람들"에 대한 관심을 바탕으로 이직 현상을 설명하고 있습니다. 구체적으로 "사람들은 조직에 대해 불만족하면서도 왜 계속 남아 있는 걸까?"에 대한 의문을 가진 것입니다. 이에 "사람이 조직에 얼마나 깊이 연결되어 있는지(Embedded)에 따라 이직에 대한 선택 여부가 달라진다."라는 가설을 세웠습니다.
연구결괄에 따르면, 이직률은 단순히 조직에 대한 만족도의 수준보다 다음의 세 가지와 더 강하게 연결되어 있다는 것입니다. 첫째, [ Fit(적합도) ] 입니다. 나와 일, 그리고 조직이 얼마나 잘 맞는지의 정도입니다. 둘째, [ Link(연결) ] 입니다. 조직 내의 인간관계, 네트워크가 얼마나 잘 형성되어 있는지의 정도입니다. 셋째, [ Sacrifice(포기해야 할 것) ] 입니다. 이직을 하게 될 경우, 잃게 되는 것들로 성과급, 승진 기회, 조직 내 평판, 근속에 대한 안정 등이 있습니다.
이 연구결과가 시사하는 것은 이직은 "조직에 붙어 있을 수 있는 힘(Embeddedness)"과의 싸움이라는 것입니다. 내가 속한 조직에 대해서 불만족하더라도, 동료와 굉장히 끈끈한 관계이거나 이곳에서 쌓은 경력이나 평판이 중요하게 느껴지거나 스톡옵션/RSU, 승진, 경영성과급 등이 목전에 있으면 쉽게 이직을 결정할 수 없다는 것입니다.
로지스틱 함수 모델을 설계할 때도 의미를 갖는 내용입니다. 예를 들어 근속연수(Tenure)가 길수록 Link나 Sacrifice에 대한 요소가 강하게 작용할 수 있습니다. 또한 승진 가능성, 인센티브, RSU 보유와 같은 변수가 있다면, Sarifice를 강화시키게 됩니다. 아울러 팀 내 리더와의 관계, 팀에 대한 만족도, 팀을 포함한 조직에 대한 문화 적합도 수준 등에 따라 이직에 대한 동기가 떨어질 수 있습니다.
✨ Rousseau et. al., (1990년대)
:: 심리적 계약(Psychological Contract) 이론
이 이론은 기존에 회사와 구성원 간의 공식적인 고용계약서로는 왜 사람들이 어느 순간에 "조직으로부터 배신을 당했다."라는 감정을 느끼며 이직을 하게 되는지를 설명하지 못한다고 봤습니다. 이에 "구성원은 회사와의 관계에서 눈에 보이지 않는 심리적 계약을 맺고 있으며, 이것이 깨졌다고 느끼는 순간에는 조직에 대한 냉소와 이직이 급증한다."라는 가설을 세웠습니다.
연구결과 심리적 계약을 위반했다는 인식이 높을수록 이직을 하려는 동기가 높아지고, 실제 이직률이 높아지는 것으로 분석되었습니다. 그리고, 조직에 대한 몰입과 신뢰를 낮추게 된다는 것입니다. 따라서 회사가 고용계약서 등과 같은 공식적인 계약 조건을 준수하더라도, 구성원이 신뢰감을 갖고 있는 약속들이 깨졌다고 인식되면, 이직에 대한 위험이 급상승할 수 있다는 것을 시사합니다.
로지스틱 함수를 설계할 때, 공정성 인식(평가, 보상, 승진), 약속된 Career Path 보장에 대한 불이행, 리더의 말과 행동 간의 불일치 등도 이직을 설명하는 변수로 고려될 필요가 있음을 알 수 있습니다. 만약 이와 같은 변수들이 포함된다면, '만족도'와 같은 지표보다 훨씬 신뢰도가 높은 이직(Turnover) 예측력을 갖게 될 것입니다.
02. 로지스틱 함수란 무엇인가?
로지스틱 함수는 전통적으로 자원이 한정된 현실의 세계에서 어떠한 개체의 수가 어떻게 증가하는지(로지스틱 성장 모델)를 예측하는 데 활용되어 온 함수입니다. 이러한 로지스틱 함수는 다양한 분야에서 활용이 되는데, 그중 하나가 바로 로지스틱 회귀(Logistic Regression)입니다. 로지스틱 회귀는 0 또는 1과 같이 이진 분류(Binary Classification) 문제를 풀 때, 특정한 사건이 발생할 확률을 모델링하기 위해 사용됩니다.
만약 토끼 가족 한 쌍을 먹이도 무한하고, 면적도 끝이 없는 섬에 풀어 놓았다고 생각해 보겠습니다. 그렇게 되면 토끼의 개체 수는 어떻게 될까요? 다른 변수가 없다면 시간이 지날수록 기하급수적으로 빠르게 증가할 것입니다. 이론적으로는 끝없이 증가할 수 있습니다. 따라서 J자 성장 곡선은 이상적인 그래프라 할 수 있습니다.
현실에서는 섬의 크기, 먹이의 양, 포식자의 존재 등으로 인해 자원이 제약됩니다. 물론 초기에는 토끼의 개체 수가 적고, 섬에 먹이가 많기 때문에 빠른 번식이 이뤄질 겁니다. 빠른 번식이 일어나면, 토끼의 개체 수는 증가할 것이고, 번식의 속도 또한 최고조에 달하게 됩니다. 하지만 시간이 지날수록 먹이도 부족해지고, 경쟁도 치열해지면서 번식의 속도가 느려지게 됩니다. 결국 어느 시점을 지나게 되면 섬이 감당할 수 있는 수용 능력(최대치)에 한계가 발생합니다. 그렇게 되면 섬이 수용할 수 있는 범위 내에서 개체 수가 안정화됩니다.
로지스틱 함수는 위의 그림과 같이 어떠한 성장 환경이나 시스템도 한계에 부딪힐 수밖에 없다는 현실을 반영한 수학 모델입니다. 그래서 이 함수는 "S"자 모양의 곡선을 가지고 있으며, 아무리 성장을 거듭한다고 하더라도 최종의 한계점이 존재하는 형태를 갖고 있습니다. 이러한 특징 때문에 0~100% 사이의 확률값으로 나타납니다. 우리 주제와 연결하여 보면, "직원 A가 이직을 할 확률은 73% 입니다."와 같이 특정한 사건(이직 또는 잔류)에 대한 성공/실패 여부를 예측하는 데 유용하게 사용될 수 있는 함수입니다.
03. 데이터 샘플 소개
이직 예측 분석을 위해 아래와 같은 데이터 샘플을 활용하겠습니다. 각 열은 직원의 고유 식별값인 ID를 시작으로 오른쪽으로 Perf (성과 점수/등급), Pot (잠재력 점수), Tenure (근속연수), Engagement (몰입도), Turnover (이직/재직 여부)로 구성됩니다. 현실에서는 기업의 연간 이직률이 5~20% 사이에서 형성되는 것이 보통인데, 이러한 점을 반영하여 Turnover=1은 60명 중 6명 (약 10%) 정도로 설정되어 있습니다.
✨ Engagement_Score 측정에 대한 가정
조직과 일에 대한 몰입도(Engagement)를 측정하기 위해 ① 일의 의미와 자부심, ② 업무 수행을 투입하는 에너지와 몰입, ③ 조직과 리더에 대한 신뢰와 이직에 대한 의도(생각)로 영역을 나눠 Survey를 실시하였다고 가정하였습니다. 응답의 척도는 Likert 5점을 활용하였습니다. 즉, 매우 그렇다(5점), 대체로 그렇다(4점), 보통이다(3점), 그렇지 않은 편이다(2점), 전혀 그렇지 않다(1점)로 1~5점입니다.
대표적인 예로 직원1을 보겠습니다. Engagement가 4점입니다. 세부 문항에서 Q1=4, Q2=4, Q3=4, Q4=3, Q5=4, Q6=2로 응답했습니다. 따라서 Q6은 역문항이기 때문에 실제 점수 변환 시에는 6-2=4점입니다. 따라서 직원1의 Engagement Score=(4+4+4+3+4+2)/6=23/6≒3.83입니다. 반올림하면 4.0이 됩니다.
04. 로지스틱 회귀 분석
(1) 회귀 방정식 설계
로지스틱 회귀 분석을 이해하기 위해 로지스틱 회귀 모형을 아래와 같이 설계했습니다. 이 모형을 활용하여 개별 직원의 이직 확률을 계산해 보도록 하겠습니다. 이번 시간에서 잠재력 점수를 나타내는 Pot_Score는 모형의 변수로 활용되지 않습니다.
logit(p)=z=−1.5+0.6⋅Perf−0.5⋅Engagement−0.2⋅Tenure
위의 모형을 간단히 살펴보겠습니다. 첫째, Perf는 성과 등급으로 고성과 최고등급(점수) 1부터 저성과 최하등급(점수) 4까지입니다. 점수가 클수록(=성과가 나쁠수록) 이직 위험이 높아집니다. 이러한 점을 반영하여 계수값은 (+)0.6입니다. 둘째, Engagement는 몰입도 점수로 매우 낮은 수준인 1부터 매우 높은 수준인 5까지입니다. 점수가 낮을수록(=몰입도가 낮을수록) 이직 위험이 높아집니다. 따라서 계수값은 (-)0.5입니다. 셋째, Tenure는 근속연수로 조직에 오래 남아 있을수록 떠나기 어려워지는 경향(Embeddedness)을 반영합니다. 그래서 계수값은 (-)0.2입니다.
마지막으로 z를 확률 p로 바꾸는 함수가 바로 로지스틱 함수입니다. 로지스틱 함수에서 확률 p는 다음과 같이 계산합니다.
(2) 로지스틱 확률 p 계산에서 짚고 넘어가야 할 개념
첫째, "e는 무엇인가?"입니다. e는 '무한히 반복되는 특별한 숫자'입니다. 이와 유사한 개념의 대표적인 숫자가 π(파이)=3.1415......입니다. e=2.71828.......입니다. 이 둘은 자연현상에서 굉장히 자주 등장하는 숫자입니다. Excel에서 {=exp(1)} 함수를 적용하면 2.71828이 나옵니다. EXP는 "e의 몇 제곱이냐"를 계산해주는 함수입니다.
위 확률 p를 계산하는 식에서 분모에 있는 e의 (-z)는 결국 "지수 계산기"입니다. 예를 들어 z=1, z=2, z=-1일 때, exp 함수를 적용하면 다음과 같이 계산됩니다.
z = 1 → EXP(-1) = e⁻¹ ≈ 0.367
z = 2 → EXP(-2) = e⁻² ≈ 0.135
z = -1 → EXP(-(-1)) = EXP(1) ≈ 2.718
그리고 우리는 이 계산 결과에서 z가 클수록 exp(-z)가 작아지는 반면, z가 작을수록 exp(-z)가 커지는 경향이 있음을 알 수 있습니다. 즉, z가 클수록 exp(-z)가 작아지므로, 확률 p는 높아지는 것이고, z가 작을수록 exp(-z)가 커지므로, 확률 p는 낮아지는 것입니다. 따라서 z값은 그 자체로 '이직 위험'을 나타냅니다. 좀 더 풀어서 정리하면 z값은 "해당 직원의 이직 위험을 점수로 환산한 값"이 되는 것입니다.
둘째, "왜 확률 p=1 / (1+exp(-z))인가?"입니다. 이 공식은 z라는 "이직 위험 점수"를 반드시 0~1사이의 확률로 강제로 바꿔주는 역할을 합니다. z값은 (-)5가 될 수도 있고, (+)10이 될 수도 있습니다. 이렇게 z값은 마이너스와 플러스가 다 가능한 값입니다. 반면 확률은 반드시 0~1 사이에 있어야 합니다. 그렇기 때문에 위와 같이 확률 p를 구하는 공식을 적용함으로써 어떠한 숫자가 투입되더라도, 결과적으로 무조건 0과 1 사이의 값으로 출력되게 하는 함수를 모델링한 것입니다.
위험 점수인 z값을 3부터 -3까지의 범위로 각 z값에 대한 확률 p을 계산하면 아래와 같이 5%부터 95%까지 변환됩니다. 그리고 z값과 변환된 확률 p값의 관계를 그래프로 시각화하면 로지스틱 함수의 전형적 형태를 확인할 수 있습니다.
(3) 모형을 활용한 실제 이직 확률 계산
앞서 본 로지스틱 회귀 방정식에 실제 데이터 샘플을 활용하여 이직 확률을 계산하겠습니다. 대표적으로 직원2, 직원 7, 직원 12, 직워 14의 데이터를 활용하겠습니다. 직원 2와 직원 14는 재직 중(Turnover=0)이고, 직원 7과 직원 12는 이직(Turnover=1)을 한 것으로 확인됩니다. 이직 위험 점수(z값)를 구한 후, 이직 확률 p값으로 변환하면 다음과 같습니다.
직원 4명의 이직 확률을 계산한 결과, 실제 이직한 직원 7과 직원 12의 이직 확률은 각각 14.4%, 22.4%이고, 이직 하지 않고 조직에 잔류하고 있는 직원 2와 직원 14의 이직 확률은 각각 3.0%, 3.4%로 예측되었습니다. 이직한 직원 7과 직원 12는 몰입도 점수에 있어서는 큰 차이를 보이는 반면, 성과평가는 저성과 그룹에 속하고(3~4등급), 근속연수는 3년 미만인 특징을 갖고 있습니다.
05. 오즈비(Obbs Ratio)의 등장
로지스틱 함수를 사용하는 로지스틱 회귀 분석에서는 주로 어떠한 특정 요인이 결과에 얼마나 큰 영향을 미치는지를 오즈비(Obbs Ratio)를 통해 설명합니다. 여기서 오즈(Obbs)는 단어 그대로 가능성, 승산, 확률이라는 뜻이고, 오즈비는 두 개의 Obbs를 비교하는 비율을 뜻합니다.
✨ 오즈(Obbs)의 개념
오즈는 확률을 조금 다르게 표현하는 방식입니다. 일반적인 확률(0%~100%) 대신, 어떠한 일이 일어날 가능성(p)을 일어나지 않을 가능성(1-p)으로 나눈 값(Obbs=p/1-p)입니다. 예를 들어 동전을 던져서 앞면이 나올 확률은 50%, 뒷면이 나올 확률도 50%입니다. 이때 앞면이 나올 오즈는, 앞면이 나올 가능성 50%를 뒷면이 나올 가능성 50%로 나눈 값으로 1이 됩니다. Obbs=1이라면, 어떠한 일이 일어날 가능성과 일어나지 않을 가능성이 같다는 의미입니다. 앞서 직원 4명의 이직 확률 p를 구하는 사례에서 직원 12의 경우 이직 확률이 22.4%였습니다. 그렇다면 조직을 떠나지 않고 남을 가능성은 77.6%가 됩니다. 즉, 조직을 떠날 가능성보다 남을 가능성이 3.46배 크다는 뜻입니다.
✨ 오즈비(Obbs Ratio)의 개념
오즈비는 서로 다른 두 그룹의 오즈를 비교하는 값입니다. "한 그룹의 오즈가 다른 그룹의 오즈보다 몇 배나 될까?"를 알려주는 값이라고 할 수 있습니다. 상황 A와 상황 B가 있다고 가정해 보겠습니다. 상황 A는 "비타민을 먹은 아이들이 감기가 걸릴 오즈가 0.5", 상황 B는 "비타민을 안 먹은 아이들이 감기에 걸릴 오즈가 1.0" 입니다. 이 두 상황을 비교하는 오즈비는 다음과 같이 계산됩니다.
Obbs Ratio = 상황 A의 오즈 ÷ 상황 B의 오즈=0.5 ÷ 1.0 = 0.5
위의 오즈비 0.5는 "비타민을 먹은 아이들이 감기에 걸릴 가능성이 비타민을 안 먹은 아이들보다 절반(0.5배)으로 줄어든다."는 뜻입니다. 오즈비가 1보다 크면, 가능성이 높아지는 것이고, 1보다 작으면 가능성이 낮아지는 것입니다.
위의 OR에 대한 공식에서 분자(①)가 분모(②)보다 커서 OR이 1보다 큰 값이 나왔다면, 상황 A의 오즈가 상황 B의 오즈보다 더 높다는 것을 의미합니다. 반면, OR이 1보다 훨씬 작은 값이 나온다면, 상황 A에서 사건이 일어날 가능성이 훨씬 낮다는 것을 의미합니다.
만약 상황 A를 "몰입도 점수가 4점 이상인 고몰입 그룹"으로, 상황 B를 "몰입도 점수가 2점 이하인 저몰입 그룹"으로 구분하고, "이직"을 사건이라고 규정할 경우, OR이 0.2가 나왔다면 "몰입도 점수가 높은 그룹(상황 A)이 몰입도 점수가 낮은 그룹(상황 B)에 비해 이직할 가능성이 0.2배밖에 되지 않는다."라고 해석할 수 있습니다. 이러한 점에서 OR은 "두 그룹의 사건 발생 기울기를 비교한 배수 값"이라고도 할 수 있습니다.
06. 몰입도(Engagement)에 대한 OR 계산
지금부터는 직원 60명에 대한 데이터 샘플에서 [E열]에 있는 [Engagement] 점수를 두 개의 그룹으로 나눠 각 그룹에 대한 Obbs Ratio를 계산해 보겠습니다. 이를 위해 아래의 단계를 순서대로 거치도록 하겠습니다.
✨ Step-①: 몰입도 수준을 점수 구간으로 구분
몰입도 점수는 1점부터 5점까지입니다. 여기서 몰입도 점수가 2점 이하인 경우 '저몰입 그룹', 몰입도 점수가 4점 이상인 경우 '고몰입 그룹'으로 분류하겠습니다. 그런 각 그룹의 인원이 몇 명인지 살펴보겠습니다. 먼저 저몰입 그룹의 인원 수를 계산합니다. Excel에서 {=COUNTIFS($E$2:$E$61,"<=2")}를 적용하면 24명이 출력됩니다. 다음으로 고몰입 그룹의 인원 수를 계산합니다. Excel에서 {=COUNTIFS($E$2:$E$61,">=4")}를 적용하면 19명이 출력됩니다. 따라서 저몰입 그룹의 인원은 24명, 고몰입 그룹의 인원은 19명입니다.
✨ Step-②: 몰입도 그룹별 이직 확률 계산
몰입도 수준을 점수 구간으로 하여 저몰입 그룹과 고몰입 그룹으로 구분하였다면, 각 그룹에 해당하는 이직자의 수를 파악해야 합니다. 이직 여부에 관한 사항은 [F열]에 있습니다. 여기서 Turnover=0은 재직, Turnover=1은 이직을 뜻합니다.
먼저 저몰입 그룹의 이직자 수를 계산합니다. Excel에서 {=COUNTIFS($E$2:$E$61,"<=2",$F$2:$F$61,1)} 함수를 적용하면, 3명이 출력됩니다. 다음으로 고몰입 그룹의 이직자 수를 계산합니다. 마찬가지로 Excel에서 {=COUNTIFS($E$2:$E$61,">=4",$F$2:$F$61,1)} 함수를 적용하면, 1명이 출력됩니다.
이제 몰입도 수준별 이직 확률을 계산할 수 있습니다. 저몰입 그룹의 경우 3/24=0.125, 고몰입 그룹의 경우 1/19≒0.052가 나옵니다. 즉, 저몰입 그룹의 이직 확률은 12.5%, 고몰입 그룹의 이직 확률은 5.2%입니다.
✨ Step-③: 오즈(Obbs) 및 오즈비(OR) 계산
앞서 오즈는 확률을 조금 방식으로 표현하는 개념이라고 밝혔습니다. 즉, 오즈는 일반적인 0%~100%의 값으로 표현하는 대신 특정한 사건이 일어날 확률을 특정한 사건이 일어나지 않을 확률로 나눈 값입니다. 따라서 '이직'이라는 특정한 사건과 그것이 일어나지 않을 확률의 비율을 저몰입 그룹과 고몰입 그룹으로 나눠 각 그룹의 오즈를 계산하면 다음과 같습니다.
저몰입 그룹의 오즈는 0.14, 고몰입 그룹의 오즈는 0.05 수준입니다. 마지막으로 오즈비(OR, Obbs ratio)를 계산하면 2.57이 나옵니다. 결론적으로 저몰입 그룹은 고몰입 그룹에 비해 이직에 대한 오즈가 2.57배 정도 높다는 뜻입니다. 바꿔 말하면, "저몰입 그룹은 고몰입 그룹보다 이직 쪽으로 기울어진 정도가 2.57배 수준이다."라고 말할 수 있겠습니다.
07. 로지스틱 회귀 계수(β)
(1) Executive Summary
지금까지 우리는 "몰입도의 수준이 달라지면, 사람들이 조직을 덜 떠나게 되는가?"를 분석했습니다. 이를 통해 저몰입 그룹이 고몰입 그룹보다 이직에 대하여 2.57배 정도 강한 기울기를 보인다는 결론을 도출했습니다. 그런데 생각해 보면, 몰입도가 높을수록 이직을 덜하게 된다는 현상을 파악하고자 했다면, 두 가지만 알면 됩니다. ① 떠난 사람과 안 떠난 사람의 수를 계산하고, ② 몰입도 점수별로 집계만 해보면 됩니다.
그러나 이직을 예측하는 분석에서 진정으로 문제의식을 갖는 부분은 "몰입도 점수가 한 단위(1점) 바뀔 때, 이 사람의 이직을 향한 기울기(강도)는 얼마나 변할까?"입니다. 이것은 우리가 앞선 시간에서 살펴봤던 '회귀 분석'에 대한 접근과도 같습니다. 보통의 회귀분석은 "독립변수 X가 한 단위 증가하면, 종속변수 Y는 평균적으로 얼마나 증가하는가?"를 측정합니다. 하지만 이직(Y)은 평균이라는 것이 없습니다. 이직을 하든가 아니면 조직에 남든가 입니다. 즉, 0.3, 0.6과 같은 중간값은 현실에서 존재하지 않습니다.
통계는 바로 이러한 이진 분류 체계의 문제를 풀기 위해 방향을 달리합니다. "확률 p를 바로 예측하자."는 것이 아니라 "이직을 하는 쪽으로 얼마나 기울어져 있는지"를 살펴보는 방식입니다. 바로 이러한 기울어진 정도를 나타내는 것이 오즈(Obbs)란 개념이었습니다.
오즈(Obbs)는 "이 직원은 떠날 쪽으로 기울어져 있는지, 아니면 조직에 남는 쪽으로 기울어져 있는지"를 묻습니다. 이직 확률이 50%면, 오즈는 1이 됩니다. 이직과 잔류가 완전히 50대 50을 이룹니다. 이직 확률이 10%면, 오즈는 약 0.11이 됩니다. 조직에 잔류하는 쪽으로 훨씬 많이 기울어져 있습니다. 이직 확률이 80%면, 오즈는 4가 됩니다. 조직을 떠날 쪽으로 강하게 기울어져 있습니다. 즉, 오즈는 '확률'이 아니라 '방향과 세기'로 이해할 수 있습니다.
(2) 로지스틱 회귀계수(β)의 개념과 이해
로지스틱 회귀 모델의 질문은 어느 직원의 몰입도가 한 단위(1점) 바뀔 때, 이 사람의 이직에 대한 기울기(오즈)는 얼마나 변할 것인지에 관한 것이었습니다. 여기서 로지스틱 회귀계수 *β*는 변화의 크기를 뜻합니다. β는 '확률을 바꾸는 값'이 아니라 '오즈의 기울기를 조절하는 역할'을 합니다.
로지스틱 회귀계수 *β*는 일반적인 계수와 마찬가지로 -0.3, -0.7, 0.5 등과 같은 값을 가집니다. 하지만 오즈란 개념을 사용하는 로지스틱 회귀 분석에서는 위와 같은 일반적인 값들이 제대로 된 의미를 갖지 못합니다. 그래서 로지스틱 회귀계수는 오즈의 개념과 결합하여《OR=e^β》란 계산식으로 나옵니다.
위 계산식을 예를 통해 살펴보겠습니다. 만약 로지스틱 회귀 분석 결과로 β(Engagement)=(-)0.5가 나왔다고 가정해 보겠습니다. 이걸 OR로 바꾸면 OR = e⁻⁰·⁵ ≈ 0.61이 됩니다. Excel에서 {=exp(-0.5)} 함수를 적용하면 됩니다. 이 말은 결국 "몰입도가 1점 올라갈 때마다, 이 사람의 이직 쪽으로 기울어진 정도가 기존보다 61% 수준으로 줄어든다."라는 뜻입니다. 즉, 이 사람이 과거에 조직에서 떠날 마음이 100이었다고 하면, 몰입도가 +1이 된 후에는 조직에서 떠날 마음이 61이 된다는 것입니다. 그래서 몰입도 점수가 1점이 올라갈 때마다 이직 오즈가 OR배 만큼 줄어들게 됩니다. 즉, 몰입도가 1점 증가할 때, 이직 오즈는 약 39% 감소하는 것입니다.