학습의 첫 걸음
통계를 기반으로 하는 HR Analytics는 숫자를 다루는 분야입니다. 조직, 사람, 일의 다양한 현상을 데이터로 읽고, 그 속에서 의미를 찾아내는 과정이라 하겠습니다. 하지만 데이터 분석이라는 것이 단지 숫자의 계산에 그치는 것이라면 그것 또한 오해입니다. 데이터 분석의 시작은 수식이 아니라 '변수'(Variable)를 이해하는 것에서 비롯됩니다. 데이터가 수집된 사실(Facts)의 모음이라면, 변수는 그 데이터를 설명하는 언어이자 통계의 출발점이라 할 수 있습니다.
데이터는 관찰된 값들의 집합이고, 변수는 그 값을 구성하는 속성(Attribute) 또는 측정 항목입니다. 아래와 같이 HR 부서의 직원 데이터가 있다고 가정해 봅시다.
여기서 각 열(Column)에 있는 Gender(성별), Department(부서), Tenure(근속기간), Salary(연봉), Engagement(몰입도)가 변수이고, 각 행(Row)에 기록된 값들은 데이터가 됩니다. 이와 같이 변수는 데이터를 구성하는 속성이자, 분석의 최소한의 단서가 됩니다. 나아가 E001인 직원과 E002인 직원은 열마다 다른 데이터를 보유하고 있습니다. 우리는 이를 통해 변수는 특성상 언제든 변할 수 있는 성질을 갖고 있음을 직관적으로 알 수 있습니다.
변수에는 여러 유형이 있지만, 크게 질적 변수(Qualitative Variables)와 양적 변수(Quantitative Variables)로 구분할 수 있습니다. 각 변수는 아래와 같이 나눌 수 있습니다.
먼저 질적 변수를 알아보겠습니다. 질적 변수란, 숫자로 된 값이 아니며, 단지 '구분'만 나타내는 값입니다. 달리 말해 어떠한 것의 크기나 거리에 관한 것이 아니라 '서로 달리 구분된 것'으로 나타납니다. 질적 변수에는 명목형(Nominal)과 서열형(Ordinal)이 있습니다.
명목형은 성별, 부서, 지역, 근무 형태(정규직, 계약직, 파견직) 등과 같이 서로 다른 범주로 구분이 되어 있는 변수를 말합니다. 이런한 명목형 변수는 자연스러운 순서가 존재하지 않습니다. 반면 서열형은 직급(사원, 대리, 과장, 차장, 부장), 만족도(매우 그렇지 않다, 그렇지 않다, 보통이다, 그렇다, 매우 그렇다) 등과 같이 데이터 간의 순서는 존재하지만, 간격의 크기는 일정하지 않은 변수를 말합니다.
명목형 변수는 막대 그래프나 파이 차트를 활용하여 시각화를 할 수 있습니다. 그리고 데이터의 중심 경향(Central Tendency)을 나타내는 대푯값으로 최빈값(Mode)이 사용됩니다. 추론통계의 영역에서는 [부서별 퇴사율 차이] 등과 같은 주제에 대하여 카이제곱 검정(Chi-Squared Test) 등을 활용하게 됩니다. 이 단원에서 언급되는 모든 통계 용어와 검정 용어들은 잊으셔도 괜찮습니다. 앞으로 이어지는 단원마다 자세하게 살펴볼 기회가 있습니다.
서열형 변수는 Box Plot, 막대 그래프(순위) 등으로 시각화 할 수 있습니다. 그리고 데이터의 중심 경향을 나타내는 대푯값으로는 중앙값(Median)이 있습니다. 추론통계의 영역에서는[부서별 직원 만족도(만족의 정도를 1점부터 5점으로 변환)], [리더십 평가와 직무성과 간의 상관분석] 등과 같은 주제로 비모수 검정(Mann-Whitney U test, Kuskal-Wallis test, Spearman's rho(p)) 등을 활용합니다.
다음으로 양적 변수를 알아보겠습니다. 양적 변수는 숫자로 되어 있는 수학적 연산이 가능한 변수입니다. 즉, 평균, 표준편차, 비율 계산 등이 가능합니다. 양적 변수는 다시 구간형(Interval)과 비율형(Ratio)으로 나눌 수 있습니다.
구간형 변수는 몰입도 점수(Engagement Index), 인적성 점수, 심리검사 점수 등과 같이 값들 사이의 간격은 일정하지만, 절대적인 0이 없는 변수를 말합니다. 몰입도, 인적성, 심리검사를 시행한 후 어떠한 검사 항목에서 0점이 나왔다고 하여 몰입이 없다, 인성/적성이 없다, 감정이 없다고 단정할 수 없습니다. 이처럼 구간형 변수는 현실 세계에서 진정한 0.0이 존재하지 않습니다.
만약 종합 몰입도 점수의 평균이 4.0점에서 3.0점으로 내려갔다면, 그 차이는 (-)1.0점이라는 간격을 갖게 됩니다. 구간변수의 경우 [몰입도 점수가 높은 그룹이 실제 성과도 유의미하게 높은가?], [몰입도 점수가 1점 올라갈 때 퇴사 확률은 얼마나 감소하는가?], [리더십 점수가 높을수록 몰입도가 선형적으로 높아지는가?] 등과 같은 분석이 이뤄질 수 있으며, 히스토그램(Histogram), Box Plot, 막대 그래프, 라인 차트(Line Chart) 등으로 시각화를 할 수 있습니다. 데이터의 중심 경향을 나타내는 대푯값으로는 평균(Mean)이 있습니다. 추론통계의 영역에서 t-test, ANOVA, 피어만 상관분석, 회귀분석, 로지스틱 회귀분석 등을 활용할 수 있습니다.
비율형 변수는 연봉, 근속연수, 근무시간, 직원 수 등과 같이 값들 사이의 간격이 일정하고, 절대적인 0이 존재하는 변수를 말합니다. 따라서 "연봉이 두 배 높다.", "근속연수가 절반이다." 등과 같은 표현이 가능합니다.
비율형 변수의 경우 [직급별 평균 연봉 분석], [근속연수와 성과평가 점수와의 관계], [급여, 근속연수, 교육시간과 성과 예측] 등과 같은 분석이 이뤄질 수 있으며, 히스토그램, 산점도, Box plot 등을 통한 시각화를 할 수 있습니다. 추론통계의 영역에서 t-test, ANOVA, 회귀분석, 상관분석 등 다양한 검정 방법을 활용할 수 있습니다.
✨ [참고] 만족도는 서열형인가 구간형인가?
만족도도 숫자로 변환이 가능합니다. 흔히 1점부터 5점 척도로 매우 그렇지 않다, 그렇지 않다, 보통이다, 그렇다, 그렇지 않다의 의미를 새깁니다. 하지만 과거에는 주관적인 만족 수준을 변환된 점수의 차이로 설명하는 것에 의문을 가졌습니다. 4점과 3점의 차이와 2점과 1점의 차이가 같은 간격을 가졌다고 할 수 있는지 말입니다.
하지만 우리가 수집하는 표본의 크기가 안정적이고, 데이터가 정규성에 근사한다는 통계적 가정을 바탕으로 수치화 된 분석을 시행하여 활용하겠다는 측정의 목적 하에서 만족도는 얼마든지 구간형 변수로서, 그리고 다양한 통계적 검정이 가능한 것으로 보고 있습니다.
실제로 만족도 점수를 통계 분석 도구에 활용하기 위해 연속형(Continuius) 변수로 설정하기도 합니다. 다만 만족도라는 변수가 본래 어떠한 성질의 것인지를 살펴볼 때는 원칙적으로 서열형이라고 규정할 수 있다는 것입니다.
반면 이와 유사한 몰입도 변수는 여러 지표를 나눠 그것이 몰입수준을 살피는 데 종합적으로 쓰이기 때문에 종합 점수(Engagement Index)를 바탕으로 평균, 표준편차, 분산 등으로 설명할 수 있다는 점에서 구간형으로 분류하였습니다.