✨ 미리 보는 HR Analytics Strategies [1편]
Reference
안녕하세요? 지난 시간에는 '추론통계 입문 (1)'편을 학습했습니다. 추론통계의 개념과 기술통계와 추론통계의 주요한 차이를 개괄적으로 살펴봤습니다. 이번 시간은 앞서 예고한 것과 같이 HR analytics strateiges에 관한 것입니다. 즉, 추론통계를 위한 기초적인 배경 지식부터 추론통계 영역에서 자주 접하게 될 다양한 통계 검정 방식을 소개하는 시간을 가져 보려고 합니다. 이를 위해 Martin R Edwards, Kirsten Edwards, Daisung Jang(2024)이 집필한『PREDICTIVE HR ANALYTICS』(3RD EDITION) "03. Analytics Strategies"에 수록된 내용(58~70)을 활용합니다.
따라서 본 글은『PREDICTIVE HR ANALYTICS』(3RD EDITION)의 내용을 학습 및 비상업적 목적으로 요약하였으며, 일부 내용은 직접 저작(著作) 및 가공한 것입니다. 다만, 원저작물에 대한 저작권은은 해당 도서의 저자인 Martin R. Edwards, Kirten Edwards, Daisung Jang 및 출판사 Kogan Page Ltd.에 있음을 밝힙니다.
** This post is a translated and summarized interpretation of Predictive HR Analytics (3rd Edition) for educational purposes. All copyrights of the original work belong to Martin R. Edwards, Kirsten Edwards, Daisung Jang and Kogan Page Ltd.
Intro: The value of Analysis Strategies
Bersin(2012)은 예측 분석의 중요성을 강조하며, 과거의 데이터를 바탕으로 개인 또는 그룹의 향후 성과를 예측할 수 있다고 말했습니다. 조직이 데이터를 충분히 수집/축적하면, 그 데이터로부터 의미 있는 추세와 패턴을 도출할 수 있고, HR 전문가나 경영진은 이를 토대로 향후 인력과 관련한 전략적인 의사결정을 내릴 수 있게 됩니다.
예를 들어, 단순히 '지역별 이직률 보고서'를 만드는 대신, 여러 해 동안의 인구통계 데이터를 함께 분석하여 특정한 지역/직무/직원 유형에서 높은 이직률을 유발하는 요인을 통계적으로 유의미하게 밝혀낼 수 있습니다. 조직이 이러한 데이터를 확보하게 되면, 분석을 할 수 있는 예측모델의 범위는 사실상 무한해집니다.
동시에 많은 어려움을 겪기도 합니다. 무엇을 분석해야 하고, 어떠한 모델을 우선하여 적용해야 할지를 결정하는 문제가 있기 때문입니다. 이는 궁극적으로 비즈니스 니즈와 데이터의 가용성의 조합에 따라 결정이 되며, 시간이 지날수록 계속 발전하게 될 것입니다.
01. 통계적 유의성(Statistical significance)
우리는 PHRA와 관련한 다양한 통계 검정을 다루게 됩니다. 그것의 핵심 목표는 어떠한 결과가 '통계적으로 유의미한 것인지'(Statistically significant) 여부를 판단하기 위함입니다.
통계적 유의성의 개념은 가설검정(Hypothesis testing)과 연결되어 있습니다. 보통 우리는 연구가설(Research hypothesis)과 귀무가설(Null hypothesis)을 설정합니다. 연구가설은 우리가 입증하고자 하는 주장이고, 귀무가설은 그 효과가 없다고 가정하는 것입니다.
간단히 예를 들어 다음의 경우를 생각해 봅시다.
연구가설: 영업사원이 고객 서비스 교육을 수강하면 고객만족도 점수가 향상된다.
귀무가설: 고객 서비스 교육을 수강하더라도 고객만족도 점수에는 변화가 없다.
이때 우리는 실제 데이터를 수집합니다. 즉, 교육을 받은 사람과 받지 않은 사람의 데이터를 모으고, 교육 전후의 고객만족도 점수를 측정합니다. 그 후 통계 검정을 수행하여, 두 그룹 간의 차이가 우연에 의한 것인지, 아니면 실제로 존재하는 차이인 것인지를 판정하게 됩니다.
통계검정은 이를 수치로 표현하는 검정통계량(Test Statistic)을 산출합니다. 이 값이 충분히 크고, 우연에 의해 나타날 가능성이 낮다면, 우리는 귀무가설을 기각하고 연구가설을 지지할 수 있습니다.
02. 유의수준(p-value)과 95% 기준
통계적 유의성을 판단하는 보편적인 기준은 신뢰수준(Confidence level) 95%입니다. 이는 통계학자인 R.A. Fisher가 1925년 『Statistical Methods for Research Workers』에서 제시한 이후 100년 가까이 유지되어온 관례입니다.
즉, 결과가 **우연히 발생할 확률이 5% 이하(p<0.05)**이면, 통계적으로 유의하다고 봅니다. 이 확률 5%는 다시 말해 **95%의 확신(confidence)**을 갖는다는 의미이기도 합니다. 우리가 얻은 결과가 단순히 우연일 가능성이 5% 미만이면, 그 결과를 신뢰할 수 있다고 판단합니다. 이때, p-value는 '우연히 이러한 결과가 나올 확률'을 의미하며, 일반적으로 p<0.05이면, 유의한 것으로 해석합니다.
만약, p<0.01이라면, 우리는 99% 확신할 수 있으며, 이는 매우 강력한 결과로 간주할 수 있습니다. 반대로, p>0.05라면, 우리의 결과는 통계적으로 유의하지 않으며(not statistically significant), 귀무가설을 기각할 수 없습니다. 즉, 관찰된 차이는 우연으로 인해 발생했을 가능성이 높다고 보는 것입니다. 위 기준은 앞으로의 모든 분석에서 판단의 중심이 되는 기준으로 사용될 것입니다.
03. Key PHRA Metrics
HR 예측 분석에는 정해진 표준 지표가 있진 않지만, HR 분석과 관련하여 익숙하게 접하게 되는 핵심 지표들이 존재합니다. 대표적인 예시들을 살펴보면 다음과 같습니다.
위의 표에 있는 Talent/potential metrics에서 [9-box grid]는 성과/인재관리에 있어 고전적인 내용이지만 꽤 실용적인 tool로서 활용되기도 합니다. 이에 관한 내용은 따로 시간을 내어 소개하도록 하겠습니다.
04. 데이터 무결성(Data Integrity)
데이터의 무결성은 HR 데이터 분석의 핵심이라고 할 수 있습니다. 데이터 분석을 맡고 있는 실무자들은 자신이 분석하는 데이터가 최신 상태인지, 정확성이 있는지, 신뢰할 수 있는지를 확인해야 합니다. 이러한 관점을 반영하여 많은 조직에서는 HR 담당자들이나 각 부문의 관리자들이 HR 데이터를 관리하고 있으며, 데이터베이스의 정보가 정확하고 최신 상태로 유지되고 있는지를 모니터링 하고 있습니다.
서로 다른 소스의 데이터를 결합할 때는 일반적으로 고유의 식별자(Unigue identifier), 예를 들어 직원 ID 등을 기반으로 연결합니다. 데이터는 데이터 웨어하우스나 Access, Excel, SaS 등 다양한 소프트웨어 환경에서 결합될 수 있습니다. 이 과정에서는 데이터의 일관성과 무결성을 확보하기 위한 세심한 주의가 필요하다는 점을 명심해야 합니다.
HR 예측 분석의 발전과 함께 HR 데이터 소스는 점점 다양해지고 있습니다 그러나 이러한 데이터를 예측 모델에 활용하려면 많은 시간과 숙련된 데이터 관리 능력이 요구됩니다. 결국, 데이터의 유형에 따라 적합한 분석 방법을 선택하는 것이 중요하며, 데이터 유형과 그에 적합한 통계 검정들을 식별하고 단계적으로 다루는 연습이 필요합니다.
05. 데이터의 유형(Types of Data)
:: 『데이터와 변수』편의 내용과 같이 학습 권장
우리가 수집하는 데이터 혹은 조직에서 수집하는 데이터는 무엇을 측정하고, 어떻게 작동하는지에 따라 여러 유형으로 구분될 수 있습니다. 이름, 급여, 성별 등 각 데이터 필드는 하나의 변수(Variable)으로 간주됩니다. 이러한 변수는 크게 *범주형(Categorical)*과 *연속형(Continuous)*로 나눌 수 있습니다.
개념을 단순화하여 변수란, 변할 수 있거나 변화하는 특성 그 자체를 의미합니다. 예를 들면, 사람마다 다른 눈 색깔(eye color), 매일 달라지는 온도(temperature), 직원들마다 다른 성과평가(performance rating) 등이 있습니다. '변동성'(variance)이라는 개념은 통계 분석에서 매우 중요합니다.
조직 내에서 구성원과 관련된 어떠한 특성들(성별, 급여, 연령, Stockoption/RSU, 역량평가, 성과평가, 몰입도 수준, 근속기간 등)을 생각해보면, 그 값은 개인마다 다를 것입니다. 이와 같은 개별 직원 간의 차이(variance)가 통계 검정의 핵심이 됩니다. 즉, 우리는 이러한 변동성을 통계적인 기법으로 분석합니다.
A-1. 범주형 변수(Categorical variables)
범주형 변수는 이름 그대로 '범주'(Category)로 구성된 변수입니다. 예를 들어 여성 리더십에 대한 다양성 연구에서 직급별로 여성의 비율을 분석한다고 가정해 봅시다. 이때, 직급(Role level)이라는 변수는 아래의 예시에 따라 범주형 변수에 해당할 수 있습니다.
사무직(Clerical)
행정직(Administrative)
신입 컨설턴트(Graduate Consultant)
컨설턴트(Consultant)
수석 컨설턴트(Senior Consultant)
책임 컨설턴트(Principle Consultant)
파트너(Partner)
여기서 한 명의 직원은 이 중에서 오직 하나의 범주에만 속할 수 있으며, 겹칠 수 없습니다. Gradute Consultant이면서 동시에 partner일 수 없습니다. 즉, 이러한 데이터는 수치적이거나 연속적인 값이 아니라, 단지 라벨(Label)로서의 성격을 지닐 뿐입니다.
따라서 이러한 변수들에 대하여는 더하기(+), 빼기(-), 곱하기(×), 나누기(÷) 등의 수학적 연산이 불가능합니다. [Graduate Consultant+Senior Consultant=Partner]와 같은 계산은 말이 되지 않습니다. 또한, 범주형 변수는 숫자를 '라벨'로도 사용할 수 있습니다. 예를 들면, 아래와 같이 '국가'별로 HR 시스템에 대한 접근 코드를 숫자로 변환할 수 있습니다.
01: 오스트레일리아(Australia)
02: 영국(United Kingdom)
03: 미국(United States)
04: 홍콩(Hong Kong)
05: 싱가포르(Singapore)
06: 캐나다(Canada)
하지만 이러한 숫자들은 단지 식별자(identifier)로 존재할 뿐, 수학적인 의미를 지닌 수치가 아닙니다. 영국을 나타내는 코드인 02값에 3을 곱하면 6이 되지만, 그렇다고 캐나다가 될 수 있는 연산은 불가능합니다. 이 숫자들은 단순히 '분류'를 위한 명목상의 라벨일 뿐입니다.
A-2. 범주형 변수의 세 가지 유형(Types of Categorical variables)
범주형 변수는 ① 이분형 변수(Binary variable), ② 명목형 변수(Nominal variable), ③ 서열형 변수(Ordinal variable)로 나눌 수 있습니다.
이분형 변수란, 단 두 가지의 값만을 가지는 가장 단순한 범주형 변수입니다. 이를 이항(Binomal) 혹은 이분(Dichotomous) 변수라고도 부릅니다. 예를 들어, 교육 수강 여부에 대한 변수는 Yes(예)/No(아니오)로 구분됩니다. 또, 직원의 재직 상태에 관한 변수는 퇴사자(Leaver)/재직자(Stayer)로 구분할 수 있습니다.
명목형 변수란, 세 가지 이상의 구분이 가능한 범주를 가지며, 이들 간에는 순서가 없는 것습니다. 그리고 각 값은 상호 배타적이란 특징이 있습니다. 예를 들어, 부서를 구분할 때, Sales/Legal/HR/Finance 등이 있습니다. 또, 근무지를 나눌 때는 서울/경기/충청 등이 있습니다.
서열형 변수란, 범주형 데이터지만 각 범주 간에는 의미가 있는 순서(Order)가 존재하는 변수입니다. 예를 들어 직원의 급여 순위를 매긴다고 가정해 봅시다. 이 경우 Senior Consultant(1위), Consultant(2위), Graduate(3위) 등이 있습니다. 이렇게 각 순위는 크고 작은 순서가 있으나 간격(Interval)은 동일하지 않습니다. 즉, 1위와 2위의 급여 차이가 2위와 3위의 차이가 같을 필요가 없습니다. '서열은 존재하나 차이가 일정하지 않은 변수'인 것입니다.
B. 연속형 변수(Continuous variables)
연속형 변수는 측정척도(Measurement scale) 상에서 임의의 수치값을 가질 수 있는 변수입니다. 이러한 연속형 변수는 간격형(Interval) 변수와 비율형(Ratio) 변수로 나눌 수 있습니다.
간격형 변수는 숫자 척도로 측정되며, 값들 간의 차이(간격)을 구할 수 있습니다. 예를 들면 날짜(Date)가 이습니다. 1994년 6월 6일, 2013년 9월 28일, 2025년 4월 5일 등 각 Date의 차이를 정량적으로 계산할 수 있지만, 절대적인 기준점(Absolute zero)이 존재하지 않습니다. 온도의 경우도 마찬가지입니다. 섭씨 22도와 23도의 차이는 1도이지만, 0도가 '온도 없음'을 의미하지 않습니다 따라서 '20도는 10도의 두 배로 덥다'라고 말할 수 없습니다. 이는 단순히 간격에 관한 것이지, 비율의 개념이 아니기 때문입니다. 결론적으로 간격형 데이터는 차이를 계산할 수 있지만, 비율 비교는 불가능합니다.
비율형 변수는 간격형 데이터와 유사하지만, 절대적인 0점(Zero point)이 존재한다는 점이 다릅니다. 즉, 0이 '없음'(Nothing)을 의미합니다. 대표적인 예로 키, 몸무게, 근속연수, 연봉(Annual salary) 등이 있습니다. 이러한 수치는 실제로 연산(+, −, ×, ÷)이 가능합니다. 즉, 어떤 직원의 평균 급여가 다른 집단보다 2.8배 높다는 식의 비율 해석이 가능합니다.
06. 데이터 사용 단위
HR 데이터 분석 목적과 주제에 따라 데이터를 팀 단위(team-level)로 분석할지, 개인 단위(individual-level)로 분석할지 달라집니다. 예를 들어 직원 몰입도 조사(Employee engagement survey)와 같이 민감할 수 있는 정보는 윤리적이고 기밀성의 문제로 인해 팀 단위로만 제공되는 경우가 많습니다. 조직은 보통 응답자에 대한 익명성을 보장해야 하므로, 개인 수준에서의 분석은 제한될 수 있습니다.
또 다른 예로, 리더십 효과성(Leadership effectiveness)을 평가할 때는, 리더가 이끈 팀의 집합적 성과(Aggregated Performance)를 보는 것이 더 적절할 수 있습니다. 즉, 분석의 초점이 개인의 속성(attribute)인지, 아니면 팀의 속성인지에 따라 단위가 달라집니다.
Team level: 팀 몰입지수(Team engagement index), 리더십 신뢰도(Leadership confidence), 팀 워크라이프 밸런스 점수(Team W&L balance index), 지점별 고객 충성도(Store/Branch customer loyalty), 팀 이직률(%) 등이 있습니다.
Individual level: 개인 성과평가(Performance rating), 행동평가(Behavioral rating), 영업실적(Sales figures), 고객 피드백(Customer feedback), 통화량(Call loads), 근속연수(Length of service), 성별(Gender), 직무상태(Status) 등이 있습니다.
07. 독립변수와 종속변수 (Dependent and Independent Variables)
어떠한 통계 검정을 사용할지는 데이터의 유형 뿐만 아니라 변수 간의 관계에도 달려 있습니다. 이를 위해 가장 기본이 되는 개념이 바로 종속변수(Dependent Variable, DV)와 독립변수(Independent Variable, IV)입니다. 여기서 핵심 질문은 "내가 설명하거나 예측하고자 하는 것이 무엇인가?"입니다. 그 대답이 바로 종속변수, 그리고 그 결과에 영향을 미치는 요인이 독립변수입니다.
종속변수는 흔히 결과변수(Outcome Variable)라고도 하며, 우리가 예측, 설명하려는 대상을 말합니다. 앞서 유의성 검정 부분(p-value)에서 예시로 들었던 가설을 다시 보겠습니다. "영업사원이 고객서비스 교육을 수강하면 고객만족도 점수가 향상될 것이다." 여기서 종속변수는 "고객만족도 점수(Customer satisfaction score)"입니다. 즉, 교육의 수강 여부(독립변수)의 변화에 따라 영향을 받는 결과값입니다. 따라서 우리는 "교육 수강 여부에 따라 고객만족도가 얼마나 달라지는 가""를 분석하게 됩니다.
독립변수는 영향을 주는 변수, 즉 예측변수(Predictor variable) 또는 설명변수(Explanatory variable)라고 부릅니다. 위의 예시에서 고객서비스 교육 수강 여부가 독립변수입니다. 우리는 이 변수가 고객만족도(종속변수)에 영향을 줄 것이라고 가정합니다. 주의할 점은, 두 변수 간에 통계적으로 유의미한 관계가 발견되더라도, 그것이 인과관계(Causation)을 의미하지 않는다는 것입니다. 예를 들면, "아이스크림 판매량과 피부암의 발병률 간 상관관계"가 있다고 해도, 그 원인은 사실상 햇빛의 노출(Sun exposure)이라는 제3의 요인일 가능성이 큽니다. 즉, 상관관계(Correlation)는 존재하지만, 그것이 원인은 아니란 것입니다.
결국 독립변수와 종속변수는 모두 명목형, 서열형, 간격형, 비율형 등 다양한 형태를 가질 수 있으며, 이 변수들의 조합이 적절한 통계검정(Statistical test)을 결정합니다.
08. 모수검정과 비모수검정 (Parametric vs Non-parametric Tests)
통계에서 모수(Parameter)는 모집단(Population)을 대표하는 숫자를 말합니다. 회사 전체 직원이 우리가 알고 싶어 하는 전체 집단이라면, 그중 우리가 조사한 100명의 직원이 전체의 일부로서 표본이 됩니다. 100명의 직원 데이터를 바탕으로 실제로 관측된 표본의 평균 [Bar x]나 표본의 분산인 [s^2]을 통계량(Statistic)이라고 말합니다. 반면, 우리가 직접적으로 알 수 없는 모집단의 평균인 μ와 분산 σ²은 모수가 되는 것입니다.
모수검정(Parametric test)이란, "데이터가 특정한 분포(정규분포, Normal distribution)를 따른다고 가정하고, 그 분포의 중심과 폭(평균, 분산)을 추정하여 검정하는 방법"을 말합니다. 두 집단의 평균인 μ_1과 μ_2가 같은지를 검정하는 t-검정(t-test), 두 집단을 넘어서는 여러 집단의 평균 차이를 비교하는 ANOVA, 평균의 구조를 선형적으로 모델링하여 변수 간 관계를 설명하는 회귀분석(Regression)은 모수검정에 관한 여러 통계 검정이라고 할 수 있습니다.
반면, 비모수검정(Non-parametric test)이란, "데이터의 분포나 모수에 대한 가정 없이 순위나 빈도 등의 순서 정보를 통해 비교하는 검정 방법"을 말합니다. '남자와 여자의 조직 몰입도 순위가 통계적으로 다르다고 할 수 있을까?'와 같은 가설을 검정하는 방법이 활용되며, Mann-Whitney U test 등이 사용됩니다.
비모수검정이 사용되는 이유는 우리가 수집한 표본의 크기(수)가 매우 작은 경우도 발생할 수 있으며, 실제 데이터는 항상 정규분포와 같이 이상적으로 분포(평균을 중심으로 좌우 대칭인 종 모양의 곡선 형태)하지 않기 때문입니다. 분포가 왼쪽으로 치우치면(-) '왼쪽 비대칭(negative skewed)', 오른쪽으로 치우치면(+) '오른쪽 비대칭(positive skewed)' 상태가 됩니다. 또, 분포가 중앙에 몰려서 뽀족한 경우나 혹은 납작하게 퍼진 경우도 있습니다. 이처럼 정규성(Normality) 가정이 깨지는 경우에는 비모수검정을 사용해야 합니다.