brunch

06. 추론통계 (1)

학습의 첫 걸음: For your understanding

by HyehwaYim







안녕하세요?


우리는 지난 학습에서 HR 데이터를 바탕으로 경험적 확률의 기본 개념을 살펴보았습니다. 확률에 대한 기초 개념부터 여사건, 결합확률, 조건부확률, 그리고 베이즈 정리까지 집어보았고, 이를 Excel을 활용하여 직접 계산해 보았습니다. 이 과정을 통해 우리는 기술통계와 확률의 기본 구조를 이해하고, 데이터가 가지는 불확실성을 수치로 해석하는 기초를 쌓았습니다.


로 앞선 콘텐츠에서는 'HR 예측분석'(PHRA)의 의미와 주요 요소에 대한 개괄적인 내용을 살펴보았습니다. 오늘부터는 PHRA와 관련하여, 우리가 수집한 데이터를 통해 우리가 알고자 하는 대상이 어떠한 체계와 경향을 갖고 있는지 탐구를 해보는 과정을 다루고자 합니다. 즉, 관찰된 데이터 표본(Sample)을 바탕으로, 우리가 알고자 하는 집단(Population)의 특성을 통계적으로 추정하고, 나아가 미래를 합리적으로 예측하는 방법론을 학습해 보겠습니다.


앞으로 우리가 본격적으로 다루게 될 분야는 통계학의 또 다른 갈래인 추론통계(Inferential statistics) 영역입니다. 추론통계는 단순히 데이터를 설명하는 수준을 넘어, 관찰된 표본으로부터 모집단의 특성과 미래의 경향을 예측하는 것에 초점을 두고 있습니다. 자, 그럼 시작해 보겠습니다.



01. 추론통계(Inferential Statistics)란 무엇인가?


'Inferential'은 '추론적인'이란 뜻입니다. 즉, 제한된 정보를 바탕으로 어떠한 현상에 대한 결론을 이끌어내는 과정입니다. 통계학에서 추론통계란, 전체 데이터의 일부인 표본(Sample)을 분석하여 전체 모집단(Population)의 특성을 추론(Infer)하는 방법을 말합니다.


가장 쉬운 예로 대통령 선거 여론조사가 있습니다. 모든 유권자를 조사할 수 없기 때문에, 일부 유권자를 표본으로 뽑아서 조사합니다. 그 결과를 분석하여 전체 유권자의 투표 성향을 예측하는 것이 바로 추론통계의 핵심입니다.


HR도 마찬가지입니다. 예를 들어, 우리 조직의 임직원이 2,000명이라면 모든 데이터를 한 번에 확인하기 어렵습니다. 하지만 100명 정도의 표본 데이터를 선정하여 분석하면, 전체 구성원의 성향과 특성을 합리적으로 추정할 수 있게 됩니다. 결국, 추론통계의 본질은 '일부를 통해 전체를 이해하려는 시도'에 있습니다.


02. 기술통계와 추론통계의 차이점


통계학은 크게 기술통계와 추론통계의 두 축으로 이뤄집니다. 두 방법 모두 데이터를 다루지만, 목적과 질문의 초점은 다릅니다.


A. 목적의 차이


기술통계는 수집된 데이터를 요약하고 설명하는 데 초점을 둡니다. 예를 들어 "직원 100명의 평균 연봉은 6,000만 원이다."라면, 현재 관찰된 데이터를 있는 그대로 보여줍니다. 반면, 추론통계는 표본 데이터를 기반으로 보이지 않는 모집단의 특성을 추정합니다. "전체 직원의 평균 연봉은 95% 신뢰구간 내에서 5,800만 원~6,200만 원일 것이다."의 추정처럼 현재 우리가 갖고 있는 데이터 너머의 알고 싶어하는 경향을 예측합니다.


B. 질문의 관점


기술통계는 "지금 우리가 가진 데이터가 어떠한 모습인가?"를 조명하는 반면, 추론통계는 "이 데이터를 근거로 전체 모집단의 모습은 어떠할까?"를 추론합니다. 즉, 기술통계는 설명(Explain), 추론통계는 예측(Predict)에 가깝습니다.


이렇듯 기술통계는 현상을 설명하는 통계로서, 추론통계는 경향을 예측하는 통계로서 구분할 수 있습니다. 사용하는 분석 도구도 다릅니다. 기술통계는 평균, 중앙값, 표준편차 등을 다루지만, 추론통계는 표본분포(Sampling Distribution), 신뢰구간(Confidence Interval), 가설검정(Hypothesis Testing), 유의성(P-value) 등을 활용합니다.


03. HR Analytics에서 추론통계의 활용성


HR 데이터는 특성상 전수조사가 어렵습니다. 민감한 정보 접근에 대한 제한, 인력 규모의 제약, 시점별 데이터 누락 등이 대표적인 이유입니다. 예를 들어, 조직을 진단하는 설문에서 전체 직원의 40~50%만 응답을 했거나, 이직률 분석에서도 특정 연도의 데이터만 확보되는 경우가 흔합니다. 즉, HR 분석은 항상 "일부 데이터를 근거로 전체를 판단해야 하는 현실"에 놓이는 경우가 많습니다.


이때 단순히 평균이나 비율만 보고 판단하면, 우연의 오류(Random Error)에 빠질 위험이 있습니다. 추론통계는 이러한 한계를 보완합니다. 표본이 모집단을 얼마나 잘 대표하는지(대표성, Representativeness), 결과의 불확실성이 얼마나 큰지(불확실성, Uncertainty)를 수리적으로 살펴봄으로써, HR의 의사결정을 근거에 기반한 결정(Evidance-based decision)으로 만들어 줄 수 있습니다.


04. 추론통계의 기본 구조


추론통계는 크게 추정(Estimation)검정(Hypothesis Testing)으로 나뉩니다. 먼저 추정은 표본 데이터를 이용하여 모집단의 평균이나 비율 등을 추정합니다. 이 과정에서 신뢰구간(Confidence interval)표준오차(Standard Error)와 같은 개념을 활용하여 추정값의 불확실성을 수치로 표현합니다.


검정은 우리가 문제의식을 갖고 있는 가설이 통계적으로 근거가 있는 것인지를 검증하는 과정을 말합니다. 예를 들어 남성 직원과 여성 직원 간의 평균 연봉의 차이가 있다고 할 때, 이와 같은 차이가 단순히 우연에 따른 것인지, 아니면 통계적으로 유의미한 차이가 있다고 판단할 수 있는지를 검정할 수 있습니다.


검정 결과 유의미한 차이가 있다면, 조직은 기존의 연봉 체계나 평가 제도에 대한 개선 여부를 고민해볼 수 있는 기회를 얻을 수 있습니다. 또 다른 예로, 정기적인 커리큘럼에 따라 추진된 리더십 프로그램 후 각종 진단을 통해 리더십 교육이 실제로 팀의 성과와 팀원의 몰입도에 어떠한 영향을 미쳤는지 검정할 수도 있습니다. 결국 이러한 분석은 전사적인 리더십 프로그램이 비즈니스 임팩트에 어떻게 영향을 주고 있는 것인지를 검증할 수 있는 근거를 제공합니다.


✨ 다음 편 예고


지난 'HR 예측분석의 시작'편과 오늘 다룬 '추론통계 입문 (1)'편 모두 앞으로 전개할 추론통계에 대한 이해를 넓힐 목적으로 준비한 내용입니다. 추론통계의 목적과 왜 우리는 추론통계로 나아가야 하는 것인지를 곰곰히 음미하는 시간을 가져보고자 했습니다. 다음은 '추론통계 입문 (2)'편으로 《Analysis Strategies》란 주제로 다양한 내용을 보여드리고자 합니다.


《Analysis Strategies》는 HR 예측분석과 관련한 기초적인 지식부터 다양한 통계 검정 방법론을 소개하는 편입니다. 추론통계에서 하나씩 다뤄 보아야 할 검정 방법 등을 미리 전부 보여드리고자 합니다. 이미 통계를 오랫동안 공부하셨고, 실제 현업에서 자주 적용하시는 분들은 반가운 내용들도 있고, 익숙한 내용들도 있을 것 같습니다. 반면, HR 데이터 분석과 관련한 내용을 처음 접하시거나 통계에 대한 공부를 막 시작하신 분들이라면, 당황하실 수도 있습니다.


제가 이 편을 먼저 선보이는 이유는 두 가지입니다. 첫째는, "내가 이런 것들을 학습하고, 내 것으로 만들 수 있겠구나."라는 일련의 여정을 마음 속에 새길 수 있는 기회를 드리고 싶었습니다. 둘째는, HR 데이터 분석 분야를 깊이 있게 꾸준히 공부하실 분들이 있다면, 나중에 'Digest Note' 용으로 사용하시면 어떨까 하는 바람을 담았습니다.


마지막으로 저도 이 영역을 하나씩 소개하는 데 있어, 길을 잃을 때마다 다시 찾아보고 보다 좋은 콘텐츠를 제공해 드리고자 하는 간절함이 있습니다.









keyword