brunch

You can make anything
by writing

C.S.Lewis

by 허태훈 Mar 03. 2024

[PA] #4. People analytics 기술통계

피플 애널리틱스 입문서

1. Intro

People Analytics(PA)의 시작 전 필수적으로 이해해야하는 통계적 개념을 최대한 쉽고 간략히 설명해보았습니다. 통계 전문가가 아닌 HR/ER 실무자가 이 글을 쓰는 것 처럼 사전 지식이 없는 독자분들도 저와 비슷한 수준에서 쉽게 이해할 수 있도록 작성하였습니다. 중심경향, 변동성, 분포와 같은 기본적인 통계적 용어와 개념을 이해하고, 이러한 개념들이 People Analytics(PA) 시작에 밑거름이 되리라 생각합니다. 참고로 기술통계 이후 추론통계 내용도 다룰 예정입니다. 


2. 기술통계(Descriptive statistics)

(1) 개념

기술통계(Descriptive statistics)는 주어진 데이터 집합의 특성을 요약하고 설명하는 통계적 방법입니다. 이는 데이터 집합을 대표하는 여러 가지 수치(통계량)를 사용하여 데이터의 중심 경향, 분산, 분포 등을 설명합니다. 기술통계는 데이터의 전체적인 '모습'을 이해하는 데 도움을 주며, 복잡한 데이터 집합을 간단하고 이해하기 쉬운 몇 가지 수치로 요약할 수 있습니다.


(2) 주요 요소

1) 중심경향(Central Tendency)

① 평균(Mean): 모든 데이터 값을 합한 후 데이터의 개수로 나눈 값입니다. 데이터 집합의 '평균적인' 값을 나타냅니다. 

② 중앙값(Median): 데이터를 크기 순으로 배열했을 때 가장 중앙에 위치하는 값입니다. 극단적인 값의 영향을 덜 받습니다.

③ 최빈값(Mode): 데이터 집합에서 가장 자주 나타나는 값입니다. 범주형 데이터 분석에 유용합니다.


회사에 지원한 다섯 명의 지원자들의 대학 학점을 예로 들어 중심 경향을 설명해 보겠습니다. 지원자들의 학점은 다음과 같다고 가정해 보겠습니다(지원자 A는 3.0, 지원자 B는 3.5, 지원자 C는 4.0, 지원자 D는 3.2, 그리고 지원자 E는 3.8) 

① 평균은 지원자들의 학점을 모두 더한 후, 지원자 수로 나눕니다. 즉, (3.0 + 3.5 + 4.0 + 3.2 + 3.8) / 5 = 17.5 / 5 = 3.5입니다. 따라서 이 지원자 그룹의 평균 학점은 3.5입니다. 평균 학점은 지원자들의 전반적인 학업 성취도를 나타냅니다.

② 중앙값은 지원자들의 학점을 순서대로 배열하면 3.0, 3.2, 3.5, 3.8, 4.0이 됩니다. 가운데 위치하는 학점은 3.5입니다. 따라서 이 지원자 그룹의 중앙값 학점은 3.5입니다. 중앙값은 극단적인 값의 영향을 덜 받으므로, 지원자들의 학점 분포가 균형적인지를 파악하는 데 유용합니다.

③ 이 예시에서는 모든 지원자의 학점이 서로 달라 가장 자주 나타나는 학점이 없으므로 최빈값은 존재하지 않습니다. 만약 두 명 이상의 지원자가 같은 학점을 가지고 있다면, 그 학점이 최빈값이 됩니다. 최빈값은 가장 흔한 학점 또는 가장 많이 나타나는 학점을 나타내며, 특정 학점이 얼마나 일반적인지를 알려줍니다.


위와 같은 개념을 통해 HR 담당자는 지원자 그룹의 학업 성취도를 빠르고 쉽게 이해할 수 있습니다. 평균은 전체 지원자의 학업 성취도를, 중앙값은 학점 분포의 중심을, 최빈값은 가장 일반적인 학업 성취도를 나타냅니다. 이 정보는 지원자를 평가하고 비교하는 데 유용한 기준이 될 수 있습니다.


2) 변동성(Variability)

① 범위(Range): 데이터 집합에서 최대값과 최소값의 차이입니다. 데이터의 분포 너비를 나타냅니다.

② 분산(Variance): 데이터 값들이 평균으로부터 얼마나 멀리 떨어져 있는지를 나타내는 값입니다. 데이터의 퍼짐 정도를 수치화합니다.

③ 표준편차(Standard Deviation): 분산의 제곱근으로, 데이터 값들이 평균에서 얼마나 일관되게 또는 불규칙적으로 분포하는지를 나타냅니다.


위의 다섯명의 지원자와 동일한 예시를 가지고 변동성을 설명해보겠습니다. 

① 이 지원자 그룹에서 최고 학점은 4.0(C 지원자)이고, 최저 학점은 3.0(A 지원자)입니다. 따라서 범위는 최고값에서 최저값을 뺀 값, 즉 4.0 - 3.0 = 1.0입니다. 범위가 1.0이라는 것은 이 지원자 그룹의 학점이 최대 1.0만큼 차이가 난다는 것을 의미합니다.

② 분산을 계산하기 위해, 먼저 각 지원자의 학점에서 평균 학점(3.5)을 뺀 다음, 그 차이를 제곱합니다. 그 후, 이 제곱된 차이들의 평균을 구합니다. 이 과정을 통해 데이터 값들이 평균으로부터 얼마나 멀리 퍼져 있는지를 수치화할 수 있습니다. 이 예시에서 분산 계산을 위한 실제 수치는 다음과 같습니다:

(3.0 - 3.5)^2 + (3.5 - 3.5)^2 + (4.0 - 3.5)^2 + (3.2 - 3.5)^2 + (3.8 - 3.5)^2 = 0.92

분산 = 0.92 / 5 = 0.184, 따라서 이 지원자 그룹의 분산은 0.184입니다.

③ 표준편차는 분산의 제곱근으로 계산됩니다. 이 예시에서는 분산이 0.184이므로, 표준편차는 √0.184 ≈ 0.429입니다. 표준편차가 0.429라는 것은 지원자들의 학점이 평균값(3.5)에서 대체로 0.429 정도의 차이를 보인다는 것을 의미합니다.


변동성을 이해하는 것은 HR 담당자가 지원자 그룹의 다양성을 평가하는 데 도움이 됩니다. 예를 들어, 범위가 크고 분산 및 표준편차가 높다면 지원자들 사이에 큰 차이가 있다는 것을 의미할 수 있습니다. 반대로, 이러한 수치가 낮다면 지원자들이 비슷한 수준의 학업 성취도를 보인다는 것을 나타낼 수 있습니다.


3) 분포(Distribution)

데이터의 전체적인 '모양'이나 '패턴'을 설명합니다. 예를 들어, 데이터가 정규 분포인지, 좌우로 치우친 분포인지 등을 파악할 수 있습니다.


위의 다섯명의 지원자와 동일한 예시를 가지고 변동성을 설명해보겠습니다. 

① 분포의 모양: 지원자들의 학점을 순서대로 나열하면 3.0, 3.2, 3.5, 3.8, 4.0입니다. 이 학점들은 상대적으로 고르게 분포되어 있고 각 학점이 균등하게 분포되어 있습니다. 

② 정규 분포 여부: 정규 분포는 '종모양'의 대칭적인 분포를 가지며, 평균값 주변에 데이터가 집중되어 있습니다. 이 경우, 지원자들의 학점은 정규 분포를 이루고 있지 않습니다. 

③ 왜도(Skewness): 데이터가 한쪽 방향으로 치우쳐 있는 정도를 나타냅니다. 이 경우, 지원자들의 학점은 중앙값인 3.5를 기준으로 대칭적인 분포를 보이고 있습니다. 이는 학점이 평균값이나 중앙값 주변에서 대칭적으로 분포하고 있음을 나타내며 데이터가 특정 방향으로 치우쳐 있다고 보기 어렵습니다.

 

이러한 분포를 통해 HR 담당자는 지원자 그룹의 학업 성취도가 전반적으로 높은 편임을 알 수 있으며, 대부분의 지원자가 평균 이상의 학점을 가지고 있음을 파악할 수 있습니다. 분포를 이해하는 것은 지원자 그룹의 전반적인 특성을 파악하고, 특히 높은 학점을 가진 지원자들이 많은지 여부를 확인하는 데 유용합니다.


E.O.D

작가의 이전글 [PA] #3. People analytics 운영모델
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari