2.5 기본적인 통계 기법과 HR 데이터 분석의 이해

진단에서 전략으로 : 데이터의 힘

Nov 2. 2025

2.5.1 HR 데이터를 해석하기 위한 기본 통계 개념

많은 HR 실무자들은 통계 분석이 복잡하고 어렵다고 생각하지만 실제 HR 데이터 분석에서 활용되는 통계 개념은 비교적 단순하다. 핵심은 숫자 속에서 의미 있는 패턴을 찾아 조직 운영에 적용하는 것이다. HR 데이터에서 자주 활용되는 핵심적인 통계 개념을 정리하면 다음과 같다.

1. 평균과 중앙값: HR 데이터의 대표적 경향 파악

HR 데이터에서 급여나 평가 점수와 같이 편차가 클 수 있는 데이터는 평균뿐만 아니라 중앙값도 함께 분석해야 한다. 평균만 보면 급여 수준이 높은 것처럼 보일 수 있지만 실제로는 일부 고 연봉 직원이 전체 데이터를 왜곡할 가능성이 있기 때문이다.

(1) 평균(Mean): 데이터를 대표하는 값

평균은 가장 기본적인 통계 개념으로 주어진 데이터의 합을 개수로 나눈 값이다. HR 분석에서는 부서별 평균 급여, 평균 근속연수, 평균 평가 점수 등 다양한 지표에서 활용된다.

예) “우리 회사의 평균 급여는 5,000만 원이다.”

※ 예제

회사 내 직원들의 평균 급여를 계산하여 산업평균과 비교하고 임금수준을 비교할 수 있다.

부서별 평균 근속연수를 비교하여 어느 부서에서 인력이탈이 더 빠르게 일어나는지 확인할 수 있다.

(2) 중앙값(Median): 극단값의 영향을 줄이는 값
중앙값(Median) 은 데이터를 크기순으로 정렬했을 때 정중앙에 위치한 값이다. 평균은 극단적으로 높은 값(예: 임원 연봉)이나 낮은 값(예: 인턴 급여)에 의해 왜곡될 가능성이 있으며 이를 보완하는 개념이 중앙값이고 데이터 값을 크기순으로 정렬했을 때 정중앙에 위치한 값이다.

예) 직원 10명 중 9명의 급여가 4,000만 원이고 1명의 급여가 2억 원이면, 평균은 5,800만 원이지만 중앙값은 4,000만 원이 된다.

※ 예제

직원 급여를 분석할 때 일부 고액 연봉자가 포함되어 평균이 지나치게 높게 나타날 수 있다. 이 경우 중앙값을 함께 분석하면 보다 현실적인 급여 수준을 확인할 수 있다.

성과 평가 점수를 분석할 때 일부 직원이 매우 높은 점수 또는 낮은 점수를 받아 전체 평균이 왜곡될 수 있다. 중앙값을 활용하면 보다 객관적인 평가 점수를 파악할 수 있다.

2. 분산과 표준편차: 조직 내 데이터의 변동성 평가

조직 내 직원 간 급여 수준이나 평가결과의 편차가 크다면 동일한 직급이라도 보상의 차이가 크거나 평가 기준이 일관되지 않다는 문제가 발생할 수 있다. 이를 정확히 분석하기 위해서는 데이터의 변동성을 측정하는 지표인 분산(Variance)과 표준편차(Standard Deviation)를 함께 활용해야 한다.

(1) 분산(Variance): 데이터의 흩어진 정도 평가

분산은 개별 데이터 값들이 평균에서 얼마나 퍼져 있는지를 나타내는 지표다. 값이 클수록 데이터 간 차이가 크고 값이 작을수록 데이터가 평균값 근처에 몰려 있다는 의미다.

※ 예제

부서별 급여 수준의 분산을 분석하여 급여 격차가 유독 큰 부서를 파악할 수 있다.

부서별 직원의 나이(연령) 분산을 분석하여 특정 부서에서 이직률, 만족도 결과 등을 관계를 파악할 수 있다.

(2) 표준편차(Standard Deviation): 변동성의 크기 파악

표준편차는 분산의 제곱근 값으로 개별 데이터가 평균에서 얼마나 벗어나 있는지를 정량적으로 보여준다. 표준편차가 클수록 데이터 값이 평균에서 멀리 떨어져 있음을 의미하며 작을수록 평균과 가까운 값들이 많다는 의미다.

※ 예제

부서별 성과 평가 점수의 표준편차를 분석하여 평가 기준이 일관된 지 확인할 수 있다.
→ A부서: 평가 점수(78, 79, 80, 81, 82) → 표준편차가 작음 (평가 점수가 일정)
→ B부서: 평가 점수(60, 65, 80, 95, 100) → 표준편차가 큼 (평가 점수 편차가 큼)

3. 상관관계와 회귀 분석: 데이터 간 관계 파악

HR 데이터 분석에서는 두 개 이상의 변수가 어떤 관계를 가지고 있는지 분석하는 것이 중요하다. 급여 수준과 이직률, 근속연수와 성과 평가 점수 등 다양한 요인들이 조직 운영과 성과에 영향을 미칠 수 있기 때문이다. 이러한 관계를 분석하는 대표적인 방법이 상관관계 분석(Correlation Analysis)과 회귀 분석(Regression Analysis)이다.

(1) 상관관계 분석(Correlation Analysis): 데이터 간 연관성 확인

상관관계 분석은 두 변수가 함께 움직이는 패턴이 있는지를 분석하는 방법이다. 그러나 상관관계는 인과관계를 의미하지 않으며 단순히 두 개의 변수 간 관계가 어느 정도 일치하는지를 보여줄 뿐이다.

※ 예제

급여 수준과 이직률 간의 관계 분석 : 낮은 급여가 실제로 퇴사율 증가에 영향을 미치는지 분석

초과근무 시간과 퇴사율 비교 : 특정 부서에서 근무 시간이 길수록 이직률이 증가하는지 분석

(2) 회귀 분석(Regression Analysis)
회귀 분석은 두 개 이상의 변수 간의 관계를 보다 구체적으로 수치화하는 기법이다. 특히 독립변수(X)와 종속변수(Y)의 관계를 분석하여 특정 변수가 결과에 미치는 영향을 예측할 수 있다.

※ 예제

근속연수와 성과 평가 점수의 관계 분석 : 오래 근무한 직원일수록 성과 평가 점수가 높은지 검토

연봉과 생산성 비교 : 연봉이 높은 직원들의 생산성이 실제로 더 높은지 분석하여 보상 체계를 개선

4. 백분위수(Percentile)와 사분위수(Quartile)

(1) 백분위수(Percentile): 직원 데이터의 상대적 위치 분석

백분위수는 데이터를 100개 구간으로 나누어 개별 데이터가 어느 위치에 있는지를 나타낸다. 직원 급여, 성과 평가 점수 등의 비교 분석에서 활용된다.

※ 예제

급여 수준 분석 : "이 직원의 급여가 80번째 백분위(80th percentile)에 위치한다." → 해당 직원은 전체 직원 중 상위 20%에 해당하는 급여를 받고 있음

평가 점수 비교 : 직원의 평가 점수가 조직 내에서 어느 정도 위치하는지 확인하여 보상 기준을 설정

(2) 사분위수(Quartile): 연봉, 성과 등에서 데이터 분포 분석

사분위수는 데이터를 네 개의 구간으로 나누어 분석하는 방법이다. 특히 급여나 성과 분석에서 자주 활용된다.

※ 예제

직원 연봉을 사분위수로 분석하여 급여 불만족 가능성이 높은 집단을 파악

→ Q1 (하위 25%) = 3,500만원, Q2 (중앙값) = 4,500만원, Q3 (상위 25%) = 6,000만 원

→ 이직 가능성이 높은 직군이 Q1(하위 25%)에 속하는 직원인지 분석

HR 데이터 분석에서 중요한 것은 데이터를 해석하고 이를 의사결정에 반영하는 과정이다. 단순히 평균, 분산과 같은 개념을 이해하는 것만으로는 충분하지 않으며 이를 바탕으로 조직 운영에서 활용할 수 있어야 한다.

2.4.2 상관관계(Correlation)와 인과관계(Causation) 이해

HR 데이터를 분석할 때 흔히 발생하는 오류 중 하나는 상관관계(Correlation)와 인과관계(Causation)를 혼동하는 것이다. 예를 들어, “초과근무 시간이 긴 직원들이 높은 성과를 내는 경향이 있다”라는 데이터가 발견되었다고 하자. 이를 보고 “초과근무 시간이 길면 성과가 높아진다”고 결론을 내리는 것은 매우 위험하다. 실제로는 성과가 높은 직원들이 더 많은 프로젝트를 맡아서 초과근무가 늘어난 것일 수도 있고 반대로 업무 효율이 낮아 더 오래 일하는 것일 수도 있다. 즉, 데이터 분석에서 상관관계가 발견되었다고 해서 이것이 곧 인과관계를 의미하는 것은 아니다. 그렇다면 HR 데이터를 분석할 때 상관관계와 인과관계를 어떻게 구분해야 할까? 이를 정확히 이해하면 HR 담당자는 보다 신뢰성 높은 분석을 수행하고 효과적인 조직 전략을 수립할 수 있다.

1. 상관관계(Correlation)란 무엇인가?

상관관계(Correlation)는 두 개의 변수 간에 일정한 관계(패턴)가 존재한다는 것을 의미한다. 즉, 한 변수가 변화할 때 다른 변수도 일정한 방향으로 변화하는 경향이 있음을 나타낸다. 상관관계의 대표적인 예는 다음과 같다.

※ HR 데이터에서 발견할 수 있는 상관관계 예시

직원의 근속연수가 증가할수록 성과평가 점수가 높아지는 경향이 있다.

초과근무 시간이 많을수록 이직률이 증가하는 경향이 있다.

연봉이 높은 직원일수록 교육 이수 시간이 많다.

이처럼 두 변수가 일정한 관계를 보이지만 그것이 반드시 원인과 결과의 관계를 의미하는 것은 아니다. 상관관계의 강도를 수치로 나타내는 방법은 다음과 같다.

상관계수(Correlation Coefficient, r): -1부터 1까지의 값을 가지며, 두 변수 간 관계의 강도를 나타

Ø r = 1 → 완전한 양의 상관관계 (한 변수가 증가하면 다른 변수도 증가)

Ø r = -1 → 완전한 음의 상관관계 (한 변수가 증가하면 다른 변수는 감소)

Ø r = 0 → 상관관계 없음

예를 들어, 직원 만족도와 이직률 간의 상관계수가 -0.7이라면 직원 만족도가 낮을수록 이직률이 증가하는 경향이 있음을 의미한다. 그러나 이것이 직원 만족도를 높이면 반드시 이직률이 감소한다는 인과관계를 의미하는 것은 아니다.

2. 인과관계(Causation)란 무엇인가?

인과관계(Causation)는 한 변수가 변화하면 다른 변수의 변화에 직접적인 영향을 미친다는 것을 의미한다. 즉, 원인과 결과의 관계가 존재할 때 인과관계가 성립한다. HR 데이터에서 인과관계를 증명하기 위해서는 단순한 수치 비교만으로는 부족하며 다양한 요인을 통제하고 실험적인 접근을 통해 원인과 결과의 관계를 입증해야 한다.

※ HR 데이터에서 인과관계를 확인할 수 있는 사례

임금 인상이 직원 만족도에 미치는 영향 : 동일한 환경에서 특정 그룹의 직원들만 임금을 인상한 후 만족도 변화를 측정하면 임금이 직원만족도에 미치는 직접적인 영향을 확인할 수 있다.

교육 프로그램과 성과 향상 간의관계 : 일부 직원들에게 특정 교육을 제공한 후 성과 변화를 측정하여 해당 교육이 성과 향상에 직접적인 영향을 주는지를 분석할 수 있다.

유연 근무제 도입과 이직률 감소 효과 : 유연 근무제를 도입한 그룹과 도입하지 않은 그룹을 비교하여 제도의 효과를 확인할 수 있다.

이처럼 인과관계를 입증하기 위해 많이 활용되는 기법이 회귀 분석(Regression Analysis)이다. 회귀 분석은 특정 변수가 다른 변수에 미치는 영향을 수치적으로 분석하는 방법으로 근속연수(X)가 성과 평가 점수(Y)에 미치는 영향 또는 연봉(X1), 근속연수(X2), 성과급(X3) 등이 이직률(Y)에 미치는 영향 등을 분석할 때 유용하다. 단순 회귀 분석은 하나의 독립변수와 종속변수 간 관계를 분석하는 반면, 다중 회귀 분석은 여러 개의 독립변수를 고려하여 보다 복합적인 요인들을 분석할 수 있다.

3. 데이터 분석에서 상관관계와 인과관계를 구분하는 방법

HR 데이터 분석을 수행할 때 숫자 비교에서 벗어나 보다 정밀한 분석을 수행하려면 다음과 같은 접근 방식을 고려해야 한다.

두 변수가 비슷한 움직임을 보인다고 해서 바로 인과관계를 결론 내리지 말고 다른 변수들과의 관계도 함께 분석해야 한다.

특정 변수를 조작(예: 특정 부서에만 보상 제도를 변경)한 후 그 결과를 비교하는 A/B 테스트 방식을 활용하면 인과관계를 보다 정확히 분석할 수 있다.

단순한 상관관계 분석이 아니라 회귀 분석(Regression Analysis)을 활용하여 독립변수가 종속변수에 미치는 영향을 구체적으로 수치화할 수 있다.

유사한 연구나 선행 사례를 참고하면 HR 데이터 분석의 신뢰도를 높일 수 있다.

HR 데이터 분석은 단순한 숫자 나열이 아니라 데이터를 바탕으로 신뢰성 있는 의사결정을 내리는 과정이다. 하지만 상관관계를 인과관계로 오해하면 잘못된 HR 정책이 도출될 가능성이 크다. HR 담당자는 데이터 간 관계를 신중하게 분석하고, 단순한 숫자 비교를 넘어 원인과 결과를 검증하는 방식으로 접근해야 한다.

2.4.3 데이터 해석에서 주의해야 할 함정과 오류

HR 데이터 분석은 조직 운영의 방향성을 정하고 전략적 의사결정을 내리는 데 중요한 역할을 한다. 하지만 데이터를 단순히 수집하고 분석하는 것만으로는 충분하지 않다. 데이터를 해석하는 과정에서 잘못된 결론을 내리거나 편향된 정보를 바탕으로 전략을 수립하는 경우 조직 운영에 부정적인 영향을 미칠 수 있다. 특히, 중소기업에서는 데이터 분석 경험이 많지 않거나 통계적 오류를 인식하지 못해 잘못된 판단을 내리는 경우가 있다. HR 데이터를 보다 정확하고 신뢰성 있게 활용하기 위해 데이터 해석 과정에서 주의해야 할 대표적인 오류와 함정을 살펴보자.

1. 상관관계를 인과관계로 착각하는 오류

HR 데이터 분석에서 흔히 발생하는 오류 중 하나는 두 개의 변수 간의 상관관계를 인과관계로 해석하는 것이다.

※ 예제

"성과 평가 점수가 높은 직원들의 근속연수가 길다 → 근속연수가 길면 성과가 좋아진다?"

장기 근속 직원들이 높은 성과를 내는 경향이 있을 수 있지만, 이들이 성과가 높기 때문에 근속연수가 긴 것인지 근속연수가 길어져서 성과가 높아진 것인지는 명확하지 않다.

근속연수가 길더라도 성과가 낮은 직원도 있고 신입 직원임에도 뛰어난 성과를 내는 경우도 있기 때문에 이를 단순한 인과관계로 해석하는것은 위험하다.

"이직률이 높은 부서는 급여가 낮다 → 급여를 올리면 이직률이 감소할 것이다?"

급여 수준이 이직에 영향을 미칠 수 있지만 급여만이 유일한 요인은 아니다.

조직문화, 성장기회, 업무강도 등 다양한 요인이 함께 작용할 수 있으며 단순한 수치 비교로 원인을 단정 짓는 것은 위험하다.

※ 실무적 해결책

상관관계 분석을 수행한 후 추가적인 검증을 거쳐야 하고 직원 인터뷰, 설문조사 등 다양한 데이터를 결합하여 다각적으로 분석해야 하며 같은 데이터를 여러 시점에서 반복적으로 검토하여 일관된 패턴이 나타나는지 확인해야 한다.

2. 데이터 표본이 충분하지 않은 상태에서 결론을 내리는 오류

HR 데이터 분석에서 데이터의 표본 크기(Sample Size)가 충분하지 않으면 분석 결과가 신뢰성을 확보하기 어렵다.

※ 예제

"신입사원의 1년 내 퇴사율이 80%다"

해당 데이터가 단 5명의 신입사원을 기준으로 도출되었다면, 표본이 너무 적어 신뢰하기 어렵다.

신입사원 100명을 대상으로 분석했을 때도 동일한 결과가 나타나는지를 검증해야 한다.

"이 부서에서는 직원 만족도가 낮다"

직원 만족도 조사 결과를 해석할 때 응답률이 낮다면 해당 데이터는 대표성이 부족할 수 있다.

전체 직원 중 소수만 응답한 결과를 바탕으로 조직 전체를 판단하는 것은 위험하다.

※ 실무적 해결책

분석에 활용할 데이터 표본 크기를 명확히 검토하고 데이터가 충분한지 확인해야 하고 특정 부서나 연차 그룹에 대한 데이터를 분석할 때 표본이 적다면 추가적인 데이터 수집이 필요하며 조사나 설문을 진행할 때 응답률을 고려하여 대표성을 확보할 수 있도록 조정해야 한다.

3. 극단 값(Outlier)으로 인해 분석 결과가 왜곡되는 오류

HR 데이터에는 극단적으로 높은 값(High Outlier)이나 낮은 값(Low Outlier) 이 포함될 수 있다. 이러한 극단 값은 전체적인 패턴을 왜곡하여 잘못된 결론을 유도할 수 있다.

※ 예제

"부서 평균 연봉이 1억 원이다?"

해당 부서의 평균 연봉을 계산했을때 임원이 포함되어 있으면 평균 값이 급격히 상승할 수 있다.

극단적으로 높은 연봉을 받는 직원이 있는 경우 중앙값을 함께 분석해야 보다 현실적인 연봉 수준을 알 수 있다.

"우리 회사의 초과근무 시간이 평균적으로 50시간이다?"

모든 직원의 초과근무 시간이 20~30시간인데 특정 부서의 직원 일부가 100시간 이상 초과근무를 했다면 평균값이 왜곡될 가능성이 높다.

※ 실무적 해결책

데이터 분석 시 평균뿐만 아니라 중앙값(Median)도 함께 검토하여 극단값의 영향을 줄이고 박스플롯(Box Plot)과 같은 시각화 기법을 활용하여 극단값이 존재하는지 확인하며 극단값을 제거하거나 별도로 분석하여 의사결정에 미치는 영향을 최소화한다.

4. 데이터 수집 기준이 불명확한 경우 발생하는 오류

HR 데이터를 수집할 때 기준이 일관되지 않으면 분석 결과가 왜곡될 수 있다.

※ 예제

"우리 회사의 연봉 평균은 4,500만 원이다?"

여기서 ‘연봉’의 개념이 무엇인지 명확해야 한다.

기본급만 포함한 것인지, 성과급과 수당이 포함된 것인지 복리후생비가 포함된 것인지에 따라 수치가 달라질 수 있다.

"우리 회사의 근속연수 평균은 5년이다?"

근속연수를 계산할 때, 계약직과 정규직을 포함하는지 여부에 따라 값이 다를 수 있다.

산정 기준이 다르면 분석 결과가 조직의 실제 상황을 제대로 반영하지 못할 가능성이 있다.

※ 실무적 해결책

HR 데이터 수집 시 명확한 기준을 설정하고, 일관된 방식으로 데이터를 정리해야 하고 비교 분석을 수행할 때 동일한 기준이 적용되었는지 확인해야 하며 기업 간 벤치마킹을 수행할 경우, 데이터의 기준을 사전에 조정하여 분석 오류를 방지해야 한다. HR 데이터를 보다 정확하게 해석하기 위해서는 다음과 같은 원칙을 염두에 두어야 한다.

1. 데이터 해석 시 단순한 숫자가 아니라, 맥락(Context)을 고려해야 한다.

2. 상관관계와 인과관계를 혼동하지 않도록 주의해야 한다.

3. 표본이 충분한지 확인하고 극단값의 영향을 제거하여 분석 결과를 신뢰할 수 있도록 한다.

keyword

Brunch Book 일요일 연재

연재 진단에서 전략으로:데이터의 힘

전체 목차 보기

이전 15화2.4 데이터를 활용한 기초 분석 방법(2)3.1 데이터 기반 HR 진단 프레임워크 개요다음 17화