brunch

You can make anything
by writing

C.S.Lewis

by 해라 Feb 18. 2022

업무에 활용하는 통계 개념 : 평균·분산·표준편차

통계 이론 | 통계 분석 | 데이터 분석

이 매거진은 업무에 활용하는 통계 개념이라는 제목으로 수회 차 연재될 예정이며, 개념에 대한 설명과 이 개념을 업무에 활용할 방법에 대해서 설명합니다.


그동안 이 매거진을 연재하며 조금 더 가볍게 데이터를 분석할 수 있는 방법에 대한 문의가 많았습니다.

이 글에서는 더 기초적인 통계 방법에 대해서 소개하고 업무에 활용하는 스킬을 다루겠습니다.


이 글과 함께 읽으면 좋은 글을 아래에 링크합니다.

마케터에게 필요한 '기초 수학 개념' 바로가기 >

마케터에게 필요한 '기초 통계 개념' 바로가기 >

마케터에게 필요한 '기초 수학 개념2' 바로가기 >

업무에 활용하는 통계 개념 : 간단한 데이터 처리 바로가기 >




1. 정규분포

평균·분산·표준편차 모두 자주 들어본 단어일 것입니다.

평균·분산·표준편차는 데이터가 정규분포를 이루고 있을 때 의미가 있는 지표입니다.

데이터가 정규분포를 이룬다는 것은 히스토그램의 봉우리가 하나이며 좌우대칭을 이루는 그래프가 되는 상태를 의미합니다.

* 히스토그램에 대한 자세한 설명은 업무에 활용하는 통계 개념 : 간단한 데이터 처리에서 확인할 수 있습니다.

아래의 그래프를 보시면 이해가 빠르실 텐데요. 아래 그래프가 대표적인 정규분포 그래프인 표준 정규분포 그래프입니다.

표준 정규분포 그래프, 출처 pngwing


2. 평균·분산·표준편차

특히 평균은 우리가 일상생활에서 정말 자주 사용하는 통계 개념입니다.

참고로 일상생활에서 사용하는 평균이라는 개념은 통계적으로는 산술 평균이라고 하는 개념이며, 실제 평균의 종류는 더 다양합니다.

하지만, 이 글에서는 일상생활에서 사용하는 산술 평균을 기준으로 설명하겠습니다.


- 평균

전체 데이터 합계÷전체 데이터 개수

평균은 전체 데이터의 합계를 전체 데이터의 개수로 나눈 값입니다.

주의해야 할 점은 평균은 전체 데이터를 늘어놓았을 때 중앙에 위치하는 중앙값과 다르고, 전체 자료에서 가장 많은 수를 차지하는 최빈값과도 다르다는 것입니다.


- 분산·표준편차

분산을 이해하는 것이 통계의 핵심이라고 말해도 과언이 아닐 만큼 분산은 굉장히 중요한 개념입니다.

분산이란 데이터의 흩어진 정도를 나타내는 값으로 그래프에서는 경사를 나타냅니다.

(평균과의 차이)²의 합계÷전체 데이터 개수

분산은 각 데이터 값에서 평균을 빼서 평균과의 차이를 구하고 구한 값에 제곱을 하여 모두 더한 뒤에, 전체 데이터의 개수로 나눈 값입니다.

분산을 구할 때에 제곱을 하는 이유는 평균과의 차이는 ±가 모두 나오게 되어, 그냥 합산하면 0이 되어 무의미한 데이터가 되기 때문입니다.

√[(평균과의 차이)²의 합계÷전체 데이터 개수]

표준편차는 앞서 구한 분산에 루트를 씌운 값입니다.

루트는 제곱을 상쇄시키기 때문에 제곱을 없애주기 위해서 루트를 씌운다고 생각하시면 됩니다.

예를 들어서 확인하고 있는 데이터가 신장이고 단위가 cm라고 하면, 분산의 단위는 cm²가 되어야 하므로 단위를 통일시키기 위하여 루트를 씌워준다고 생각하면 쉽습니다.


3. 활용 방법

평균·분산·표준편차를 실제 마케팅 데이터에 어떻게 활용할 수 있을까요?

평균 거래액이 20,000원인 유저 그룹의 평균 거래액을 26,000원으로 6,000원 올리는 것과 평균 거래액이 50,000원인 유저 그룹의 평균 거래액을 60,000원으로 10,000원 올리는 것 중 무엇이 더 어려울까요?


금액만 보면 6,000원보다 10,000원이 더 어려울 것으로 생각될 수 있으나, 평균과 분산 또는 표준편차를 알면 이 문제에 대한 답을 쉽게 구할 수 있습니다.


아래 표는 평균 거래액이 20,000원이고 표준편차가 2,000원인 경우와 평균 거래액이 50,000원이고 표준편차가 5,000원인 경우의 표입니다.

평균 거래액이 20,000원이고 표준편차가 2,000원인 경우
평균 거래액이 50,000원이고 표준편차가 5,000원인 경우

위의 경우라면 평균 거래액이 20,000원인 유저 그룹의 평균 거래액을 6,000원 올리기 위해서는 +3SD(3 표준편차)만큼을 올려야 하고, 평균 거래액이 50,000원인 유저 그룹의 평균 거래액을 10,000원 올리기 위해서는 +2SD(2 표준편차)만큼만 올리면 됩니다.

즉, 평균 거래액이 50,000원인 유저 그룹의 평균 거래액을 60,000원으로 올리는 것이 +1SD(1 표준편차)만큼 덜 어렵다고 할 수 있습니다.


이와 같이 거의 대부분의 마케팅 데이터에서 평균과 표준편차를 알면 무엇이 더 어렵고, 덜 어려운 것인지를 구분할 수 있게 됩니다.




지금까지 평균·분산·표준편차에 대해서 설명했습니다.

오늘 설명한 내용을 참고하면 더 어렵고, 덜 어려운 일을 판단하고, 이를 활용해서 업무 성과도 개선할 수 있을 것입니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari