통계 이론 | 통계 분석 | 데이터 분석
이 매거진은 업무에 활용하는 통계 개념이라는 제목으로 수회 차 연재될 예정이며, 개념에 대한 설명과 이 개념을 업무에 활용할 방법에 대해서 설명합니다.
그동안 이 매거진을 연재하며 조금 더 가볍게 데이터를 분석할 수 있는 방법에 대한 문의가 많았습니다.
이 글에서는 더 기초적인 통계 방법에 대해서 소개하고 업무에 활용하는 스킬을 다루겠습니다.
이 글과 함께 읽으면 좋은 글을 아래에 링크합니다.
업무에 활용하는 통계 개념 : 간단한 데이터 처리 바로가기 >
오늘은 평균 λ회 발생하는 이벤트가 k회 일어날 확률을 구하는 방법에 대해 설명하겠습니다.
이전 글에서 평균·분산·표준편차에 대해 다루면서 정규분포에 대해 가볍게 설명했습니다.
이항 분포는 확률분포 중 하나로 반복을 통해 정규분포를 이룹니다.
이항 분포 표현식의 예 : B(600, 1/6)
이때의 반복 시행 횟수는 실용상으로는 주사위 던지기 30번 정도를 이야기합니다.
즉, 주사위 던지기를 30번 반복할 경우 해당 확률분포는 정규분포가 된다고 할 수 있습니다.
그리고 이렇게 반복을 통해 정규분포가 되는 확률의 특성을 중심극한정리라고 부릅니다.
포아송 분포가 앞서 이야기한 평균 λ회 발생하는 이벤트가 k회 일어날 확률에 대한 분포입니다.
이항 분포의 실행 횟수가 엄청나게 커질 때 포아송 분포에 근사하게 됩니다.
때문에 앞서 포아송 분포보다 이항 분포를 먼저 설명했습니다.
즉, 시행 횟수가 1만 번 또는 그 이상에 해당할 경우 해당 확률분포가 포아송 분포에 근사하게 됩니다.
포아송 분포는 모수와 확률이 변화하여도 전체 기간 동안 이벤트 발생 횟수가 평균 λ회로 고정되어 있을 경우에 활용할 수 있습니다.
바꾸어 설명하자면, 모수와 확률에 관계없이 일정 값이 유지되는 경우에 활용할 수 있습니다.
포아송 분포의 확률은 아래의 엑셀 함수를 이용하여 간단하게 구할 수 있습니다.
POISSON.DIST(x, mean, cumulative)
- x : 발생 확률을 알고 싶은 횟수를 입력합니다.
- mean : 기간 내 평균 발생 횟수를 입력합니다.
- cumulative : TRUE를 선택할 경우 누적확률을 반환, FALSE를 선택할 경우 일어날 확률을 반환합니다.
예를 들어서 1,000만 원 이상 구매자수가 월평균 1명이라고 가정할 때, 3명이 될 확률은 아래처럼 계산할 수 있습니다.
POISSON.DIST(3, 1, FALSE) = 0.06131324… (6.13%)
포아송 분포는 위와 같이 기간 내 평균 발생 횟수만 알고 있으면, 원하는 횟수만큼 발생할 확률을 구할 수 있습니다.
지금까지 포아송 분포에 대해서 설명했습니다.
오늘 설명한 포아송 분포는 여러 가지 미래의 이벤트에 대비하기 위한 의사결정에 활용할 수 있을 것입니다.