brunch

You can make anything
by writing

C.S.Lewis

by 해라 May 12. 2022

업무에 활용하는 통계 개념 : 포아송 분포

통계 이론 | 통계 분석 | 데이터 분석

이 매거진은 업무에 활용하는 통계 개념이라는 제목으로 수회 차 연재될 예정이며, 개념에 대한 설명과 이 개념을 업무에 활용할 방법에 대해서 설명합니다.


그동안 이 매거진을 연재하며 조금 더 가볍게 데이터를 분석할 수 있는 방법에 대한 문의가 많았습니다.

이 글에서는 더 기초적인 통계 방법에 대해서 소개하고 업무에 활용하는 스킬을 다루겠습니다.


이 글과 함께 읽으면 좋은 글을 아래에 링크합니다.

마케터에게 필요한 '기초 수학 개념' 바로가기 >

마케터에게 필요한 '기초 통계 개념' 바로가기 >

마케터에게 필요한 '기초 수학 개념2' 바로가기 >

업무에 활용하는 통계 개념 : 간단한 데이터 처리 바로가기 >




오늘은 평균 λ회 발생하는 이벤트가 k회 일어날 확률을 구하는 방법에 대해 설명하겠습니다.


1. 이항 분포

이전 글에서 평균·분산·표준편차에 대해 다루면서 정규분포에 대해 가볍게 설명했습니다.

이항 분포는 확률분포 중 하나로 반복을 통해 정규분포를 이룹니다.

이항 분포 표현식의 예 : B(600, 1/6)

이때의 반복 시행 횟수는 실용상으로는 주사위 던지기 30번 정도를 이야기합니다.

즉, 주사위 던지기를 30번 반복할 경우 해당 확률분포는 정규분포가 된다고 할 수 있습니다.

그리고 이렇게 반복을 통해 정규분포가 되는 확률의 특성을 중심극한정리라고 부릅니다.


2. 포아송 분포

포아송 분포가 앞서 이야기한 평균 λ회 발생하는 이벤트가 k회 일어날 확률에 대한 분포입니다.

이항 분포의 실행 횟수가 엄청나게 커질 때 포아송 분포에 근사하게 됩니다.

때문에 앞서 포아송 분포보다 이항 분포를 먼저 설명했습니다.

즉, 시행 횟수가 1만 번 또는 그 이상에 해당할 경우 해당 확률분포가 포아송 분포에 근사하게 됩니다.


3. 활용 방법

포아송 분포는 모수와 확률이 변화하여도 전체 기간 동안 이벤트 발생 횟수가 평균 λ회로 고정되어 있을 경우에 활용할 수 있습니다.

바꾸어 설명하자면, 모수와 확률에 관계없이 일정 값이 유지되는 경우에 활용할 수 있습니다.


포아송 분포의 확률은 아래의 엑셀 함수를 이용하여 간단하게 구할 수 있습니다.

POISSON.DIST(x, mean, cumulative)

- x : 발생 확률을 알고 싶은 횟수를 입력합니다.

- mean : 기간 내 평균 발생 횟수를 입력합니다.

- cumulative : TRUE를 선택할 경우 누적확률을 반환, FALSE를 선택할 경우 일어날 확률을 반환합니다.


예를 들어서 1,000만 원 이상 구매자수가 월평균 1명이라고 가정할 때, 3명이 될 확률은 아래처럼 계산할 수 있습니다.

POISSON.DIST(3, 1, FALSE) = 0.06131324… (6.13%)


포아송 분포는 위와 같이 기간 내 평균 발생 횟수만 알고 있으면, 원하는 횟수만큼 발생할 확률을 구할 수 있습니다.




지금까지 포아송 분포에 대해서 설명했습니다.

오늘 설명한 포아송 분포는 여러 가지 미래의 이벤트에 대비하기 위한 의사결정에 활용할 수 있을 것입니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari