brunch

You can make anything
by writing

C.S.Lewis

by 해라 Jan 14. 2022

업무에 활용하는 통계 개념 : 간단한 데이터 처리

통계 이론 | 통계 분석 | 데이터 분석

이 매거진은 업무에 활용하는 통계 개념이라는 제목으로 수회 차 연재될 예정이며, 개념에 대한 설명과 이 개념을 업무에 활용할 방법에 대해서 설명합니다.


그동안 이 매거진을 연재하며 조금 더 가볍게 데이터를 분석할 수 있는 방법에 대한 문의가 많았습니다.

이 글에서는 더 기초적인 통계 방법에 대해서 소개하고 업무에 활용하는 스킬을 다루겠습니다.


이 글과 함께 읽으면 좋은 글을 아래에 링크합니다.

마케터에게 필요한 '기초 수학 개념' 바로가기 >

마케터에게 필요한 '기초 통계 개념' 바로가기 >

마케터에게 필요한 '기초 수학 개념2' 바로가기 >




우리는 어떤 일을 하던지 수 많은 데이터를 접하게 됩니다.

이 데이터들이 그냥 나열되어 있을 때는 아무런 인사이트를 찾을 수 없지만, 잘 정리되어 있을 때는 많은 인사이트를 발견할 수 있습니다. 이렇게 데이터를 잘 정리하는 것을 데이터 처리라고 합니다.


1. 히스토그램

어디서 많이 들어 본 거 같다면, 맞습니다. 중학교 교과 과정을 통해 배웠던 바로 그 개념입니다.

히스토그램이란 데이터를 구분하고 분류하여 막대 그래프 형태로 만드는 것을 의미합니다.

예를 들어서 유저의 Revenue를 히스토그램으로 나타낸다면 구매 금액 0원 이상~10,000원 미만, 10,000원 이상~20,000원 미만, 20,000원 이상~30,000원 미만..., 으로 데이터를 구분할 수 있습니다.

그리고 각 구간의 유저가 2명, 5명, 3명이라면 아래와 같은 표로 나타낼 수 있습니다.

이 표를 우리는 도수분포표라고 합니다.

도수분포표

그리고 아래와 같이 위 도수분포표를 그래프로 표현한 것이 바로 히스토그램입니다.

히스토그램

표와 그래프의 이름이 중요한 것이 아니라, 이렇게 데이터를 적절한 기준으로 구분하고 분류하는 것 자체가 데이터 처리의 핵심이라고 할 수 있습니다.

이렇게 데이터를 처리하게 되면 한 눈에 Revenue 10,000원 이상~20,000원 미만 유저가 가장 많다는 것을 알 수 있고, 이 유저들이 해당 금액대의 상품을 구매한 이유를 파악하거나, 해당 금액대의 상품의 SKU를 늘리거나, 이 유저들의 특성을 파악하여 유사한 타겟에게 더 많은 마케팅을 한다던가 하는 의사결정을 할 수 있을 것입니다.


반면에 만약 위와 같이 적절한 기준으로 Revenue의 범위를 설정하고 구분하지 않는다면, Revenue 1,000원, 19,999원, 27,789원 등으로 Revenue가 나열되어 있을 것이고, 나열된 데이터를 통해 인사이트를 얻기란 매우 어려울 것입니다.


2. 확률분포

히스토그램의 수치를 백분율로 표현하는 것을 확률분포라고 합니다.

즉, 구매 금액 0원 이상~10,000원 미만 유저 2명, 10,000원 이상~20,000원 미만 유저 5명, 20,000원 이상~30,000원 미만 유저 3명을 백분율로 표현하면, 각각 20%, 50%, 30%가 됩니다.

아래 그래프는 앞서 보여드린 히스토그램과 형태는 같지만, 좌측 Y열이 백분율로 바뀌어있습니다.

이렇게 전체의 합으로 각각의 구간에 해당하는 숫자를 나누어 백분율로 표기하는 것을 확률분포라고 합니다.

확률 분포


예시로 들었던 사례는 전체의 합이 10인 작은 데이터이지만, 전체의 합이 큰 데이터일수록 히스토그램보다 확률분포를 사용할 때에 데이터를 확인하고 분석하기에 더욱 수월합니다.

또한, 현재는 X 축에 해당하는 항목이 3가지 뿐이지만, 이 항목이 커질 수록 마찬가지로 확률분포가 데이터를 통해 인사이트를 얻기에 더 좋습니다.


때문에 데이터가 크면 클 수록 확률분포를 활용하는 것이 더욱 중요합니다.

확률분포를 사용하면 데이터 속에서 이상치를 찾기 쉽고, 이상치를 발견해야 원인에 대한 분석과 이에 대한 개선 또는 제거 등을 통해 더 좋은 성과를 만들 수 있기 때문입니다.




지금까지 간단한 데이터 처리 방법을 설명했습니다.

우리가 일하며 다루는 수많은 데이터는 데이터 처리를 통해 가공될 때 유의미해집니다.

또한, 그 안에서 반복되는 패턴이나 이상치를 발견하고 그 원인을 파악함으로써 성과도 개선할 수 있습니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari