You can make anything
by writing

C.S.Lewis

분산의 개념을 활용한 데이터 분석(1) - 변동 계수

단위 차이를 넘어 : 변동 계수로 상대적 안정성 평가하기

by 이건승 Jan 03. 2025
아래로


평균이 가지고 있는 함정



데이터를 분석할 때 평균만을 바라보는 것은 충분하지 않을 때가 많습니다. 평균은 데이터의 흩어짐 정도를 파악하기에는 한계가 있습니다. 특히 객단가, 일평균 매출액 등 평균의 개념을 사용하는 매출 데이터를 다룰 때는 더더욱 그렇습니다.


예를 들어, 객단가가 비슷해 보여도 데이터 분포가 다르다면 고객 구매 패턴의 양극화나 활동성 변화를 놓칠 수 있습니다.



분산과 표준 편차는 평균이 지닌 함정을 보완하는 역할을 한다



분산은 데이터 값들이 평균에서 얼마나 멀리 떨어져 있는지 제곱의 평균으로 계산합니다. 값이 멀리 퍼져 있을수록 분산이 커지고, 가까울수록 작아집니다.


표준 편차는 분산의 제곱근으로, 데이터를 평균과 비교할 때 더 직관적으로 사용할 수 있게 만든 값입니다.


분산과 표준 편차는 평균만으로 알 수 없는 데이터의 흩어짐 정도를 보여줍니다. 이 정보는 데이터의 분포를 이해하고, 이상치나 변동성을 파악하며, 신뢰할 수 있는 결정을 내리는 데 매우 유용합니다.


Shoes 카테고리는 Cosmetics 카테고리보다 평균 매출이 높지만, 표준 편차를 보면 매출 변동성이 크다는 것을 알 수 있다.

이미지 예시에서 최근 3개월 간의 매출액 평균을 비교하면 Shoes 카테고리가 Cosmetics 카테고리보다 3천만 원이 더 높은 것을 알 수 있습니다. 평균의 개념으로만 본다면 Shoes 카테고리가 주력 카테고리로 보일 수 있지만, 표준 편차를 함께 본다면 다른 해석을 할 수 있습니다.



표준 편차로만 변동성을 판단해서는 안된다



표준 편차를 통해 매출액의 변동성을 판단할 수 있습니다. 그러나 위 예시와 같이 단순히 데이터의 단위에서 비롯된 착시 현상 때문에 언뜻 표준 편차가 큰 것이 변동폭이 커, 불안정하다고 판단할 수 있는데, 이를 상대적인 비교를 통해 조건이 다른 그룹 간 비교를 할 수 있는 개념이 바로 변동 계수입니다.


예 : 대형 매장과 소형 매장의 매출 비교

✔️ 대형 매장은 소형 매장에 비해 매출액과 표준 편차가 클 가능성이 높습니다.

✔️ 하지만 변동 계수를 계산하면 상대적인 변동성을 기준으로 매출액 안정성을 평가할 수 있습니다.




예 : 카테고리 매출 비교

위 예의 각 카테고리의 월평균 매출액과 표준 편차를 구하면, 표준 편차 값이 가장 큰 'Books' 카테고리가 변동성이 큰 카테고리라고 판단할 수 있지만, 이는 매출액 크기가 상대적으로 다른 카테고리에 비해 크기 때문에 나타나는 현상으로 변동 계수를 구하게 되면 전혀 다른 해석이 가능합니다.


'Books' 카테고리는 월평균 매출액이 다른 카테고리보다 높고 표준 편차도 높지만, 상대 표준 편차(RSD)인 변동 계수가 낮은 것을 알 수 있습니다. 즉, 'Books' 카테고리는 매출액의 변동성이 크지 않고, 안정적으로 다른 카테고리 대비 많은 매출액이 나오는 카테고리라고 해석할 수 있습니다.



변동 계수 (CV, Coefficient of Variation)


변동 계수에 대한 개념을 아래와 같이 간단하게 요약하여 정리하였습니다. 앞서 소개한 예제에 대한 파이썬 코드도 아래 링크를 통해 확인할 수 있습니다.



예시 파이썬 코드 링크�

https://colab.research.google.com/drive/1kOgrTa_2u4PTOhUGngnP__qF-UIAuOI5?usp=sharing



#데이터 #데이터분석 #분산  #마케팅 #표준편차 #변동계수 #마케팅분석 #데이터마케팅 #그로스마케팅

작가의 이전글 CRM 하면서 배운 9가지 사실

브런치 로그인

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari