brunch

You can make anything
by writing

C.S.Lewis

by 해라 Feb 13. 2024

편협한 데이터 분석 피하기

데이터 분석 시 하면 안 되는 3가지

데이터 분석을 하다 보면 한 측면에만 초점이 맞춰지면서, 편협한 데이터 분석이 되는 경우가 있습니다.

이렇게 분석이 편협해지는 것을 피하기 위해 주의해야 할 점을 공유합니다.






1. 역깔때기로 분석하지 않기

데이터 분석 수행 단계에서는 아래 이미지와 같이 전체적인 것에서부터 국소적인 것으로 데이터를 분석하는 것이 효율적입니다.

* 데이터 분석 프로세스에 대한 자세한 내용은 데이터 분석 프로세스 에서 확인할 수 있습니다.

예를 들어서 퍼널 분석 시 방문 → 클릭 → 전환 퍼널을 전체 사용자 대상으로 먼저 분석한 후에 문제가 있는 퍼널을 사용자 세그먼트(성, 연령, 구매 빈도, 구매 금액 등)또는 주요 경로 등으로 세분화하여 분석하는 것이 효율적입니다.

위 예시에서는 이해를 돕기 위해 퍼널을 최소화하여 표현했으나, 실제로는 더 많은 단계가 있을 것이므로 전체적인 분석 → 국소적인 분석으로 데이터 분석을 진행하는 것이 효율적입니다.


정리하자면, 데이터 분석 시 큰 단위의 데이터를 먼저 분석하고 점점 단위를 좁혀가는 것이 효율적이며, 편협하게 데이터를 분석할 확률을 줄여주는 방법입니다.


2. 데이터를 확신하지 않기

데이터 분석가가 다루는 대부분의 데이터는 특정 시점의 스냅샷 형태의 데이터인 경우가 많습니다.

데이터가 스냅샷이라는 것은 전체적인 경향성과는 다를 수 있다는 의미이며, 해당 시점의 사용자의 생각이나 의미나 경로를 모두 담고 있지는 못하다는 의미와도 같습니다.

이 때문에 데이터를 확신하고 분석하는 것은 위험합니다.


예를 들어 24년 1월 시점의 데이터로 퍼널 분석을 진행할 경우, 방문 → 클릭 → 전환 퍼널 중 클릭 퍼널이 문제일 수 있으나, 23년 1월부터 23년 12월까지 1년 간의 데이터로 월별 퍼널 분석을 진행할 경우에는 매월 전환 퍼널이 문제였을 수 있습니다.

이런 경우 클릭 퍼널은 일시적인 문제이며, 실제로 개선해야 할 퍼널은 전환 퍼널일 수 있습니다.


또한, 데이터 분석 시에는 많은 데이터를 다루므로 요약 또는 집계된 데이터를 기준으로 분석하는 경우가 많습니다.

이럴 때 발생할 수 있는 대표적인 문제가 평균의 함정입니다.


예를 들어 A, B, C 3명의 앱 사용자가 있고 일 평균 앱 사용 빈도는 5회일 때, 실제 A, B, C 사용자의 일 앱 사용 빈도는 A는 1회, B는 1회, C는 13회로 C를 제외한 나머지 사용자는 일 1회만 앱을 사용하고 있을 수 있습니다.


정리하자면, 다루는 데이터가 특정 시점의 스냅샷 데이터라면 그 전후 시점의 스냅샷을 함께 분석하여 전체적인 경향성과 같은지 확인할 필요가 있고, 요약 또는 집계된 데이터를 확인할 경우 중앙값이나 분위수 등을 함께 확인할 필요가 있습니다.


3. 데이터를 모두 분석하지 않기

데이터 분석 시, 방대한 데이터에서 무엇을 취하고 무엇을 버릴지를 잘 선택하는 것은 데이터 분석의 질을 높이는 매우 중요한 방법입니다.


모든 데이터를 다 분석하고자 하면 물리적인 시간 부족으로 인해, 놓치게 되는 영역이나 자세히 분석하지 못하고 넘어가는 영역이 생길 수밖에 없습니다.


이 때문에 데이터 분석 목적이 무엇인지에 대한 정의와 해당 목적에 맞는 데이터 분석이 무엇인지, 그리고 해당 데이터 분석에 꼭 필요한 데이터는 무엇인지를 잘 정리할 필요가 있습니다.






이번 글에서는 데이터 분석이 편협해지지 않기 위해 신경 써야 할 3가지에 대해 다뤘습니다.

전체적인 관점에서 데이터를 분석하고 의미 있는 결과를 찾을 수 있기를 바랍니다.



브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari