brunch

You can make anything
by writing

C.S.Lewis

by 해라 Jan 18. 2023

데이터 분석 프로세스

데이터 분석 | 프로세스 | 데이터

분석가마다 백그라운드가 다양하기 때문에 데이터 분석 스타일은 다양하겠지만, 데이터 분석 프로세스는 아마 모두 유사하지 않을까 싶습니다.

얼마 전 데이터 분석 프로세스를 정리할 기회가 생겨, 개인적으로 정리해 본 데이터 분석 프로세스 5단계를 소개합니다.

* 물론 주관적인 부분이라 상황에 따라 단계가 추가되거나 제외될 수는 있습니다.






1단계: 데이터 분석이 필요한 이유와 목표 정의

요청자가 있다면 요청자와 분석가 간의 데이터 이니셔티브를 맞추기 위한 과정입니다.            

요청자가 있다면 요청자와 함께, 요청자가 없다면 혼자서 아래 질문에 답을 해봅니다.

· 데이터 분석이 필요한 상황이 맞는지 검토
· 단순한 궁금증은 아닌지 검토
· 인지하지 못한 논리적 모순이나 맹점은 없는지 검토
· 이미 분석이 완료된 데이터는 없는지 검토
· 데이터 분석의 목적이나 목표 검토
· 분석된 데이터의 활용 목적이나 목표 검토

1단계에서는 데이터로 무엇을 하려는지에 대한 명확한 목표를 식별하는 것이 목표입니다.

* 참고로 데이터 분석 목표는 기술/탐색/진단/예측 등으로 정리할 수 있습니다.



2단계: 데이터 수집

· 분석 방법 선택

  1단계에서 정의된 목표(기술/탐색/진단/예측 등)에 따라 어떤 분석 방법을 사용할 것인지 결정합니다.

  분석 방법이 결정되어야 어떤 데이터를 수집할지 결정할 수 있습니다.

· 분석 로드맵

  분석가가 편한 방식으로 데이터 분석 설계를 미리 진행합니다.

  개인적으로는 데이터 분석 순서도를 먼저 그려보고 순차적으로 어떤 데이터부터 어떤 방법으로 분석할지 결정합니다.

순서도 예시 (출처 : 위키백과)

· 데이터 수집

  수집된 데이터 소스의 특성에 따라 분석의 깊이가 결정되기 때문에, 1단계의 목표에 적합한 수준의 데이터를 수집합니다.


활용할 수 있는 데이터의 종류

· Internal sources
  3rd party tool : 회원/주문/상품/행동/마케팅 데이터
  CRM : 회원/행동 데이터 등
  ERP : 주문/상품/CS 데이터 등

· External sources
  google public data
  Naver API, Kakao API 등
  국가 통계 기관에서 제공하는 데이터
  민간 리서치 기관에서 제공하는 데이터



3단계: 불필요한 데이터 정리

정확한 결과를 생성하기 위해 분석을 왜곡할 수 있는 중복 데이터, 이상치 등을 제거합니다.

이렇게 불필요한 데이터를 정리하는 것을 '데이터 전처리'라고 합니다.

앞서 설명한 활용할 수 있는 데이터의 종류에 따라 데이터 전처리 방식이 다를 수 있습니다.

이 부분은 데이터 환경이 어떠하냐에 따라 차이가 크기 때문에 각자의 환경에서 적합한 방식으로 진행합니다.


4단계: 데이터 분석 수행

2단계에서 선택한 분석 방법과 정리한 분석 로드맵에 따라 데이터 분석을 수행합니다.

개인적으로는 리소스 낭비를 막기 위해 가능하면 데이터 시각화와 분석을 동시에 제공해 주는 BI 툴을 먼저 사용합니다.


데이터 분석 방법의 종류

· 정량적 데이터 분석
· 정성적 데이터 분석
· 통계 분석
· 기술 분석
· 예측 분석
· 진단 분석



5단계: 데이터 분석 결과 도출 및 공유

4단계를 통해 결과를 도출하고 요청자가 있다면 요청자에게 공유합니다.


데이터 분석 결과 항목

· 데이터 분석 목표
  (요청자가 있다면) 요청 사항
  (요청자가 있다면) 최초 요청 이후 업데이트된 요청 사항
  데이터 분석 목적과 목표

· 추출 데이터
  추출된 데이터 원본 (시트, 대시보드 등)
  추출된 데이터 요약
  (쿼리로 작업 시) 작업된 쿼리

· 결론 (코멘트)
  데이터를 통한 가정
  추가 분석 제안
  액션 아이템 등

결과 공유 시 데이터를 통해 추론해 볼 수 있는 가정 등을 코멘트합니다.

추가 분석에 대한 제안이나 향후 액션 아이템에 대한 제안을 포함해도 좋습니다.




데이터를 다루고 계시다면 공감하시겠지만, 데이터 분석은 4단계에 해당하는 데이터 분석 수행보다 그 이전 1~3단계가 훨씬 중요합니다.

데이터 분석 수행 자체보다 그 이전에 이뤄지는 작업이 훨씬 더 중요하다는 것을 숙지하시길 바랍니다.


매거진의 이전글 2022 Self Feedback
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari