brunch

You can make anything
by writing

C.S.Lewis

by 데이터리안 Sep 05. 2023

데이터 분석 포트폴리오 이것만 알면 끝(3) 분석하기

분석의 핵심은 가설을 세우고, 데이터로 확인해 보는 것


월간 데이터리안 2023년 2월 [데이터 분석가 어떻게 준비해야 할까?] 세미나에서 발표한 내용을 재구성해 글로 정리했습니다.         

이전 편이 궁금하시다면 아래 링크에서 확인하실 수 있어요.

데이터 분석 프로젝트 이것만 알면 끝 (1) 데이터 찾기 

데이터 분석 프로젝트 이것만 알면 끝 (2) 문제 정의하기




이전 글(데이터 분석 프로젝트 이것만 알면 끝 (2) 문제 정의하기)에서 프로젝트에서 데이터로 풀어볼 문제를 정의하는 방법에 대해 알아봤습니다. 그럼 이제 정의한 문제의 원인이 뭔지 알아보고 분석해 볼 차례입니다. 데이터 분석 프로젝트의 핵심인 분석은 어떻게 해야 할까요? 가장 먼저, 프로젝트에서 풀고 싶은 문제를 확인하고, 가설을 세우고, 각 가설을 데이터로 확인해봅니다. 각 가설을 데이터로 확인해보는 방법에는 데이터를 쪼개 보기, 분석 프레임워크를 활용하기가 있습니다.   




1. 프로젝트에서 풀고 싶은 문제 확인하기

분석을 할 때는 가장 먼저 프로젝트에서 풀고 싶은 문제를 확인합니다.


저는 데이터 분석가가 되기 전에 창업을 해서 셰어하우스를 운영한 적 있었어요. 셰어하우스 입주 계약자 수가 점점 줄어들어서 방이 비게 된 적이 있었습니다. 이 문제를 우리가 데이터로 해결하기로 했다고 가정해 볼게요. 




2. 가설 세우기

우리가 풀어야 할 문제를 확인했으면 다음으로 문제의 원인이 무엇인지 파악하기 위해 가설을 세워봅니다. 

셰어하우스 입주 계약자 수가 줄어드는 이유가 뭘까요?  

웹사이트를 통해 신청을 받고 있습니다. 애초에 웹사이트에 들어오는 사람이 없는 건 아닐까요?

웹사이트에는 들어와 봤지만 셰어하우스 소개가 충분히 매력적이지 않아서 입주 계약까지 이어지지 않는 걸까요?




3. 세운 가설을 데이터로 확인하기

우리가 세운 가설을 데이터로 확인해 볼 차례입니다. 이때 가설이 맞았는지 데이터로 어떻게 확인할 수 있을지를 먼저 생각해 보는 게 중요합니다. 실무에서도 마찬가지예요. 우리 사용자들이 더 만족하게 만드는 게 목표라고 한다면, 우리 사용자들이 더 만족했는지 어떻게 데이터로 확인할 수 있을지 고민해 봐야 합니다. 더 자주 우리 서비스를 방문하면 만족하는 건지, 더 오래 우리 서비스에 머무르면 만족하는 건지, 재구매를 더 많이 하면 만족하는 건지 등등이요. 


그럼 앞에서 세웠던 가설들은 데이터로 어떻게 확인할 수 있을까요?  


웹사이트를 통해 신청을 받고 있습니다. 애초에 우리 웹사이트를 보는 사람이 없는 건 아닐까요?

→ 입주 계약 수가 줄어든 시점부터 웹사이트 방문자가 함께 줄어들고 있는지 확인해 볼 수 있습니다.


웹사이트에는 들어와 봤지만 셰어하우스 소개가 충분히 매력적이지 않아서 신청까지 이어지지 않는 걸까요?

→ 소개 페이지를 보고 난 후 입주 신청을 하는 사용자의 비율이 낮아졌는지 확인해 볼 수 있습니다.



3.1 데이터를 쪼개 보기

전체 데이터에서 알 수 있는 정보는 매우 제한적입니다. 많은 사용자의 데이터를 하나로 뭉뚱그려놓은 것이다 보니 왜곡이 생기기도 쉽고요. 그렇다고 그 많은 사용자 행동 데이터를 하나씩 보기도 어렵습니다. 하나하나 본다면 오히려 너무 많은 정보에 잠식당할 거고요. 이런 한계점을 넘기 위해 데이터를 다양한 기준으로 쪼개서 볼 수 있습니다. 한 덩어리를 볼 때는 답이 없다가 데이터를 쪼개 보면 답이 보일 때가 많이 있습니다. 데이터를 쪼개서 보면 더 많은 정보를 얻을 수 있어요.


어떤 기준으로 쪼개서 볼 것인지는 서비스마다 상황마다 다르게 적용할 수 있습니다. 자주 사용되는 기준으로는 유입 채널별, 최초 가입 시점, 기기별, 국가별, 특정 기능의 이용 여부 등이 있습니다. 


예를 들어, 아까 “웹사이트 방문자 수가 줄어들어서 입주 계약 수가 줄어들었을 것이다.” 하고 가설을 세워봤는데요. 아래 그래프를 보면 웹사이트 방문자 수가 줄어들고 있다는 것은 알 수 있는데 전체 데이터를 놓고 볼 때는 그래서 뭘 어떻게 개선해야 할지 아이디어를 얻기 어렵습니다. 


셰어하우스 예시 데이터: 웹사이트 방문자 수


그러면 이 데이터를 유입 채널별로 나눠서 볼게요. 유료 광고로 들어오는 사용자, 네이버 검색을 통해 들어온 사용자, 친구 추천을 통해 들어온 사용자 등등 이렇게 나눠보면 각각 다른 특성을 보일 수 있습니다. 아래 그래프를 보면 네이버 검색, 친구 추천 두 그룹의 사용자들은 문제가 없었는데, 유료 광고 그룹의 사용자들 때문에 전체 데이터에 영향을 줬던 거라는 새로운 정보를 알 수 있습니다. 그렇다면 유료 광고를 통해 들어온 웹사이트 방문자에 집중해서 방문자 수가 줄어든 원인을 찾고, 개선 방안을 생각해 볼 수 있겠죠. 


셰어하우스 예시 데이터:  웹사이트 방문자 수를 유입 채널별로 쪼개 보기



3.2 프레임워크를 활용하기

실무에 가까운 문제에서는 단순히 데이터 쪼개보기만으로 접근하기 어려울 때도 생깁니다. 위의 셰어하우스의 경우도 그렇습니다. 몇 가지 가설을 세워봤지만 맨땅에 헤딩하는 기분을 지울 수 없어요. 문제를 구조적으로 이해하고 분석하기 위해서 분석 프레임워크를 활용해 볼 수 있습니다.


분석 프레임워크라는 게 생소하신 분들도 계실 것 같아요. 분석 프레임워크는 복잡한 문제를 구조화해서 풀 수 있도록 도와주는 도구입니다. 현상을 체계적으로 바라보고 이해하는 데 도움을 줘요. AARRR, 퍼널 분석, 코호트 분석, 매출 분석, 기여 분석 등 다양한 분석 프레임워크가 있습니다. 이런 분석 프레임워크는 실무에서도 많이 사용되는 것들이고 잘 활용하시면 프로젝트를 하시는 데도 도움을 받을 수 있습니다. 데이터 분석가 채용공고 중에도 특정 분석 프레임워크를 사용할 줄 아는지를 보는 경우가 있더라고요. 이런 곳에 지원을 하시게 된다면, 해당 분석 프레임워크를 사용한 프로젝트를 포트폴리오에 첨부하시면 어필도 할 수 있을 거예요. 

카카오스타일 데이터 분석가 채용공고
우아한형제들 데이터 분석가 채용공고


그럼 셰어하우스 예시로 돌아와볼게요. 제가 데이터 분석가가 되고 나서 생각해 보니까 셰어하우스를 운영하던 당시에 퍼널 분석을 알았더라면 그때 그 문제를 좀 더 쉽게 해결할 수 있었을 텐데 하는 생각이 들더라고요. 퍼널 분석에 대해 간단하게 설명을 드려볼게요. 퍼널 분석은 사용자들이 우리가 설계한 유저 경험 루트를 따라 잘 도착하고 있는지 확인해 보기 위해서 최초 유입부터 최종 목적지까지 단계를 구분해서 살펴보는 분석 기법입니다. 점점 좁아지는 형태의  깔때기 모양이라 퍼널 분석이라고 불러요. 각각의 단계를 넘어가는 것을 전환, 그 비율은 전환율이라고 합니다.


퍼널 분석을 활용해 같이 분석을 한번 해볼게요. 우리가 마주한 문제 상황은 입주 계약 수가 줄어든다…!는 거죠. 그럼 사용자들이 입주 계약을 하기까지 어떤 단계를 거치는지 셰어하우스 입주 계약까지 퍼널을 먼저 그려봐야 합니다. 웹사이트 접속 → 입주 신청 → 투어 일정 잡기 → 투어 → 입주 계약 이렇게 그려볼 수 있어요. 

셰어하우스 입주 계약까지 퍼널 예시


퍼널 분석이라는 프레임워크를 적용하기 전에는 우리 웹사이트에 방문한 사용자, 그리고 입주 계약까지 도착하는 사용자 이렇게만 보고 나머지는 어디로 갔을까? 하고 막막했는데요. 


퍼널을 정의한 후에는 각 단계를 통과하면서 사용자가 몇 명이 되는지, 그 비율은 얼마나 되는지 이렇게 나눠보고, 어떤 단계가 문제가 되는 단계인지 확인할 수 있습니다. 그러면 신청이 왜 이렇게 없을까…. 하고 막연하게 고민할 때보다 이렇게 단계별로 쪼개봤을 때 더 많은 아이디어를 얻을 수 있어요. 어떻게 개선할 수 있을지 생각해 내기도 쉬워지고요.


퍼널 분석 프로젝트 사례 소개    

데이터 분석 프로젝트 이것만 알면 끝 (1) 데이터 찾기 글에서 소개해 드렸던 최승아님의 <나에게 어울리는 제주도 여행지는?> 프로젝트도 퍼널 분석을 활용한 프로젝트에요. 퍼널 분석을 활용한 프로젝트 예시가 궁금하신 분들은 12월 세미나 슬라이드에서 확인해보세요.


분석 프레임워크를 사용한 분석을 하기 전에 가장 먼저 생각해 보셔야 할 점이 있어요. 이 상황에 적합한 프레임워크가 맞는지 고민해 보시는 건데요. 아무리 좋은 분석 프레임워크라고 해도 적합하지 않은 상황에 사용하면 도움이 되지 않을 수 있습니다.




EDA

분석하기 파트에서 빼먹을 수 없는 EDA에 대해 마지막으로 이야기 해보려고 합니다. 데이터 분석을 할 때 꼭 하게 되는 일이 바로 EDA인데요. Exploratory Data Analysis, 탐색적 데이터 분석이라는 뜻입니다. EDA는 크게 분석 전에 하는 EDA, 그리고 분석 과정에서 하는 EDA로 나눌 수 있어요. 



1. 분석 전에 하는 EDA

분석을 수행하기 전에 데이터에 대해서 점검해 봐야 하는 부분을 확인하고 간단한 분석을 해보면서 데이터를 ‘탐색'해보는 과정입니다. 수기로 수집한 스몰 데이터처럼 모든 항목을 내가 정해서 직접 수집한 게 아니라면, 데이터가 예상한 것과 다르게 생겼을 수도 있고, 의미를 잘 모르는 항목이 있을 수도 있고요. 그래서 본격적으로 분석하기 전에 데이터를 탐색해 보는 과정이 필요합니다. 이 데이터는 몇 개의 테이블로 이루어져 있고 각 테이블에는 어떤 컬럼이 들어있고 각 컬럼에는 어떤 값들이 들어 있는지, 비어있는 값이나 뭔가 잘못된 값은 없는지, 얼마의 기간만큼 데이터가 있는지 등을 확인해 봅니다. 



2. 분석 과정에서 하는 EDA

분석의 전 과정에 걸쳐 가설을 세우기 위해, 또 데이터로 가설을 검증하기 위해, 결론을 뒷받침하는 근거를 데이터에서 찾는 과정입니다. ‘EDA한 내용으로 포트폴리오를 만들어도 되나요?’ 하고 질문을 주시는 분들이 가끔 계시는데요. EDA는 분석의 과정이지 결과가 아니기 때문에 포트폴리오를 EDA로만 채우시면 안 돼요. 분석의 결론을 제시하면서 그 결론에 대한 근거로서 EDA한 내용을 첨부하는 정도로 사용해 주시는 것이 좋습니다. 


데이터를 찾고 문제 정의하고 분석까지 하시느라 너무너무 고생 많이 하셨습니다. 이제 마지막 단계, 포트폴리오 쓰기만 남았습니다. 다음 글(데이터 분석 프로젝트 이것만 알면 끝 (4) 포트폴리오 쓰기)에서 데이터 분석 포트폴리오를 쓸 때 자주 하는 실수를 피하는 방법 6가지와 완성도를 높이는 팁 4가지를 함께 확인해보고 포트폴리오 업그레이드 해봐요!   




현업 데이터 분석가가 알려주는 취업준비 꿀팁 더 알고 싶으신가요?    

문예창작과를 전공한 데이터 분석가 이보민님이 잡플래닛에 어떻게 취뽀 할 수 있었는지 알려드릴게요. 실무자가 알려주는 데이터 분석가 취업 꿀팁이 알고 싶다면, 월간 데이터리안 9월 세미나에서 만나요!


매거진의 이전글 데이터 분석 포트폴리오 이것만 알면 끝(2) 문제 정의
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari