분석만 잘 하면 되지, 문제 정의까지 꼭 해야 하나요?
월간 데이터리안 2023년 2월 [데이터 분석가 어떻게 준비해야 할까?] 세미나에서 발표한 내용을 재구성해 글로 정리했습니다.
이전 편이 궁금하시다면 아래 링크에서 확인하실 수 있어요.
- 데이터 분석 프로젝트 이것만 알면 끝 (1) 데이터 찾기
이전 글(데이터 분석 프로젝트 이것만 알면 끝 (1) 데이터 찾기)에서 데이터 분석 프로젝트를 하기 위한 데이터를 어떻게 찾을 수 있을지 이야기해 봤어요. 자, 그럼 데이터를 찾은 다음에는 뭘 하면 될까요? 드디어 분석을 해볼까 했는데… 그전에 넘어야 하는 산이 하나 더 있습니다. 바로 ‘문제 정의하기’입니다.
데이터를 찾았지만 데이터 자체에는 풀어야 하는 문제가 없어요. 그럼 분석을 하기 전에 문제 정의부터 해야 합니다. 이게 사실 분석보다도 어려워요. 좋은 문제를 정의해야 좋은 분석을 할 수 있기 때문에 이 과정이 가장 중요한 부분이라고 할 수 있습니다.
‘문제를 왜 정의해야 하나요?’ 하고 궁금하실 수 있을 것 같아요. 여기에 대답을 하려면 먼저 실무에서 데이터 분석을 하는 이유에 대해 이야기해 볼 필요가 있습니다. 실무에서 데이터 분석을 하는 이유는 비즈니스를 성장시키고, 매출을 올리기 위해서예요. 비즈니스를 성장시키는 데 뭔가 문제가 생기면 그 문제를 해결하기 위해서 데이터를 보게 됩니다. 실무에서의 분석은 명확한 문제를 바탕으로 시작되는데요. 예를 들면,
결제자 수를 늘려보자거나
마케팅 효율이 떨어지는 채널은 이제 그만두고 몇 개 채널만 남기고 싶다거나
우리 웹사이트에서 새로 나온 기능을 사람들이 잘 안 쓰는데 왜 그럴까, 이유를 찾고 싶다거나
이렇게요.
그렇기 때문에 채용을 할 때 데이터 분석 프로젝트를 보는 건 이 사람이 우리 회사에 오면 데이터를 보고 문제를 해결할 수 있는 사람인지, 어떻게 문제를 해결하는 사람인지 보기 위해서예요. 그럼 그걸 보여줘야겠죠. 문제를 해결하는 사람이란 걸 보여주려면? 우선 문제가 있어야 합니다.
가끔 취준하시는 분들이 이런 프로젝트하는 목적을 잊고 그냥 ‘데이터’ ‘분석’ ‘프로젝트’ 각각에만 집중하게 되는 것 같아요. 그렇게 되면 그냥 데이터를 파보는 과정에만 매몰되기 쉬워요. ‘이 데이터에 있는 모든 인사이트를 다 찾아내겠다!’가 아니라 ‘이 데이터에서 근거를 찾아서 문제를 해결해 보겠다’가 되어야 해요. 데이터 자체는 아무것도 말해줄 수 없어요. 먼저 문제가 있어야 데이터에서 답을 발견할 수 있습니다.
그럼 문제를 정의해 봅시다. 문제 정의를 하는 가장 쉬운 방법은 실생활에서 내가 필요를 느끼는 것을 선정하는 거예요. 앞에서 소개 드린 최규민님의 <강남역 출근길에 정자/판교역 내릴 사람 예측하기> 프로젝트에서는 ‘강남역 출근길에 앉아서 가고 싶다!’, 선미님의 <회사는 어떤 사람을 데이터 분석가로 채용하고 싶어하는 것일까?> 프로젝트에서는 제목 그대로 ‘회사에서는 어떤 사람을 데이터 분석가로 채용하고 싶어하는 건지 알고 싶다’, 제가 했던 <장트러블 극복을 위한 식습관 데이터 분석> 프로젝트에서는 ‘장트러블 극복’이었어요.
이렇게 실생활에서 필요한 문제를 해결해 보는 프로젝트의 경우 진행 순서가 일반적인 프로젝트와는 달라요. 데이터 찾기보다 문제 정의가 먼저 됩니다. 문제를 정의하고 나서 이 문제를 풀기 위한 데이터를 어떻게 구할 수 있을지 생각해보고 이전 글(데이터 분석 프로젝트 이것만 알면 끝 (1) 데이터 찾기)에서 이야기했던 방법대로 데이터를 구하고 문제를 풀기 시작하면 됩니다.
개인 데이터 분석의 경우라면 앞에서 얘기한 것처럼 내가 실생활에서 필요한 것을 문제로 선정할 수 있지만, 기업 데이터로 분석을 진행한다면 앞의 방법을 적용하기는 어렵습니다. 이럴 때는 실제 기업에서 자주 마주치는 문제를 선정해 볼 수 있습니다. 기업에서 자주 마주치는 문제로 프로젝트를 진행한다면 실제로 업무에서 이런 문제를 만났을 때 어떻게 해결할 수 있을지를 보여줄 수 있으니 어필하기도 좋습니다.
이 경우라면 데이터의 특징에 따라서 문제를 선정해 볼 수 있습니다.
이커머스 주문 데이터: 매출/주문 수를 올리기
웹사이트 사용자 행동 데이터: 사용자들이 더 많이 재방문하게 만들기, 특정 기능을 더 많이 사용하게 만들기
회사에 다녀보지 않은 분들은 기업에서 어떤 문제를 마주할지 생각해 내는 것도 어려우실 거예요. 그래서 참고하실 수 있게 회사에서 분석가들이 많이 푸는 문제 예시를 몇 가지 가지고 와봤어요.
Q. 이번달 매출이 떨어졌다, 이유가 뭘까?
Q. 운영하고 있는 마케팅 채널이 많아서 갯수를 줄이려고 하는데, 어떤 채널을 남겨야 할까?
Q. 왜 이번달 광고를 통한 사용자 유입이 없을까?
Q. 결제하기 버튼 클릭까지는 많이 해보는데 왜 실제 결제는 일어나지 않을까?
Q. 새로 배포한 기능을 왜 사람들이 사용하지 않을까?
Q. 이 기능을 업데이트한 후 왜 사용자 재방문이 줄었을까?
Q. 이벤트로 들어온 사용자들이 이벤트가 끝난 후에도 들어와서 재구매를 하고 있을까?
Q. 이 기능의 개선이 필요할까?
뭔가 잘 안 될 때에 대한 이야기만 많은 것 같은데요. 잘 되는 이유를 찾아보는 분석도 좋겠지만 실무에서는 뭔가 잘 안 될 때 왜 그럴까 이유를 알아내고 해결하기 위해서 데이터를 자주 보게 됩니다.
지금까지 문제 정의하는 법에 대해서 이야기해 봤는데요. 미리 누군가 문제 정의를 해놓은 게 있다면 그걸 쓰는 것도 좋은 방법입니다.
앞에서 소개한 Mode 같은 경우는 문제 정의를 이미 해놓고 그 문제를 기반으로 분석을 할 수 있도록 제공해 주고 있습니다.
슬라이드에 넣어둔 캡처 화면은 Mode에서 제공하는 Analytics Training 이에요. Yammer라는 서비스의 데이터를 가지고 문제를 풀어보는 튜토리얼입니다. Yammer는 사내 페이스북 같은 서비스라고 생각하시면 될 것 같은데요. Yammer 데이터를 가지고 유저 인게이지먼트가 떨어진 원인을 찾고 개선 방안을 찾아보기, 검색 기능 개선하기 같은 실무에서 풀 법한 문제를 던져주고 있어요. Mode에서 제공해주는 프로젝트를 직접 해보지 않더라도 문제 상황은 충분히 참고해보실만 할 것 같아요.
두번째로 캐글 같은 사이트에서 데이터 셋과 함께 문제를 주는 경우가 있습니다. 위에서 소개한 Mode 만큼 자세한 튜토리얼은 아니지만, 데이터 셋과 함께 이 데이터로 풀어보면 좋을 문제를 주기도 하는데, 이것도 참고해보시면 좋을 것 같아요. 다만, 아무래도 누구나 업로드할 수 있는 플랫폼이다보니 프로젝트에 활용해 볼 만한 좋은 문제도 있었지만 그렇지 않은 경우도 있더라고요. 캐글을 활용하신다면 이런 점을 참고로 해주시면 좋을 것 같아요.
데이터리안에서 운영하는 SQL 데이터 분석 캠프에서는 수업 시간에 배운 내용을 가지고 프로젝트를 진행해보시는 걸 권해드리고 있는데요. 데이터 셋과 함께 풀어보면 좋을 문제를 제공해 드리고 있어요.
자, 문제 정의까지 해봤으니 이제 원인이 뭔지 알아보고 분석해 볼 차례입니다. 다음 글(데이터 분석 포트폴리오 이것만 알면 끝 (3) 분석하기)에서는 분석하기에 대해 이야기 해볼게요.
현업 데이터 분석가가 알려주는 취업준비 꿀팁 더 알고 싶으신가요?
문예창작과를 전공한 데이터 분석가 이보민님이 잡플래닛에 어떻게 취뽀 할 수 있었는지 알려드릴게요. 실무자가 알려주는 데이터 분석가 취업 꿀팁이 알고 싶다면, 월간 데이터리안 9월 세미나에서 만나요!