brunch

You can make anything
by writing

C.S.Lewis

by 티나리 Mar 02. 2022

Kaggle 무료 데이터를 분석하는 과정 (오디오앱)

[코드스테이츠 PMB 10기 W6D4 데이터 시각화]

(읽지 않아도 되는 주절주절)

 지난 글에서 서비스 기획자가 되고자 한 나의 상황과 PM의 역량 등을 살펴봤다. PM 부트캠프 과정 중 시간이 흘러 브런치 작가를 신청하게 되어 벌써 6주 차가 되어버렸는데, 오늘 과제는 브런치에 먼저 올리고 싶어서 이전 과제들을 잠시 건너뛰고 글을 써보게 되었다.


 이번 주에는 데이터 분석에 대해 배웠다. 처음 배우는 내용들이라 머리가 복잡해지고 아득해진다.. (아련)

그래도 PM에게 데이터 분석이란 올바른 논리를 장착하게 해주는 필수 불가결한 요소일 테니 정신 똑띠 차리고 하나씩 배워나가고 있다. 오늘은 데이터 시각화에 대해 배웠고, Kaggle의 무료 데이터를 통해 분석하는 과정을 담아내려 한다.


데이터 시각화란?


 데이터 분석 결과를 쉽게 이해할 수 있도록
시각적으로 표현하고 전달하는 것을 뜻한다.


 데이터에 대해 잘 모르는 이도 한 번에 알아볼 수 있도록, 소통을 위해 해야 하는 것이기도 하다.


 그런데 데이터 시각화를 하려면 데이터가 필요한데... 큰 데이터를 만져보지도 못하는 취준생에게 시각화까지 하라는 건 가혹한 현실 아닌가? 하지만 우리를 위해 존재하는 소중한 사이트들이 있다. 바로 Kaggle, Dacon, 공공데이터포털이다.


 Kaggle은 해외 사이트이며, 공개 데이터를 통해 데이터 분석을 연습하고 공유를 할 수 있는 포럼 형식의 사이트이다. Dacon은 Kaggle과 유사한 형태의 국내 사이트이며, 공공데이터포털도 국내에서 주로 공공정보 관련 데이터를 제공하는 사이트이다.


Kaggle 사이트 캡처

 오늘은 Kaggle의 무료 데이터를 다운로드한 후 분석을 해보려 한다. 메뉴에서 Datasets를 클릭 후 원하는 키워드를 검색해서 데이터 자료를 찾으면 된다.




듣는 독서를 즐기다, 윌라를 분석한다면?



 독서를 읽는 것이 아닌 '듣는 것'으로 다루는 오디오북 앱, 윌라. 이 서비스는 2018년 런칭되어 현재 200만 명의 회원의 회원에게 사랑을 받고 있다. 가족과 함께 공유하는 요금제(9,900원)로 보다 저렴하게 이용을 할 수 있으며 전문 성우가 낭독하여 퀄리티 높은 독서를 즐길 수 있다는 점이 특징이다.  


 해당 앱의 데이터를 통해 분석을 하고 데이터 시각화를 할 수 있다면 더할 나위 없이 좋겠지만, 소중한 데이터는 대외비인지라.. 조금이라도 유사한 무료 데이터를 찾아 가설을 세워보고 데이터를 정리해보려 한다.

 분석을 위해 Kaggle에서 오디오북 앱 무료 데이터를 다운로드하였다. 이 데이터의 세부 사항은 다음과 같다. 


- 데이터는 오디오북 앱에서 가져온 것이며 데이터베이스의 각 고객은 한 번 이상 구매했습니다.
- 주요 아이디어는 회사가 돌아올 가능성이 낮은 개인을 대상으로 돈을 지출해서는 안된다는 것입니다.
- 다시 전환할 가능성이 더 높은 고객에 초점을 맞추면 매출 및 수익성 수치가 증가할 것입니다. 모델은 클라이언트가 다시 방문하는 데 가장 중요한 지표가 무엇인지 보여주어야 합니다. 





 해당 데이터는 1만 4천여 개의 레코드가 있는 csv 파일이었고, 각 수치에 관한 짧은 설명을 토대로 아래와 같이 필터링했다. 이 데이터를 통해 오디오북 구매 기간의 합계, 구매 가격의 합계, 평균 구매 금액, 고객 리뷰 여부, 참여도 측정값, 총 지원 요청 수, 마지막 방문, 재구매 여부 등의 정보를 알 수 있다. 



 사실 이 데이터를 다운로드한 후 구글 빅쿼리를 사용하면 훨씬 편하다고 한다. 다만 아직 경험이 없는 나로서는 빠르게 과제를 완성시키기 위해 조금이나마 익숙한 엑셀을 사용해 필터링 과정을 거쳤다. 


 그리고 위의 데이터에서 추측할 수 있는 가설 3가지를 세웠다. 이 데이터의 세부 사항에서 매출과 수익을 중점적으로 언급을 하고 있었기에 가설 또한 재구매와 관련된 내용으로 대부분 구성했다. 


가설 1. 평균 구매 금액이 10 이상이며, 리뷰를 남긴 유저는 그렇지 않은 유저보다 6개월 동안 재구매를 할 확률이 높다.
가설 2. 구매 후 구매 콘텐츠를 열람하지 않은 유저의 경우, 6개월 동안 재구매는 거의 일어나지 않을 것이다.
가설 3. 구매 기간이 평균 이상일수록 구매 후 구매 콘텐츠를 열람하지 않은 유저의 비율이 높을 것이다.




가설 3가지를 데이터를 통해 검증해보자! 


가설 1. 평균 구매 금액이 10 이상이며, 리뷰를 남긴 유저는 그렇지 않은 유저보다 6개월 동안 재구매를 할 확률이 높다. 




 위 가설을 검증하기 위해 평균 구매 금액, 리뷰 여부, 6개월 동안의 재구매 여부 데이터를 확인했다. 평균 구매 금액이 10이고, 리뷰를 작성한 유저의 수는 428명이다. 이중 재구매를 한 유저는 143명으로, 33.41%를 기록했다. 이에 반해 리뷰를 작성하지 않은 유저의 수는 1,436명이었으며 재구매를 한 유저의 수는 673명으로, 46.86%의 비율을 보였다. 가설과 달리 평균 구매 금액이 10 이상인 유저 중 리뷰를 작성하지 않은 유저의 재구매 비율이 높았다.  


 그렇다면 추가로 비용에 차이가 있다면 해당 비율이 달라질 수 있겠다는 생각이 들었다. 그래서 추가로 평균 구매 금액이 10 미만인 유저들의 재구매 비율도 확인해봤다. 이때 재구매 비율은 리뷰를 작성한 유저가 근소하게 높은 것으로 확인되었다. 


 만약 금액에 상관없이 오로지 리뷰 여부로만 재구매 비율을 따져보면 어떨까? 약 1%의 비율 차이만 보였지만 리뷰를 작성한 유저의 재구매 비율이 조금 더 높았다. 결과적으로 리뷰의 여부는 재구매에 큰 영향을 미치지 않는다는 것을 알 수 있다.





 다만, '리뷰 작성'이라는 항목을 제외한 후 '평균 구매 금액이 10 이상'인 유저의 재구매 비율만 살펴보면 10 미만의 유저보다 재구매 비율이 훨씬 높은 것이 확인 가능하다. 따라서 리뷰 여부가 아닌 평균 구매 금액이 재구매 비율에 영향을 미친다는 결론을 내릴 수 있다. 




가설 2. 구매 후 구매 콘텐츠를 열람하지 않은 유저의 경우, 6개월 동안 재구매는 거의 일어나지 않을 것이다. 




 두 번째 가설을 검증하기 위해 구매 후 방문과 재구매의 데이터를 살펴봤다. (참고로 구매 후 방문은 '마지막_방문_분_구매_날짜'라는 데이터였으며, 차이가 클수록 더 빨리 참여하는 것이고 값이 0이면 고객이 구매한 항목에 액세스 한 적이 없다는 것을 확신한다는 내용이 있었다.)


 구매 후 열람을 한 번이라도 한 유저의 경우 재구매 비율은 17.44%로 확인되었다. 그리고 구매 후 열람을 아예 하지 않은 유저의 수는 5,493명이며 그중 재구매를 한 유저 수는 738명이었다. 열람을 하지 않은 유저이더라도 재구매 비율은 13.43%로 약간의 차이가 존재한다는 것을 확인할 수 있었다. 


 따라서 열람을 한 유저가 재구매 비율은 조금 더 높았지만, 열람을 하지 않았다면 재구매는 거의 일어나지 않을 것이라는 두 번째 가설은 명확히 틀린 것으로 결론을 내리게 되었다. 




가설 3. 구매 기간이 평균 이상일수록 구매 후 구매 콘텐츠를 열람하지 않은 유저의 비율이 보다 높을 것이다. 




 해당 가설은 구매 기간이 긴 유저가 오히려 구매 콘텐츠를 열람하지 않을 수도 있다는 생각으로 작성했다. (기간이 짧으면 기간 내에 빠르게 봐야겠다는 생각에 오히려 열람률이 높고, 기간이 길다면 잊고 지낼 수 있다는 그러한 추측으로) 


 구매 기간의 합계가 평균 이상인 유저의 수는 9,096명이었으며 구매 후 열람을 하지 않는 비율은 37.14%였다. 꽤 높은 수치이다. 그리고 구매 기간의 합계가 평균 이하인 유저의 수는 4,988명이며, 구매 후 열람을 하지 않는 비율은 42.38%로 구매 기간이 평균 이상인 유저의 비율보다 약 5%가량 높았다.  


 구매 기간 합계가 평균 이상일 경우에도 콘텐츠를 아예 열람을 하지 않는 비율이 높다는 것을 확인했으나, 평균 이하일 경우에 열람을 하지 않는 비율이 더 낮기에 해당 가설 또한 틀린 것을 확인할 수 있다.



 

짧은 회고 


 결국 가설은 전부 틀려버렸다^^... 그래도 데이터를 열심히 읽어내 내가 세운 가설이 틀렸다는 것을 증명한 것만으로도 뿌듯하다. 그리고 가설1을 검증하는 과정을 통해 재구매에 영향을 끼치는 새로운 부분을 알아낸 것 같아서 감격스럽다.. 이렇게 1만 4천 개의 레코드만 있을 뿐인데도(사실 이것도 나에겐 아직 너무 많음) 복잡하고 어려웠는데 회사에 더 큰 데이터를 제대로 분석하려면 정말 공부를 꾸준히, 그리고 잘 해내야겠다는 생각이 든다. 파이팅!!!!!!!

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari