brunch

You can make anything
by writing

C.S.Lewis

by 박연근 Jun 21. 2022

캐글Kaggle로 구글플레이스토어 데이터 시각화하기

데이터시각화ㅣ코드스테이츠PMB12기

오늘 캐글과 태블로를 처음 다루어보았다. 인사이트 도출보단, 툴을 다루어봤다는 것에서 의의를 가지려고 한다...:)(눈물) 가장 많이 사용하는 구글플레이스토어를 주제로 잡았다. 사람들은 구글플레이스토어를 어떻게 사용하고 있을까?




캐글에서 구글플레이스토어 데이터 자료를 찾을 수 있었다.

데이터 속성은 다음과 같았다.


앱: 앱이름
카테고리: 앱이 속한 카테고리
평가: 사용자 종합 평가
리뷰: 사용자 리뷰 수
사이즈: 앱의 파일 크기
다운로드 수: 사용자가 다운로드한 건수
타입: 무료 or 유료
가격: 앱의 가격
연령대: 앱 타겟 연령대
장르: 앱이 속한 세부적인 장르


3개 가설을 설정했다.


가설1 평가 점수가 높을 수록 리뷰 수가 많을 것이다.

가설2 리뷰 수가 가장 많은 장르는 게임일 것이다.

가설3 리뷰 수가 많을 수록 다운로드 수가 많을 것이다.




가설1 평가 점수가 높을 수록 리뷰 수가 많을 것이다.

리뷰 수가 가장 많은 평가 점수는 4.5점으로 가설이 틀렸음을 확인할 수 있었다. 리뷰가 높거나, 낮을 수록 리뷰 수가 줄어드는 경향을 보였다.




가설2 리뷰 수가 가장 많은 장르는 게임일 것이다.



앱 카테고리를 리뷰 수로 분류한 결과, '게임'카테고리의 리뷰 수가 가장 많은 것을 볼 수 있었다. 구글 앱스토어에서 사용자에게 가장 많은 반응을 이끌어내고 있는 카테고리는 게임이다. 




가설3 리뷰 수가 많을 수록 다운로드 수가 많을 것이다.

어떻게 보면 당연한 얘기지만, 확인해보고 싶었다. 리뷰 수와 다운로드 수는 정비례하고 있었고, 특히 압도적으로 다운로드 수가 많을 수록 리뷰 수가 큰 폭으로 늘었음을 볼 수 있었다. 








오늘은 인사이트 도출보다 캐글과 태블로를 사용했다는 것에 의의를 두겠다. ^_ㅠ 하지만 데이터가 인사이트 도출 및 의사결정에 큰 도움을 주겠다는 것을 절실히 느낄 수 있었다. 데이터 종류에 따라 적합한 시각화도 중요하다는 것을 몸소 익힐 수 있었다.

작가의 이전글 뤼이드Riiid(산타토익) 린 분석하기
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari