brunch

You can make anything
by writing

C.S.Lewis

by 이핑핑 Dec 31. 2021

데이터 시각화하기

[코드스테이츠 PMB 09기]

데이터 시각화는 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정이다. 수치 데이터를 시각 형태로 전환하여 이해할 수 있도록 하는 것을 데이터 시각화라고 한다. 

데이터 시각화는 단순하게 시각적인 표현을 하는 것이 아니라 데이터의 종류와 중요도에 맞게 적절한 표현법을 선택해야 할 필요가 있다. 


이러한 데이터 시각화를 kaggle을 통해 데이터를 찾고 데이터를 시각화하여 분석해보기로 하였다. 

데이터는 스포티파이에서 가장 스트리밍 된 100곡으로 선정하였고 여기에서 고객들이 어떤 곡을 좋아하는지 분석하여 플레이리스트를 만들 시 어떠한 곡을 포함시켜야 좋을지 생각해 보기로 하였다. 

출처 = kaggle / 스포티파이에서 가장 스트리밍 된 100곡 데이터
가설 1. 짧은 영상을 찍는 것이 유행하면서 춤추는 영상들도 많이 생겨났기 때문에 댄스 곡을 스트리밍 하는 수가 많을 것이다. 

전체 비율에서 각각의 곡의 장르가 몇 %를 차지하고 있는가를 시각화하였다. 다양한 곡의 장르가 있었지만 위의 표를 보면 댄스 팝이 28%로 가장 많은 비율을 차지하고 있는 것을 확인할 수 있다. 두 번째로는 팝, 3번째로는 dfw랩을 많이 듣는 것을 확인할 수 있었다. 


가설 2. 너무 길지 않은 3분 이내의 곡들을 사람들은 선호할 것이다. 
세로축 : 노래 길이, 가로축 : 노래 이름

각각의 노래의 길이를 선형으로 표시하고 평균을 구해서 평균적으로 어떤 길이의 노래를 듣는지 알아보았다. 사용자들은 평균 2분 10초의 노래를 듣는 것을 확인할 수 있었다. 


가설 3. 사용자들은 120 BPM의 곡을 선호하고 많이 들을 것이다. 
세로축 : BPM, 가로축 : 노래 이름

70 bpm~180 bpm까지 넓게 포진되어 있지만 평균을 내어보면 120 bpm임을 확인할 수 있었다. 사람들이 선호하는 하우스 장르, 즉 120 bpm을 듣는다고 분석할 수 있지만 평균이기에 정확히 확신할 수 있는 데이터는 아니었다. 



처음으로 데이터를 찾아내서 엑셀로 정리하는 작업을 해봤는데 생각보다 내가 원하는 데이터를 시각화하는 작업이 어렵다고 느껴졌다. 하지만 같은 데이터를 사용하여 세로축과 가로축을 바꾸어가며 데이터를 찾아내는 작업이 재미있었다.

매거진의 이전글 서비스 유형 분류 및 린 분석
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari