brunch

You can make anything
by writing

C.S.Lewis

by 앤더슨 Jan 18. 2023

처음 써보는 Tableau로 에어비앤비 데이터 분석하기

데이터 추출, 시각화 도전기 Part 1 [코드스테이츠 PMB 16기]


데이터 분석 / 데이터 시각화



주의!


이 글은, 데이터와 처음 만나는 것도 모자라, 태블로도 처음 이용해 보는 PM 지망생의 글입니다.

평소에 울화가 있으시거나 답답한 것을 참지 못하시는 분들은 본문의 내용에 주의 부탁드립니다.

아무것도 모르는 PM 지망생의 걸음마를 그저 재미로 봐주시면 감사하겠습니다. :)





데이터 찾아보기


분석 및 시각화 데이터를 진행하기에 앞서, 분석할 만한 데이터를 습득하기 위해

Kaggle과 공공데이터포털을 살펴보았다.


Kaggle이 뭔가요?


kaggle은 2010년 설립된 예측모델 및 분석 대회 플랫폼이다. 기업 및 단체에서 데이터와 해결과제를 등록하면, 데이터 과학자들이 이를 해결하는 모델을 개발하고 경쟁한다. - 위키백과


무슨 말인지 잘 모르겠다면, 그냥 기업이 방대한 양의 빅데이터를 제공하고 kaggle에 방문하는 데이터 분석가들이 그것들을 분석하고, 뜯어보고 뜯어보는 곳이라고 생각하면 된다.





공공데이터포털은 뭔가요?


공공데이터포털(Data Portal)은 행정안전부에서 운영하는 공공데이터 통합제공 시스템이다.

대한민국 정부가 보유한 다양한 공공데이터를 개방하여

누구나 편리하고 손쉽게 활용할 수 있게 하는 것을 목적으로 운영하는 곳이다.

2022년 7월 기준, 70,279개 데이터셋이 개방되어 있다고 한다.





두 곳을 살펴보다가 결국 흥미로운 데이터를 발견했고, 감히 그것을 분석해 보기로 결정했다.

그 데이터는 바로 뉴욕 에어비앤비 마켓 데이터이다.

가장 큰 대도시 중 하나인 뉴욕 에어비앤비 마켓은 어느 정도의 규모이며, 

어떠한 특징이 있을까 궁금했고, 분석을 시도해 보는 것 자체만으로도 큰 인사이트를 얻을 수 있을 것 같았다.

(스스로 불러온 재앙의 시작)


Kaggle Date sets에 존재하는 에어비앤비의 뉴욕 마켓 데이터





데이터 분석 및 시각화


캐글에 올라와있는 에어비앤비 뉴욕 마켓 데이터에서 제시한 데이터에 대한 영감은 이러하다.


Kaggle's Airbnb New York Market Datasets의 본문 내용 중 Inspiration / 출처 = Kaggle


한국어로 번역하면,


뉴욕 에어비앤비 숙소의 1박 평균 요금은 얼마인가요?

개인 임대 시장과 비교할 때 에어비앤비 숙소의 월평균 가격은 어떻습니까?

개인실 광고는 몇 개인가요?

에어비앤비 리스팅 가격은 5개 뉴욕시 자치구에서 어떻게 비교됩니까?


정도가 되겠다, 아마 데이터를 통해서 대충 어떤 인사이트를 얻을 수 있는지에 대한 설명인 것 같다.

그래서 Inspiration에 기반하여 이번 데이터 분석을 통해

검증 가능할 것 같은 가설 세 가지를 정하고 분석을 시작해 보았다.



가설 설정


1. 뉴욕은 비즈니스 방문객의 비율이 다른 도시들 보다 높은 도시이다,

방문 특성상 편안한 휴식을 위한 공간 전체를 대여하는 전체 숙소의 비율이 가장 높을 것이다.


2. 방문객이 많은 최고 대도시 뉴욕, 다른 도시들보다 숙소의 수가 많을 것이다.


3. 물가가 사악하기로 유명한 뉴욕, 뉴욕의 숙소 1박 가격

전 세계 도시 평균 1박 가격에 비해 높은 수준일 것이다.



이런 가설을 세운 이유는, 에어비앤비의 뉴욕 마켓을 분석해 보는 것이기 때문에

뉴욕에 대해 익히 알고 있는 속성들을 토대로, 뉴욕이 가지고 있는 도시의 특성과

에어비앤비 마켓이 얼마만큼의 상관관계가 있을지 알아보기 위해서 가설을 설정을 했다.




이번 프로젝트, 데이터 분석과 시각화를 위해 사용하는 툴


Tableau







왜 태블로를 사용했나?


데이터 분석과 동시에 데이터 시각화를 할 수 있는 유용한 툴이라고 익히 알고 있었다,

실제로 요즘 많은 기획자 / PM / PO들의 사용하는 툴에서 컨플루언스와 태블로를

가장 자주 목격하기도 했고, 분석과 시각화를 동시에 해보는 오늘의 챌린지에 태블로가

제격이라고 바로 생각이 들었다. (물론 사용할 줄 모르고, 처음 사용해 본 것이다.)


그래서 두괄식으로 이실직고부터 하자면,

태블로의 탈을 쓴, 사실 엑셀을 통한 데이터 분석 그리고 물음표가 나오는 시각화 정도로

그냥 처음 분석해 보고, 시각화해 보는 초심자의 눈물의 X꼬쇼를 재미로 봐주셨으면 한다.




가설 1, 2번을 위한 Room-Type 데이터 도출


시작부터 뭔가가 잘못되었다고 직감했다, 정말 빅데이터였고 너무 방대한 양의 데이터가 모여있었다.

정말 다행이었던 것은 표본이 많은 것이지, 카테고리는 적었다는 것이다.


...


분류하고 파악할 카테고리가 적다는 것을 위안 삼고, 나 자신을 살살 달래 가며 

태블로를 사용하여 데이터를 정렬하여 원하는 값으로 추출해 보았다.


그런데 웬걸 또 문제가 생겼다, 무슨 수치들이 테이블에 겹쳐 보이는데 도저히 해결할 방법이 보이질 않았다.

결국 어떻게 문제점을 찾았는데, Room_type 행에 표본들이 대/소문자가 달라서 태블로가 제대로 인식하고

정리하지 못했다, 그냥 바로 태블로를 끄고 두 번 다시 보지 않겠다는 슬픈 다짐을 하려던 찰나

엑셀의 기능 찾기/바꾸기 기능을 기억하고 엑셀을 통해서 표본들의 함숫값들을 일정하게 변경하고

다시 태블로에 적용하여 원하는 테이블과 값을 얻는 데에 성공했다. (이가 없으면 잇몸으로)



눈물의 X꼬쇼, 클릭 및 터치를 하시면 자세히 볼 수 있습니다.



정말 처음으로 아무 지식 없이 노베이스로 태블로를 사용해 봤는데, 눈치껏 이것저것 만져보다가 

결국 데이터가 잘 정리된 테이블이 도출되어서 무척 놀랐다, 이래서 툴을 사용하는 건가.?



도출해 낸 데이터


결국 도출해내는 데에 성공한 Room_Type 데이터 테이블



지표를 Room-Type의 비율과 숫자로 설정한 이유?  


애초에 데이터가 Room-Type에 포커싱 되어있기도 했고, 

유의미한 인사이트를 도출해 보기 위해 세운 가설에 꼭 반드시 필요한 지표였다.

비율은 가설 1, Room-Type의 비율이 얼마큼 되는지 알기 위해서 필요했고

방의 숫자는 가설 2, 뉴욕의 총숙소의 개수를 알기 위해 필요했다.



시각화를 어떻게 할 것인가? 


Room-Type의 비율을 비교하기 위해서는 원형 도표를 사용할 예정이다,

얼만큼 비율 분포되어 있는지, 그리고 그 수치가 얼만큼 차이나는지

효과적으로 보여줄 수도 있는 비교 시각화 방법이라고 생각한다, 


숙소의 개수를 파악하기 위해서는 막대그래프를 사용할 예정이다,

뉴욕의 총숙소의 개수 그리고 숙소의 종류까지 구별하여 한눈에 들어오도록 표현할 수 있는

효과적인 시각화 방법이라고 생각한다.




가설 3번을 위한 Room-Type 데이터 도출



도출해 낸 데이터


도출한 Room_Price 데이터 테이블 / (좌) 가장 많이 측정되어있는 가격 분포, (우) 에어비앤비 뉴욕 숙소의 평균 가격 $기준


왼쪽에는 태블로를 활용해서, 뉴욕 숙소들의 가격 분포 정도를 알 수 있는 데이터를 추출하는 데에 성공했다.

하지만 다른 인사이트 도출이나 가설에 참고할 수 있는 좋은 데이터이지, 

정작 내가 세운 가설에 필요한 데이터는 아니었다.

내가 필요한 숙소들의 평균 가격을 구하는 방법을 태블로에서는 찾을 수가 없어서 결국,

엑셀을 통해서 뉴욕 숙소들의 평균 1박 가격을 구할 수 있었다. (141.7 $)



지표를 평균 Room-Price로 설정한 이유?  


이번 역시도 애초에 Room-Price가 데이터가 포커싱 되어 있기도 했고,

그 안에서 유의미한 인사이트를 발견하기 위해 세운 가설이었고, 그 가설을 위한 유일한 지표가

바로 평균 숙소 가격이었다.

그 와중에 필요한 하나의 지표의 데이터를 태블로를 통해서 구해보려다가 구하지 못해서 쩔쩔매다가,

결국 엑셀을 통해서 구해내는 데에 성공했다.




시각화를 어떻게 할 것인가? 


단일 데이터를 보여주는 것이라, 어떻게 시각화해야 할지 모르겠지만

만약 다른 도시들의 평균 숙박 금액의 자료들을 구할 수 있다면 보다 그 차이를 명확하게

비교해서 나타낼 수 있는 막대그래프, 선 그래프 등으로 시각화하는 것이 효과적이라고 생각한다.






Part 2로 내용이 이어집니다.










































브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari