brunch

You can make anything
by writing

C.S.Lewis

by 앤더슨 Jan 19. 2023

처음 써보는 Tableau로 에어비앤비 데이터 분석하기

데이터 추출, 시각화 도전기 Part 2 [코드스테이츠 PMB 16기]



이 글은, 위의 Part 1 글의 내용과 이어집니다.



Previously Part 1.


파트 1에서는 데이터를 습득하는 여러 가지 경로 및 방법과

그리고 여러 데이터 중 에어비앤비 뉴욕 마켓 데이터를 선정하고, 선정한 이유를 설명했다.

또한 데이터 안에 존재하는 지표들을 참고하여 증명할 수 있을 것 같은 가설들을 세웠으며

가설 증명을 위한 지표들을 정리, 분석하기 위해서

Tableau라는 데이터 분석 / 시각화 툴을 쌩판 처음 사용해 보며

어찌어찌 데이터 테이블을 만들어보는 과정까지 진행을 해보았다.


오늘은 데이터 테이블을 시각화해 보고, 데이터 및 지표들을 통해서

가설을 입증해 보는 시간을 가져보려 한다.


지체 없이 빠르게 진행해 보도록 하자.



다시 한번 주의!


이 글은, 데이터와 처음 만나는 것도 모자라, 태블로도 처음 이용해 보는 PM 지망생의 글입니다.

평소에 울화가 있으시거나 답답한 것을 참지 못하시는 분들은 본문의 내용에 주의 부탁드립니다.

아무것도 모르는 PM 지망생의 걸음마를 그저 재미로 봐주시면 감사하겠습니다. :)




데이터 시각화 및 가설 검증




가설 1. 뉴욕은 비즈니스 방문객의 비율이 다른 도시들 보다 높은 도시이다,

방문 특성상 편안한 휴식을 위한 공간 전체를 대여하는 전체 숙소의 비율이 가장 높을 것이다.


가설 2. 방문객이 많은 최고 대도시 뉴욕, 다른 도시들보다 숙소의 수가 많을 것이다.


가설 3. 물가가 사악하기로 유명한 뉴욕, 뉴욕의 숙소 1박 가격

전 세계 도시 평균 1박 가격에 비해 높은 수준일 것이다.





가설 1, 2를 증명하기 위한 Room-Type 데이터 도출


(좌) 에어비앤비 뉴욕 마켓의 Room_Type의 종류와 구성 비율 (우) 에어비앤비 뉴욕 마켓의 Room_Type 종류와 숙소의 수



가설 1번을 위한 Room_Type에 대한 각각의 구성 비율을 데이터로 정리하였고,

가설 2번을 위한 Room_Type 종류와 숙소의 수를 데이터로 정리하였다.




Room Type 데이터 시각화하기


가설 1 증명을 위한 구성 비율 시각화


이 전 Part.1에서 시각화를 어떻게 할 것인지 예고했던 것처럼,

원형 비교 도표를 통해서 얼마만큼 비율이 분포되어 있고,

차이는 얼마나 나는지 효과적으로 보여주기 위하여 시각화를 시도했다.

하지만 예상했던 것과는 달리,

차이가 두드러지게 표현되지 않고 수치가 드러나지 않아 명확한 비교가 잘 되지 않았다.

그래서 수치를 표시하여 그 차이를 어떻게 서든 표현하려 했고,

내가 그나마 능숙하게 다룬다고 말할 수 있는 툴인 피그마를 통해 수치까지 표현하였다.


시각화해 본 에어비앤비 뉴욕 마켓의 Room_type 구성 비율 / Used Tool : Tableau + Figma


분명 태블로에도 수치를 잘 표현하고, 정리까지 하는 기능이 있을 텐데

처음 정말 노베이스로 사용자로서는 아직 그 기능을 찾지 못하였다.

태블로를 통해서 대시보드까지 정리를 하고 싶은 마음이 있었지만, 

너무 첫 술에 배부르려 하기보다는 이용해 보는 것에 의의를 두기로 했다.



가설 1 증명해 보기


가설 1. 뉴욕은 비즈니스 방문객의 비율이 다른 도시들 보다 높은 도시이다,

방문 특성상 편안한 휴식을 위한 공간 전체를 대여하는 전체 숙소의 비율이 가장 높을 것이다.



실제로, 뉴욕 마켓의 Room-Type의 비율, 즉 전체 숙소 / 개인실 / 다인실 중 전체 숙소 대여가

가장 높은 비율(52.62%)을 차지하고 있다는 것을 알 수 있다.

(애초에 다인실 같은 경우에는 숙소 특성상 그 숫자가 적어서 비교 대상에 넣기 애매하다.)


사실 어느 도시에서나 다 가장 높은 비율을 차지하고 있는 것이 전체 숙소이기 때문에,

이 가설을 증명해 보는 것이 의미가 있을까? 고민했는데,

이 52.62%라는 수치가 다른 도시들과 비교해서 얼마나 높은 수치인지 비교해 보는 것이

의미가 있다고 생각하여 열심히 다른 도시들의 Room_Type 비율을 찾아보았다.



 (좌) 전체 마켓의 RoomType 비율 / 사진 출처 = researchgate (우) 홍콩 마켓의 RoomType 비율 / 사진 출처 = airbtics


에어비앤비 전체 마켓의 비율은 2017년까지의 자료이고, 홍콩 마켓의 비율은 2020년 4월의 자료이다.

위의 뉴욕 마켓 데이터는 2019년도의 자료인 것을 감안하여 비교 분석하였다.


실제로 뉴욕 마켓의 전체 숙소 비율이 전체 마켓의 비율보다 높다는 것을 확인할 수 있고, 

다른 대도시인 홍콩보다는 매우 높은 비율을 차지하고 있다는 것을 알 수 있다.

특이점은 홍콩도 비즈니스 트립이 많은 도시일 텐데, 전체 숙소 비율이 낮다는 것이 의문이었다. (Why..)



만약, 에어비앤비 뉴욕 마켓이 가설 1을 활용한다면?


- 뉴욕이 다른 도시들 보다 전체 숙소의 비율이 높다는 것을 확인, 

전체 숙소가 계속 더 활발하게 활성화가 된다면, 빠르게 전체 숙소의 숫자를 확보해야 하기 때문에

뉴욕의 새로운 전체 숙소 호스트들을 유입하기 위한 전략을 미리 구축할 수 있다.





뉴욕 마켓의 숙소의 수 데이터 시각화하기


가설 2 증명을 위한 숙소의 수 시각화


이 전 Part.1에서 시각화를 어떻게 할 것인지 예고했던 것처럼,

숙소의 개수를 파악하기 위해서 막대그래프를 사용했다.

이번 시각화 역시도 정확한 수치가 잘 나타나있지 않아서,

피그마를 통해 후작업을 통해 완성도를 높였다.


하지만 놓친 것은 따로 있었다.

뉴욕 마켓 총 숙소의 숫자를 표현하고, 다른 도시들의 마켓들의 총 숙소의 숫자도 나타내어

다른 도시들과 비교해 얼마나 뉴욕 마켓의 숙소가 많이 존재하는지 비교할 수 있도록 시각화를 해야 하는데,

아무리 노력해도 순수한 다른 도시들의 숙소 숫자에 대한 데이터를 구할 수 없었다.

(거의 모든 데이터들이 활성화된 숙소의 개수에 초점이 맞춰져 있었다)

 

혹시 추후에, 다른 도시들의 총 숙소의 숫자를 알 수 있는 자료를 찾게 된다면

반드시 내용에 추가해서 가설의 참/거짓 유무를 분석하도록 하겠습니다.


그래도 꾸역꾸역 만들어본 뉴욕 마켓의 총 숙소의 수 / Used Tool : Tableau + Figma



가설 2 증명해 보기 (비교 데이터의 부재로 실패)


가설 2. 방문객이 많은 최고 대도시 뉴욕, 다른 도시들보다 숙소의 수가 많을 것이다.


꼭 비교 할 수 있는 데이터와 자료를 찾게 된다면, 그 유무를 밝혀보도록 하겠습니다.








가설 3을 증명하기 위한 Room-Price  데이터 도출


(좌) 에어비앤비 뉴욕 마켓의 Room-Price의 구성 비율 (우) 에어비앤비 뉴욕 마켓의 평균 Room-Price


가설 3번을 위한 Room_Price에 대한 평균값을 도출했고,

뉴욕 마켓의 숙소 가격들은 어느 정도로 분포되어 있는지 궁금해서 구성 비율을 도출해 보았다.



Room Price 데이터 시각화하기


가설 3 증명을 위한 구성 비율 시각화


이전 Part 1에서 예고했던 대로,

다른 도시들의 평균 숙소 가격이나 전체 숙소 평균 가격에 비해 

뉴욕 숙소의 가격이 높다는 것을 효과적이고 직관적으로

비교해서 나타낼 수 있도록 막대그래프로 시각화를 진행하였다.


다행히 가설 2번과는 다르게, 에어비앤비의 평균 숙박 가격 현황(ADR)의 자료를

구할 수 있었고, 가설을 입증할 수 있게 되었다.

가설 3을 위한 시각화는 애초에 태블로로 뉴욕 마켓의 숙소 가격을 구하지 못했기 때문에

이번 시각화는 오로지 피그마를 통해 작업을 진행하였다.


뉴욕과 전체 평균 숙박 가격 비교 막대그래프 / Used Tool : Figma



가설 3 증명해 보기


가설 3. 물가가 사악하기로 유명한 뉴욕, 뉴욕의 숙소 1박 가격

전 세계 도시 평균 1박 가격에 비해 높은 수준일 것이다.


실제로, 에어비앤비 뉴욕 마켓의 평균 숙박 가격(2019년 기준)은 141$로 

에어비앤비 전체 평균 숙박 가격(2019년 기준) 113$보다 무려 30달러 가까이 높은 수준으로

형성되어 있다는 것을 알게 되었다.


에어비앤비 평균 숙박 가격 현황 / 출처 = 사진 내용 참조



만약, 에어비앤비 뉴욕 마켓이 가설 3을 활용한다면?


- 뉴욕 마켓에 새롭게 진입하려는 호스트들에게 참고 지표로 제공할 수 있다.

(활용할 수 있는 더 많은 아이디어를 생각해 봤지만 좀처럼 떠오르지 않았습니다,

독자분들의 생각들을 자유롭게 남겨주시면 정말 감사하겠습니다.)







처음 데이터 분석과 시각화를 해 본 후기


처음 데이터를 분석하고, 시각화해보는데 너무 욕심을 낸 것 같다.

결국 하나의 가설은 증명을 하지 못하고 마무리를 해야 했다.

단순히 수집한 데이터만으로 가설을 증명할 수 있는 게 아니라

다른 데이터 및 자료와 비교 분석을 해야 증명 가능한 가설들을 세우는 욕심을 부려서

많이 힘들었고, 결국 실패까지 맛봤다.


다행인 것은 이것은 그저 연습의 과정이라는 것이다.

많이 실수해 봐야 많이 배울 수 있다고 생각하는데, 

다행히 오늘도 실수를 범했고 결국 또 많이 배울 수 있었다.

앞으로도 많이 실수를 할 것 같다, 하지만 그만큼 또 많이 성장할 것 같다.



오늘도 많이 부족한 글을 읽어주신 분들께 감사의 인사를 전합니다.




매거진의 이전글 처음 써보는 Tableau로 에어비앤비 데이터 분석하기
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari