brunch

You can make anything
by writing

C.S.Lewis

by 앨리스 Jan 08. 2022

에어비앤비 데이터로 알아본 위드 코로나 시대의 여행

코로나와 함께 할 수 있는 해외여행 시대를 꿈꾸며 


위드코로나 시대, 우리 여행의 모습은 어떠할까?


최근 '마이리얼트립'분석글을 쓰며 이러한 궁금증이 생겼고, 데이터를 이용하여 여행 산업을 분석하고자 글을 쓰게 되었다. 나는 Kaggle이란 사이트를 이용해 여행과 관련된 자료를 찾았다.


Kaggle이란?
데이터 분석 경진 대회를 주최하는 플랫폼으로, 사이트에 올라온 데이터를 활용해 분석 및 머신러닝에 대한 학습을 할 수 있다.


Kaggle은 외국 사이트라 한국 서비스나 관련 데이터는 찾기 어려웠고, 따라서 에어비엔비를 검색해 두 가지 데이터를 가져와봤다. 숙박 공유 사업을 하는 에어비엔비도 코로나로 인한 큰 변화가 있으리라 생각했고, 이를 비교하기 위해 코로나 발생 전과 후의 자료인 2018, 2020년 자료를 가져왔다. 파일 안에는 에어비앤비 호스트가 제공하는 기본 정보, 방 타입, 가격, 최소 숙박 희망 일수, 한 달간 받은 리뷰 등이 담겨 있었다.




에어비엔비 데이터를 추출하자

이미지 출처 - Kaggle


여행하면 먼저 떠오르는 뉴욕을 찾아보려 했으나, 데이터가 따로 없어서 시애틀로 자료를 추출했다. 하지만 찾아보니 시애틀은 뉴욕이나 샌프란시스코를 가기 전 스탑오버로 여행을 하기도 하고, 미국 서부 여행하면 빠지지 않고 포함되는 곳이라 적합한 데이터를 뽑을 수 있겠다 생각했다.


아래는 위의 두 자료를 검색해 다운로드한 CSV 파일이다.

파일을 쭉 훑어본 후 Price, minimum_nights, reviews_per_month 컬럼을 바탕으로 가설을 세웠다. 또 파일마다 데이터 건수가 몇 천 건 이상이라 자료를 뽑기 너무 많다고 생각했고, 유효한 데이터 순으로 추출하고자 리뷰가 많은 순으로 300개를 정리하였다.


출처 - Kaggle



데이터를 보고 가설을 수립하자


가설 1. 코로나로 시애틀에 온 여행객이 줄어 에어비앤비 이용객 남긴 한 달 리뷰 역시 줄었을 것이다.

가설 2. 코로나로 안전한 여행이 어려워진 여행객들은 단기로 옮겨 다니기보다 안전한 도시와 숙소를 정해 장기로 체류하기를 선호할 것이다.

가설 3. 코로나로 여행 수요가 줄어 돈을 못 버는 호스트들은 여행객 유치를 위해 1일 숙박 요금을 낮췄을 것이다.



데이터를 시각화하자


가설 1

코로나로 시애틀에 온 여행객이 줄어 에어비앤비를 이용한 숙박객이 남긴 한 달 리뷰 역시 줄었을 것이다.


아래 표에서 1은 2018년 수치이고, 2는 2020년의 수치이다. 

한 달간 받은 리뷰 수를 기준으로 한 300명의 호스트 데이터를 평균 냈을 때 2018년은 6.2375건, 2020년은 6.945건으로 나타났다.


Made by Alice


내가 예상했던 것과 달리 한 달간 리뷰 수가 상승한 것으로 나타났다. 

아무래도 코로나로 인해 시애틀을 오고 가는 여행객 수는 줄었을 것이라 생각한다. 실제 얼마나 줄었고, 그중에서도 에어비앤비를 사용한 고객의 수가 어떤 변화를 보였는지는 데이터를 통해 파악해야 한다. 하지만 리뷰 수 기준 상위 300건으로 추린 결과, 평균 리뷰 수가 오히려 늘어났다는 것은 정성적으로는 숙박에 만족했다는 얘기가 될 수 있을 것이다. (불만족해서 리뷰를 남겼을 가능성도 있겠지만... 코로나 기간 여행이라면 호스트와 게스트 모두 신경 써서 여행을 준비했을 것이고, 또 나중 시각화 자료에서도 나오지만 1일 숙박 금액이 올라갔기 때문에 그만큼 시설 수준도 올라가지 않았을까 조심스레 추측해본다.)



가설 2

코로나로 안전한 여행이 어려워진 여행객들은 단기로 옮겨 다니기보다 안전한 도시와 숙소를 정해 장기로 체류하기를 선호할 것이다.


Made by Alice



2018년의 경우 호스트가 요구한 최소 숙박일 수는 대부분이 2,3일이었다. 장기 투숙인 30일 이상은 1건만 존재하였다. 하지만 2020년의 경우 30일 이상의 장박을 선호하는 호스트는 57명으로 집계되었다. 또 특이한 점은 2018년에는 없던 5일에서 20박 사이의 분포가 생겼다는 점이다. 코로나 전에는 도시를 옮겨 다니며 하는 여행을 선호했다고 한다면 코로나 이후에는 안전이 담보된 상황에서 여행하려는 마음이 크다 보니 한 곳에 오래 머물게 되는 것 아닐까 하는 생각이 들었다. 호스트 입장에서도 코로나 이후 안전 문제나 예약 후 취소될 경우를 없애기 위해 장박을 선호한 것이라 볼 수 있었고, 리뷰 순으로 정리된 데이터임을 생각하면 실제 게스트도 장박으로 숙소를 이용한 게 늘었다는 점이 추론 가능하다. 



가설 3

코로나로 여행 수요가 줄어 돈을 못 버는 호스트들은 여행객 유치를 위해 1일 숙박 요금을 낮췄을 것이다.



Made by Alice



내가 세운 가설이 잘못되었음을 데이터 분석 후 깨달았다. 


'코로나로 여행 수요가 줄어 돈을 못 버는 호스트들은 여행객 유치를 위해 1일 숙박 요금을 낮췄을 것이다'라고 가설을 세웠으나, 나는 데이터를 한 달간 리뷰 수가 많은 순으로 300건을 추렸다. 이 의미는 코로나 시국에도 거래가 일어난 호스트의 정보라는 것이고, 이를 파악하면 여행이 어려운 상황에서도 여행을 다니는 사람의 경제 상황, 소비 수준, 여행 패턴 등을 파악할 수 있단 얘기가 된다. 그리고 이를 파악한 결과 오히려 2018년보다 숙박요금이 비싼 집들이 거래가 활발히 이루어지고 있었다. 2018년의 경우 최고 숙박요금은 425 불이었으나, 20년은 623 불로 198 불이 나 비싼 숙박이 거래가 되었다. 평균 숙박 요금을 계산했을 때도 18년은 93불, 20년은 127불로 약 35% 이상 증가했음을 알 수 있다.


그렇다면 결국 내 가설은 다음과 같이 수정되어야 할 것이다. '코로나로 여행이 어려워진 상황에서 여행을 떠나는 이들은 금액이 높더라도 퀄리티가 좋은 집에 투숙할 것이다.' 혹은 '여행이 어려워진 코로나 상황에서도 여행을 하는 이들은 안전하고 좋은 숙박 시설에 요금을 아끼지 않을 것이다.'로 말이다.


여기서 한 가지 주의할 점이 있다. 내가 활용한 데이터에는 숙박 시설을 이용한 이용객 수의 정보가 없었다. 따라서 몇 명의 인원이 수용 가능한 집인지 혹시 수용 가능한 투숙객이 많아서 숙박 금액이 올라간 건 아닌지에 대한 사실을 확인할 수는 없었다. 내가 만약 실제 에어비앤비 PM이라면 투숙객 수까지 확인하여 보다 정확하게 가설 검증을 해 볼 것이다.




데이터 분석 시 놓치지 말아야 할 것


내가 원하는 데이터로 분석한 것이 아니다 보니, 가설을 검증할 때 필요한 데이터들이 부족하단 점이 아쉬웠다. 그래서 시각화 한 숫자들과 그를 바탕으로 검증한 가설 여부가 정확하지 않을 수도 있다. 하지만 오늘 이 글의 포인트는 CSV 파일 안에 넓게 퍼져있는 데이터들을 보고 무엇을 분석해야 할지, 어떤 가설을 세울 수 있는지, 그리고 실제로 시각화해보며 검증할 수 있는지의 여부일 것이다. 나 또한 많이 부족한 결과이지만 그 포인트에 맞춰 분석하는 과정을 거쳐보았다.



마지막으로


그렇다면 곧 펼쳐질 위드 코로나 시대에 여행과 숙박은 어떤 모습일까? 


나는 향후 몇 년 간은 해외여행이 코로나 이전처럼 쉽게 떠날 수 없으리라 본다. 백신 접종이나 코로나로 인한 치안 문제도 있을 것이고, 여행을 떠나는 사람들도 오랜만에 가는 여행이니 제대로 잘 즐기고 오자 하는 마음이 커지리라 생각한다. 그렇기에 경비나 시간을 아끼지 않으리라 본다.


따라서 앞서 데이터에서 파악한 것과 같이 단기보다는 장박을 하며 한 지역을 충분히 즐길 것이고, 안전하고 쾌적한 숙박 시설에 돈을 아끼지 않을 것이다. 데이터에서는 파악하지 못했지만 디지털 노마드가 늘어나고 재택근무가 활성화되며 해외에서도 여행과 일을 병행하는 새로운 여행 패턴이 보이지 않을까 하는 생각도 든다. 따라서 그러한 소비자의 니즈에 맞춰 숙박 상품, 여행 상품에 대한 개발은 끊임없이 이어져야 할 것이다.






브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari