[코드스테이츠 PMB 9기] 캐글 데이터셋 활용
코로나19 전 여행을 갔던 게 언제였는지 먼 일처럼 느껴집니다.
코로나가 끝나면 여행가려고 최근 계획을 세워본 적이 있습니다. 에어비앤비에서 다양한 숙소를 둘러보던 중 '관광 도시에서 가까울수록 가격이 높은지'가 궁금했습니다. 얼핏 생각해보면 가까울수록 가격이 높을 것 같습니다. 교통이 편리하고, 먹을 것도 많으니 당연히 수요가 많고 가격이 높은 방식으로. 당시 궁금증은 그냥 잊혀졌습니다.
이번 과제를 위해 캐글(Kaggle)의 데이터셋을 둘러보던 중 숙박업 데이터셋을 발견해 그때 생각이 났습니다. 먼저, 캐글에 대해 설명 드리면 다음과 같습니다.
캐글(Kaggle)은 2010년에 만들어진 예측모델 및 분석 대회 플랫폼으로 다양한 기업이나 단체가 해결하고자 하는 문제를 데이터와 함께 등록하면 데이터 과학자들이 해결 모델을 제시하는 곳입니다.
다시 돌아와서, 캐글 데이터셋에서 숙박 데이터 [Hotels accommodation prices dataset]를 발견했고, 예전 궁금증이 다시 생각났습니다. 데이터 내용을 살펴보고, 궁금증을 가설로 바꾸어 자료를 통해 간단히 확인해보겠습니다.
우선, 데이터셋 입니다. 설명에 따르면 데이터에는 아래의 정보로 구성되어 있습니다.
Hotel name : 호텔 이름
Price(BAM) : 보스니아 헤르체고비나 화폐 단위로 계산한 하루 숙박비
Hotel star rating : 스타 갯수 (1성급~5성급)
Distance : 호텔에서 도심으로부터의 거리(meter)
Customer rating : 예약 평가
Rooms : 방 갯수
Squares : 제곱미터
City : 크로아티아, 보스니아, 세르비아, 슬로베니아에 위치한 도시
이제 예전 궁금증을 가설로 바꾸어 데이터셋에서 정말 그러한지 확인해보겠습니다.
가설 1. 도시로부터 거리가 가까우면 가격이 높을 것이다.
가설 2. 호텔 성급이 높을수록 가격이 높다.
가설 3. 객실에 방이 많거나 넓을수록 가격이 높을 것이다.
도시에 가까울수록 도시 인프라를 활용하기 수월합니다. 이동시 대중교통과 다양한 음식점을 이용할 수 있습니다. 관광 및 비즈니스 목적으로 방문한 이들에게 도시에 가까울수록 편리함과 효율성의 장점이 있습니다. 따라서 도시 인근 숙박은 높은 수요로 인해 가격이 높으리라 예상했습니다.
데이터 그래프
가로축(x) : 도시로부터의 거리(호텔 위치)
세로축(y) : 가격
거리가 멀어질수록 가격의 큰 추이는 낮아지는 것처럼 보이지만 들쭉날쭉한 데이터가 많아 확실하게 말하기 어려울 듯 합니다. 중간에 도시로부터 거리가 더 멀지만 가격이 다른 곳보다 월등히 높은 호텔이 존재합니다. 이들의 높은 가격에는 다른 원인이 있을 것으로 추측됩니다.
호텔 성급이 높을수록 더 좋은 호텔이라는 의미이므로 가격이 높을 것입니다.
데이터 그래프
가로축(x) : 호텔 성급
세로축(y) : 가격
5성급일수록 높은 가격은 아닌 것으로 확인됩니다. 가장 비싼 호텔은 4성급 호텔이며, 성급 외 다른 요인이 가격에 영향을 미친 것으로 보입니다.
호텔 객실에 방이 많거나 면적이 넓으면 더 많은 사람을 수용할 수 있거나, 더 쾌적할 수 있습니다. 방이 적거나 좁은 면적보다 방이 많고 면적이 넓은 호텔방이 더 비싼 편입니다.
데이터 그래프
가로축(x) : 객실 방 갯수
세로축(y) : 가격
그래프에 따르면 한 객실에 방의 갯수가 많다고 가격이 높은 건 아닙니다. 방의 갯수가 2개일 때 가격이 가장 높음을 확인할 수 있습니다.
토지비용도 높은 곳은 공간을 최대한 효율적으로 활용해야하기 때문에 방의 갯수를 제한했을 수 있습니다. 한 객실에 방은 두 개지만 가격은 더 비싼 경우입니다.
데이터 그래프
가로축(x) : 객실 면적
세로축(y) : 가격
마찬가지로 객실 면적이 넓다고 가격이 높은 건 아니었습니다. 면적에 따라 다양한 가격을 확인할 수 있어 규칙성을 발견하기 어렵습니다.
세 가지 가설 모두 데이터로 알아보았습니다. 모든 가설은 데이터와 정확히 맞아 떨어지지 않았습니다. 당연한 이야기지만 호텔의 가격은 도시로부터의 거리, 호텔 성급, 방 갯수, 면적 외 다른 요인의 영향을 복합적으로 받아 결정되는 것 같습니다. 호텔 가격 결정 기준에 대해 알아보니 다음과 같은 방법이 이용된다고 합니다.
1. 건축비 1/1,000 접근법
2. 직감적 가격 결정 방법 : 수요에 대한 정확한 예측이 어려울 때 노하우로 가격 결정 방법
3. 심리적 가격 결정 방법 : 고객 입장에서 만족도를 높이기 위한 가격 결정 방법
4. 경쟁적 가격 결정 방법 : 동일 유형의 타 호텔을 표준으로 가격을 결정하는 방법
5. 휴버트 가격 결정 방법 : 비용을 역으로 계산하여 가격을 결정하는 방법
추가적으로 오늘 사용한 데이터셋의 경우 크로아티아, 보스니아 등의 나라에서 수집되었음을 감안하면 문화적, 지역적 특성도 고려해야 할 것 같습니다. 이처럼 호텔 가격은 다양한 요인에 의해 결정됨을 알 수 있습니다.
오늘은 캐글 사이트에서 가져온 데이터셋으로 가설을 확인해보려는 작업을 해보았습니다. 만족스런 결과를 얻지는 못했지만, 프로덕트의 가설을 검증하기 위해선 로우 데이터가 중요하다는 것을 배웠습니다. 원하는 결과를 위해 데이터를 끼워 맞추는 것이 아닌 데이터에서 결과를 발견하기 위해서 말이죠.
[Hotels accommodation prices dataset] 데이터셋
캐글 사이트