[코드스테이츠 PMB 13기] 데이터 시각화
들어가며
제주도에 6주째 머무르고 있다. 어쩌면 제주도는 내 제5의 고향이 될지도 모르겠다. 제주도에 몇 년간 사는 쪽으로 계획을 잡고 있다. 그래서 였을까 나는 요즘 제주도에 꽂혀있다. 지금 내 관심사는 코드스테이츠 아니면 제주도니까. 제주도 하면 관광인데 코로나는 제주 관광객 수에 얼마나 영향을 미쳤을까? '제주특별자치도 국적별 관광객 현황' 데이터를 시각화해본다.
Kaggle이나 Dacon 같은 무료로 데이터를 얻을 수 있는 사이트에서 데이터 시각화 연습해보도록 합시다.
1. Kaggle이나 Dacon에 접속하여 본인이 관심 있는 주제의 데이터를 찾습니다.
- 우선 캐글(Kaggle)은 미국의 예측모델 및 분석 대회 플랫폼이다. 2017년 3월 구글에 인수돼 현재 모회사는 구글이라고 한다.
- 데이콘(Dacon)도 캐글과 비슷한데 한국 기업이며, 빅데이터 기반 경진대회 플랫폼을 표방하고 있다. 데이콘의 경우 경진대회에 참가 신청을 해야지만 데이터를 받을 수 있다.
- 캐글에서 Korea로 검색해 '한국 방문자(South Korea Visitors)' 페이지를 찾았다. 해당 페이지를 보니 자료 출처가 한국관광공사이길래 그냥 한국 정부 사이트에서 자료를 찾게 되었다.
- 한국 관광하면 역시 제주도인데 싶어 공공데이터포털에 올라온 제주특별자치도에서 작성한 국적별 관광객 현황 자료를 해당 과제에서 사용하기로 결정했다. 해당 자료는 연도별로 국적별 관광객 수를 보여주고 있어 가설을 세우기에 적절해 보였다.
2. 해당 데이터 파일을 다운로드하여 직접 확인해봅니다. 확인한 데이터에서 어떤 추측과 가설이 가능한지 확인하고 가설을 3개 이상 설정합니다.
- 제주특별자치도 국적별 관광객 현황(2021.12.31.) 자료다. 2013년부터 2021년까지의 관광객 수가 제시돼 있다.
- 해당 데이터에서 세운 3가지 가설은 다음과 같다.
가설 1. 최근 2년간 한국 관광객이 증가했을 것이다.
가설 2. 최근 2년간 외국 관광객이 감소했을 것이다.
가설 3. 2021년 일본 관광객 감소율은 다른 나라 관광객 감소율보다 높았을 것이다.
- 가설 1번은 코로나19로 인해 해외 대신 제주도로 여행을 가는 한국 관광객이 늘었을 것이라 예상했다.
- 가설 2번은 코로나19로 인해 외국 관광객이 줄었을 것이라 예상했다.
- 가설 3번은 일본의 엔저 현상으로 인해 특히 2020년에서 2021년 사이 일본 관광객 감소율이 다른 나라 관광객 감소율보다 높았을 것이라 예상했다.
3. 본인이 세운 가설을 확인할 수 있도록 데이터를 확인하고 시각화합니다.
- 위의 가설을 검증하기 위해 최근 5개년간의 데이터를 중심으로 시각화했다. 본격적으로 코로나가 퍼지기 전 2019년부터 3개년을 분석하고자 했는데, 이전과 다른 추세인지 같은 추세인지를 확인하기 위해 5개년으로 기간을 설정했다.
- 기간을 5개년으로 설정한 만큼 2021년 이전에는 집계가 이루어지지 않았던 인도네시아와 베트남의 자료는 제외했다. 이외에도 분석과 관련 없는 비고, 담당부서, 데이터 기준일자는 제외했다.
- 해외 관광객 비교에 있어 중국은 별도로 분석했다. 중국의 경우 다른 나라보다 관광객 수가 월등히 많아 중국을 같이 데이터에 넣으면 다른 나라의 추이를 비교할 수가 없었기 때문이다.
- 데이터 시각화에는 엑셀을 활용했다. 처음에는 수업에서 얘기가 나왔던 구글 데이터 스튜디오에 도전해봤는데 뭐가 잘못된 것인지 꺾은선 그래프를 선택할 수 없었다. 도구보다 콘텐츠가 더 중요하다고 생각하기 때문에 엑셀로 돌아왔다. 참고로, 구글 데이터 스튜디오는 맞춤형 정보 보고서 및 대시 보드로 변환하는 온라인 도구이다.
4. 본인이 세운 가설과 실제 결과를 비교합니다.
1. 최근 2년간 한국 관광객이 증가했을 것이다.
- (실제) 2020년은 사회적 거리두기로 인해 국내에서도 이동이 적었다는 것을 간과했다. 최근 다시 코로나19 확진자가 늘어나고 있지만 그 전에는 거리두기가 풀려서 순간적으로 제주도를 많이 방문했을 것이라 생각했다. 2020년은 확 꺾였지만 2021년에는 반등하는 추세긴 하다.
가설 2. 최근 2년간 외국 관광객이 감소했을 것이다.
- (실제) 이건 당연하지만 실제로 줄었다. 더 정확한 말은 급감했다고 할 수 있다. 중국, 일본, 미국, 대만, 홍콩, 싱가포르, 말레이시아 할 것 없이 줄었다. 다만 홍콩의 경우에는 2021년에 관광객 수가 약간 반등한 것을 알 수 있었다.
가설 3. 2021년 일본 관광객 감소율은 다른 나라의 감소율보다 높았을 것이다.
- (실제) 감소율은 그래프의 기울기로 알 수 있는데 가장 기울기가 큰 것은 일본이 아니라 말레이시아로 나타났다. 말레이시아의 감소율이 가장 높았으며 다음은 대만으로 보인다.
마치며
기자로 근무하면서 보도자료로 데이터를 볼 일이 많았는데 데이터에서 왜 중국을 따로 떼 놓고 보는지 알 듯하다. 수치가 크게 차이나는 항목을 데이터에 같이 넣으면 나머지 항목은 미미한 수치로 나와서 비교가 힘들기 때문이다.
자료로 볼 때는 쉬웠는데 직접 자료를 만들려고 하니 꽤나 주의가 필요한 일이었다. 어려운 자료를 보는 이로 하여금 쉽게 만드는 것은 중요하고, 힘든 일인 것 같다.
또한, 해당 자료를 보면서 코로나19로 인해 제주도 관광업이 얼마나 타격을 받았을지 여실히 느껴졌다. 코로나19 감염자 수가 4일 기준 나흘 연속 10만 명 대를 웃돌고 있다고 하니 언제나 조심 또 조심해야겠다.
참고자료
- South Korea Visitors, kaggle, https://www.kaggle.com/datasets/bappekim/south-korea-visitors
- 제주특별자치도_외국인관광객현황, 공공데이터포털, 2021.112.31., https://www.data.go.kr/data/15061970/fileData.do