brunch

You can make anything
by writing

C.S.Lewis

by 뉴비 기획자 Aug 05. 2022

Tableau로 외국인 관광 데이터를 분석해보자!

[코드 스테이츠 PMB 13기] 타블로로 데이터 분석, 시각화 하기 

데이터 시각화가 중요한 이유는?


저는 데이터 분석, 시각화하면 무섭기만 하던 문과생입니다. 그래서 데이터 얘기만 나오면 왜 굳이 그 어려운 걸해 야하지 싶었습니다. 그런데 어느 날, 울며 겨자 먹기로 태블로 (Tableau)로 데이터를 분석하는 과제를 얻었습니다. 그리고 왜 데이터 시각화가 중요한지 알았어요. 제가 딱 이미지 두 개로 설명해드릴게요. 

(왼: CSV파일) (오: 동일 파일 시각화) 

원 데이터, CSV 파일로는 해당 자료를 통계 낼 수가 없습니다. 데이터가 있어도 "동대문 종합 시장이 언급이 많구나" 정도로 러프하게만 파악 가능하고, 어느 정도로 많은지 전혀 알 수 없어요. 그러니까 데이터가 있어도 별로 도움이 되지 않는 상황인 거죠. 하지만 동일한 파일을 데이터 시각화 툴 태블로에 넣어보면 관광지 분류를 기준으로 검색 수가 많은 시설이 무엇인지 확실하게 알 수 있습니다. 전시시설, 호텔, 시장, 역사유적지 순이죠. 



PM은 더더욱 데이터 시각화에 익숙해져야 한다!

PM 준비를 하면서 가장 많이 들은 부분은 '데이터를 다루는 것에 익숙해져야 한다'입니다. 이제 단순하게 어떤 지표를 봐야 하는지  (MAU, DAU, PV 등)는 얼추 아는데, 문제는 이 데이터를 뽑아서 가설을 세우고, 검증해야 한다는 것입니다. 위에서 본 것처럼 절대 원 데이터로는 가설 검증을 못하니까 시각화를 직접 해서 검증할 줄 알아야 할 것 같습니다. 


사용하는 툴은 회사, 서비스 (웹 / 앱), 상황에 따라 다르다고 합니다. 아래와 같이 다른 툴들로 활용될 수 있습니다. 물론 다 공부하기는 무리겠지만 대중적으로 많이 쓰는 GA나 그나마 쉬운 태블로는 배워놓으면 쓸 날이 있지 않을까 싶습니다. 


Google Analytics, Amplitude 등 분석 도구의 내장 대시보드

웹에 적합한 페이지 중심 고객 데이터 분석의 대표적인 예– Google Analytics 

앱에 적합한 이벤트 중심 고객 데이터 분석의 대표적인 예 – Amplitude

시각화 전문 도구 - Tableau 등

파이썬 용 시각화 라이브러리 - Matplotlib, seaborn 등


제가 활용한 툴은 태블로입니다. 타블로는 1시간 정도면 대략적인 기능을 파악할 수 있었고 바로 시각화가 가능해서 쓰기 좋았습니다. 더불어 파이썬, GA도 활용 중이지만 전처리가 너무 어려워서 이번에는 타블로를 활용했습니다. 



데이터 시각화를 할 때 주의할 점!

데이터의 특성에 맞는 적당한 시각화를 선택해야 한다

타블로 시각화 종류 

데이터에서 원하는 결론을 쉽게 이해할 수 있도록 시각화의 종류를 선택하는 것이 중요합니다. 원하는 인사이트를 빠르게 발견할 수 있는 적절한 시각화를 선택할 수 있도록 다양한 종류의 시각화를 고려해야 합니다.   태블로에서도 꽤 다양한 시각화 종류를 지원해주고 있어서 여러 개 눌러보면서 가장 적절한 타입을 선택할 수 있었습니다. 


표 타입과 막대 차트 타입으로 같은 데이터를 나타내 보았는데, 

확실히 막대 타입이 현지인, 외지인 검색 수를 비교하기 좋아 보여요. 데이터에 맞는 시각화를 하는 것이 중요한 이유를 확실하게 느꼈습니다!


                    




데이터 분석 및 시각화


사용한 데이터 

https://datalab.visitkorea.or.kr/datalab/portal/loc/getAreaDataForm.do#

방한 외국인은 코로나 이후에 어떤 곳을 가고 어떤 특징을 띄는지 궁금해져서 한국 관광 데이터랩에서 찾아봤습니다. 특히 외국인들이 한국적인 먹을 것, 볼 것이 많은 종로구에 많이 방문한다고 합니다. 그래서 종로구 관광 데이터를 통해서 외국인 관광객의 행동을 분석해봤습니다. 


가설 1. 방한 외국인은 한국의 먹을 것에 가장 관심이 많고, 가장 많이 소비할 것이다. 

가설 2. 방한 외국인은 경복궁, 창덕궁과 같은 전통적인 유적지에 관심이 많을 것이다. 

넷플릭스 콘텐츠

유튜브 먹방이나 K콘텐츠의 영향으로 먹을 것과 전통 관광지에 대한 관심이 많아졌을 것이라고 생각해서 코로나 이후로 2년이 지난 지금 예전보다 많이 관심을 가지지 않을까 생각을 했습니다. 그래서 단순히 롯데월드타워 같은 랜드마크보다는 한국적 정서가 많이 묻어난 장소와 음식을 선호하지 않을까 예상했습니다. 



데이터 확인


우선 CSV로 된 데이터 파일 중 '방문자수' 파일을 열었습니다. 타블로는 자동으로 칼럼 값을 노출해 주기 때문에 칼럼 값을 선택해 원하는 데이터로만 시각화할 수 있었습니다. 

가장 왼쪽 사진이 파일을 넣었을 때 보이는 테이블 값입니다. 테이블 값에서 저는 기준 연월을 칼럼으로, 방문자수의 합계를 로우로 넣었습니다. 그렇게 선택해서 넣으면 가능한 시각화 타입을 볼 수 있는데요, 저는 보기 쉽게 기준 연월을 막대그래프로 보았습니다. 


방문자 수 변화

한국에서의 코로나가 한 풀 꺾이고 4월부터 위드 코로나가 슬슬 시작되면서 관광객 수가 급증하기 시작했네요. 그쯤부터 외국인 관광 비자를 많이 내주기 시작하면서 5월부터 큰 폭으로 증가했습니다. 아직 코로나 이전의 기조를 회복하지는 못했지만 점점 증가하고 있음을 알 수 있었습니다. 



(왼쪽: 데이터 테이블) (오: 방문자수 막대 그래프) 




관광소비유형 


관광소비유형 데이터는 업종을 대분류, 중분류로 나누고 있었습니다. 거기에 따른 소비액 데이터를 알 수 있었는데요, 대분류 내부의 중분류를 함께 분류하고 중분류에 따른 소비액을 살펴봤습니다. 

일단 표로 데이터를 봤을 때 식음료업이 자릿수부터 다를 정도로 많이 소비되고 있었습니다. 이를 시각화했을 때도 식음료 부분이 월등하게 많이 차지하고 있음을 알 수 있었습니다. 그 외에는 숙박, 쇼핑 업이 인기인데 단위부터가 달라서 시각화했을 때 이 차이가 극명하게 보였습니다. 




지역 맛집 검색 수


외국인은 지역 맛집 중 어떤 유형에 관심이 많을까요? 왼쪽 시각화 자료에서 남색이 외국인, 주황색이 현지인 검색 수입니다. 일단 검색 수부터 차이가 많이 벌어지고 있었는데요, 특히 한식의 경우 현지인과의 검색 수 차이가 엄청 벌어지고 있어서 확실히 한식에 관심이 많음을 알 수 있었습니다. 

또한, 한국식 카페도 인기가 많아져 동일하게 검색을 많이 하고 있음을 알 수 있었습니다. 길거리 음식 등의 간이음식 검색량도 많았습니다. 

이런 시각화 타입을 선택하니 막대그래프를 봤을 때보다 단위 차이를 명확하게 알 수 있어서 직관적으로 데이터를 확인할 수 있었습니다. 










인기 관광지 검색 수

외국인은 어떤 관광지를 가고 싶어 할까요? 현지인과 외국인의 검색 수 차이를 살펴봤습니다. 막대로 표시된 것이 외국인의 검색 수, 검은색 바가 현지인 검색 수입니다. 가장 월등히 차이 나는 것은 역사 유적지입니다. 가설에서 세운대로 외국인들은 꽤 역사유적지에 관심이 많음을 알 수 있었습니다. 뭔가 한국 콘텐츠가 영향을 미치지 않았을까요? 


저는 특히 랜드마크 관광 수치가 인상적이었는데요, 예상외로 검색량이 적어서 놀랐습니다. 그에 반에 호텔이 검색이 굉장히 많았고, 전시시설, 시장이 뒤를 따랐습니다. 둘 다 크게 예상하지 못했던 부분이라 어떤 부분 때문에 관심이 많은지 더 알아보고 싶네요. 




결론

가설 1. 방한 외국인은 한국의 먹을 것에 가장 관심이 많고, 가장 많이 소비할 것이다. 

가설 2. 방한 외국인은 경복궁, 창덕궁과 같은 전통적인 유적지에 관심이 많을 것이다. 


제가 세웠던 앞선 두 가설은 데이터를 통해 모두 검증했습니다. 

방한 외국인은 식음료에 가장 많이 소비하고 있었고, 역사 유적지에 관심이 많았습니다. 앞으로 관광산업 활성화를 위해 한국의 음식과 건축물, 유적지를 더욱 홍보하고 알렸으면 좋겠습니다. 코로나 2년 동안 해외여행은 못 다녔지만 한국에는 정말 아름다운 곳이 많아요! 해외 친구들이 모두 한국의 멋을 알았으면 하는 마음에서 한국 관광 데이터를 분석해봤습니다. 


태블로를 쓰면서 아쉬웠던 점은 

두 데이터 사이의 연결성을 정의하기가 어려웠다는 점입니다. 

동일한 데이터 (교집합) 이 있어야 연결할 텐데, 없는 경우에는 시각화하기가 어려웠습니다. 그래서 오른쪽 사진처럼 null 값이 나왔습니다. 이걸 해결할 수 있는 방법을 더 찾아봐야 할 것 같습니다..ㅠㅠ 파이썬을 활용해 데이터 전처리 - 시각화를 한번 해보고 어떤 다른 값이 나올 수 있을지 한번 비교해보겠습니다. 



데이터는 어렵지만 기꺼이 이번 과제로 도전해봤다는 것에 큰 의미를 두고 싶습니다. 

데이터가 어려운 기획자 분들이 계신다면, 태블로 무료판을 통해 한번 시도해보라고 하고 싶습니다. 

따로 전처리나 코드 짤게 없어서 시각화하기 편했습니다. 기획자로서 받은 데이터를 통해 시각화를 하고, 다른 동료분들을 설득할 수 있어야 하기 때문에 꼭 해야 하는 단계라고 생각합니다. 어렵지만 한 번씩 해보면서 발전할 수 있겠죠? 다른 툴들도 한번씩 사용해보면서 데이터 분석의 발을 넓히고 싶다는 생각이 듭니다 ㅠㅅㅠ

매거진의 이전글 멜론의 개인화 추천 기능은 어떻게 이루어질까?
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari