데이터로 보는 서울 배달음식 업종 이용 트렌드
더 많은 데이터에 접속할 수 있는 상태지만, 이런 수많은 데이터에서 효과적으로 인사이트를 획득하는 능력은 감소했다. 최근 MIT 슬론 경영 대학원 리뷰에 실린 글에 따르면, 2016년에서 2017년 동안 데이터 '접속'과 '인사이트 획득 효과성'의 간극이 지난 6년간 최대인 50%로 확대됐다. 한 마디로 데이터가 많다고 항상 더 좋은 결과를 얻을 수 있는 것은 아니다.
- 글로벌 칼럼 '빅데이터를 제대로 활용할 수 있도록 돕는 '데이터 거버넌스' (Paul Brunet, InfoWorld)
최근 읽은 칼럼 중 일부를 인용해보았습니다. '빅데이터'가 중요한 것이 아니라 데이터에서 찾을 수 있는 '인사이트'가 중요하다는 의미로 해석되는데요! 같은 맥락에서 많은 양의 공공데이터가 개방되는 것이 중요한 것이 아니라 활용 가능한 데이터의 개방, 데이터를 읽을 줄 아는 능력인 '데이터 리터러시'가 중요하다는 이야기로 확장해볼 수도 있습니다. 그렇다면 중요하다고 이야기되는 '데이터 인사이트'를 발굴하는 역량이자 '데이터 리터러시'를 나의 것으로 만드는 방법은 무엇일까요?
오늘은 그 방법으로 데이터 인사이트를 찾는 방법에 대해 이야기하고자 합니다. 최근 발행한 데이터 시각화 콘텐츠 <중국음식 vs 치킨, 당신의 선택은? - 데이터로 보는 서울 배달 음식 업종 트렌드>(이하 '데이터로 보는 서울 배달음식 업종 이용 트렌드')를 사례로 살펴보고자 합니다. 이 콘텐츠는 배달음식계의 양대 산맥인 중국음식과 치킨 배달 이용 트렌드를 데이터로 확인해보는 스토리텔링 콘텐츠입니다. (활용 데이터 출처는 SKT 데이터 허브의 배달 업종 이용 현황 분석(2017.01 ~ 2017.12)이며, 서울 지역 내의 데이터만 포함합니다.)
중국음식, 치킨을 가장 많이 시켜 먹는 요일은 언제일까요? 가장 많이 배달을 시킨 시간은 언제일까요? 데이터에서 인사이트를 도출하는 한 가지 방법은 시계열(時系列, time series) 데이터를 분석 기준을 삼아 다양한 인사이트 도출을 시도하는 것입니다. 말 그대로 시간의 움직임에 따라 데이터가 어떻게 달라지는 것인지를 살펴보는 것인데요!
가장 먼저 년(year)을 기준으로 데이터를 비교해 볼 수 있습니다. 좌측 이미지의 막대 차트를 보면 알 수 있듯이 2017년 전체 배달 이용 건수 기준 치킨업종은 645만 8,821건으로 중국음식 619만 6,098건에 비해 약 266만 건 정도 많았습니다. 그렇다면 이를 월별로 나눠서 비교해본다면, 어떤 인사이트를 발견할 수 있을까요? 가장 먼저 월별 데이터의 변화를 선의 형태로 확인할 수 있습니다. 중국음식, 치킨 모두 전월에 비해 데이터가 증가하는 달과 감소하는 달이 유사한 것을 알 수 있습니다. 뿐만 아니라 두 업종 모두 배달 이용 건수가 가장 많은 달은 12월, 반대로 가장 적은 수치를 기록한 달은 10월임을 알 수 있습니다.
위 사례로 알 수 있는 것은 데이터 분석 시 시계열의 기준을 무엇으로 하느냐에 따라 도출할 수 있는 인사이트가 다르다는 것인데요! 대표적인 시계열 분석 기준은 년(year), 월(month)뿐만 아니라 분기, 일, 요일 등이 있고, 이 가운에 어떤 기준으로 분석하느냐에 따라 쉽게 보이지 않던 데이터 안의 숨겨진 의미를 찾을 수 있습니다. 즉, 이를 통해 우리는 데이터를 좀 더 정확히 파악할 수 있게 됩니다!
만약 데이터가 시간에 대한 정보를 포함하고 있다면 시간별 데이터의 변화를 바탕으로 데이터 인사이트를 도출할 수 있습니다. 1시간별 기준에 따른 선 차트를 보면, 중국음식의 경우 낮 12시에 치킨의 경우 저녁 7시에 배달 이용 건수가 가장 많았음을 알 수 있습니다. 밤 12시인 0시의 경우 중국음식보다 치킨 배달이 많았다는 점도 눈에 띕니다. 앞서 시계열 기준을 다르게 하였던 것과 동일하게 이 경우에도 시간의 분석 기준을 오전/오후 등으로 나눠서 추가 인사이트 도출을 시도해 볼 수도 있는데요! 저희는 임으로 하루를 4개의 시간 범위(아침(4~9시), 낮(10~15시), 저녁(16~21시), 밤(22~3시))로 분류하여 추가 분석을 시도해보았습니다. 아침, 낮의 경우 중국음식 배달 이용이 상대적으로 많고, 반면 저녁과 밤에는 치킨 배달 이용이 많았음을 알 수 있습니다.
※ 참고 : 시계열 데이터의 시각적 분석에 대한 이야기가 더 궁금하신 분은 아래 관련 포스팅을 읽어보세요!
- 시계열 데이터의 시각적 분석(1) 어디까지 가능할까?
- 시계열 데이터의 시각적 분석(2) 실제 적용 사례를 공개합니다!
서울 지역 중 치킨 배달을 가장 많이 이용한 지역은 어디일까요? 중국음식의 경우는 또 어떻게 나타날까요? 이번 분석 대상 데이터는 서울의 지역별 정보로 자치구와 행정동 정보를 포함하고 있습니다. 즉, 위치 데이터를 분석 기준으로 활용하여 인사이트를 도출할 수 있다는 의미인데요!
시계열 데이터의 분석 기준을 년, 월, 일 등으로 나눠서 알아보는 방법과 동일하게 위치 데이터 역시 그 기준을 달리하여 다양한 인사이트를 도출할 수 있습니다. 가장 먼저 서울의 각 자치구별 배달 이용 건수를 Choropleth Map(혹은 Field Map)으로 시각화해 보았습니다!
지난 한 해 동안 중국음식 배달 이용이 가장 많은 자치구는 강남구(57만, 9,779건)로 나타났습니다. 반면, 치킨 배달 이용이 가장 많은 자치구는 강서구(60만 2,713건)로 나타났습니다.
뿐만 아니라 생활권역별, 행정동별 기준에 따라서 배달 이용 현황을 파악해볼 수도 있습니다. 서울의 5개 생활권역별 현황을 표현한 지도 시각화를 보면, 자치구 기준 치킨 배달 이용 건수가 가장 많았던 강서구가 포함된 서남권이 압도적임을 알 수 있습니다.
지금까지는 서울 전체를 기준으로 각 지역별 데이터를 비교하여 인사이트를 도출하였다면, 이번에는 특정 지역 범위 내 데이터를 비교하여 인사이트를 도출해보겠습니다.
일단 생활권역별 데이터를 따로 살펴보는 방법이 있습니다. 생활권역별 배달 이용 현황 지도 시각화에서 각 생활권역 위치에 마우스 오버를 하면 해당 생활권역에 포함되는 자치구의 데이터를 확인할 수 있습니다. 중국음식 배달 이용 건수가 가장 많았던 동북권의 경우 그중에서도 동대문구의 배달 이용 건수가 가장 많았음을 알 수 있는데요! 만약, 생활권역별, 자치구별 기준에 따른 분석만 했다면 '동대문구'의 특징을 발견하기 어려웠겠죠!
또 다른 방법은 무엇이 있을까요? 자치구별 행정동 데이터를 따로 살펴보는 방법도 있습니다! 이번에는 특정 자치구에 소속된 행정동의 데이터를 비교해보되, 전체 중 차지하는 비중을 기준으로 살펴보려고 하는데요! 자치구별 배달 이용 현황 지도 시각화의 각 자치구 영역에 마우스 오버를 하면 해당 자치구의 데이터를 이루는 행정동별 비중을 확인할 수 있습니다. 서울시 자치구 중 중국음식 배달 이용이 가장 많았던 강남구 데이터의 가장 큰 비중을 차지하는 행정동은 삼성동(31.4%)으로 나타났습니다. 반면, 치킨의 경우 가장 높은 수치를 기록한 강서구 중에서 화곡동과 내발산동이 각각 전체 중 약 35%로 높은 비중을 차지한 것을 알 수 있습니다.
※ 참고 : 위치 데이터의 시각적 분석에 대한 이야기가 더 궁금하신 분은 아래 관련 포스팅을 읽어보세요!
- 위치 데이터의 시각적 분석(1) 어떻게 할 수 있을까?
- 위치 데이터의 시각적 분석(2) 그 무한한 가능성에 대하여!
- 위치 데이터의 시각적 분석(3) 실제 적용 사례를 공개합니다!
지금까지 <데이터로 보는 서울 배달음식 업종 이용 트렌드> 콘텐츠를 바탕으로 데이터 인사이트 도출 방법에 대하여 알아보았습니다. 크게 보면 시계열과 위치 데이터를 기준으로 데이터를 탐색하는 과정 및 방법에 대한 이야기라고 할 수 있는데요! 동일한 데이터를 분석할지라도 어떤 분석 기준을 활용하느냐에 따라 다양한 인사이트를 도출할 수 있음을 확인하였습니다! 이제, 독자의 데이터 탐색이 가능한 인터랙티브 데이터 시각화 차트가 포함된 <데이터로 보는 서울 배달음식 업종 이용 트렌드> 콘텐츠로 여러분을 안내합니다! 데이터 인사이트를 기사로 확인할 수 있을 뿐만 아니라 여러분이 직접 시각화 차트를 탐색하면서 '여러분만의 데이터 인사이트'도 찾아보실 수 있습니다!
* 이 글의 원문 출처는 뉴스젤리 블로그 데이터 인사이트의 중요성! <중국음식 VS 치킨, 당신의 선택은? - 데이터로 보는 서울 배달음식 업종 이용 트렌드> 콘텐츠 가이드를 원문 출처로 합니다.