우리나라 사람들은 커피를 얼마나 마실까?
‘데이터 리터러시(Data Literacy)’에 대해 들어보신 적이 있나요? 데이터 리터러시는 데이터를 활용하는 전 과정에서 데이터를 이용하고 해석해, 이를 목적에 맞게 활용하는 것을 의미합니다. 데이터 시각화가 방대한 양의 데이터를 시각적으로 표현해 한눈에 데이터의 의미를 발견할 수 있도록 돕는다면, 데이터 리터러시는 기술적으로 데이터를 다루고 시각화하는 것에서 나아가 데이터에서 유의미한 인사이트를 발굴해내는 넓은 개념의 데이터 활용 역량입니다.
[출처] [데이터 시각화] 데이터에서 이야기 찾기! <커피를 대하는 우리의 태도 – 데이터로 보는 커피 소비 트렌드> 콘텐츠 가이드
분야와 상관없이 다양한 영역에서 데이터 활용이 주목받고 있습니다. 이에 따라 데이터를 잘 활용하기 위한 방법이 무엇인가에 대한 관심도 증가하고 있죠. 관련하여 데이터 리터러시(Data Literacy)라 불리는 데이터 활용 역량을 길러야 한다는 이야기도 들을 수 있습니다.
데이터 리터러시는 데이터를 읽고 그 안에 숨겨진 의미를 파악하는 데이터 해독 능력을 의미합니다. 그 개념 안에는 데이터를 기술적으로 다루는 것뿐만 아니라 인사이트를 발굴해내는 등 데이터 활용의 전반적인 과정 모두가 포함됩니다. 이미 실무에서 데이터를 활용하고 있거나, 앞으로 데이터를 활용해보고자 하는 우리 모두에게 필요한 역량이라고 볼 수 있습니다.
지난 첫 번째 연재 칼럼을 통해 이야기한 ‘데이터로 보는 연말 콜택시 이용 트렌드’는 데이터 리터러시의 세부 역량 중에서도 데이터 시각화를 바탕으로 유의미한 인사이트를 도출한 사례라고 볼 수 있습니다. 데이터 시각화는 방대한 양의 데이터를 일일이 살펴보지 않아도 데이터가 의미하는 바를 시각적 패턴에 근거해 빠르게 확인할 수 있도록 도와줍니다. 뿐만 아니라 데이터를 어떻게 시각화하느냐에 따라서 도출할 수 있는 인사이트가 달라지기 때문에, 다양한 시각화 사례를 통해 시각적 분석에 대해 이해하는 과정이 필요합니다.
두 번째 사례로 살펴볼 주제는 ‘커피’입니다. 커피는 우리 일상을 이야기하는데 빠질 수 없는 존재입니다. 우리는 커피를 마시는 일로 하루를 시작하기도 하고, 다른 사람과 만나는 자리에서도 빼놓지 않습니다.
2016년 기준 우리나라 성인 1인당 커피 소비량은 377잔(농림축산식품부)이라고 합니다. 하루 한 잔 이상을 마시고 있는 것이죠. 그렇다면 우리가 마시고 있는 이 많은 커피는 다 어디에서 오고 있을까요? 이 궁금증을 해결하기 위해 ‘관세청 수출입 무역통계’를 통해 공개된 커피류 수입 현황 데이터를 살펴보았습니다.
지난 10년간 국내 커피류(생두, 원두, 인스턴트커피, 커피조제품) 수입량은 비교적 꾸준히 증가했습니다. 2008년 10만 7,229톤에서 2017년 16만 5,609톤으로 10년 사이 약 6만 톤이 증가했습니다. 월별 수입량 변화를 연도별로 살펴보았을 때, 눈에 띄는 패턴을 발견하지 못한 점을 감안하면, 커피 수입량은 수입 시기의 영향보다 시장에서 수요 및 가격에 영향을 받는 것으로 유추해볼 수 있습니다.
⊙ 시계열 데이터 분석 시 분석 기준을 무엇으로 하느냐에 따라서 새로운 인사이트를 발견할 수 있습니다. 연도별, 분기별, 월별 등의 기준으로 데이터를 시각화해보고 인사이트를 도출합니다. 월별 커피류 수입량 데이터를 라인 그래프로 시각화하되 각 라인을 연도별로 그려봅니다. 월별 수입량 변화뿐만 아니라 연도별로 그 규모가 증가하고 있음을 동시에 확인할 수 있습니다.
우리나라가 수입하고 있는 커피류의 품목은 생두, 원두, 인스턴트, 커피조제품으로 나뉩니다. 각 품목별 수입량 변화를 살펴본 결과, 가장 많은 비중을 차지한 품목은 생두로 나타났습니다. 2017년 기준 전체 커피류 수입량 중 생두가 차지하는 비중은 89.1%입니다. 그다음으로 많은 비중을 차지하는 품목은 원두(7.1%), 인스턴트(2.7%), 커피 조제품(1.1%) 순입니다.
⊙ 커피류 전체 수입량 기준뿐만 아니라 세부 품목을 기준으로 수입량을 비교해봅니다. 커피류 수입량 중 가장 많은 부분을 차지하는 품목은 무엇인가요? 수입량이 감소하고 있는 품목은 무엇인가요? 보다 상세한 인사이트를 발굴할 수 있습니다.
지난 10년간 커피류 품목별 수입량의 변화를 시계열 관점에서 분석한 결과, 생두와 원두의 수입량은 꾸준히 증가하는 추세를 보였습니다. 인스턴트커피의 경우 2011-2012년 사이 크게 증가했다가 다시 감소한 후 소폭 증가하는 경향을 보이고 있습니다. 반면, 커피 조제품은 감소하는 추세를 보입니다. 품목별 수입량을 전년대비 증감률로 살펴보면, 생두는 그 추세가 다소 주춤하고 있는 가운데, 원두의 수치가 눈에 띕니다. 원두의 경우 2013년 이후로 매년 전년 대비 10% 이상의 증가율을 기록했습니다.
⊙ 데이터 분석에 활용한 지표(수치형 변수, 수입중량)의 집계 기준을 다르게 해봅니다. 절대치뿐만 아니라 상대치(전체 수입량 중 각 품목이 차지하는 구성 비중, 전년대비 증감률 등) 기준으로 재집계하여 분석에 활용합니다. 수입중량을 분석 기준으로 활용할 때 생두의 수입 규모는 꾸준히 증가했으나, 전체 커피류 수입량 중 차지하는 비중으로 보면 큰 변화를 보이지 않습니다. 여러 기준의 지표를 활용해 종합적인 데이터 인사이트 도출이 가능합니다.
2017년 기준 우리나라가 가장 많은 커피를 수입한 대상 국가는 베트남(3만 5,724톤)입니다. 그 뒤를 브라질(2만 9,416톤), 콜롬비아(2만 8,637톤)가 이었습니다. 2015, 2016년을 제외하고선 지난 10년간 매년 수입량 1위는 베트남, 2위는 브라질이 차지했습니다. 다만, 최근 10년간 국가별 수입량 추세를 보았을 때, 베트남은 감소하는 경향을 보인 반면, 브라질의 경우 증가하는 추세를 보이고 있습니다.
⊙ 커피류 수입 대상 국가별로 수입량을 비교해봅니다. 특정 시점(2017년)을 기준으로 살펴보고, 각 국가별 수입량이 연도별로 어떻게 달라졌는지 그 추이도 함께 알아봅니다.
2017년 수입량 기준 상위 15개 국가의 데이터를 살펴보면, 타 국가에 비해 베트남, 브라질, 콜롬비아의 수입량이 압도적으로 많은 것을 알 수 있습니다. 뿐만 아니라 대다수의 국가에서 수입하는 커피류의 품목은 생두로 나타났습니다. 예외적으로 미국과 이탈리아의 경우 원두의 비중이 90% 이상을 차지합니다.
⊙ 방대한 양의 데이터를 분석할 경우 분석 목적 및 개인의 판단에 따라 분석 범위를 조정할 필요가 있습니다. 우리에게 주어진 분석 시간은 한정적이기 때문입니다..! 커피류 수입 대상국 모두를 개별적으로 분석하는 것이 아니라 수입량 기준 상위 15개 국가로 범위를 좁히고, 인사이트를 도출합니다. 유의해야 할 점은 분석 범위를 제한했기 때문에, 인사이트 도출 역시 제한적일 수밖에 없다는 점입니다.
⊙ 방대한 양의 데이터를 한정된 영역에 모두 다 표현하려고 하는 것 역시 비효율적입니다. PPT 슬라이드 한 장의 영역에 모든 국가별 수입량 데이터를 효과적으로 보여줄 수 있을까요? 이와 같은 한계를 보완하는 것이 ‘인터랙티브(interactive) 데이터 시각화’입니다. 인터랙션이 가능한 시각화 차트에서 데이터를 필터링(filtering) 하는 방식으로 데이터를 탐색할 수 있습니다.
그렇다면 커피 수입 대상 국가들 중 떠오르는 신흥국은 어디일까요? 코트디부아르를 손꼽을 수 있습니다. 코트디부아르에서 커피를 수집하기 시작한 첫 해는 2013년입니다. 2013년 당시 수입량은 37톤에서 2016년 5,365톤으로 짧은 기간 내 급격히 증가했습니다. 2017년에는 수입량이 다시 감소했지만, 앞으로의 변화가 어떻게 될지 지켜볼 필요가 있습니다. 그 외에도 라오스, 사이프러스, 슬로바키아 등의 커피류 수입량 변화에도 주목해볼 필요가 있습니다.
⊙ 분석 범위 내에서 떠오르는 궁금증의 답을 데이터로 확인하는 과정을 통해 인사이트를 도출합니다.
⊙ 국가별 커피류 수입량 데이터를 연도별로 살펴봅니다. 수입이 처음 시작된 시점은 언제인지, 연도별로 수입량은 어떻게 변화하고 있는지 함께 확인해봅니다.
⊙ 인터렉티브 데이터 시각화 차트에서 데이터를 탐색하는 방법은 마우스를 오버하거나, 클릭해 관련된 상세 데이터를 확인하는 것입니다. 이 외에도 키워드를 검색해 원하는 데이터를 바로 찾아볼 수도 있습니다. 차트와의 인터랙션을 통해 데이터를 자유롭게 탐색해봅니다.
지금까지 우리가 일상적으로 마시는 커피가 어디에서 왔는지 알아보기 위해 데이터를 시각화하고 인사이트를 도출해 보았습니다. 가장 먼저 커피류 수입량 데이터를 시계열 기준에 따라 살펴보았습니다. 그다음으로는 커피류 품목별, 수입 대상 국가별 기준에 따라 수입량 데이터를 쪼개어 좀 더 자세한 분석을 해보았습니다. 이 과정에서 어떤 기준으로 데이터를 분석하느냐에 따라 다양한 인사이트 도출이 가능하다는 것을 경험하였습니다.
어디서든 중요하게 언급되는 ‘목적의식’이 데이터의 시각적 분석에서도 중요합니다. 동일한 데이터를 활용한 분석이더라도 어떤 목적으로, 어떤 궁금증을 해결하기 위해 분석하는지 명확히 알고 있을 때, 효과적으로 인사이트를 도출할 수 있습니다. 이를 데이터 리터러시 역량이라고도 할 수 있겠습니다.
지금까지 커피 수입 트렌드를 데이터로 알아보았는데, 자연스레 떠오르는 궁금증이 있다면 무엇인가요? 우리가 커피를 소비하고 있는 모습이 궁금하지 않나요? 궁금증 해결을 위해 준비해보았습니다. 인터랙티브 데이터 시각화 차트를 활용해 제작한 <커피를 대하는 우리의 태도 – 데이터로 보는 커피 소비 트렌드> 콘텐츠를 이어서 만나보시고, 데이터를 자유롭게 탐색하며 인사이트를 도출해보세요.
⊙ ‘데이터로 보는 커피 수입 트렌드’의 더 자세한 이야기가 궁금하신 분은 데이터 시각화 기반의 스토리텔링 콘텐츠인 <그 많은 커피는 다 어디에서 왔을까? – 데이터로 보는 커피 소비 트렌드>를 확인해보세요. 인터랙티브 데이터 시각화 대시보드를 통해 직접 데이터를 탐색, 인사이트를 도출해 볼 수 있습니다.
⊙ 데이터 시각화와 관련된 다양한 이야기가 궁금하신 분은 ‘뉴스젤리의 데이터 시각화로 보는 세상’ 블로그, 페이스북 그룹 ‘데이터 시각화의 모든 것’을 방문해보세요.