brunch

You can make anything
by writing

C.S.Lewis

by 강원양 Feb 14. 2018

<데이터로 보는 커피 수입/소비 트렌드> 제작기

우리의 일상이 된 커피, 일상적으로 커피를 마시는 우리에 대하여

우리는 얼마나 많은 커피를 마시고 있을까요? 그 많은 커피는 다 어디에서 오는 것일까요? 앞서 발행한 시각화 콘텐츠 <데이터로 보는 커피 수입 트렌드><데이터로 보는 커피 소비 트렌드>는 우리의 일상이 된 '커피'와 커피를 일상적으로 마시고 있는 '우리'를 데이터로 알아보는 기회였습니다.

오늘은 연이어 공개한 '커피' 주제의 시각화 콘텐츠의 마지막 이야기를 하려고 합니다. 시각화 콘텐츠 제작 비하인드 스토리로 정리하는 <데이터로 보는 커피 수입/소비 트렌드> 지금 시작합니다:)





콘텐츠의 아이템 찾기 - 우리와 커피 사이의 거리는?


당신이 굴튀김에 관한 글을 쓰면, 당신과 굴튀김의 상관관계나 거리감이 자동적으로 표현되게 마련입니다. 그것은 다시 말해, 끝까지 파고들면 당신 자신에 관해 쓰는 일이기도 합니다.
그것이 이른바 나의 '굴튀김 이론'입니다.
- 무라카미 하루키, <잡문집> 中 -


'콘텐츠를 만들고 글을 쓰고...'의 일을 하는 제가 개인적으로 좋아하는 글귀입니다. 작가 무라카미 하루키 에세이 <잡문집>에 나오는 이야기입니다. '원고지 4매 이내로 자신에 관해 설명하시오'라는 문제에 어떻게 답할 것이냐는 질문에 대한 작가의 답이지요. 시각화 콘텐츠 제작 비하인드 이야기를 한다더니, 웬 뜬금없는 이야기냐고요? 바로 콘텐츠 아이템 선정에 대한 이야기를 하기 위함입니다.

이번 콘텐츠 주제로 '커피'를 선정하게 된 배경에 무라카미 하루키의 '굴튀김 이론'이 있다고 할 수 있습니다. 커피와 우리의 거리는 어떤가요? 개인별로 차이가 있을 테지만, 대부분 커피와의 거리는 가깝지 않을까요? 카페를 가고, 커피를 사 마시는 등 우리가 커피를 마시는 장면을 떠올리면 쉽게 공감할 수 있으리라 생각합니다. 커피와의 가까운 거리는 콘텐츠 제작자와 독자 입장에서 모두 효과적입니다. 콘텐츠 제작자 입장에서는 콘텐츠 기획 및 데이터 인사이트 도출에 깊이를 더할 수 있고, 독자 입장에서는 흥미를 가지고 콘텐츠에 몰입할 수 있습니다. (무라카미 하루키의 '굴튀김 이론'에 빗대어 생각해보면, 커피 이야기는 우리 모두의 이야기이니까요...!)



데이터 시각화의 핵심, 데이터 찾기 - 도대체 커피류란 무엇인가?


데이터 시각화의 핵심은 '데이터'에 있다고 해도 과언이 아닙니다. 분석 대상이 있어야 분석 결과를 이야기할 수 있는 것이지요. 커피와 관련하여 가장 먼저 떠올린 궁금증은 '우리가 마시는 커피는 다 어디에서 오는 걸까?'였습니다. 그리고 이 궁금증을 해결해줄 데이터를 확보할 수 있는 채널로 관세청의 수출입 무역통계를 확인하였습니다. (이때까지만 해도 분석할 데이터는 다 확보했다며 좋아했죠...!)

관세청, 수출입 무역통계 홈페이지(좌), 수출입 무역통계 데이터 조회 화면(우)

데이터 수집 난관에 봉착한 지점은 바로 '도대체 커피류는 무엇인가?'였습니다. 앞서 언급한 궁금증 해결을 위해 제가 찾아야 하는 데이터는 국가별 X 커피류 품목별 수출입 현황입니다. 따라서 관세청에서 제공하는 데이터 중 커피류에 해당하는 품목의 데이터만 수집해야 하는데, 이를 위해서는 커피류가 무엇인지에 대한 정확한 개념을 알아야 합니다. 일반적으로 커피 수입, 수출의 이슈를 다루고 있는 뉴스 기사, 보고서 등을 확인한 결과, 커피류의 세부 품목으로 '생두', '원두', '인스턴트커피', '커피 조제품'을 언급하고 있음을 확인하였습니다. 이후 이 4가지 품목별 데이터 수집을 시도하였습니다.


관세청의 수출입 무역통계 시스템에서 데이터를 조회하는 방법은 조회 기간(월, 연도), 통계 기준(수리일, 출항일), 품목코드(HS 부호) 등의 조건에 대한 입력값을 설정하는 것입니다. 여기서 이슈가 되었던 것은 바로 품목코드 정보인 HS 부호였습니다. 커피류에 해당하는 HS 부호를 알고 있지 못했기 때문이죠!


HS 부호란? 
수출입 물품에 대해 HS 협약에 의해 부여되는 상품 분류 코드로 6자리까지는 국제적으로 공통으로 사용하는 코드이다. 7자리부터는 각 나라에서 6단위 범위 내에서 이를 세분화하여 10자리까지 사용할 수 있는데, 우리나라에서는 10자리까지 사용하고 있다. 상품 분류 체계의 통일을 기하여 국제무역을 원활히 하고 관세율 적용의 일관성을 유지하기 위해 사용한다. (출처 : 관세청)


지금부터 커피류 데이터를 수집하기까지 기나긴 여정을... 짧게... 이야기해보려 합니다.


가장 먼저 수출입 무역통계 데이터 조회 시스템상 HS 부호명을 기준으로 키워드 검색을 해보았습니다. '커피'라는 키워드를 포함한 부호명을 찾는 것이지요! 그런데 여기서 발견한 첫 번째 이슈는 검색 결과 어디에도 '생두', '원두', '커피 조제품'을 찾을 수 없었다는 것입니다.

수출입 무역통계, 품목 부호 조회 화면에서 '커피' 키워드를 검색한 결과

뿐만 아니라 키워드 검색 결과의 기준이 'HS 부호 조회 단위'이므로 각 조회 단위별로 따로 검색을 한 뒤, 검색 결과로 제시된 HS 부호의 계층 구조를 일일이 파악해봐야 합니다. 어떤 HS 부호가 어떤 품목인지, 커피류라 지칭되는 수입 품목은 어떻게 구성되는지 알기 위함입니다. (뭐가 뭐인지도 모르는데, 데이터를 맞춰봐야 하다니....!) 문제는 사실상 검색 결과 HS 부호의 계층 구조를 파악한다고 해도 어떤 HS 부호가 어떤 품목을 의미하는지 모르기 때문에, 여전히 제자리걸음인 것이죠..!


다만, 이 과정을 통해 한 가지 알게 된 점이 있다면, 바로 여러 자료에서 언급된 커피류의 세부 품목별 데이터는 HS 부호 기준의 데이터를 정제한 것이라는 점입니다. 이쯤에서 생각한 것은 커피류 데이터를 언급한 자료 가운데 정제 항목별 HS 부호 정보가 명시되어 있는지 찾아보는 것이었습니다. 그러나 여러 출처의 자료를 확인한 결과, 각 자료별로 데이터 정제 기준이 상이할 뿐만 아니라, 정제 항목과 HS 부호를 정확히 명시하지 않았음을 알게 되었습니다. 즉, 여전히... 커피류라 불리는 세부 품목별 HS 부호를 정확하게 파악하지 못한 것이죠.

대표적인 사례 한 가지만 살펴보도록 하겠습니다. 아래 자료는 지난 2017년 6월 2일 자 관세청 배포 보도자료입니다. 

관세청, '커피 수입, 매년 최고치 경신' 보도자료 (2017.6.2)

'커피 수입, 매년 최고치 경신 : 전년 대비 10.7% 증가, 브라질이 수입 1위'란 제목의 관세청 보도자료에는 <커피류 수입 현황>이라는 표와 함께 커피류 세부 품목에 대한 개념 정의를 덧붙이고 있습니다. 각 품목의 개념 정의는 알 수 있으나, 품목별 HS 부호는 확인할 수 없습니다.

커피류 품목 분류 정보를 포함하고 있는 여러 자료 사례 (출처 : 농림축산식품부, 관세청, FTA 네이버 블로그)

추가 리서치를 통해 HS 부호 정보를 포함하고 있는 자료를 발견하였으나, 해당 자료에서도 '생두', '원두', '인스턴트커피', '커피조제품' 기준의 항목별 HS 부호 정보를 찾지 못하였습니다. 겨우 각 자료의 정보를 조합하여 어떤 HS 부호가 무엇을 의미하는지 대략적으로 알게 된 정도가 되었습니다. (정확한 품목별 HS 부호 정보는 언제쯤.. 어떻게 확인할 수 있을까요?)

관세청, 'HS CODE 내비게이션' coffee 검색 결과 일부 화면

그 외에도 관세청에서 제공하고 있는 '2016년 HS 신성질별, 성질별 연계표', 'HS CODE 내비게이션' 등의 자료를 확인하였으나, 제가 찾고자 하는 정확한 정보를 확인하기 어려웠습니다. 


결국 제가 선택한 방법은 가장 최근에 배포된 관세청의 보도자료 기준의 커피류 세부 품목별 데이터와 실제 수집 데이터의 수치를 맞춰가며 각 품목별 HS 부호를 확인하는 것이었습니다. 물론, 앞서 리서치한 내용을 통해 어렴풋이 알게 된 품목별 HS 부호 정보를 참고하였습니다. 그리하여.. 최종적으로 확인 및 데이터로 활용한 커피류 세부 품목별 HS 부호는 아래와 같습니다.

커피류 세부 품목별 HS 부호 정보 (콘텐츠 제작자 개별 정리)

이 정도로 마무리하고자 하는 데이터 수집 과정 이야기는 사실상 전체 데이터 시각화 콘텐츠 제작 과정의 일부일 뿐입니다...! 데이터 시각화 콘텐츠 제작기의 내용으로 여러 번 언급했던 공공데이터 개방 및 활용에 대한 이야기를 이번에도 하지 않을 수 없습니다. 방대한 양의 데이터, 다양한 종류의 데이터를 개방하는 것보다 중요한 것은 이용자의 관점에서 얼마나 쓸모 있는 데이터인가의 이슈입니다. 이는 데이터 자체가 가진 활용도를 이야기할 뿐만 아니라 데이터를 개방하고 있는 채널에서 데이터 활용도를 높이기 위해 어떤 노력을 하고 있는지와도 관련이 있습니다. 이를 고려하는 방법은 데이터 조회 시스템의 사용성을 개선하거나, 친절한(이용자의 관점이 고려된, 이용자를 배려한) 데이터 활용 가이드를 제공하는 등이 있습니다.


데이터를 활용하는 입장에서도 데이터의 출처는 어디인지, 어떤 방식으로 정제하여 활용하였는지 등 활용 방법에 대해 정확히 제시할 필요가 있습니다. 데이터 출처 등 데이터에 대한 정확한 정보를 명시할 때, 객관적으로 자료의 신뢰도를 확보할 수 있다는 장점이 있습니다. 뿐만 아니라 이는 데이터를 활용한 자료를 보는 사람 입장에서도 정확한 데이터 해석을 위한 가이드가 되어주므로, 데이터로 정확한 메시지를 전달하고자 하는 목적 달성을 위해 빠트리지 않도록 유념해야 합니다.



시각화로 데이터 인사이트 찾기 - 콘텐츠 가이드 제작 배경은?


이번 시각화 콘텐츠의 경우 처음으로 콘텐츠 발행과 함께 콘텐츠 가이드를 공개하였습니다. (① 아는 만큼 보인다! - <그 많은 커피는 다 어디에서 왔을까? - 데이터로 보는 커피 수입 트렌드> 콘텐츠 가이드②데이터에서 이야기 찾기! - <커피를 대하는 우리의 태도 -  데이터로 보는 커피 소비 트렌드> 콘텐츠 가이드)

시각화 콘텐츠 가이드를 함께 발행한 이유는 인터랙티브 시각화 콘텐츠를 좀 더 적극적으로 읽어보실 수 있도록 도움을 드리기 위함이었습니다. (콘텐츠 제작자 입장에서 언제나 바라고 있는.. 독자 여러분의 콘텐츠 파헤치기..!)

첫 번째 콘텐츠 가이드에서는 인터랙티브 시각화 차트에서 인터랙션 하는 방법을 공유합니다. 독자는 콘텐츠 내 기사로 제공된 데이터 인사이트 외에도 자신만의 데이터 인사이트를 발견할 수 있습니다. 

두 번째 콘텐츠 가이드에서는 최근 관심의 대상이 되고 있는 '데이터 리터러시'의 개념을 살짝 언급하였습니다. 시각화 콘텐츠를 읽는 과정을 통해 데이터에서 의미를 찾아내는 데이터 리터러시가 무엇인지 경험적으로 이해하실 수 있었을 것으로 예상해봅니다.

두 번의 콘텐츠 가이드 포스팅 공개 이후, 시각화 콘텐츠 페이지의 체류 시간 데이터를 확인한 결과 여타의 콘텐츠보다 다소 높은 수치를 기록한 것을 확인하였습니다. 아마, 많은 분들이 제 바람대로 콘텐츠를 파헤쳐 보신 것 같습니다. 앞으로도 기회가 된다면 콘텐츠를 파헤쳐 가며 읽는 방법에 대해 이야기하고자 합니다.




지금까지 <데이터로 보는 커피 수입/소비 트렌드> 시각화 콘텐츠의 제작 비하인드 이야기를 들려드렸습니다. 짧게 이야기하기로 마음먹었음에도 불구하고, 언제나 겉으로 보이는 결과물 뒤에는 더 많은 이야기가 감춰져 있다 보니 다소 글이 길어졌습니다. 지금까지 여러 주제를 가지고 시각화 콘텐츠를 제작하였지만, 이번처럼 하나의 콘텐츠로 데이터 시각화와 관련된 다양한 이야기를 한 것은 처음인 것 같습니다.

2건의 시각화 콘텐츠, 이를 읽는 방법으로서 제공된 각각의 콘텐츠 가이드, 여기에 이번 제작기 포스팅까지 모두 읽어보신 분이라면 데이터로 사회 현상을 보는 데이터 인사이트, 그 과정상 데이터 시각화의 효과에 대해 충분히 공감하셨으리라 생각합니다. 뿐만 아니라 데이터 활용과 관련된 여러 이슈를 짧게나마 접하실 수도 있었을 텐데, 앞으로도 데이터 시각화 콘텐츠를 매개체로 여러분과 데이터 시각화와 관련된 다양한 주제로 소통하길 바라며 이번 제작기를 마무리합니다.


* 이 글의 원문 출처는 뉴스젤리 블로그 '[데이터 시각화] <데이터로 보는 커피 수입/소비 트렌드> 제작기'입니다.


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari