누구라도 데이터를 활용할 줄 알아야 하는 시대, 데이터 시각화로 가능하다
‘데이터가 중요하다.’, 누구나 한 번쯤 들어봤을 이야기입니다. 데이터 중요성에 대한 사회적 인식은 물론이고, 분야 상관없이 데이터 활용에 대한 관심 역시 매우 높습니다. 글로벌 시장조사업체 IDC에 따르면 오는 2022년까지 전 세계 데이터 시장은 2600억 달러로 성장할 것으로 전망된다고 합니다. 많은 사람이 데이터의 가치에 대해 공감하고 있습니다.
‘데이터는 중요하고, 그래서 데이터를 활용해야 한다!’고 하는 시대, 이제 우리가 고민해야 할 지점은 ‘데이터를 어떻게 활용할 것인가?’, ‘어떻게 하면 잘 활용할 수 있을 것인가?’ 입니다.
더 많은 데이터에 접속할 수 있는 상태지만, 이런 수많은 데이터에서 효과적으로 인사이트를 획득하는 능력은 감소했다. 최근 MIT 슬론 경영 대학원 리뷰에 실린 글에 따르면, 2016년에서 2017년 동안 데이터 ‘접속’과 ‘인사이트 획득 효과성’의 간극이 지난 6년간 최대인 50%로 확대됐다. 한 마디로 데이터가 많다고 항상 더 좋은 결과를 얻을 수 있는 것은 아니다.
– InfoWorld, Paul Brunet / 글로벌 칼럼 ‘빅데이터를 제대로 활용할 수 있도록 돕는 ‘데이터 거버넌스’
데이터를 주제로 다룬 기사 가운데 ‘데이터 활용 능력’의 중요성을 강조하는 내용을 종종 볼 수 있습니다. 핵심은 얼마나 많은 양의 데이터를 보유하고 있느냐가 중요한 것이 아니라, 어떻게 활용할 것인가에 대한 답을 가졌는지 그 여부가, 데이터를 기반으로 한 가치 창출의 키(key)라는 것입니다. 누구나 알고 있는 정보는 정보가 아니듯이, 데이터의 나열, 데이터 축적 자체는 큰 의미가 없습니다.
그렇다면, 데이터를 어떻게 해야 잘 활용할 수 있을까요? ‘데이터 활용 역량’이라 하면 크게 두 가지를 떠올릴 수 있습니다. ‘데이터 분석’과 ‘시각적 스토리텔링’입니다. 전자는 기술적으로 데이터를 수집하고 정제하는 데이터 가공 단계부터 분석 기법을 활용한 데이터 분석에 이르는 과정에 필요한 능력을 말합니다. 후자는 데이터 분석 결과를 시각적으로 표현하여 스토리텔링을 하는 능력입니다. 과거에는 이 두 역량 간의 경계가 뚜렷했던 반면, 최근 ‘이것’의 활용으로 인해 두 역량을 아우르는 사람들이 등장, 이들의 역할에 대한 중요성이 강조되고 있습니다. ‘이것’은 무엇일까요? 바로 ‘데이터 시각화’입니다. 데이터 시각화는 기술적으로 데이터를 다루는 전문 역량이 없어도, 시각적 스토리텔링을 위한 디자인 역량이 없더라도 데이터를 활용한 인사이트 발굴, 스토리텔링을 할 수 있도록 돕습니다.
오늘은 데이터 잘 활용할 수 있는 방법으로 ‘데이터 시각화’를 이야기하며, 왜 우리가 데이터 시각화를 해야 하는지 그 이유를 알아보도록 하겠습니다.
여러분은 얼마나 많은 양의 데이터를 보고 있나요? 간단한 표 하나로 정리할 수 있는 데이터라면, 굳이 데이터 시각화를 하지 않아도 된다고 생각할 수 있습니다. 그러나 데이터의 양이 많아지면 이야기는 달라집니다. 모니터 띄워진 엑셀 화면 영역을 벗어날 만큼 많은 양의 데이터를 상상해보세요. 어떻게 데이터를 보고, 데이터의 변화를 파악할 수 있을까요?
데이터 시각화는 많은 양의 데이터를 시각적 요소를 활용해 요약하여 표현합니다. 한눈에 볼 수 없는 많은 양의 데이터를 한 번에 볼 수 있도록 합니다. 빅데이터의 활용에 데이터 시각화가 강조되는 이유도 여기에 있습니다. 금융, 교통, 의료 등 빅데이터가 생산되는 다양한 분야에서 시각화 없이 데이터로 현상을 파악하고 예측하기 어렵습니다.
데이터 시각화에는 다양한 형태의 유형이 있습니다. 이들은 데이터가 의미하는 바를 쉽게 찾고, 이해할 수 있도록 돕습니다. 우리는 차트에 활용된 도형의 크기, 위치나 색의 정도를 바탕으로 데이터를 크기를 비교하고, 분포를 파악하거나 관련성을 찾을 수 있습니다. 즉, 데이터 안에 숨겨진 유의미한 이야기, 데이터 인사이트를 발견할 수 있습니다.
데이터 시각화와 유사한 개념으로 언급되는 인포그래픽과의 차이를 알면, 왜 ‘데이터 시각화’를 해야 하는지 더욱 공감할 수 있습니다. 인포그래픽은 주로 정적인 형태의 차트 이미지로, 독자에게 데이터 분석 결과에 대한 고정적인 메시지를 전달합니다. 반면, 데이터 시각화는 정렬, 필터, 확대·축소 등의 인터랙티브 기능을 독자에게 제공합니다. 독자는 이를 활용해 시각화 결과물과 상호작용 하며, 데이터를 탐색할 수 있습니다. 즉, 고정적인 데이터 인사이트를 수동적으로 수용하는 것이 아니라, 데이터 탐색을 바탕으로 자신만의 데이터 인사이트를 발견할 수 있습니다. 데이터 활용도를 높이기 위해서 데이터 시각화가 필요하다고 정리할 수 있습니다.
인간은 매우 시각적인 동물입니다. 인간은 자연적으로 시각적 입력을 다른 어떤 방법보다도 빠르게 인지합니다. 그만큼 우리에게 시각이 중요하다는 의미인데, 보통 사람이 감각기관을 통해 획득하는 정보의 80% 이상이 시각을 통해 얻어진다고 합니다. 우리에게 왜 데이터 시각화가 효과적인지 이해할 수 있습니다.
우리는 데이터 시각화 차트에서 시각화 요소의 형태, 크기, 위치나 색을 근거로 시각적 패턴을 찾고자 합니다. 차트의 시각적 패턴을 근거로 데이터의 추세는 어떤지, 다른 값들과 구별되는 이상값을 빠르게 찾을 수 있습니다. 데이터 분석을 위한 수학적, 통계적 전문 기술 없이도, 시각적 패턴을 근거로 누구나 쉽게 데이터 인사이트를 찾을 수 있습니다. 시각화를 통해 데이터 활용 범위가 넓어지고, 나아가 새로운 가치 창출의 범위가 확대된다고도 할 수 있습니다.
그뿐만 아니라 같은 맥락에서 데이터 시각화 차트를 활용하고, 차트의 시각적 패턴을 근거로 한 스토리텔링은 사람들의 기억에 오래 남습니다. 데이터를 기반으로 내가 찾은 인사이트를 다른 사람에게 강력하게 전달하기 위해서 시각화를 활용해야 합니다.
정확한 데이터 인사이트 전달을 위해서는 다양한 시각화 차트 중 어떤 유형이 적합한지에 대한 이해도 필요합니다. 시각화 차트는 데이터를 어떤 목적으로 보여줄 것이냐를 기준으로 나눌 수 있습니다. 시각화의 기본적인 목적인 ‘비교’를 위해서는 막대 차트, 버블 차트 등을 사용합니다. ‘시간 흐름에 따른 데이터의 변화’를 보기 위해서는 선 차트, 영역 차트, 타임라인 차트, 간트 차트 등을 사용합니다. 전체 데이터 중 특정 항목이 차지하는 ‘비중’을 보기 위해서는 파이 차트, 트리맵 차트 등을 활용하고 데이터 간의 관계를 보기 위해서 산점도, 네트워크 시각화 유형을 활용합니다. 위치 데이터를 포함한 경우, 지도 시각화 유형을 활용하면 지리적 배경 정보를 종합한 데이터 인사이트를 발견할 수 있습니다.
한편, 우리가 시각화를 바탕으로 데이터의 의미를 해석하면서 ‘시각’에 의해 오류를 범할 수 있다는 사실도 미리 알아둘 필요가 있습니다. 관련하여 자주 인용되는 위 자료는, 오바마 케어 등록 현황을 보여줍니다. 왼쪽 차트의 막대 길이를 비교해 보면, 3월 27일 대비 31일 사이에 약 3배 정도의 차이가 나는 것으로 보입니다. 그러나 이는 막대 차트의 y축 시작 값을 0으로 하지 않았기 때문에 발생한 문제로, y축의 시작 값을 0으로 할 경우(오른쪽 차트) 두 막대 길이의 차이가 크지 않은 것을 확인할 수 있습니다. 즉, 오류 없는 정확한 데이터 인사이트를 전달하기 위해서는 시각화 차트를 만들 때 인지적 오류가 있지는 않은지 유의해야 할 필요가 있습니다. (본문에 언급한 사례 외, 다른 유형의 오류에 대해 알고 싶으신 분들은 ‘데이터 시각화의 일반적인 실수 7가지’(7 most common data visualization mistakes) 글을 읽어보세요.)
… 통계(calculations)와 그래프를 모두 만들어라! 정확한 이해에 기여하는 이 두 결과물에 대한 연구를 해야 한다.
– F.J.Anscombe, 1793 (and echoed in nearly all talks about data visualization…)
사람들은 일반적으로 데이터 시각화는 데이터 분석 결과를 다른 사람들에게 전달하기 위한 ‘보여주기’ 용도로 생각합니다. 하지만 데이터 시각화는 단순히 데이터 분석 결과를 전달하기 위한 목적뿐만 아니라 정확한 분석을 위한 데이터 탐색 방법으로 활용됩니다. 즉, 데이터 분석 과정에서 시각화는 중요한 역할을 합니다. 사례를 통해 자세히 알아보겠습니다.
1973년 F.J.Anscombe가 개발한 Anscomes’ Quarter는 동일한 요약 통계(평균, 표준편차, 상관관계)를 가진 4개의 데이터 셋(set)을 산점도로 시각화하였을 때, 시각적 패턴이 명확히 다르다는 것을 입증합니다. 이는 요약 통계 정보만으로는 데이터를 정확하게 볼 수 없다는 것을 의미한다고도 이해할 수 있습니다.
요약 통계만 믿지 말고, 데이터를 시각화하라!
– Alberto Cairo
최근 거의 45년에 가까운 오랜 시간 동안 인용되어온 F.J.Anscombe의 Anscomes’ Quarter와 같은 맥락의 새로운 연구 결과가 발표되었습니다. Autodesk Research의 「Same Stats, Different Graphs : Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing」은 동일한 요약 통계 정보를 갖고 있으나, 시각화했을 때 시각적으로 뚜렷하게 구분되는 12개의 데이터 셋(Datasaurus Dozen)의 개발 결과를 발표하였습니다.
데이터 시각화 분야의 유명 인사 Alberto Cairo의 데이터 셋 데이터사우르스(Datasaurus : 정상적인 통계처럼 보이지만 시각화하면 공룡 모양의 형태를 보임)와 소수점 두 자릿수 기준으로 동일한 요약 통계를 갖는 12개의 데이터 셋을 시각화했을 때 시각적 패턴이 모두 다르다는 것을 알 수 있습니다.
위 연구 결과를 통해 우리는 정확한 데이터 이해를 위해 데이터 분석 과정에서 시각화를 필수적으로 해야 한다는 결론에 이르게 됩니다. 이를 같은 말로 ‘시각적 분석’(Visual Analysis)의 필요성이라고도 할 수 있겠습니다. 시각적 분석이란 데이터 분석 과정에서 시각화를 주로 활용하는 것을 의미합니다. 시각화 결과물의 시각적 패턴을 근거로 데이터를 정확하게 이해하고, 데이터를 탐색하여 인사이트를 도출합니다. 데이터 시각화 차트를 만들 때 활용하는 데이터 변수의 조합, 수치 데이터의 값 계산 기준을 달리하는 등의 방법으로 데이터를 탐색하고, 조건마다 달라지는 시각화 차트의 패턴을 근거로 데이터 인사이트를 도출합니다. 데이터 분석 과정에서의 ‘시각화’란 정확한 데이터 이해를 위해서 또 쉽고 빠른 데이터 인사이트 발견을 위해서 필수적입니다.
데이터와 스토리를 함께 활용하면 지적 측면과 정서적 측면 모두에서 관객과 공감할 수 있습니다.
– Stanford University Professor of Marketing Jennifer L.Aaker
데이터 활용 방안으로서 시각화는 첫 번째, 데이터 분석 과정 중 인사이트 도출을 위해 활용되고, 그다음으로는 데이터 인사이트를 많은 사람과 공유하는 데 활용됩니다. 보고서, 프레젠테이션 문서에 삽입된 시각화 차트는, 메시지 전달을 효과적으로 뒷받침하는 근거 자료로 역할을 합니다. 앞서 언급하였듯이 시각화 자료는 사람들의 머릿속에 빠르게 인지되고 기억될 뿐만 아니라, 메시지의 스토리텔링에 대한 공감을 더 합니다.
데이터 시각화 결과를 공유하는 또 하나의 방법은 데이터 대시보드(Data Dashboard)를 활용하는 것입니다. 데이터 대시보드란 여러 시각화 차트와 표 등으로 구성된 판(board)로, 중요한 데이터 지표(KPI)를 모니터링하는 용도로 사용됩니다. 대부분의 데이터 대시보드는 데이터 조회 기간을 선택하거나, 특정 기준으로 데이터를 필터링할 수 있는 인터랙티브 기능을 제공해, 이를 이용하면 사용자는 자유롭게 데이터 탐색을 할 수 있습니다.
데이터 대시보드의 활용은 기업 혹은 조직 단위에서 매우 유용합니다. 다수의 조직 구성원이 공동의 데이터 대시보드를 공유하고, 각기 다른 관점에서 데이터를 탐색하고 인사이트를 도출할 수 있습니다. 특히 데이터 대시보드는 시각화 차트로 구성된다는 점에서, 조직 내 전문적인 데이터 분석 기술을 가진 분석가뿐만 아니라 그렇지 않은 사람까지도 데이터 활용이 가능합니다. 이를 바탕으로 조직은 쉽게 발견하지 못했던 새로운 기회를 찾을 수 있고, 감이 아닌 데이터를 근거로 중요한 의사결정(Data-driven decision)을 할 수 있습니다.
데이터 시각화는 데이터가 있는 곳이라면 어디에서든지 활용할 수 있습니다. 이미 많은 분야에서 데이터 시각화를 데이터 활용 방법으로서 시도하고 적용해나가고 있습니다.
가장 먼저 언급할 수 있는 대표적 사례는 정부의 데이터 개방 정책과 맞물려 데이터 활용 활성화 방법으로 제공되고 있는 시각화 서비스입니다. 대민 서비스이므로, 누구나 데이터 개방 포털에 접속해 개인이 보유한 데이터를 활용해 시각화 차트를 만들 수 있습니다.
산업 및 기업 차원에서는 보유 데이터의 활용도를 높이기 위해 데이터 시각화를 도입하고 있습니다. 사내 KPI 지표 등 성과 지표 추적, 데이터 기반의 마케팅 활성화 등을 위한 목적으로 데이터 대시보드를 구축하고 활용하는 것이 일반적입니다.
최근 데이터 활용에 대한 관심이 매우 높은 금융권은 데이터 시각화 기술을 적용한 데이터 분석 플랫폼을 조직 내에 구축하고 있습니다. 신한은행은 임원진이 경영 관련 빅데이터를 시각화 자료로 실시간 모니터링하고, 의사결정 할 수 있는 ‘빅데이터 워룸’을 만들었습니다. KEB하나은행도 은행 핵심 경영지표, 조직 단위별 영업 실적 모니터링, 고객 특성에 따른 비정형 분석 등 은행 내부 데이터를 숫자가 아닌 시각화 형태로 확인할 수 있는 BI(Business Intelligence) ‘하나 빅 인사이트’를 구축했습니다.
인공 지능(AI : Artificial Intelligence) 분야에서도 데이터 시각화를 활용한 시각적 분석을 시도하고, 인공지능 학습 결과를 시각적으로 보여주는 방법 등으로 활용하고 있습니다. 위 자료는 인공 지능의 하위 영역에 속하는 머신 러닝(Machine Learning)의 일반적 유형인 클러스터링(Clustering)을 데이터 과학자(Data Scientists)들이 효과적으로 할 수 있도록 만든 시각적 분석 도구 ‘Clustervision’의 개발 및 활용 사례입니다. 미국의 유명 화가 밥 로스(Bob Ross)의 400개 그림 데이터 셋을 ‘Clustervision’을 이용해 시각적 분석한 결과를 보여줍니다. (IBM의 Visual AI Lab 웹 사이트를 방문하면, 위 사례 외에도 AI 분야의 다양한 시각적 분석 사례를 알 수 있습니다.)
우리가 일상생활에서 데이터 시각화를 쉽게 접하고 있는 부분으로는 ‘언론’을 이야기할 수 있습니다. 언론은 데이터를 기반으로 한 스토리텔링에 방점을 두고, 이름하여 ‘데이터 저널리즘(Data Journalism)’을 실현하는 데 데이터 시각화를 적극적으로 활용합니다. 뉴욕타임즈, 워싱턴포스트 등의 해외 유수의 언론사뿐만 아니라 국내 언론사들도 데이터 시각화를 활용한 스토리텔링 기사 제작 및 발행에 나서고 있습니다.
시각화를 활용한 데이터 분석, 데이터 인사이트를 스토리텔링 요소로 활용하는 위 사례 외에 데이터 시각화는 예술의 영역에서도 두각을 보이고 있습니다. 데이터의 시각적 패턴 그 자체를 예술로 보는 것을 의미하는데, 이를 두고 데이터 아트(Data Art), 이 분야의 예술가를 데이터 아티스트(Data Artist)라 부르기도 합니다.
왼쪽 작품은 Alice Thudt의 ‘Life in Clay’ 프로젝트 결과물로, 자신의 일상 속 데이터를 시각적 패턴으로 표현, 이를 그려 넣은 도자기를 만드는 것입니다. 일상생활의 구체적 활동, 성취한 것, 기억하고 싶은 사람들과의 관계 등 삶의 단면을 보여주는 기념물을 만드는 작업입니다. 오른쪽 작품은 Nathalie Miebach의 ‘Sculptural Musical Score’ 프로젝트의 한 조각품입니다. 사진 속 조형물은 ‘Hurricane Noel III’이란 제목으로, 2007년 11월 2일에서 5일 사이에 뉴잉글랜드에서 발생한 허리케인의 기상 데이터를 작은 가지나 색깔 비즈로 구성해 표현한 것입니다. Nathalie Miebach는 기상 데이터를 악보로 만들고, 조형물로 만드는 프로젝트를 진행하는 한편, 이를 활용하여 작곡가 및 음악가들과 함께 실제 콘서트를 여는 등의 활동도 이어가고 있습니다.
위에서 살펴본 바와 같이 데이터 시각화는 데이터가 존재하는 여러 분야에서 데이터 분석과 인사이트 도출을 위해 도입 및 적용되고 있고, 그뿐만 아니라 예술의 영역에서도 다양한 형태의 창작에 영감이 되고 있습니다.
지금까지 데이터 활용 방법으로 데이터 시각화를 왜 해야 하는지 5가지 이유에 대해 알아보았습니다. 데이터 시각화를 활용하면 1) 많은 양의 데이터를 한눈에 볼 수 있고, 더군다나 데이터 분석에 대한 전문 기술 없이도 2) 누구나 쉽게 시각화로 데이터 인사이트를 찾을 수 있습니다. 그뿐만 아니라 시각화를 활용한 데이터 분석인 시각적 분석을 하면 3) 보다 정확하게 데이터를 이해할 수 있습니다. 이와 같은 장점을 가진 시각화는 4) 다른 사람에게 데이터 인사이트를 공유하는 데 효과적이며, 5) 데이터가 존재하는 다양한 분야에서 활용할 수 있습니다.
최근 가트너(Gartner) 리포트 「2017 예측 : 분석 전략과 기술(Predicts 2017 : Analytics Strategy and Technology)」은 ‘시민 데이터 과학자(citizen data scientists)’ 개념을 언급하였습니다. 시민 데이터 과학자란 기존 데이터 과학자에게 요구되었던 고도화된 전문 분석 기술 없이도 데이터를 분석할 수 있는 사람을 의미합니다. 데이터 과학이 산업 전반에 걸쳐 영향력을 발휘하고 있는 현실을 반영할 때, 2019년에는 양적 차원에서 이들의 규모가 기존 데이터 과학자 수를 압도할 것으로 예측하였습니다. 시민 데이터 과학자가 가진 역량, 즉, 데이터 분석에 대한 전문 기술 없이도 데이터를 활용할 수 있는 방법이 무엇일까 생각해보면, 역시나 데이터 시각화를 떠올리게 됩니다. 앞서 여러 차례 언급하였듯이 데이터 시각화의 가장 큰 장점이 누구나 큰 어려움 없이 데이터를 활용하고 인사이트를 도출해 낼 수 있다는 것이기 때문입니다.
시민 데이터 과학자로서 역할을 하는 것, 비단 남의 이야기일 뿐일까요? 데이터 시각화를 할 줄 안다면, 우리도 시민 데이터 과학자가 될 수 있지 않을까요? 누구나 쉽게 데이터를 활용할 수 있는 방법, 데이터 시각화를 통해 모두가 데이터를 활용할 수 있기를 기대하며, 글을 마무리합니다.
참고자료
· Autodesk research,「Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing」
· Bum Chul Kwon, Ben Eysenbach, Janu Verma, Kenney Ng, Christopher deFilippi, Walter F.Stewart, and Adam Perer,「Clustervision : Visual Supervision of Unsupervised Clustering」
· Gartner, ‘Gartner says more than 40 percent of data science tasks will be automated by 2020’ (2017.01.16)
· Nishith Sharma, 7 most common data visualization mistakes
· Klipfolio, What is a data dashboard?
· Quora, What is Data Visualization?
· 아주경제, 2030년 데이터·AI 경제 규모 16조 달러… 혁신 생태계 조성해야 (2019.01.16)
· IT WORLD, 글로벌 칼럼 : 빅데이터를 제대로 활용할 수 있도록 돕는 “데이터 거버넌스” (2018.02.28)
· 전기신문, 데이터 지능(Data Intelligence) (2018.11.28)
· 사이언스타임즈, [한국일보공동기획] 빛으로 보는 세상 – 눈과 시각 (2005.09.07)
· 서울경제, ‘”숫자 대신 그림·그래프로”… 데이터 시각화 나선 하나은행 – ‘빅 인사이트’ 시스템 구축 (2018.03.25)
* 이 글의 원문 출처는 데이터 시각화 전문 기업 뉴스젤리 블로그 '당신도 데이터 시각화를 해야 하는 5가지 이유'입니다.