[통계의창, Vol.27, 통계광장]
☀︎ 다음 글은 <통계의 창> 27호(2021년 여름호)에 게재된 내용입니다.
http://sti.kostat.go.kr/window/2021a/main/2021_sum_06.html
빅데이터 시대가 도래하면서 모두가 데이터 과학자가 되어야 하는가에 대한 의문이 높아지고 있다. 당연한 말이지만 모두가 데이터 과학자가 될 필요는 없다. 자동차가 우리의 일상에서 이동을 위한 필수품이 된 이후 모두가 운전을 하지만 자동차 전문가가 아닌 것과 같다. 데이터 과학자가 되지 않아도 자동차를 이용하듯이 데이터를 이용할 수 있으면 된다. 운전은 면허가 필요하지만 데이터를 다루는 일은 관심만 있으면 가능하다. 왜냐하면 우리는 현업에서 언제든지 데이터를 활용할 수 있는 상황에 노출되어 있기 때문이다. 자동차를 이용하듯이 그냥 이용하면 된다. 다만 자동차를 자기 마음대로 운전하면 사고가 나듯이 데이터도 자기 마음대로 사용하면 문제가 된다. 따라서 데이터를 제대로 다룰 수 있어야 하고, 분석할 수 있어야 하고, 시각화 할 수 있어야 한다. 그래야 데이터와 숫자에 속지 않고 제대로 활용할 수 있다. 데이터가 업무수행을 위한 필수 역량이 되고 있다.
일반적으로 한 번 들인 습관은 쉽게 바뀌지 않는다. 그러나 제대로 습관이 들면 바꿀 필요가 없다. 데이터를 다루는 습관이 바로 여기에 해당한다. 현업에 있는 대다수의 사람들은 그 동안 데이터를 다룰 기회가 많지 않았다. 데이터의 수집 및 분석과 의사결정에 다양한 제약과 장벽이 있었기 때문에 전문가의 영역으로 치부되었다. 이 부분은 아직도 데이터과학자의 영역으로 일부 존재한다. 현업의 실무자가 그 장벽을 넘어야할 이유는 없다. 현업에서 필요한 수준의 데이터는 이미 풍부한 상태이며, 스스로가 데이터에 접근할 수 있는 정도에서 가치를 만들기만 하면 된다. 다만 스스로가 깊은 고민을 하지 않고 막연하게 두려움을 가지고 있었기 때문에 풍부한 데이터를 활용하기 위한 고민을 하지 못했을 뿐이다. 어쩌면 지금이 데이터로 업무의 성과를 높이는 현명한 의사결정자로 탈바꿈할 수 있는 기회다.
데이터를 다루는 습관을 들일 때 현명한 의사결정권자가 되고, 우리 사회에서 요구하는 데이터 리터러시 역량을 갖춘 사람이 되는 것이다. 데이터 리터러시는 데이터를 읽고 쓰는 능력을 의미하는데, 이는 어떤 문제가 있다는 것을 인식하면 이 문제를 정의하고, 문제를 해결할 수 있는 데이터를 수집하고, 수집된 데이터를 분석하고 시각화하여, 문제해결 목적에 맞게 활용함으로써 새로운 가치를 만들어 내는 능력이다.
어느 순간 빅데이터가 넘쳐나면서 모두 빅데이터에서 보배를 찾으려고 한다. 하지만 빅데이터는 보배가 아니라 수많은 구슬에 불과하다. 사막에서 바늘을 찾는 격이다. 그런데 무슨 바늘인지 모르면서 사막으로 달려가는 것은 시간 낭비일 뿐이다. 데이터를 말하기 전에 먼저 우리가 가지고 있는 문제를 구체적으로 정의해야 할 이유이다. 데이터 기반의 의사결정을 위한 첫걸음은 바로 문제정의다. 그 문제를 해결하는데 필요한 데이터가 무엇인지, 우리가 그런 데이터를 가지고 있는지, 없다면 어디서 수집할 수 있는지를 고민해야 한다.
데이터를 확보했다면 데이터에 맞는, 그리고 문제해결에 적합한 데이터분석 방법을 찾아야 한다. 이런 과정이 결코 가벼운 과정은 아니다. 그러나 현업에 종사하는 많은 사람들은 현업의 특성을 잘 알고있기 때문에 그렇게 어렵지 않게 접근이 가능하다. 데이터 분석 역시 전문적인 데이터 과학자가 아닌이상 엑셀 정도의 도구로도 충분히 분석할 수 있다. 중요한 것은 문제해결을 위한 데이터 분석이기 때문에 빅데이터가 아니어도 괜찮다. 세계에서 가장 큰 규모의 빅데이터를 가지고 있는 구글이나 아마존조차 전체 빅데이터가 아니라 그 속에 있는 데이터의 일부만 추출하여 데이터 분석, 모델링, 예측, 통찰의 제공 등을 실행하기 위한 의사결정을 한다.
현업 차원에서 문제해결을 위해 분석 가능한 데이터를 내가 다룰 수 있는 분석도구로 활용할 수 있으면 된다. 현업 중심의 셀프서비스 데이터분석가가 되어야 하는 이유다. 중요한 것은 내가 어느 정도 데이터 분석을 할 수 있어야 한다는 점이다. 데이터 분석은 분석 도구와 통계에 대한 기본적인 이해를 바탕으로 가능하다. 이 부분을 스스로가 수행해 보면서 전체적인 프로세스와 의사결정 구조를 이해할 수 있다. 결과적으로 분석적 마인드가 형성되어야 데이터를 원활하게 다루고 활용할 수 있게 된다. 셀프서비스로 데이터를 분석하는 연습을 하고 또 연습하는 수고로움을 감내해야 리터러시 역량을 높일 수 있다.
데이터를 다루는 습관을 기르기 위해서는 어떤 문제에 직면했을 경우 가장 먼저 데이터 자체에서부터 시작할 것인가? 아니면 비즈니스 문제에서 시작할 것인가를 고민해야 한다. 데이터를 활용하는 목적은 비즈니스상의 문제나 이슈의 예방과 해결에 있기 때문에 비즈니스 문제에서 출발할 때 가장 큰 가치를 만들 수 있다.
최근 들어 데이터 리터러시 강의요청이 많다. 빅데이터 시대에 데이터 기반으로 현명한 의사결정을 하고 싶은 기업이나 공공부문에서 데이터를 통한 성과를 만들기 위한 기본적인 욕구라고 생각한다. 수강자들은 대체로 고등교육을 받았고, 경력도 꽤 된다. 그렇지만 사회 초년생이든 경력이 높든 관계없이 많은 사람들이 너무나 쉽게 데이터에 속고 있다. 경우에 따라서는 알고도 속는다. 물론 수강자만을 대상으로 한 경험이기에 선택편향이 존재한다는 점을 감안하더라도 너무나 잘 속고 있다는 점에서 깜짝 놀라기도 하고 걱정이 되기도 한다.
우선 독자 여러분도 아래의 질문에 한 번 응답해 보기를 권한다.
지난 2월 환경부에서는 보 가운데 3개를 해체하고, 2개의 보를 상시 개방하는 방안을 제안했습니다. 그 근거로 △보의 효용성이 부족하고, △보가 없어도 물이용에 어려움이 크지 않으며, △수질·생태계가 개선되고, △유지·관리 비용 절감 효과가 크다는 내용을 고려했다고 밝혔습니다. 귀하께서는 이 처리방안에 대해 어떻게 생각하십니까?
(1) 동의한다
(2) 동의하지 않는다
위의 질문은 정답이 있지는 않다. 그냥 여러분의 생각을 보기(1)과(2) 중에서 하나를 선택하면 된다. 온라인 설문으로 필수질문이기 때문에 보기 중에서 꼭 응답해야 다음 질문으로 넘어갈 수 있다. 이제 응답을 했다면, 여러분은 어떤 선택을 했을까?
이 조사는 2019년 5월에 발표된 “4대강 보 해체 방안 발표에 따른 국민 여론조사”다. 위의 질문은 이 조사에서 가장 중요한 질문의 하나였다. 전국의 19세 이상 성인 남녀를 대상으로 16개 광역시도별 성, 연령별 인구비례할당에 의해 1,000명이 응답했는데, ‘동의한다 81.8%’, ‘동의하지 않는다 18.2%’로 보고되었다.
동일한 질문을 온라인 실시간 설문조사 플랫폼인 슬라이도(sli.do)를 이용하여 2021년 상반기에 진행한 데이터 리터러시 강의(4곳의 인재개발원에서 총 7회)에서 200명의 수강자를 대상으로 조사해봤다. 응답자는 올해 신규로 임용된 공무원(5급, 7급, 9급)과 승진자 및 중앙부처 핵심인력이 포함되어 있다. 전체 200명의 응답자 중에서 ‘동의한다 80.5%’, ‘동의하지 않는다 19.5%’로 나타났다. 5급 신규자의 경우 23명이 응답했는데(30세 전후의 5급 공채) 동의한다에 83%가 나와서 일반 국민보다 높게 나타났다.
더욱 고민스러운 것은 위 질문에 어떤 문제가 있는지 찾아보기 위해 온라인 협업프로그램인 패들렛(padlet)을 이용하여 하나의 작업공간에 의견을 자유롭게 제시할 수 있도록 했다. 이 질문의 문제점으로 응답자들은 적인 측면에 대한 언급이 없어서 객관적인 판단이 어렵다’, ‘긍정적인 대답을 유도한다’, ‘응답자의 생각과 답변을 왜곡한다’ 등의 의견을 제시했다. 질문에 문제가 있다는 점을 인식했는데도 불구하고 실제 응답에서는 유도한 방향으로 응답한 것이다. 아니 문제가 있다는 전제로 의견을 구하기 전까지는 문제가 있다는 점을 인식하지 못했을 수도 있다. 30세 전후의 5급 공채 신규자들로 정부부처의 핵심인재들이고 사회참여와 공정에 대한 관심이 높은 MZ세대의 특성을 고려할 때 우려되는 상황이다. 다른 교육에서도 비슷한 결과가 되풀이 되었다. 즉, 유사한 형태로 속고 있다는 점을 확인할 수 있었다.
예시한 내용은 여론조사에서 하나의 질문만을 대상으로 살펴본 한계가 있다. 그렇지만 위 조사의 목적이 사회적 갈등이 심화된 특정의 사안에 대해 국민들의 여론을 수렴하고 그 결과에 따라 정책결정을 하고자 했다는 점을 생각해봐야 한다. 그 중대성에 비해 누군가가 의도적으로 데이터를 왜곡하고자 마음을 먹는다면 너무나 쉽게 데이터로 국민을 속일 수 있다는 것을 확인할 수 있다. 공무원조차도 이렇게 쉽게 속는데 일반 국민은 어떨까 생각하면 등골이 오싹하다.
데이터를 수집 및 처리하여 시각적으로 도식화 하는 기법을 데이터 시각화라고 한다. 데이터 시각화는 왜 필요할까? 데이터 시각화는 아이디어를 탐구하고 정보를 빠르고 효과적으로 전달할 수 있기 때문이다. 따라서 보기 좋게 시각화하는 것이 아니라, 복잡한 데이터와 도표에 존재하는 이면을 현실적으로 볼 수 있게 만들어야 한다. 좋은 시각화는 보다 쉽게 차트를 보고 통찰할 수 있게 만든다. 가공되지 않은 데이터로부터 어떻게 통찰을 이끌어낼지 생각하고 또 생각해야 한다. 좌측 그림과 같이 데이터 시각화를 통해 정보를 도출하고, 정보 시각화를 통해 메시지를 발굴하고, 여기에 스토리를 더하여 인포그래픽으로 표현할 때 보다 쉽게 통찰할 수 있다. 즉, 데이터 시각화는 메시지를 제시해야하고 통찰을 제공해야 한다.
최근에 특히 공공부문에서 인포그래픽을 통한 정책 설명과 홍보를 많이 하고 있다. 각 정부부처에서 수행하고 있는 정책이나 계몽활동, 그리고 정책의 성과를 시각화로 표현하는 트렌드가 강하다. 대표적으로 2가지 사례를 비교해서 살펴보면, 어떤 인포그래픽이 좋은 인포그래픽인지 확인할 수 있다.
2020년은 그 누구도 예상하지 못했던 코로나19 팬데믹 상황이었다. 우리나라는 K-방역으로 세계적인 관심을 받았다. 그 중심에 마스크 착용이 있다. 과연 마스크를 착용하면 코로나19 예방효과가 있을까? 모두가 의심하던 시기에 인포그래픽 한 장으로 명쾌하게 설명하고 계도하여 모두가 마스크를 착용하는 것이 당연하다는 인식을 심어주었다. 2020년 8월경 ‘마스크 착용에 따른 코로나 19 전파’라는 인포그래픽이 언론과 지자체, 그리고 소셜미디어를 통해 공유되었다. 출처는 한국 질병관리본부(현질병관리청)로 되어 있었다. 하지만, 정착 인포그래픽 자료의 출처는 질병관리본부(현 질병관리청)가 아니라고 공식 발표한 바 있다.
이 자료의 출처를 추적해보면, 미국치과협회의 온라인 세미나에서 한 발표자가 중환자 전담의사인 친구로부터 받은 자료라면서 마스크 착용으로 감염 확률을 1.5%까지 줄일 수 있다고 한 것이다. 국내·외에서 다양하게 인용되었는데, 특히 국내에서는 질병관리본부에서 발표한 것으로 둔갑하여 여러 기관(특히 지자체)에서 재인용되었다. 여전히 지금도 사실인양 공유되고 있다. 당시 정은경 질병관리본부장(현질병관리청장)은 “마스크를 쓰지 않으면, 마스크를 쓴 사람보다 감염 가능성이 5배가 높다. 턱에만 걸치는 것은 소용이 없다”며 마스크 착용의 중요성을 강조한 바 있는데 이 말이 공식 입장이었다.
그렇다면 사실이 아님에도 사실인양 널리 공유된 이유는 무엇일까? 메시지가 분명한 인포그래픽이기 때문이다. 출처와 근거가 불명확했지만 마스크를 착용해야 한다는 인식을 심어주는 데는 더 없이 좋은 자료가 되었기 때문이다. 이 사례에서 알 수 있는 것은 명확한 메시지에 적절한 스토리가 입혀지면 그것을 보는 사람들이 쉽게 통찰을 얻을 수 있다는 점이다. 그러나 원래의 데이터가 잘못되었거나 근거가 부족한 내용은 더 큰 오류를 만들 수도 있다는 점을 간과하면 안 된다. 이 사례에서 출처와 근거가 명확했다면 최고의 인포그래픽으로 남았을 텐데 하는 아쉬움이 있다.
그럼에도 불구하고 마스크 착용의 예방효과는 분명한 것으로 검증되고 있다. 국제학술지 랜싯(THE LANCET)에 게재된 ‘코로나19의 사람 간 전파 예방을 위한 물리적거리 두기, 마스크 및 눈 보호구’ 논문에 따르면, 비감염자가 N95 등 마스크를 쓴 채 확진자에게 노출될 경우 마스크를 쓰지 않았을 때보다 감염 위험이 85%나 감소한 것으로 나타났다. 정부에서도 마스크 착용을 적극 권장하고 있으며 의무화까지 했다.
다른 사례를 보자. 아래 제시한 ‘2021년 달라지는 세법’과 ‘흡연자에게 더 위험한 코로나19’ 인포그래픽은 과도한 정보 제공으로 메시지가 무엇인지 확인하기 어렵고, 무엇을 해야 하는지에 대한통찰을 주지 못하고 있다. 핵심을 놓치고 있지 않나 의심되는 인포그래픽이다. 인포그래픽의 표적 고객이 스스로 찾고 싶은 메시지를 일목요연하게 제시해야 통찰이 일어난다. 한편, ‘국민연금 A TO Z’ 인포그래픽을 보면, 한 눈에 국민연금의 현재 상황을 파악할 수 있고 내가 앞으로 수령할 수 있는 금액을 추정할 있다. 대부분의 직장인은 60세 전후 정년퇴직을 하는데 이후 연금 수령액만으로 편안한 노후생활이 어렵다는 것을 통찰할 수 있다. 은퇴 후의 소득활동을 어떻게 할지 고민해야 한다는 것을 말해주고 있다. 좋은 시각화는 구구절절이 설명하는 것이 아니라 숫자와 그래프로 통찰을 제공해 줄 수 있어야 한다.
어떤 경우에 데이터나 시각화가 거짓말을 할까? 다시 말해 차트를 만드는 사람은 어떤 경우에 거짓말을 하고 싶어질까? 데이터 시각화의 세계적 권위자인 알베르토 카이로 교수는 <숫자는 거짓말을 한다>라는 책에서 여섯 가지 이유를 제시했다. “디자인이 잘못되었을 때, 잘못된 데이터를 사용할 때, 표시된 데이터의 양이 너무 많거나 적을 때, 불확실성을 숨기거나 헷갈리게 할 때, 잘못된 패턴을 제시할 때, 그리고 사람들의 기대나 편견에 영합할 때”라고 했다. 데이터는 올바르지만 그래프가 틀린 경우, 그래프는 멋지지만 데이터가 틀린 경우를 흔히 보게 된다. 앞에서 살펴본 사례를 포함하여 잘못된 시각화의 많은 부분들이 바로 이런 경우에 해당한다. 아울러 사람들의 기대나 편견에 영합하는 경우를 특히 조심해야 한다. 차트 작성자가 주관적인 판단으로 좋은(?) 차트를 만들어 의사결정권자에게 잘 보이고 싶은 유혹에 빠질 때, 그 의사결정권자 뿐만 아니라 그 의사결정으로 영향을 받는 많은 국민과 소비자들은 고통을 받을 수도 있다. 차트를 볼 때 한 번 더 눈을 부릅뜨고 작성자가 어떤 의도를 가지고 작성했는지 먼저 살펴야 한다.
카이로 교수는 거짓말하는 차트에 속지 않으려면, 차트를 볼 때 다섯 가지를 유의하라고 한다.
첫째, 제목, 설명, 출처를 먼저 읽어라.
둘째, 측정 대상, 단위, 척도, 범례 등을 확인하라.
셋째, 시각적 부호화(원의 크기 등)의 의미를 파악하라.
넷째, 주석(핵심이나 요점을 강조하기 위한 짧은 설명 등)을 읽어라.
마지막으로 폭넓은 시야로 패턴과 동향, 그리고 변수들의 관계를 파악하라.
거짓말하는 차트에 속지 않기 위한 유의사항을 명심하면서 혹시 의심이 든다면 꼭 원본 자료를 찾아봐야 한다. 언론에서 다루었다고, 정부기관에서 제시했다고 무조건 신뢰하면 오류에 빠질 수 있다. 어쩌면 언론과 정부가 데이터와 차트로 독자와 국민을 가장 속이고 싶어 할지도 모른다. 영향력과 이해관계가 있기 때문이다. 스스로 속지 않기 위한 데이터 리터러시가 필요한 순간이다.
데이터를 분석하고 시각화를 하는 이유는 개인적 경험에 의한 의사결정보다 증거에 기반을 둔 의사결정이 보다 현명하다고 느끼기 때문이다. 데이터를 목적에 맞게 활용하는 데는 데이터 수집도, 데이터 분석도, 그리고 데이터 시각화도 중요하다. 데이터를 다루는 능력이 필수적으로 요구되는 사회에서 리터러시를 높이기 위한 노력은 단순한 개인의 능력이 아니라 사회적 정보격차의 해소차원에서 조직적으로 역량 강화를 위한 노력이 선행되어야 한다. 특히 디지털 전환이 이루어지는 사회 환경에서 데이터는 새로운 원유이고 미래의 자원이 되기 때문에 데이터를 기반으로 의사결정을 하는 개인, 조직, 사회, 국가의 문화가 형성되어야 한다. 나만 데이터 리터러시 역량이 뛰어나다고 되는 것이 아니다. 사회 전체적으로 데이터 기반의 의사결정 문화가 만들어질 때 디지털 사회의 새로운 가치가 창출된다.◼︎