3부. 데이터를 활용하는 습관 : 데이터 기반 의사결정
세종의 여론조사와 의사결정
조선 건국 초에 답험손실법이라는 세금 제도가 있었다. 이는 관리들의 주관적인 판단이 개입되면서 많은 폐단을 야기했다. 이런 문제를 해결하고자 세종(1430년)은 공법(해마다 전답 1 결당 조 10두 징수인 정액 세제)을 만들었다. 세종은 조세 혁신을 위한 공법을 시행하기 전에 지역별로 조사 대상자 수를 배분하고, 고을 수령에서 일반 평민에 이르기까지 전 국민을 대상으로 여론조사를 실시했다.
답험손실법은 논 1 결마다 조미 30두, 밭 1 결마다 잡곡 30두를 징수하는 법으로 가을철 추수기에 관리들이 현장 조사를 통해 한 해 농사 작황의 등급을 정하고(답험·踏驗), 그 작황 등급에 따라 적당한 비율로 조세를 감면(손실·損失) 해 주는 제도였다.
조선왕조실록사전(http://encysillok.aks.ac.kr/Contents/index?Contents_id=00010825)
무려 5개월 동안 17만 명이 참여한 대규모 조사였다. 결과는 찬성이 57.1% 이였으나 세종은 신하들의 뜻에 따라 공법 시행을 보류했다. 왜냐하면, 전답이 넓고 비옥한 전라·경상도에서는 99%가 찬성하고, 땅이 척박하고 비좁은 평안·함길도에서는 95~99%가 반대했기 때문이다. 공평한 세법을 도입하고자 하는 세종의 취지에 맞지 않은 결과였다. 조세 공평을 줄기차게 주장한 세종은 신하들과 지속적인 토론 과정을 거쳐 일부 도(전라·경상)에서 시범으로 먼저 실시하고, 수정 보완을 통해 확대 시행을 한 후 1444년(세종 26년) 공법을 마침내 확정했다. 이후 공법은 조선 세법의 근간이 되었다. 임금과 신하의 현명한 의사결정으로 백성을 편하게 할 수 있었다.
데이터가 있다고 해서 문제가 해결되는 것은 아니다. 데이터가 모든 것을 설명해주지도 않는다. 현명한 의사결정을 위해서는 문제가 있고, 그 문제를 정확하게 읽어내고, 해결하고자 하는 의지를 가진 사람이 있어야 한다. 그리고 문제 해결에 적합한 데이터가 있고, 그 데이터의 이면에 있는 현실을 정확하게 읽어낼 수 있는 통찰이 있어야 한다. 단순히 통계분석을 할 수 있다고 가능한 것은 아니다.
데이터의 이면을 제대로 통찰하려면
조사자나 의사결정자가 데이터를 제대로 통찰할 수 있으려면, 분석적 사고, 통계적 사고, 전략적 사고 능력을 갖춰야 한다. 분석적 사고는 복잡한 상황을 세분화해서 이해하고, 숨어있는 의미를 파악하는 사고다. 통계적 사고는 통계를 기반으로 사물을 추측하거나 판단하거나 단순화하는 사고다. 전략적 사고는 복잡한 환경에서 현재 상황을 판단하고 장래의 지향점에 대한 결론을 명쾌하게 내리는 사고다. 이런 사고의 핵심은 데이터에 기반을 둔 의사결정이다. 존 스노도, 나이팅게일도, 세종도 데이터에 기반을 둔 분석적 사고, 통계적 사고, 전략적 사고로 데이터 이면을 통찰하여 새로운 가치를 만들었다.
앞서 590년 전에 세종이 실시한 여론조사의 결과를 어떻게 해석하고 통찰하고 활용했는지 알아봤다. 그런데 세종 시대의 데이터 리터러시 역량에도 미치지 못하는 사례들이 최근 발생하고 있다. 4대 강 보 해체, 2022학년도 대입개편 권고안 등 국가의 중요한 정책 결정을 설문조사의 결과로 의사결정을 하려는 시도들이다. 정책 수혜자들의 의견을 수렴하고자 하는 취지는 좋았으나, 의사결정자의 데이터 리터러시가 부족한 탓에 조사는 했지만, 그 결과로 현명한 의사결정을 하지 못하는 지경에 이르렀다.
현명한 의사결정자의 데이터 리터러시
이런 측면에서 조사와 분석에 관여하는 연구자와 조사자, 그리고 연구의 결과를 활용하는 의사결정자는 현명한 의사결정을 위한 데이터 리터러시 역량을 갖춰야 한다.
첫째, 다양한 종류의 데이터를 다루는 능력을 길러야 한다. 서베이를 통한 정형 데이터와 소셜에 있는 비정형 데이터(텍스트 데이터)를 통합적으로 분석하고 해석하여 의미를 찾으려는 접근이 필요하다. 하나의 데이터로 복잡한 사회현상을 설명하는 데는 한계가 있다. 사회조사와 빅데이터를 연결하여 분석하고 해석하는 접근을 통해 사회 현상을 총체적으로 이해하려는 시도가 필요하다.
예를 들어, 최근 경기연구원에서는 비무장지대(DMZ)에 대한 인식을 파악하기 위해 한국을 포함하여 접경지역을 가지고 있는 4개 국가의 주민들 대상의 설문조사를 했다. 아울러 구글 검색을 기반으로 하는 구글 트렌드 분석, 소셜을 기반으로 하는 다음 썸트렌드 분석, 그리고 국내 뉴스 기사를 바탕으로 빅데이터를 수집하여 텍스트 마이닝을 했다. 정형 데이터와 비정형 데이터 분석을 통해 DMZ의 인식을 총체적으로 파악하는 접근을 했다.(이정훈, 구자룡, 조진현, 한국인과 외국인이 본 DMZ : '국토 분단'에서 '인식의 분단'으로, 경기연구원, 2020.9.1.)
둘째, 항상 데이터와 분석방법과 시각화의 결과물에 대해 의심을 해야 한다. 비록 조사 윤리를 잘 지켰다고 해도 조사에는 다양한 오류가 발생할 수 있다. 조사 설계에서, 데이터 수집에서, 전처리 과정에서, 통계분석에서, 시각화에서, 그리고 결과를 해석하고 활용하는 과정에서 수많은 오류가 일어날 수 있다. 오류를 최소화하는 가장 간단한 방법은 모든 데이터를 우선 의심해 보는 것이다. 믿지 말라는 뜻이 아니다. 데이터가 가지고 있는 제약 사항들을 염두에 두고 해석하는 능력을 길러야 한다.
예를 들어, 4대 강 보 해체에 대한 동의 여부 질문은 유도 질문으로 의심된다. 그 결과가 해체에 동의한다는 의견이 81.8%다. 유도성 질문이 아니었다면 다른 결과가 나왔을 것이다. 이 결과에 대한 시각화(파이 차트)에는 동의한다는 의견이 81.1%로 나와 있다. 텍스트와 도표가 다르게 표현되어 있다. 4대강 보 처리방안에 대한 질문지 : 지난 2월 환경부에서는 보 가운데 3개를 해체하고, 2개의 보를 상시 개방하는 방안을 제안했습니다. 그 근거로 △보의 효용성이 부족하고, △보가 없어도 물 이용에 어려움이 크지 않으며, △수질·생태계가 개선되고, △유지·관리 비용 절감 효과가 크다는 내용을 고려했다고 밝혔습니다. 귀하께서는 이 처리방안에 대해 어떻게 생각하십니까? (1) 동의한다 (2) 동의하지 않는다(환경운동연합, http://kfem.or.kr/?p=199183)
셋째, 표본조사는 표본으로 모집단의 특성을 추론한다. 추론이 타당하기 위해서는 모집단에서 무작위로 표본을 추출해야 한다. 이 과정에서 일어나는 오류 중에 대표적인 오류가 선택 편향(selection bias)이다. 선택 편향은 무작위 표본이 아닌데 마치 무작위 표본인 것처럼 생각하고 사용할 때 발생한다. 무작위 표본추출을 설계했을지 모르나 실제 추출된 표본은 무작위가 아닐 가능성이 있다. 오류가 있는 데도 모르거나 오류를 알고도 무시하고 데이터를 해석한다면 현명한 의사결정으로 연결되기 어렵다.
예를 들어, 정보격차에 대해 연령대별로 온라인 혹은 전화 조사를 하겠다고 설계했다면 조사 설계는 타당할 수 있다. 문제는 컴퓨터나 스마트폰 사용에 어려움을 겪고 있는 사람들은 이 조사에서 배제될 가능성이 높다. 어쩌면 정보격차로 가장 고통을 받고 있는 고령층 다수가 조사 과정에서 배제되었다는 사실조차 모를 수 있다.
넷째, 데이터 이면의 현실을 읽어내려는 습관을 길러야 한다. 데이터 이면에 있는 의미를 포착하지 못한다면 무용지물이다. 데이터를 숫자가 아니라 그 이면의 의미를 통찰하기 위해서는 통계를 이해해야 한다. 통계 결과를 현실의 상황과 연결하여 대조해 봐야 한다. 통계를 기반으로 생각하는 통계적 사고를 습관화해야 한다. 그리고 편견 없이 데이터를 보는 습관을 들여야 한다. 이념이나 사상에 따라 편견을 가지고 해석을 할 때 왜곡이 일어난다. 데이터는 거짓말을 못 하지만 사람은 거짓말을 한다. 이런 거짓말에 속지 않으려면 습관적으로 데이터의 이면을 보려는 노력을 해야 한다.