1부. 데이터를 읽고 쓰는 습관 : 데이터 리터러시
데이터는 팩트다(?)
바야흐로 데이터 홍수의 시대에 살고 있다. 스몰 데이터에서부터 빅 데이터에 이르기까지 우리 주변에는 데이터가 넘치고 있다. 이런 데이터를 수집하고 분석하고, 나아가 딥러닝으로 예측까지 하는 인공지능이 우리의 일상을 도와주고 있다. 그런데 이렇게 쓸모 있는 데이터를 과연 우리는 제대로 사용하고 있는지 의문이 든다. 데이터로 인해 삶의 질이 높아져야 하는데 오히려 삶을 더 복잡하게 하지는 않는지, 보다 쉽게 의사결정을 할 수 있어야 하는데 오히려 선택하기를 더 어렵게 하지는 않은지 의심스럽다.
최근(2019.5.9)에 어떤 단체에서 발표한 4대 강 보 해체 방안에 대한 여론조사 결과에 대해 갑론을박이 있었다. 문제가 된 설문 항목의 원문은 "지난 2월 환경부에서는 보 가운데 3개를 해체하고, 2개의 보를 상시 개방하는 방안을 제안했습니다. 그 근거로 △보의 효용성이 부족하고, △보가 없어도 물이용에 어려움이 크지 않으며, △수질·생태계가 개선되고, △유지·관리 비용 절감 효과가 크다는 내용을 고려했다고 밝혔습니다. 귀하께서는 이 처리방안에 대해 어떻게 생각하십니까? (1) 동의한다 (2) 동의하지 않는다”라고 되어 있다. 여러분이라면 (1) 번과 (2) 번 중에서 어떤 답을 했을 것 같나요. 자연스럽게 (1) 번으로 응답했다면 이는 전형적인 유도질문에 넘어간 것이다.
설문조사에서는 '조사하면 다 나온다'는 말이 있다. 조사자가 의도한 대로 다 나온다는 의미이지 모든 문제를 해결할 수 있는 정답이 나온다는 의미가 아니다. 그래서 조사 윤리라는 것이 있고 이는 조사자의 기본 중에서도 기본에 해당한다. 데이터는 어떤 현상에 대한 팩트(fact)가 아니라 트렌드(trend)를 반영하는 결과의 하나일 뿐이며, 단지 의사결정을 위한 참고자료일 뿐이다.
이 조사에는 다른 문제들도 있다. 과연 1000명의 응답자들이 위의 문제, 즉 ‘보 해체'에 대한 의미를 정확하게 이해하고 답을 했을까 하는 의문이 든다. 여론조사이기에 인구비례할당을 통해 전국 조사를 했으니 응답자의 통계적 특성이 국민들의 일반 특성을 반영한다고 할 것이다. 모집단의 문제가 아니라 표본 프레임과 응답 가능성의 문제다. 대단히 전문성을 갖고 있는 문제를 일반국민이 과연 판단할 수 있을까?
그리고 조사의 결과가 발표된 이후 조사 과정과 분석 내용에 대해 깊이 들여다본 사람이 몇 사람이나 있을까 하는 의심이 든다. 언론에 언급된 결과가 아니라 조사 결과 보고서를 내려받아 보고서 자체를 직접 살펴보면 동의함에 81.8%로 소개하면서 원형 도표에는 81.1%로 표시하고 있다. 과연 0.7%는 어디로 사라진 것일까?
이 보고서가 나온 지 1년 이상이 지났음에도 불구하고 수정되지 않고 그대로 있는 것을 보면 이 오류조차 인지하지 못하고 있구나 하는 생각이 든다. 조사기관과 조사를 의뢰한 학회와 단체, 관련 국가기관, 그리고 언론까지 모르고 있다는데 경악할 수밖에 없다. 바로 데이터 홍수의 시대에 데이터의 역설에 걸려든 느낌이다.
데이터 이면의 현실을 바라볼 수 있어야
간단한 설문조사 하나에서도 원한다면 얼마든지 왜곡할 수 있는 시대에 우리는 어떻게 살아가야 할까? 한스 로슬링은 <팩트풀니스>에서 “오해를 추적해 찾아내고 다른 것으로 대체하려면 무엇이 필요할까? 데이터다. 데이터를 보여주고 그 이면의 현실을 설명해야 한다.”라고 했다. 로슬링은 오해 혹은 잘못된 해석이 일어나는 것은 우리 뇌의 작동 방식이 '과도한 극적인 세계관'으로 되어 있기 때문이라고 한다. 세계관이 잘못되면 체계적으로 잘못된 추측을 하게 됨을 경계하고 있다. 그런데 우리는 과도한 극적인 세계관을 깨뜨리는 것이 아니라 오히려 만들고 있는 것은 아닌지 걱정이 된다.
데이터가 세상을 이롭게 할 수 있는 디지털의 시대에 역설적이게도 왜곡된 데이터가 세상을 어지럽게 할 수도 있음을 느낀다. 데이터를 있는 그대로 보고 그 이면의 의미를 읽어내는 능력을 데이터 리터러시(literacy)라고 한다. 삶의 질을 높이고 의사결정을 돕는 진정한 의미의 데이터를 스스로 읽을 수 있는 능력을 갖추어야 이런 왜곡과 역설에 맞설 수 있다. 데이터 리터러시를 높이기 위해서는 생활 속에서, 업무 속에서 데이터를 수집하고 정제하고 분석하는 능력과 아울러 데이터를 기획하고 시각화할 수 있는 능력을 길러야 한다. 누군가가 만들어 놓은 데이터를 활용할 수도 있지만 데이터를 더 잘 활용하는 방법은 내가 직접 데이터를 수집하고 분석하여 활용하는 것이다.