양정환, 2016 다독다독 기자단
[요약] 우리는 미디어에 담긴 내용을 아무런 여과 없이 그대로 수용해도 괜찮을까? 미디어를 통해 전달되는 정보는 언제나 새롭게 구성된 정보이다. 우리도 스스로 다양한 자료를 활용해 새로운 구성물을 만들고 이해할 수 있는 능력을 갖추어야 한다.
신문과 뉴스는 거짓을 전달하지 않는다.
그들이 특정 내용에 관해 이야기할 때 이를 구성하는 정보들이 왜곡되면, 소비자는 언론을 신뢰하지 않기 때문이다. 이 때문에 미디어는 사실만을 전달한다. 그렇다면, 우리는 미디어를 통해 보는 내용을 아무런 여과 없이 수용해도 괜찮을까?
정답은 '아니오' 다.
미디어를 통해 전달되는 정보, 그 정보 자체의 본질은 바뀌지 않는다. 하지만 미디어는 이 정보를 재구성하는 과정을 통해 언제나 새롭게 구성된 정보(constructive information)를 보여준다.
신문을 펼치면 어렵지 않게 데이터로 구성된 각종 통계적 수치들을 볼 수 있다. 독자들은 이와 같은 데이터를 보며, 기자 개인의 주관이 반영되지 않았다고 생각하게 된다. 이 때문에 이미지와 데이터로 구성된 수치들은 독자들에게 신뢰감을 준다. 그러나 전체를 읽는 것과 일부를 읽는 것은 다르다. 만약 지금 보고 있는 데이터가 타인에 의해 구성된 파편적인 정보라면, 이를 전체라 믿는 그릇된 시각을 가지는 위험에 노출될 수 있기 때문이다.
우리는 이미 정보화 시대에 익숙하다. 몇 년 전부터 '정보의 홍수', '데이터 사회'라는 말을 다양한 매체를 통해 접했고, 최근에는 '빅 데이터', '사물 인터넷' 등 관련된 용어들이 미래 시장의 화두가 되면서 ‘데이터’와 더욱 가까운 관계가 된 것 같다. 하지만 실제로 이를 체감할 기회는 많지 않다. 그저 전문가와 관련자들만의 이야기로만 들릴 뿐이다. 하지만 우리는 생각보다 데이터를 찾고 활용하는 데 능숙할지 모른다. 대학생들은 과제를 위해, 직장인들은 발표나 보고 등을 위해 정보를 찾고 이를 활용하기 때문이다.
우리는 이런 과정을 통해 최신의 데이터 그리고 신뢰성 높은 데이터를 찾는다. 하지만 위에서 이야기하였듯, 우리는 누군가에 의해 생산된 정보만을 보기 때문에, 나에게 꼭 맞고 활용 가능한 자료를 찾기 쉽지 않다.
언제까지 데이터의 적극적 수용자로만 남을 수는 없다. 우리도 스스로 다양한 자료를 활용해 새로운 구성물을 만들고 이해할 수 있는 능력을 갖추어야 한다. 그리고 타인의 결과물에 대해서도 보이는 것 이상을 알아낼 수 있는 능력이 필요하다. 내가 CEO나 기자 혹은 분석가가 아니라고 전혀 상관없는 이야기는 아니다.
지금 당장 주변을 둘러보자. 가치 있는 정보들이 넘친다. 그리고 이를 머릿속에 담기는 어렵다. 우리의 뇌는 슈퍼컴퓨터가 아니기 때문이다. 얼마나 다양한 지식을 갖추고 있느냐는 개인의 성공과 실패를 나누는 요소에서 벗어난 지 이미 오래되었다. 이제는 적재적소의 시기에 얼마나 알맞은 정보를 이끌어내 사용하느냐가 좋은 결과를 만드는 과정을 좌우한다.
그러나 위에서 이야기하였듯 데이터와 정보를 다루는 일은 전문가의 범주로 간주 되어왔다. 우리는 이런 인식 때문에 이와 같은 일의 접근을 어렵게 느꼈다.
실제로 기존의 데이터 혹은 통계프로그램1들은 쉽지 않은 사용법과 대부분이 유료라는 점 때문에 기업이나 사무실을 제외하면 일반 대중과 소비자들이 개별적으로 사용하는 경우는 드물었다. 그럼에도 불구하고 데이터와 관련된 관심은 커졌고 이러한 분위기 속에서 통계프로그램인 R과 하둡2 등 일반 사용자에 초점을 맞춘 프로그램의 등장은 큰 관심을 불러일으켰다.
R에 대한 관심은 대학을 통해서도 어렵지 않게 알 수 있다. 관련 강의의 개설이 대학별로 증가하기 시작했는데 이 중에는 통계나 공학관련학과가 아닌 연계 사용이 가능한 기타 학과나 교양 수업으로 개설되는 경우도 드물지 않다. 이는 다양한 분야에서 활용 가능하며 누구나 쉽게 접근 가능하다는 사실을 대변해주는 부분이다.
추가적 처리 과정을 거치지 않고 현상이나 사실의 내용을 수치화해놓은 것을 자료(Data, Raw material)라고 한다. 이는 사용자의 용도에 맞추어 재구성되면서 특정한 가치를 지니는 정보(Information)로 탈바꿈한다.
언론사에서 통계자료를 기반으로 한 그래프를 만들 때 한국은행, 통계청, 국가 통계 포털 등의 자료를 자주 사용한다, 우리도 인터넷을 통해 이에 대한 접근을 어렵지 않게 할 수 있다.
R을 활용하기 위해서는 인터넷의 각종 파일을 바로 내려받아 사용하거나 개인이 직접 조사한 자료를 엑셀, txt 파일로 저장하여 활용할 수도 있다. R을 통해 데이터를 수치화하거나, 이미지로 구현하면 전체적인 변화량이나 시기나 지역별로 일정한 특징을 눈으로 확인할 수 있다. 우리는 이런 과정을 통해 언론에 보도된 것과 더불어 새로운 해석 또한 가능하다.
신문의 사회면에서 ‘도시 환경과 성별에 따른 질병의 연관성’에 관한 기사를 보았다고 가정해보자. 과연 기사 내용이 실제인지, 신뢰할 수 있는지 등에 대한 의문이 든다. 이럴때는 직접 정보를 찾아서 변환시켜보자.
국가 통계 포털에서는 다양한 주제로 자료를 제공한다. 하지만 지난 몇 개월, 혹은 몇 년간의 수치를 한눈에 파악하기란 어렵다. 우리는 이를 필요한 부분만 잘라내서 사용하면 된다. 사이트에서는 이를 배려하여 기타 프로그램에서도 활용할 수 있도록 내용을 담은 다양한 형식의 파일을 제공하는데 그중에서 CSV, TXT 파일은 R에서 자주 사용하는 형식이다.
자료를 그래프로 변환해 보았다. 질병 발생률의 경우 남성과 여성의 연령대별 차이가 있을 뿐 시골 지역과 도시지역의 경우는 큰 차이를 발견하기 어렵다. 물론 자료는 자료의 폭이나 범위에 따라서 그 형태가 충분히 변하며 이를 해석하는 방법이나 시각도 개인마다 다르다. 각자의 필요성에 알맞게 사용하자.
R은 통계학, 컴퓨터 공학적 지식 등 다양한 분야에 대한 이해가 필요한 복합적인 결과물이다. 고도의 전문 지식을 요구하지는 않지만,기초적인 지식이나 이해 없이 접근해서는 올바른 활용이 어렵다. 그렇다면 우리는 어떻게 공부해야 할까?
최근 대학별 mooc3강의가 활성화되면서 다양한 학교의 강의를 어렵지 않게 접할 수 있다. R은 물론 데이터와 통계 등 관심 있는 다양한 분야에 대해서 무료로 수강할 수 있다. 또한, 대학의 학기가 끝나면 바로 업데이트되기 때문에 사설 온라인 강의보다 높은 수준의 수업을 들을 수 있다.
데이터에 대한 관심은 관련 블로그의 수도 증가시켰다. 블로그에서는 일반도서나 강의와 비교하면 비교적 간략하게 내용이 설명되어 있으며 원론적인 부분은 생략하지만, 프로그램에 대한 이해와 접근법 등을 소개한다. 특히 프로그램의 실제적인 활용 사례를 많이 포함하고 있다.
수시로 컴퓨터를 활용할 수 없다면 서점에서 판매하고 있는 도서를 이용하자. 책을 고를 때에는 프로그램의 내용 입력과 이에 따른 결과물이 함께 쓰인 책을 구매하는 것이 좋다. 하지만 글자로 쓰여 있는 것보다는 실제 프로그램을 운용해보고 그 결과치의 문제점을 스스로 파악하는 활동이 더 빠른 습득을 돕는다.
미디어를 통해 정보를 접하고 이를 스크랩 등의 방식으로 정리하면, 추후 필요한 내용을 인용할 때, 더욱 쉽게 활용할 수 있다. 하지만 스크랩의 내용이 신문 내용 그대로만 담겨 있다면 우리는 스크랩 내용을 효과적으로 활용하지 못할 것이다. 이 때문에 스크랩을 보다 효과적으로 활용하기 위해서 스크랩 내용을 바탕으로 스스로 정보를 탐색하거나 추가하여, 정보(뉴스)를 이해하고 활용하는 과정이 필요하다.
이번에 설명한 R은 다양한 데이터 관리 프로그램 중 하나일 뿐이다. 이외에도 돌아다니는 자료와 이를 양질의 정보로 변환, 증가하기 위한 도구는 많다. 하지만 이러한 수단들을 단순히 인지만 한다면 만들어진 결과물만을 수용할 수밖에 없다. 이 시대의 개인은 지식의 적극적 주체로서 스스로 참여하며 다양한 가능성의 폭을 넓혀야 한다. 적극적인 참여를 통해 나의 가능성을 넓혀보자.