데이터'를' 말하다(4)
앞서 연재한 말미에 데이터를 정보화하는 활용 과정(data maanagement process)에서 각단위 별의 활동을 가볍게 언급했다. 수집-정리ㆍ정제-분석-시각화ㆍ리포팅-피드백의 단계를 정보의 공급망(Information Supply-chain)이라고 한다. 이는 "공급자" 관점에서 데이터 거버넌스로 확장되고, 소비자 관점에선 데이터 저널리즘으로 대표됩니다. 다시 IT적인 관점으로 보자면 Back-End(저장, 보안, 공유)의 데이터 거버넌스와 Front-End(프레젠테이션, 공개, 분석)의 데이터 저널리즘으로 나눠 살펴볼 수 있다.
데이터 저널리즘(Data Journalism)이란 저널리즘으로 만들어 낸 창조물을 뒷받침하기 위해 데이터를 수집, 갈무리, 조직, 분석, 시각화, 출간하는 행위다. 단순히 통계 수치를 활용하는 것을 넘어 데이터 분석을 통해 새로운 사실을 찾아내어 보도하는 것이다. 거대 데이터를 수집하여 분석하고, 현상과 사건을 좀 더 심층적이고 과학적으로 분석한다.
-위키디피아-
데이터 저널리즘은 다양한 관점으로 정의된다. "데이터주의자"의 관점에서는 데이터의 수집, 정리, 분석, 시각화, 스토리화 등의 과정을 통해 저널리즘을 실천하는 제반 행위라고 정의할 수 있다. 이 정의는 데이터 저널리즘의 ‘과정(process)’에 초점을 둔 것으로 기존의 저널리즘에 관한 정의를 원용하되, 변화된 부분에 초점을 맞춘 정의라고 하겠다.
지난번에 "데이터"에 대한 원초적인 의미를 정리해 보았듯이, "저널리즘"이라는 용어도 의미 짚어 볼 필요가 있다. 한국어로 좀처럼 대체되기 힘든 외국어이고, 이미 생활 중에 사람들이 흔히 사용하기 때문입니다. 또한, 그 정확한 의미를 선뜻 설명해 내기도 어렵기는 마찬가지다. "데이터"나 "디지털"처럼 말이다.
현재 사용되고 있는 저널리즘이라는 말의 뜻은 넓고 좁은 갖가지 의미가 있어 반드시 일정하지는 않은 것 같다. 좁게는 정기적인 출판물을 통하여 시사적인 정보와 의견을 대중에게 전달하는 활동, 구체적으로는 신문과 잡지에 의한 활동을 가리키는 데 사용된다고 한다. 보다 넓게는 모든 대중에게 전달하는 활동을 말하는데 이 경우에는 비정기적인 것, 출판물 이외의 비인쇄물에 의한 것, 내용적으로는 단순히 오락·지식 등을 제공·전달하는 경우도 포함해서 사용된다. 흔히 '출판 저널리즘', '라디오·방송 저널리즘', '영화 저널리즘' 등의 말이 이에 해당된다. 특히, 우리의 삶과 밀접한 "정책"과 "입안" 그리고 "공약"도 넓은 의미의 저널리즘에 해당된다고 할 수 있다.
저널리즘의 어원이 라틴어의 'diurna(나날의 간행물)'에서 유래되었다. 또한, 저널리즘이라는 말이 만들어지고 사회적으로 정착한 것이 신문과 잡지가 정보와 뉴스의 대중전달 활동을 독점하고 있던 19세기 중반 무렵이었다는 점 등을 참고해 보면 좋을 것 같다. 본래는 좁은 의미로 한정되어 사용되던 것이 최근에 와서 오히려 넓은 의미로 사용되는 경우가 많아졌다고 생각된다. 그러나 넓은 뜻으로 말하는 저널리즘도 매스커뮤니케이션과 반드시 일치하는 개념은 아니기에 이해의 난이도가 발생한다.
데이터 저널리즘은 "객관적"이고 "팩트"만 추구할까?
데이터 저널리즘은 데이터를 깊이 파내어 모으고, 정제하고, 구축하고, 솎아 내어 보기 좋은 이야기로 만드는 일련의 작업 과정이다.
- 빅데이터 저널리스트 미르코 로렌츠
보통 저널리즘은 일반인에게 "언론"으로 받아들여진다. 의미의 확장이 있어도, 결국 대중에게 공개하는 매체는 언론이기에 그러할 것이다. 그러나 언론이 스스로의 도태적 삽질로 더 이상 "진실 추구의 최후 보루"가 아닌 것이 들통 나 버렸다. 그래서 매우 비약하여 말하자면, 언론이 궁여지책으로 내 건 탈출구가 "데이터 저널리즘"일지도 모른다.
데이터 저널리즘이란 개념은 2011년 시작되었다고 이야기들 한다. 바로 폭로전문 사이트 ‘위키리크스’가 영국 일간지 <가디언>에 미국 아프간 전쟁 기밀문서를 공개하면서 시작되었다고 인지한다. 이때부터 언론종사자는 물론 시사에 민감한 세상사람들이 대량의 "데이터 기반" 보도가 가능하다고 깨닫기 시작하던 때였다. 이에 ‘유럽저널리즘센터’(EJC)는 모호하던 데이터 저널리즘 개념을 발 빠르게 정리하고 실용적인 내용까지 모았다. 그 모음으로 <데이터 저널리즘 핸드북>이란 이름의 온라인 책을 만들어 2012년 무료로 공개했다. 이로 인하여 언론계와 학계 등에서 이 개념이 자리 잡는 데 크게 기여했다. 현재 데이터 저널리즘은 ‘(정보 통신 기술적 분석이 가능한) 수학적 데이터를 분석해 유용한 정보를 생산하고 전달하는 디지털 시대 저널리즘의 한 영역’으로 자리 잡았다.
그러나, 언론이 ‘객관성의 결정체’처럼 앞장 세우며 자신들의 "주장"을 뒷받침하던 "데이터 저널리즘"에 위기가 닥치게 된다. 궁극적으로 "데이터란 무엇인가"를 고민하게 하는 여러 일들이 터져 버렸다.
대표적인 사건이 소위 "스노든 사건"으로, 2013년 미국 국토안보부(NSA)의 파견 컴퓨터 기술자였던 에드워드 스노든이 세상에 엄청난 일을 폭로한다. 바로 범정부적인 정보조직과 거대 기술기업들이 사람들의 데이터를 처리하고 조작하며 감시에 활용해 왔는지가 드러났다. 또한, 2012년 미국 대선을 정확히 예측하면서 ‘알고리즘의 신’이라는 별명까지 얻었던 통계학자 네이트 실버는 체면을 구기는 일을 당한다. 바로 정량적 방법에 기반하지 않은 보도물은 그저 “의견 저널리즘”에 불과하다고 멸시하며 비웃은 것이다. 그러다가, 도널드 트럼프 당선을 예측 불발하게 된다.
그뿐 아니라 소셜네트워크에 갇혀 현실을 인지하는 “탈진실”의 시대가 도래하면서 데이터로 무장한 "가짜뉴스"가 어떻게 여론을 호도할 수 있는지 사람들은 목도하고 있다. (비단 SNS상의 문제만은 아니다. 이미 대형, 메이저, 정통 언론매체라 자부하던 주요 방송, 일간지, 매체들도 교묘한 "세부조정"이라는 "데이터 조작"은 예삿일이 되었다. ->오마이 뉴스 "최악의 종부세 보도"참고)
http://m.ohmynews.com/NWS_Web/Mobile/amp.aspx?CNTN_CD=A0002791268
이런 사건들이 시사하는 바는 명약관화하다. 데이터나 데이터 저널리즘을 더 이상 그 자체가 완전 무결한 "순정체"로 여겨선 안된다는 것이다. 데이터는 앞서 살펴본 바와 같이, 아날로그 실세계에 대한 객관적이거나 순수하고 온전한 재현이 아니기 때문이다. 이런 데이터는 "의도"에 의해 정치, 문화, 돈 그리고 권력과 뒤엉켜 오묘한 결과물을 만들어 낸다. 저는 이를 "의도의 함정에 빠진 데이터"라고 표현하곤 한다.
결국 빅데이터 환경과 인프라에서 주요한 것은 'Function'의 기능을 하는 함수의 통이고, 변용의 장치이며, 값을 도출하는 매핑의 엔진일 것이다. 그 1:1 맵핑의 원칙은 데이터에 무결성(integrity)을 부여하고, 그 데이터로 프로세싱된 빅데이터의 산출물이 적요성(veracity)을 담보하게 된다. 이렇듯 데이터 처리의 중간과정(프로세싱, 거버넌스) 중요성을 간과하면 안 된다.
지난번에 빅데이터를 설명하면서 "무결성(integrity)"와 "적요성(veracity)"의 확보가 데이터 활용의 가장 중요한 것이라고 이야기했다. 그러나, 데이터가 "주고받는 과정", 즉 처리되고 활용되는 과정에서 데이터는 오염되거나 훼손되는 경우가 비일비재하다. 그만큼 데이터의 어원대로 잘 "주어야"하는 것도 중요하지만, 잘 "지키는" 것도 못지않게 중요하다. 훼손이나 오염이 되는 원인은 크게 기술적인 문제와 활용의 문제, 거버넌스의 문제와 저널리즘 공개과정(흔히 분석, 시각화)의 문제로 살펴볼 수 있다. 라이프 사이클로 인한 무의미, 소멸, 중첩, 개비지화와 보안의 영역은 거버넌스를 다룰 때 이야기하겠다.
지금은 데이터 분석, 공개과정에서 데이터의 무결성(data integtity)을 훼손하는 "의도"의 함정에 대해 짚어 보고자 한다. 저널리즘의 영역에서 데이터는 기술적인 거버넌싱과 같은 과정을 거치게 된다. 계획-수집-정리ㆍ정제-분석-시각화ㆍ리포팅-피드백의 과정을 거쳐 대용량의 방대한 데이터가 비교적 간단하고 이해용이한 저널 리포트로 공개된다. 그런데 이 과정 속에서 실수, 혹은 고의로 데이터가 오염되고 훼손되어 그 "과학적 담보의 객관성"을 잃어버리는 경우가 일쑤다. 바로 데이터의 무결성이 훼손된 것이다. 데이터의 무결성 훼손이 실수라면 정정과 보완으로 수습이 가능하지만, 고의라면 심각한 사회적 물의를 야기할 수 있다. 그 고의는 "의도"로 설명되며, "보정", "방향성", "논조"로 변명된다.
물론 저널리즘의 본디 성향상 "의도"를 내포하는 것을 탓할 수는 없다. 그리고 그 "의도"의 당위와 객관성을 확보하는 데이터 활용, 데이터 저널리즘의 확대는 당연지사일지도 모른다. 그러나 그 "의도"는 계획과 스토리 텔링 과정에서만 작동해야지, 수집ㆍ정제ㆍ검증ㆍ분석과정에 개입되서는 안된다. 그 과정에 "의도"가 개입되는 순간 '분석'은 '분식'의 함정에 빠져, "사실"은 그럴듯한 "거짓"으로 전락하고 만다. 그 대표적인 데이터 저널리즘의 함정은 다음과 같다.
(1) 통계(확률)의 함정: (평균의 오류 등)
"통계가 만사"라는 듯이, 기사에서 흔히 인용되는 데이터 분석의 양상은 "통계지표"다. 통계지표는 마치 간단한 산수의 계산으로만 도출되는 손쉬운 수치지표로 활용된다.
“세상에는 세 가지 거짓말이 있다. 그럴듯한 거짓말, 새빨간 거짓말, 그리고 통계다”
-영국의 정치가 벤자민 디즈레일리-
다양한 원인에 의해 통계의 오류가 발생하는데 그중 가장 대표적인 오류가 ‘심슨의 역설’이다. 특정 모집단의 확률 변수 사이에 성립된 상관관계가 그 모집단을 분할한 하위 집단에서는 성립하지 않는 것을 ‘심슨의 역설’이라고 한다.
예를 들어 의사 1이 환자를 완치시킬 확률이 30%이고 의사 2가 환자를 완치시킬 확률이 60% 일 때, 단순히 보면 의사 2가 더 실력 있다고 볼 수 있다. 그러나 의사 1이 중환자 수술을 많이 맡았고 의사 2가 그에 비해 가벼운 수술을 많이 맡았다면 단순히 의사 2의 실력이 더 뛰어나다고 말할 수 없을 것이다.
‘심슨의 역설’이 발생하는 원인에 대해 성균관 대학 서병태(통계) 교수는 “통계를 분석할 때 중요한 변수가 무시됐거나 각 부분의 표본 크기나 비율이 다른데도 불구하고 가중치를 주지 않았을 때 ‘심슨의 역설’이 발생할 수 있다”라고 설명한다. 가중치를 주지 않은 이유는 여러 가지이겠지만, 저널리즘에선 "의도"가 다분히 작동한다. 이미 설정한 "의도"에 맞는 지표를 위해 가중치를 제외하는 경우가 많다. "이렇듯, 빅데이터까지 가지 않아도 해석의 자의적 의도로 저널리즘의 팩트는 오염된다.
(2) 방법론(아카데믹)의 함정: 권위자의 한계
데이터 저널리즘에서 적용 데이터와 방법론의 "적합성"을 강조하기 위해, 연구와 분석의 '아카데믹'함을 곁들곤 한다. 분석 방법론의 권위자를 인용하고, 유명 저서의 실험 연구를 적용하기도 하고, 자신이 직접 학습한 "교과서"와 매우 주관적인 학문적 권위만을 내세울 경우 그 "방법론의 한계"를 점검하지 못하는 오류에 빠지게 된다. 이미 데이터와 릴리즈 된 결론은 오류 투성이지만 "권위자"의 위용으로 덮어 버리곤 한다. 이런 경우 다음과 같은 부연들이 붙는다. 널리, 저명한, 검증된, 대학에서 사용하는, 전문가들에 의하면, 등등. 그러나, 그 부연들에 대한 최소한의 검증 레퍼런스도 제공하지 않은 "주장"과 "감"일 때가 많다.
[딥러닝의 과적합]
통계 분석이 필수적인 인공지능의 한 분야인 딥러닝에서도 분석의 오류인 ‘과적합’이 발생할 수 있다. '과적합'은 딥러닝에 적용한 분석 공식 등이 이미 주어진 학습 데이터에 대해서는 올바른 결과를 출력하지만 새로 주어진 자료에 대한 분석과 예측 정확성은 현저히 떨어지는 통계분석의 오류를 의미한다. ‘과적합’은 주어진 자료 수에 비해 특징이 많은 경우 발생하곤 한다.
이전 "마태효과의 오류"에서 지적한 바와 같이, 경기 승패 예측 모형을 생각해 보면 승패 예측을 위해서는 감독의 역량, 선수들의 역량, 경기장의 상태 등 많은 특징을 고려해야 한다. 그러나 3경기의 승패 예측 자료만 주어졌다면 새로운 경기 승패 예측 시 ‘과적합’이 발생하게 된다. ‘과적합’은 자료 묶음에 비해 과도하게 많은 특징의 수를 감소시키는 방법으로 해결할 수는 있다.
위의 예시로 본다면 승패 예측에 감독의 역량과 선수들의 역량이라는 두 가지 특징만을 이용하는 것이다. 그러나 특징의 수를 과도하게 감소시키면 부작용이 발생할 수 있다. 이에 대해 통계학계에서는 “이 과정에서 해당 모형에 큰 영향을 주는 특징을 제거할 경우 예측 정확성이 현저히 떨어질 수 있다”라고 설명한다. 이 외에도 특징을 제거하지 않고 데이터를 일정한 규칙에 따라 변형해 이용하기 쉽게 만드는 '정규화'를 통해 '과적합'을 해결할 수는 있다. 그러나 이도 "이전 데이터"가 "패턴이 상수화된 축적된 데이터"에서 가능하며, 미래의 예측이나 일어나지 않은 이벤트의 예측에는 정확성이 떨어진다. 우리에게 잘 알려진 변수 계수도 그 한계점을 분명히 인지해야 한다. 지니 계수가 그 한 예다.
지니 계수는 소득의 불평등함을 나타내는 지표의 하나가 되고 있지만, 몇 가지 유의 사항이 있다.
- 같은 지니 계수여도 로렌츠 곡선이 현저하게 차이가 나면 실제 느끼는 불평등함은 다를 수 있음.
- 세금이나 사회 복지등에 의해 재분배 기능이 강한 나라의 경우, 초기 소득(세전 급여)에서의 지니 계수와, 소득 재배분 후의 지니 계수가 다름.
- 전 계층의 소득분배 상태를 하나의 수치로 나타내므로 특정 소득계층의 소득분포 상태를 알 수 없음.
[상관관계와 인과관계]
자료를 통한 현상 예측 및 분석에서 상관관계와 인과관계를 구별하지 못해 잘못된 결과가 도출되는 오류도 흔히 발생한다. 설명변수 X가 반응변수 Y를 잘 설명한다는 말은 두 변수 사이의 밀접한 관계를 나타낸 것이지 인과관계를 나타내는 것이 아니다. 다시 말해 두 변수를 1:1 매핑으로 단정 지을 수 없음에도 억지 연결하는 오류를 흔히 범하게 된다.
예를 들어 X를 화재현장에 출동한 소방관의 숫자, Y를 화재 피해액이라고 할 때 둘 사이에 양의 상관관계가 성립할 수도 있다. 그렇다고 출동한 소방관 수가 많을수록 화재피해액이 증가한다는 인과관계를 도출한다면 이는 통계의 오류에 해당할 수 있다. 제3의 요인, 예를 들어 화재의 크기가 해당 상관관계의 성립에 영향을 미쳤을 가능성이 있기 때문이다. 상관관계와 인과관계 혼동의 오류에 대해 연구자들은 “잠재변수의 존재 가능성에 대해 주의해야 한다”며 “잠재변수란 관측되지 않은 숨겨진 변수로 관측된 변수들의 상관관계에 중요한 영향을 끼치는 변수”라고 강조한다. (시계열 모형에서의 오류 확장 등)
(3) 설문 조사의 함정; 최악의 데이터 저널리즘 "여론 조사"
보통 언론 매체에서 "전가의 보도"처럼 인용하는 것이 "설문조사"다. 한국의 언론이나 SNS등 저널리즘 성격의 매체에서 가장 사랑하는 데이터를 소비하는 방법이라고 생각이 든다. 소위 "데이터" 운운하면서 보도하는 주장의 객관적 근거라고 제시하는 자료가 "설문조사"다. 그러나, 데이터를 다루는 사람으로서 "설문조사"로 풀어 가는 콘텐츠는 일단 째려볼 수밖에 없다. 그중 최악은 "여론 조사"다.
"참고로 "재난지원금 1차" 시행 전에 "나는 받지 않겠다. 더 가난한 사람을 위해 기부하겠다"라고 사전 설문에 대답한 비율은 20%였습니다. 그런데, 실제 수령자 대비 기부자는 얼마나 되었을까요?
20%? 12%? 2%? 아닙니다. 0.2%였습니다.
"데이터"의 생명은 "integrity", 즉, 무결성에 있다. "의도"가 개입된 데이터는 분식(분칠)되었을 가능성이 높다. 자의든, 타의든. 특히 "미래전망", "wish", "hope"와 같이 측정 애매한 가치일수록 두드러진다고도 하한. 그래서 문득 "한국인의 냉소적인 자기 객관화-솔직함"이 작용한 것은 아닌지 궁금도 하다.
설문조사는 다수의 사람들을 대상으로 신속하게 질문하여 응답을 얻을 수 있으므로 대단히 효율적인 방법이다.(인용하는 당사자에게만) 하지만 정작 필요한 사실은 얻지 못하고 쓸모없는 자료에 쌓여 시장에 대해 미궁에 빠질 게 되곤 한다. 그래서, 생각보다 보조 자료와 보충 연구들의 당연 연계가 되어야 함에 저널리스트의 대명사인 "언론". "기사". "보도"는 그러지 못하다. 연구 자체의 객관적 완결성이나 데이터 무결성은 큰 관심도 아니고, 비용도 많이 들기 때문이다.
선뜻 드는 예상과 달리, 설문조사는 만나서 현장 상황에 따라 계속 이야기할 수 있는 정성조사와는 다른 개념이다. 문서나 텍스트, 응답도구에 의해서 일회성으로 커뮤니케이션하는 방법이므로 다양한 오류에 빠질 수 있다. 데이터를 소비하는 대중은 이러한 오류가 어떤 상황에서 발생하는지 이해하고 조심해야 할 필요가 있다.
*가치 판단이 포함된 문장으로 설문응답자를 유도
설문 문항에 사용된 용어가 "의도"로 읽힐 가치 판단이 내포되면 답변이 진실과 다른 방향으로 흐를 수 있다.
예를 들어 "조기 영어교육을 안 하면 아이들의 영어능력 향상에 문제가 있다고 주장하는 사람들이 많다. 이 의견에 "맞다고 생각하시나요?"라고 질문하면 왠지 아니라고 답변하고 싶어 진다. 소수의 의견이라 두드러지는 "있어 보이는" 의견으로 받아들여질 수 있기 때문이다.
*표현에 대한 감도의 차이
정도와 심도를 표현하는 단어는 아무래도 사람들의 반응이 매우 주관적이라 측정이 의미가 없을 수 있다.
만약 "타사 제품은 우리 회사 제품보다 품질이 떨어진다."라는 질문은 어떤가? 도대체 떨어진다는 개념의 범위가 어디서 어디까지일까? 데이터의 오염 이전에 데이터로서의 기본 가치 "측정값"을 지니지 않기에 무의미한 조사가 된다.
*지어 낸 응답
사림들의 심리는 누군가에게 어떤 질문을 받으면 반드시 대답을 해야 한다고 생각하게 된다. 특히 참여 동의한 설문 조사라면 더욱 그러하다. 그러므로 자기가 잘 알지 못하는 사항에 대해서도 대답을 하는 경우도 많게 된다. 남들의 의견이 내 것인 양, 대세에 따라야만 할 것 같기도 하다.
"더 심각한 여론 조사? 여론 조작!"
언론들이 그래픽 등 힘을 주는 영역이 "여론 조사"가 아닐까 싶다. 특히 요즘 같이 중대선거가 있는 시점에선 더욱 그러하다. 주요 언론 매체는 각종 여론'기관'에 의뢰하여 연일 "이것이 민심이다"라는 것을 천명한다. 대체적으로 "사실"과도 멀고 "데이터 저널리즘"이라 부르기도 부끄러운 조사임에도 참 꿋꿋하다. 여론조사를 생각하니 "데이터 저널리즘"을 이렇게 이야기하는 것이 무슨 소용인가 싶다. 그럼에도 불구하고 이 조사 방식이 얼마나 위험한지 계속 이야기하는 것은 필요하다.
여론조사의 문제점은 이미 많은 시각에서 비판이 제기되고 고민되는 문제라 중언은 피하려고 한다. 그렇다면 여론 조사는 필요 없는 것일까? 그렇지는 않다. 특히 정책이나 행정명령, 기타 사회적 합의가 필요한 곳에 "공론의 지표"로 사용되어야 한다고 생각한다. 물론 보완점과 비판의 지점에 대한 수용적 태도도 동반되어야 한다. 이와 달리 언론의 보도 수단으로 여론조사를 차용하는 것에는 반대한다.
본질적으로 여론조사의 윤리와 저널리즘의 윤리는 맞지 않는다는 주장도 있다. 공론 형성을 위한 치밀한 여론조사는 잠재적 오류를 충분히 감안하여 많은 증거를 가지고서 결론을 내린다. 반면에 저널리즘은 두드러진 사실에만 관심을 두고 "의도"에 의한 보도하기 때문에 이들 간에는 화학적 결합이 어렵다. 데이터 정보기술 측면으로 빗대면, 서로 다른 코딩 체계의 메타 데이터를 마이그레이션 하는 것과 같다. 바로 여기에서 여론조사의 근본적인 문제가 시작된다고 생각한다.
미디어가 선거 여론조사에 관심이 많고 또 이를 매우 비중 있게 다루고 있는 것은 보편적인 행태로 여기어진다. 그러다 보니 미디어가 여론조사를 이용하여 뉴스를 만들어 내는 것인지, 아니면 가치 있는 뉴스 데이터와 연구를 단순히 보도하는 것인지에 대한 논란이 일고 있다. 또한 여론조사 자체가 미디어의 경쟁식, 게임식, 경마식 보도를 더욱 부추기게 되어 결과적으로 여론조사 자체가 선거에 중대한 영향을 미치는 "선거개입"이라는 논쟁도 뜨겁다. (최근 조선일보 주간의 "조선일보는 기사를 만드는 곳이 아니라, 권력을 창출하는 곳"이라는 자백과 맞닿아 있는)
그렇다면 설문조사는 데이터 저널리즘 영역에서 아무런 효용이 없을까? 아니다. "저널리즘"의 넓은 뜻에서 활용할 가치는 충분히 있다. 연재가 계속되면 "대안 제언- 정성검사 혹은 Focused Group Interview 설문"에 대한 이야기를 다루어 볼까 한다.
(4) 시각화의 함정; 매직아이 같은 그래프의 현혹
위에서 살펴본 오류와는 달리 데이터 분석 결과를 표현할 때 대중을 현혹하기 위해 인위적으로 오류를 발생시키는 경우가 있다. 소위 "대범한 조작"이라고 할 수 있는, 시각 자료의 조작이 그런 경우다. 뉴스나 신문 등 언론 매체에서는 정보 전달 시 시각화된 자료를 자주 이용한다. 시각 자료 이용 시 관련 발제자는 해당 자료를 시각적 왜곡을 통해 자신에게 유리한 방향으로 조작하고자 하는 유혹을 이겨내기 힘들다.
잘 알려진 방법으로는, 시야를 좁게 만들어 특정 부분만 눈에 들어오게 하는 ‘시야 협착 효과’가 종종 사용된다. 매체에서는 눈금과 눈금 사리의 거리를 늘이기, 그래프 일부만 확대하기, 색상을 이용해 특정 항목만 강조하기 등의 방법을 통해 그래프 왜곡을 하곤 한다. 이러한 시각 자료 왜곡을 통한 대중의 현혹은 예전부터 사용된 뻔한 방법이지만 아직까지 효과를 발휘하고 있고 정치계의 공방자료, 정책 효과 홍보에서도 사용돠곤 한다.
연재 마지막에 더 기술할 예정이지만, 거짓을 이겨내는 "진실의 눈"을 만들어 내야 한다. 우선 한 가지 예로, 『새빨간 거짓말, 통계』의 저자 대럴 허프에 따르면 그래프의 특정 부분에 현혹되지 않기 위한 고의적 "의심"이 있다.
1. x축과 y축에 유의; 특히 해당 축들의 눈금 간격이 일정한지를 점검
3. 색상을 통한 시각적 효과에 의해 특정 항목만 강조되고 있지는 않은지
5. 제시된 자료와 같이 갑자기 화살표가 등장해 해당 자료에서 그래프의 증가나 감소를 보여주고 있다면 조작 수단일 가능성이 높으니 주의
6. 특히 y축이 없는 그래프는 특히 주의: 위의 모든 조작이 용이
2015년의 마이크로소프트사(Microsoft)의 한 소비자 연구에 따르면, 오늘날 인간의 집중력 한계(attention span)는 8초라고 한다. 이는 2000년의 12초에서 4초가 축소된 것인데, 참고로 금붕어의 집중 가능시간은 9초라고 알려져 있다. 우스개 섞어 말하자면 그 금붕어 집중럭도 안 되는 8초 만에 윈도우를 닫느냐 마느냐, 다른 키를 누르느냐 마느냐가 결정된다는 것이다.
그와 비교하여 인간의 두뇌는 사실 문자성 정보보다 시각 자료를 더 빨리 처리한다고 한다. 최대 60,000배 빠른 처리한다는 사실도 찾아볼 수 있다. 이런 인지 과학적인 근거가 "데이터 시각화"가 현 21세기 현대사회에서 필수적인 역할을 한다는 이유가 된. 다소 인내와 노력이 필요한 지루하고 이해하기 어려울 수 있는 정보는 매년 수천 "경"바이트가 생성된다. 그리고 나날이 복잡해지고 난해해지는 여러 사회 문제와 현안들도 점차 고차방정식처럼 얽혀 있다. 그래서 보편적 인간의 두뇌가 쉽게 이해할 수 있는 그래프와 도표 같은 시각적 표징으로 전환하여 보고하는 방법으로 데이터 시각화, 데이터 저널리 즘이 효과적이다.
더 많은 데이터에 접속할 수 있는 상태지만, 이런 수많은 데이터에서 효과적으로 인사이트를 획득하는 능력은 감소했다. 최근 MIT 슬론 경영대학원 리뷰에 실린 글에 따르면, 2016년에서 2017년 동안 데이터 ‘접속’과 ‘인사이트 획득 효과성’의 간극이 지난 6년간 최대인 50%로 확대됐다. 한 마디로 데이터가 많다고 항상 더 좋은 결과를 얻을 수 있는 것은 아니다.
- InfoWorld, Paul Brunet / 글로벌 칼럼 ‘빅데이터를 제대로 활용할 수 있도록 돕는 ‘데이터 거버넌스’
‘데이터 활용 능력’의 핵심은 얼마나 많은 양의 데이터를 보유하고 있느냐가 중요한 것이 아니다. 데이터를 어떻게 활용할 것인가에 대한 답을 구하는 것이 데이터를 기반으로 한 가치 창출의 근본이 된다. "데이터"라는 용어를 사용하고, 나열하고 축적하는 것만으로는 가치가 부여되지 않는다.
‘데이터 활용 역량’에는 앞서 정리한 ‘데이터 거버넌스’와 ‘데이터 저널리즘; 시각적 스토리텔링’이다. 과거에는 이 두 역량 간 경계가 뚜렷했던 반면, 최근 ‘이것’의 활용으로 인해 두 역량을 아우르는 사람들이 등장, 이들의 역할에 대한 중요성이 강조되고 있다. 이들 또한 또 다른 의미의 "데이터 사이언티스트"라고 할 수 있다.‘ 데이터 시각화는 기술적으로 데이터를 다루는 전문 역량이 없어도, 시각적 스토리텔링을 위한 디자인 역량이 없더라도 데이터를 활용한 인사이트 발굴, 스토리텔링을 할 수 있도록 돕는다. 이 지점이 중요하다. 데이터 활용의 격차를 줄여 "디지털 불평등"을 해소할 하나의 수단의 된다.
데이터 시각화와 유사한 개념으로 보이는 인포그래픽과의 차이를 알면, 왜 ‘데이터 시각화’를 해야 하는지 더욱 알 수 있다. 인포그래픽은 주로 정적인 형태의 차트 이미지로, 독자에게 데이터 분석 결과에 대한 최종적이고 고정적인 메시지를 전달한다. 반면, 데이터 시각화는 정렬, 필터, 확대·축소 등의 인터랙티브 기능을 데이터 소비자에게 제공한다. 사람들은 이를 활용해 시각화 결과물과 상호작용 하며, 데이터를 탐색할 수 있다. 즉, 최종적이고 고정적인 데이터 인사이트를 수동적으로 수용하는 것이 아니라, 데이터 탐색을 바탕으로 자신만의 인사이트를 발견할 수 있다. 이런 의미에서 데이터 활용도를 높이기 위해서 데이터 시각화가 필요하다고 정리할 수 있다
1. 많은 양의 데이터를 한눈에 볼 수 있다.
2. 데이터 분석에 대한 전문 지식이 없어도, 누구나 쉽게 데이터 인사이트를 찾을 수 있다.
3. 요약 통계보다 정확한 데이터 분석 결과를 도출할 수 있다.
4. 효과적인 데이터 인사이트 공유로 데이터 기반의 의사결정을 할 수 있다.
5. 데이터 시각화를 활용할 수 있는 분야와 방법이 무궁무진하다
언론사들은 온라인으로 기사를 읽는 시대에 신문기사들의 구독력을 올릴 수 있는 방안 중 하나로 데이터 저널리즘에 주목한다. 언론매체가 차별성을 확보할 수 있는 전략이라고 생각합니다. 과연 그럴까? 각 언론사에 있는 각종 "디지털 named" 부서는 어떤 일들을 할까? 아직도 "인물정보"로 수익을 올리고, 온라인 강의 콘텐츠로 매출의 스트림을 구상하나? 아니면, 그저 "데이터"로 둔갑한 허술한 설문 조사와 적당히 "만져진" 통계 지표의 가독성을 위해 그저 예쁘게 단장하는 일만 하는가? (실제로 information beautify team이 있는 조직이 존재)
데이터 저널리즘은 "언론"만의 고유 영역은 아닐 것이다. 행정, 정치, 교육, 인문, 홍보 등 다각화된 영역에서 필요하다. 보다 나은 "데이터 활용"을 위해 "비판적 데이터 활용"이 우선되어야 한다. ” 비판적 데이터 활용"은 저널리스트가 이를 인지하고 “이 데이터는 어디에서 왔는가”, “이 데이터 저널리즘 생산물은 누구를 위한 것인가”, “데이터 저널리즘은 어떻게 시민의 참여를 유도할 수 있는가” 등을 작업에 앞서 물어야 한다는 것이다. 바로 "고의적 비판자"로서의 저널리스트의 본연을 다할 수 있는 마지막 기회일 수도 있다.
(대한민국의 데이터 저널리즘은 권력과 정부에 대한 감시, 비판에 초점을 맞추고, 영국과 미국에선 의료 체계, 빈곤 문제 등 사회 기반 시스템에 주목한다.)
논쟁과 갈등은 얼핏 필연으로 보이나 어쩌면 우리들의 선입견으로 매어 두는 지도 모른다. 갈등을 피하기 위해 논쟁하지 않는 것은 문제의 해결을 외면하는 이기적 처세에 불과하다. 서로의 고민으로 부딪혀 해결의 지점을 만드는 일에 승부를 따지는 것도 논의와 논쟁 그리고 토론을 주저하게 만드는 것이 아닌가 생각해 본다. 비판적 사고를 부정적 시각이라 단정하는 일반화도 그러하다. 변화의 시작은 비판적 의문이 시작이기 때문이다. 테이블 위에서 선의의 결과를 위해 열 띄게 논쟁하고, 토론 뒤에 어깨동무하며 복기하는 것.. 생각보다 어렵지 않은 일이다.
'갈등은 내가 스스로 그것을 갈등으로 규정하기 때문에 갈등으로 남는다...'
공갈이라는 프레임의 덫이 어느 정도 효능을 발휘한다면, 이번 정권뿐 아니라 앞으로도 시민이 중심이 되는 정치활동도 밝은 전망을 하기 어렵다. 이들의 최종 목적은 선거의 승리나 정치 이벤트의 성공이라기보다, 대중들의 철저한 정치적 무관심을 유도하는 것이기 때문일 것이다. 일반인이, 서민이, 대중이, 시민이 ‘감히’ 정치행위를 하는 것이 못마땅한 세력들의 추악한 방어이고 공격인 것이다. 그러나 이런 미디어의 공갈 형태에 대한 뒷면을 우리가 사실적으로 관찰할 필요는 있다. 그러나, 그러기에 일상은 버겁고 인생은 힘겹다.
현상을 보고 진실을 가늠하기란 점점 더 어려운 세상이 되었다. 미디어와 언론에서 쏟아 내는 정보에 대한 판단과 검증에 생각보다 많은 노력이 필요한 것이 사실이다. 그러나 이러한 귀찮음의 결과가 오늘과 같은 내일을 가져다줄 뿐이라면 어떻게 할 것인가? 그래서 고민과 다짐은 필요하다. 항상 주의를 기울이고 생활하기 어려웠다면, 지금부터 그렇게 하면 된다. 그것조차 버거운 삶이라면 일상 중 특별한 한때 노력해서 함께 하면 된다. 그 특별한 때가 바로 지금, 그리고 바로 오늘일지도 모른다. 오늘 바로 세우지 못한 나무는 내일 바르게 자라지 못한다고 한다. 오늘 고쳐 잡지 못한 물길은 내일 바다로 갈 것이라 장담하지 못할 것이다.
나중에 보자고 말들 많이 합한다. 그러나 지금 하지 못한다면 그때도 하지 못한다. 다들 알고 있고, 경험했으며, 예상하는 일이 일어나고 만다. 정치의 영역을 일상으로 생활로 가져오는 노력은 일상이 되어야 한다. 왜냐하면 우리의 일상은 늘 정치보다 소중하기 때문이다. 그래서 "디지털 격차"의 해소는 현재와 미래 문제의 키가 될지도 모른다.
데이터 활용과 저널리즘 영역에서 도출된 문제를 기반으로 대안적 제안을 마지막 토픽에서 다루고자 한다. 주로 사례와 실제 예시로, 다음 토픽인 "데이터 거버넌스"의 영역과 함께 고민해 보려 한다.