brunch

You can make anything
by writing

C.S.Lewis

by SUMMER Jan 26. 2016

데이터가 '알아서 해주지' 않아요

넥스트 저널리즘 스쿨- 시사IN 천관율 기자 

데이터로 할 수 있는 게 많다는 건 알겠다. 그러나 데이터를 그냥 보는 것과 그걸로 '기사'를 쓰는 건 또 아주 다른 이야기일 터다. 데이터를 저널리즘이 어떻게 이용해야 하는지, 데이터를 가지고 기사를 쓸 때 주의해야 할 것은 무엇인지 시사인의 천관율 기자님의 이야기를 통해 짚어본다. 

기자니므.... 알통으로 정치 신념 좌우하면 돼요, 안 돼요? 

고기 많이 먹으면 나라가 장수한다?

반면교사가 될 기사들을 살펴보는 것으로 강연을 시작했다. '고기 많이 먹으면 나라가 장수한다'는 헤드라인을 달고 나온 방송 리포트. 저도 참 고기 좋아하는데요.... 장수하는 대한민국을 위해 우리는 오늘 저녁 고기를 먹으러 가야 하는 것일까!? 어떤 데이터를 가지고 이런 기사가 나온 걸까?

1단계 농협 축산경제리서치센터 적색육 소비량과 기대수명 상관관계 조사

2단계 상관관계 0.7 GDP와 기대수명 간 상관계수에 근접

3단계 센터장"기대수명과 상관관계가 높으므로 적색육을 섭취하는 게 중요하다. 
 
4단계 '고기 많이 먹으면 나라가 장수한다' 

..................

..고기가...?..나니가?.. 

데이터를 잘 다루는 것이 얼마나 중요한지 보여주는 사례다. 데이터는 객관적이고 사람은 주관적이라는 이분법이 있는데, 네버 그렇지 않다는 것. 특히 여론조사에서 이런 부분을 상기할 수 있다. 왜곡되는 여론조사 데이터가 있다는 걸 기억해야 한다고. 


예를 들어 일간지에서 보도한 한 신년 여론조사. 2015년 12월 여론조사인데, 안철수 신당이 생기기 전이다.  이때 안철수 신당의 여론조사 지지율이 야당을 제치고 새누리당과 비슷한 수준으로 나왔다. 어떻게 이런 결과가 나왔느냐 하면, 여론조사 문항을 살펴보면  알 수 있다. 

여론 조사 문항
3번 "현 여당의 문제점은?"
4번 "현 야당의 문제점은?"
5번 "정치 변화 기대하나?"
7번 "현재 지지하는 정당은?"
8번 "안철수 의원이 신당을 창당할 경우 4월 총선에서 어느 후보에게 투표하겠니?"

이렇게 '새정치', '기존 정치에 대한 불신'을 환기하는 식으로 왜곡되는 데이터들도 있다는 것. 이게 바로 여론조사 왜곡을 부르는 '환기효과'. 


데이터 스토리텔링? = 기사 쓰기

이런 왜곡을 경계하면서, 그렇다면 데이터 스토리텔링은 오똫케 해야 좋은 것인가?

데이터 스토리텔링이란 무엇인가!?!?

데이터: 의미 있는 정보를 가진 모든 값. 사람이나 자동기기가 생성 또는 처리하는 형태로 표시하는 것.

천관율 기자는 데이터를 특별한 숫자가 아니라 '의미 있는 정보'라는 것에 방점을 찍어 이해했다. 데이터에 특정한 의미가 부여될 때 정보가 된다. 사회 현상이 있고 그를 캐치하는 다양한 방식이 있는데 그 현상들에 '야마'를 담아내면 그게 바로 '데이터 스토리텔링'이다.  


모든 기사는 데이터+ 스토리로 구성되어있어요. 데이터 스토리텔링은 좋은 기사를 어떻게 쓰는가와 동의어가 아닌가 생각합니다. 데이터는 도구입니다. 어떤 데이터가 나를 구원해준다? 그런 거 없어요. 데이터를 손에 쥐는 순간부터 고생 시작입니다. 

데이터는 도구일 뿐. 어떻게 쓸지를 고르는 게 더 중요하다. 

좋은 도구는 우리가 모르는 사실을 알려주거나 우리가 안다고 생각했던 사실의 이면을 보여줘야 하죠. 그리고 동시에 이야기를 매력 있게 하는가. 이 두 가지가 데이터를 쓸까 말까를 결정하는 거죠(...)


데이터는 '기획'을 해주지 않는다 

좋은 질문이 먼저다. 데이터는  그다음이다. 

정치인의 트위터 이용 패턴을 수집만 하면 기사가 되는가. 그렇지 않다. 날 것의 데이터 분석을 '의미'로 '기사'로 만들어내는 것은 결국 기자의 몫이다. 분석 툴 못 다뤄도 기획은 할 수 있다는 걸 생각하라는 조언. 천관율 기자가 해온 데이터를 활용한 기사들을 살펴보면서 이야기를 들어보자.  


1. 박근혜 담론 네트워크 

2011년 진보와 보수의 박근혜 독법은 '뻔했다'. 박근혜는 '왜 센가'에 대해 분석할 때, 진보는 '수첩공주'라고만 비판했고, 보수는 '신뢰의 아이콘'이라 그렇다고 답했다. 이런 통념은 사실일까? 이를 검증해보고자 나온 게 박근혜 담론 네트워크 분석 기사다.  


박근혜의 8년 치 발언록을 확보해서 담론 네트워크 분석했다. 아래와 같은 그림이 나왔다. 두둥.  

2008~2010년 (제3기) 박근혜 발언 네트워크 지도 (출처:시사인) 

하지만 이것은 기사가 안 된다........ 이걸 누가 읽어낼 수 있는가......................

이걸 처음에 딱 그리고 답이 안 나오는 거예요. 그래서 같이 분석한 회사랑 '데이터 더미'에서 추려내려고 시기별 키워드 중요도를 추렸어요. 06~07년에 갑자기 '신뢰' 키워드를 이야기하고 그 이후  '경제'이야기하더라고요. (...) 노무현, 이명박 상대할 때 전혀 다른 담론 쓰는 게 아닌가 하는  작업가설을 세웠습니다. 


그러니까, 단순히 데이터 더미를 만드는 것으론  부족했다는 게 핵심이다.

04~07년에 노무현 대상 프레임을 만들 때는 '경제와 성장'이 담론의 키워드였다. '좌파 정권이어서 국가 정체성이 불안해서 성장이 안 되고 국가 정체성 좋은 내가 해야 하고....'이런 이야기. 이명박을 상대할 때 박근혜의 담론은 '신뢰 국민과 약속 안 지키는 신뢰 없는 정권... '신뢰'... 신뢰여..... 


그러니까, 박근혜 담론은

일관된 '수첩'도 아니고 단순한 '신뢰' 담론의 반복 생산도 아니었던 것이다. 


박근혜가 내추럴 본 신뢰 아이콘이라는 보수 버전을 기각할 수 있는 거죠. 정치평론가가 '그거 아닌 거 같은데'라고 이야기하는 것보다 훨씬 더 신뢰할 만한 이야기인 거죠. 

데이터를 구해도 바로 기사가 되진 않는다. 구체화하고 2차,3차 분석하고 분석가와 기획자 의사소통 원활해야 한다. 아니면 자기가 분석하든가. 핵심 키 질문 찾기 위한 데이터셋 의사소통할수록 기사 품질이 올라간다. 


2. 이제 국가 앞에 당당히 '일베의 청년들' 분석

서울대학교 김학준 연구자와 함께한 분석. 연구자가 이미 일베 게시물 43만 개를 긁어 가지고 있었고, 10명 심층 인터뷰를 통해 A4 300장 분량의 질적 데이터도 함께 있었다.  

이때 

원저자 관심은 일베 현상의 사회학적 규명이었다. 인터넷 하위문화. 차가운 열광. 국가가 산출한 통치 대상. 이런 키워드. 

분석가는 아버지, 경상도, 교육이라는 키워드를 뽑았고

기획자인 천관율 기자는 인간 본성, 무임승차 코드.  왜 이런 패륜적 이야기가 보편적 파괴력을 갖는지에 대해 주목했다.  


데이터 분석으로 결과물을 내는 것은 결국 '협업'의 과정이 필수다.

기획자는  이때 코디네이터 역할을 하고, 유통 업자로서 알맞은 이야기를 뽑아낼 수 있어야 한다는 첫 번째 교훈. 

3. 세월호 유가족 관련 여론 변화 분석 

마찬가지로 이 기획 또한 시작점이 되는 질문이 중요했다고 천 기자는 이야기한다. 

"어떻게 여론은 세월호 유가족을 악마 화하고 고립시켰나?"

이 질문이 기획의 시작이었다. 포털 사이트 네이버 댓글을 데이터로 가져왔다. 네이버 정치 사회 섹션 주간 상위 20개 기사의 추천 상위 댓글 100개. 기사 총 건수 4000여 건. 댓글 데이터라니 '정크 아니냐'고 누군가 질문할 수 있겠지만, 온라인 공간은 날 것 그대로의 정서를 표출하는 곳이기 때문에 오프라인 여론의 선행지표가 된다고 생각했다고 한다. 

6월에서 7월 사이에 세월호는 동정, 감정이입 코드에서 특혜 코드로 확 넘어간다. 그 옆에 세금에 관련된 여론이 함께 있었다. (자세한 건 기사 원문 읽으시고) 


이렇게 분석하고 데이터의 90% 이상을 버렸다. 압축의 과정이 필수다. 

과정에서는 샅샅이 훑되 결과물은 90% 이상 버린다고 생각하시는 게 좋습니다. 

이렇게 데이터를 압축할 때 중요한 것은 '자기 규율'이다. 스스로 엄격하게 판단해야 한다. 

데이터를 이렇게 압축해도 되는 건가. 자기규율은 정말 중요해요. 도덕적으로만 중요한 게 아니라, 압축하는 과정에서 기자의 주관과 판단이 들어갈  수밖에 없기 때문에 (...) 자기를 보호하기 위해서 중요합니다. 크레딧이 무너져요. 


그들을 세금 도둑으로 만드는 완벽한 방법

4. 여성 혐오 분석

이 기사는 여성 혐오 현상을 분석하면서 '군대' 키워드가 아니라 '연애 시장에서의 좌절'이 여성 혐오로 이어지더라는 결론을 냈다. 이 기사는 특히 가설에서 가설로 점프가 많아서 매우 위태로운 방식이었다고 천 기자는 스스로 평가했다. 그래서, 언제나 '스트레스 테스트', 가장 가혹한 반대자를 두고 자기 검열을 하는 것이 필수라고 다시 한 번 강조했다. 



요약

좋은 질문이 핵심이다. 데이터는 도구다
네트워크 분석? 지리정보? 여론조사? 데이터의 종류도 질문이 결정한다.
유통업자 관점에서 생산 과정에 개입. 긴장을 해소하지 말고 팽팽하게 유지.
해석과 주관의 영역은 자기규율과 결과물의 설득력으로 방어해야.
데이터 수집만큼 중요한 과정: 데이터 버리기
기술은 알 수록 좋지만 필수는 아니다.
데이터의 품질은 가혹하게 검증. 도량형이 흔들리면 기사가 무너진다. 



그리고 천 기자님이 이야기한 오늘의 추천 책 

1. link , 알버트 바라바시 

2. 스틱, 댄 히스& 칩 히스

3. 컨테이저스: 전략적 입소문, 조나 버거



천관율 기자가 말하는 체크리스트

1. One Question: 해결해야 할 질문이 무엇인가

2. Data: 답하려면 필요한 데이터가 무엇인가

3. Prove: 둘의 관계를 가혹하게 검증했는가 

4. Back to initial state : 2번과 3번 이전의 상태로 돌아갔는가.  


좋은 기사의 원칙은 느리게 변한다. 기술은 빠르게 변해도. 이 사실을 명심하라는 조언.

사람의 말도 데이터고, 숫자도 데이터고, 지도도 데이터고. 기자는 원래가 데이터를 다루는 직업이었다는 걸 생각해야 한다. 데이터 저널리스트에서 방점이 찍힐 부분은 데이터가 아니라 '저널리스트'다. 

매거진의 이전글 버즈피드는 '데이터'를 쓴다
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari