데이터 저널리즘, 어떻게 할까?

데이터 저널리즘 순서를 소개합니다

Nov 28. 2019

"데이터 저널리즘 어떻게 하나요?"

많은 사람이 데이터 저널리즘이 뭔지, 데이터팀이 어떻게 운영되는지, 어떤 과정으로 기사를 생산하는지 궁금해한다. 하지만 막상 설명하려면 복잡한 과정과 의외로 데이터의 크기만큼 사람의 노동력을 필요로 하는 탓에 실제보다 과정을 훨씬 축소해서 설명을 하곤 했다.

하지만 일을 하고 있는 나는 과정을 제대로 설명을 못해서, 궁금한 사람은 설명이 너무 짧아 늘 답답함을 느꼈다. 그래서 이번 데이터 저널리즘 스쿨*의 오프라인 미팅 데이를 준비하며 데이터 저널리즘 과정을 정리한 순서도 포스터를 제작했다.

포스터 원본 바로보기 >>

단계별로 간단하게 내용을 소개한다.

데이터 수집

시작은 역시 데이터부터. 시작부터 미리 어느 정도 조사를 해서 데이터를 수집하기도 하고, 데이터를 발견해서 프로젝트를 준비하는 경우도 있지만 둘 다 데이터에서 이야기가 시작된다.

데이터는 공개되지 않은 데이터와 공개된 데이터 두 분류로 나눈다. 공개되지 않은 데이터는 취재를 통해 입수하거나 정보공개 청구를 통해 입수한다. 정보공개 청구 후 데이터를 받으면 참 다행이지만 비공개 또는 부존재 등 데이터를 공개할 수 없다는 결정을 받으면 담당 공무원에게 전화를 하고, 다시 청구를 하고 등등.. 무한 루프를 돌게 된다. 아니면 웹사이트에 있는 내용을 크롤링 후 의미가 있도록 재가공해 데이터로 사용하기도 한다.

반면 공공데이터 포털이나 정부에서 공개한 데이터를 활용하기도 한다. 특히 고위공직자 재산 내역, 선거 후보자 데이터 등 정기적으로 공개되는 데이터들이 있는데, 이 데이터들은 데이터 저널리즘 팀이라면 한 번쯤은 반드시 활용하게 된다.

데이터 정제/분석

포스터에는 간단하게 어떤 데이터든 공통적으로 하는 정제와, 분석 방법만 적었지만 사실 실무에선 굉장히 지저분하고 자잘한 작업을 많이 한다. 책자를 스캔해 PDF로 변환 후 데이터 추출하기, PDF 변환 후 엉망으로 추출된 데이터 정제하기, 서로 다른 형식으로 쓰인 데이터 형식 통일하기 등.

기술만큼 사람의 손이 많이 필요한 정제 단계를 지나면 이리 뜯어보고, 저리 뜯어보며 분석하고 내용을 정리한다. 결국은 저널리즘이기 때문에 데이터에서 찾아낸 내용을 확인하기 위해 취재도 하고, 교차검증 등 다양한 과정을 거친다. 이 과정에서 데이터를 분석하며 세웠던 가설이 엎어지거나, 의미가 없다는 판단이 서면 그 프로젝트는 고이 접게 된다.

데이터 시각화

데이터 정제와 분석이 어느 정도 끝나면 시각화를 시작한다. 시각화에 대해 강의를 하면 사람들은 항상 어떤 기술을 배워야 하는지를 가장 궁금해하지만 제일 중요한 건 기획이다. 어떤 데이터를 어떤 형태로, 왜 이런 시각화를 하는지 정해야 작업을 두 번 하는 일도, 결과물이 산으로 가는 일도 줄일 수 있다.

시각화하는 목적에 따라 또는 데이터 형태에 따라 시각화 형태를 결정하고, 이미지 또는 인터랙티브 등 전달하는 형태 등을 결정하고 나면 구현하는 작업을 시작한다. (자세한 설명은 여기서) 작업이 끝나면 기사, 데이터 등 관련 콘텐츠를 모두 발행한다.

데이터 공개

데이터 저널리즘은 기사, 인터랙티브 시각화 등의 콘텐츠뿐만 아니라 기사에 활용한 원본 데이터도 공개하는 것이 특징이다. PDF 형태로 공개하는 Document Cloud, 원본을 공개하는 구글 드라이브 링크 또는 Github 공개 등 다양한 방식을 활용할 수 있다. 뉴스타파도 취재에 활용한 다양한 데이터를 데이터포털, 고위공직자 재산 사이트 등에서 공개하고 있다.

한 장으로 만들기 위해 짧게 줄인다고 줄였는데 여전히 길고 지난한 과정이다. 하지만 이렇게 정리하고 나니 프로세스를 설명하기도 쉽고 데이터 저널리즘에 대한 큰 그림을 그릴 수 있었다. 그리고 국내에서 처음으로 데이터 저널리즘의 과정을 국내의 데이터 저널리즘 현황에 맞게 정리, 공개해 작지만 소중한 의미도 챙겼다.

* 뉴스타파 데이터 저널리즘 스쿨이란?

뉴스타파 데이터 저널리즘 스쿨은 데이터를 기반으로 한 탐사보도의 저변 확대와 미래 데이터 저널리스트 양성을 위해 뉴스타파가 기획, 제작한 비영리 교육 프로그램입니다. 이 프로그램은 데이터 수집과 분석, 시각화 등 전 과정을 뉴스타파 데이터팀 기자들이 직접 강의하는 방식으로 구성돼 있습니다.

keyword

작가의 이전글연애의 역사를 데이터로 풀다 국회의원 후원금 얼마나 누구에게 받았을까? 작가의 다음글