brunch

You can make anything
by writing

C.S.Lewis

by SSEN Feb 07. 2021

실무에서 데이터를 다루는 방법을 보다

데이터 분석과 저널리즘 리뷰

데이터 시각화의 이론과 그래프 사례에 집중했던 2020년을 보냈다면, 올해부터는 좀 더 본격적으로 실무에서 데이터를 다루는 방법에 대해 알아보고 싶었다. 

데이터 시각화가 특정한 툴이나 방법만을 다루는 것이 아닌 만큼 어떤 프로젝트에 어떤 프로그램과 방식이 쓰이는지 개별적인 이해가 필요하다. 그래서 조금 낯선 책을 붙잡았다. 

데이터 분석과 저널리즘. 함형건 지음┃컴원미디어┃2018년 6월


"데이터 활용 보도와 탐사보도에 관심은 있지만 진입장벽에 부딪혀 망설이는 사람들을 위한 입문서"(5p)

데이터 시각화에 관심을 가지고 관련된 사례를 모으다 보면 한번 이상은 데이터 저널리즘과 만나게 된다.
공개된 데이터에서 이상한 부분을 찾아내고 어떤 문제가 있었는지를 찾아내는 탐사보도라는 것도 존재하므로.
30대에 들어 가장 좋아하는 영화인 스포트 라이트도 결국은 데이터 탐색을 통해 관련 케이스들을 찾아낸 탐사보도의 과정을 그린 것이었다.(스포트 라이트는 요즘도 기운 떨어질 때 한 번씩 챙겨보는 영화입니다. 추천합니다)


다양한 도구 맛보기

이 책에서는 데이터를 다루기 위해 사용되는 여러 가지 도구들을 맛보기로 체험해 볼 수 있다. 내 경우에는 데이터 시각화를 위해 여러 도구들을 쓸 것을 예상하고 있어서 적절한 방법이 되었지만 보는 사람들에 따라 어떻게 느낄지는 다를 것 같다.

책에서 언급하거나 다루는 도구들은 엑셀/스프레드시트/태블로(태블로 퍼블릭)/QGIS/파이썬/노드 엑셀 정도인데, 내경우는 태블로와 QGIS를 중점적으로 따라 해 보고 다른 도구들은 내용만 읽고 넘어갔다. 아무래도 책이 나온 시점과 현재가 달라서 버전이 다르거나 현재는 서비스하지 않는 도구도 있기 때문에(구글 퓨전테이블은 현재 서비스 종료) 아예 익숙한 툴이 있을 경우에는 같은 데이터로 다른 툴을 이용해서 책에 나온 질문들을 해결해 나가는 방법도 고려할만하다. 


내 경우엔 그나마 익숙했던 툴이 태블로 였는데, 그래서 좀 더 익숙하게 작업했던 것 같기도 하다. 실무 기준으로 설명하기 때문에 바로 적용할 수 있는 기능을 중심으로 빠르게 설명하고 있다.

태블로 퍼블릭(왼쪽)과 QGIS 실습화면(오른쪽)



기록한 글

데이터 저널리즘은 "다양한 데이터를 분석하고 인터랙티브한 결과물로 사람들이 이용하게 만드는 저널리즘의 전반적인 과정에 주목하게 만드는 차이점"이 있다.(36p)


부동산, 경제, 금융, 인구, 국토공간, 주변 상권 자료, 환경, 교통, 범죄 관련 공공데이터베이스가 서로 연동되고 여기에 민간의 창의성이 결합되면, 수없이 많은 공익적인 어플과 데이터 저널리즘 콘텐츠, 상용 서비스를 만들어낼 수 있을 것이다.(41p)


엑셀의 기능과 함수는 수백 가지가 넘을 정도로 다양하지만, 언론 현업에서 사용할 기능은 전체의 10% 미만으로 압축된다

각종 함수 기능과 정렬, 필터링, 피벗 테이블 4가지가 데이터 속에서 기삿거리를 포착하는 핵심기능이다.(91p)


쿼리문의 장점은 하나의 워크시트 안에서 다양하고 복잡한 질문을 체계적으로 던지고 탐색해 볼 수 있다는 데 있다

해외의 탐사 보도 기자들은 대규모 데이터를 확보한 다음 수십 가지의 쿼리를 만들어 데이터를 인터뷰하면서 특이점이나 패턴을 찾는다. 쿼리문을 직접 입력하는 습관을 들이면 체계적이고 논리적인 사고를 키울 수 있고, 자신이 만든 쿼리가 일지처럼 기록되므로 작업 과정을 한눈에 훑어볼 수도 있다. (126p)


여기에 GIS 전문 소프트웨어를 접목하면 더 심층적인 취재를 할 수 있을 것이다. 각 경찰서와 범죄 발생 지역 간의 평균 거리를 계산할 수도 있을 것이고, 각 경찰서의 관할 구역 내에서 발생한 범죄 발생빈도와 종류, 특징을 분석할 수 있다.

공간 통계 알고리즘을 사용하면, 범죄가 일어날 가능성이 특히 높은 지역을 짚어낼 수도 있다. 특정 시간대와 범죄 장소, 범죄 유형, 피해자 성별, 나이 등의 변수를 연계해 분석해 보면 범죄 발생 패턴을 읽어낼 수도 있을 것이다.(273p)


데이터 저널리즘은 기자만의 것이 아니다

책의 저자가 강조했던 내용이기도 하지만, 이 책은 전문적인 기자들을 위한 책은 아니었다. 데이터와 데이터가 가진 인사이트에 관심이 있다면 누구든 한 번쯤은 볼만한 책이다. 개인적으로 데이터를 바탕으로 시각화를 통해 문제제기를 할 만한 부분을 찾아내고 그 근거자료를 만들어내는 과정이 내게는 꽤 짜릿한 것이었다. 앞으로 점점 넓고 깊게 공개되는 공공데이터들을 바탕으로 한 많은 질문들과 그에 대한 대답들을 이끌어 내기 위한 입문서로서 추천한다. 



 

매거진의 이전글 2020년 데이터 시각화 공부-결심 편
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari