내가 뽑은 NICAR Top 3
SBS 데이터저널리즘팀 [마부작침]의 인턴이 되기 전에, 혼자서 R 프로그래밍 책을 사서 공부했었다. 책 앞에 나온 내용부터 쭉 따라 하면서 공부했다. 웬걸, [마부작침] 인턴으로 출근했는데, 분석가 선배들이 dplyr가 유용하다고 말한다. 그게 뭐지..? 책에서 본 적 없는 단어였다. 책에서는 R의 기본 패키지부터 차근차근 설명하느라, 정작 실무에서 유용하게 쓰이는 tidyverse 라이브러리에 관한 언급이 없었다.
유용한 라이브러리를 실무 현장에 와서야 알게 되다니, 너무 아쉬웠다. 데이터 저널리즘에서 잘 쓰이는 라이브러리를 알기 위해선, 무작정 구글링을 하는 것이 아니라 다른 데이터 저널리스트들의 작업물을 찾아야 했다. 해외 유명한 데이터 저널리스트의 깃허브를 찾으면 되는 걸까? 언론사 홈페이지를 뒤지면 되는 걸까? 정답은 NICAR였다. NICAR은 일 년에 한 번 열리는 미국의 데이터 저널리즘 컨퍼런스로, 데이터 저널리스트들이 모여서 서로의 꿀팁과 코드를 공유한다. 비행기 타고 미국에 직접 가서 컨퍼런스를 즐기면 너무 좋겠지만 쉽지 않은 일이다. 다행히 NICAR 컨퍼런스의 자료들을 다 모아서 블로그를 만든 분이 계시다. 나는 이 분의 블로그 덕분에 NICAR의 자료들을 공부할 수 있었다.
NICAR에 관한 내용은 아래 사이트에서 확인할 수 있다. NICAR은 미국탐사보도협회인 IRE에서 개최하는 행사 중 하나다.
https://www.ire.org/about-ire/
아래의 블로그에서 NICAR의 자료들을 볼 수 있다. PPT로 되어있는 자료도 있지만, 주로 github 페이지로 이동한다.
https://www.machlis.com/nicar19.html
http://apps.machlis.com/shiny/nicar20_resources/
NICAR 자료에는 정말 다양한 내용들이 있다. Python, R, d3js 등 프로그래밍 언어를 가르쳐주는 튜토리얼도 있고, 현장에서 유용하게 쓰이는 툴을 소개하기도 한다. (하지만 이런 툴들은 유용하게 잘 쓰려면 대부분 돈을 내야 해서 아쉽다.) 내가 필요한 내용 위주로 공부했는데, 그중 top3를 소개하고자 한다.
ggplot2이 시각화에 유용하지만, 내가 그린 차트들은 너무 못생겨서 속상했다. 너무 밋밋한 느낌. 후작업 없이도 보기 좋은 시각화를 만들고 싶었다. 그렇다고 ggplot2의 여러 theme 중에 하나를 골라서 쓰기는 싫었다. 나 스스로 customizing 하면서 차트를 잘 만드는 법을 알고 싶었다.
https://bbc.github.io/rcookbook/
짜잔! BBC data team에서 만든 오픈소스다. BBC 만의 theme 코드를 공개했으니 필요한 부분을 customizing 하면서 쓰면 된다. 심지어 차트 종류마다 설명이 달려있다. 필요한 내용만 쏙쏙 골라서 연습하기 좋다.
나름 Tidyverse 패키지로 열심히 코드를 짰지만, 내 코드가 뭔가 더럽다는 느낌을 받았다. (...) 깔끔한 tidyverse 코드를 찾아서 NICAR 자료를 살피다가 발견한 깃허브다. Tidyverse를 배우고자 하는 사람들을 위해 차근차근 정리되어 있다. Tidyverse에 대해 어느 정도 알고 있는 사람이라면 몰랐던 꿀팁들을 발견할 수 있다. 예시 데이터도 첨부되어 있어서 편하게 따라 할 수 있다. 다만, 데이터 파일을 불러올 때 'file not exists'라는 에러 문구가 나올 수 있는데, 파일 경로 설정만 다시 하면 해결할 수 있는 에러니까 너무 당황하지 마시길!
https://github.com/ameliamn/data-science-in-tidyverse-nicar-2020
데이터 저널리즘 덕후로서 해외 레퍼런스를 구경하면 너무 재밌다. 나는 해외 레퍼런스들을 '재밌다'는 이유로 좋아한다. 그 차트들을 왜 만들어야 하는지 분명하게 설명하기보다는 그저 재밌다는 감정이 앞섰다. 차트를 보면 명확하게 복잡한 내용을 파악할 수 있다는 건 알지만, 차트의 효과를 체계적으로 정리해본 적은 없었다.
로이터, 뉴욕타임즈 등의 그래픽 디자이너들이 차트를 왜, 어떻게 만들어야 하는지 설명한 슬라이드다. 차트를 제작할 때 어떤 고민을 해야 하는지 깔끔하게 정리되어 있다. 특히 지도 차트의 효용에 대해 설명해둔 부분이 유익했다. 데이터 시각화를 할 땐 이 슬라이드의 내용을 명심해야겠다.
https://docs.google.com/presentation/d/1gzoPi1l8TvUJyUl-MbcBg8lssBIoODtUUsrrRD7IYYY/edit#slide=id.p
내년 NICAR 컨퍼런스는 코로나 덕분에(?) 온라인으로 진행된다고 하니 꼭 참석하고 싶다. 깃허브 보면서 따라 해도 충분하겠지만, 실시간으로 즐기면 더 재밌지 않을까?! NICAR 자료 중에 공부하고 싶은 내용들을 여럿 찜해뒀다. 차근차근 공부해야지!