brunch

You can make anything
by writing

C.S.Lewis

by 이기은 Keyeun Lee May 01. 2021

데이터 저널리스트를 위한 R커리큘럼

'R만한 데이터저널리즘' 제작 후기

국내 데이터저널리스트를 위한 R 커리큘럼! SBS 데이터저널리즘팀 마부작침 인턴을 하며 작년 9월부터 여운선배, 그리고 지연언니와 만든 데이터저널리즘 블로그, 이름하여 'R만한 데이터저널리즘' 이다. 셋이서 약 6개월 간 주말에 줌을 통해 또는 실제로 만나 커리큘럼을 고민하고, 내용을 작성하고 서로 피드백하며 차근차근 완성해나간 과정을 정리해보았다.


1. R과의 첫 만남


R 처음 익히게   학교 수업을 통해서였다. R 활용한 데이터 통계 분석 수업과 시각화 수업을 동시에 들은 덕에 언어를 빠르게 익힐  있었고, 체감상 이전에 접한 다른 언어(파이썬, 프로세싱 등등) 보다 쉽다는 인상을 강하게 받았다. R 실력이 본격적으로 늘게  계기는 작년 SBS 데이터저널리즘팀 마부작침에서 인턴을 하면서였다. 아무리 학교 내에서 R 활용한 프로젝트를 했다 하여도, 제한된 시간 안에(!) 주어진 퀘스트를 수행하는  실력 향상지름길이었다.


2. R만한 데이터저널리즘을 만들게 된 이유


R만한 데이터저널리즘을 만들게 된 계기는 워싱턴포스트 기자의 R 커리큘럼 블로그였다. 여운선배가 소개해준 이 사이트는 R을 처음 공부하기에도 적합하고 특히 저널리즘 실무에서 사용하기 좋은 것들을 쉽게 상술해놓았다는 점에서 매력적이었다. 이에, 여운선배 그리고 함께 인턴을 했던 지연언니와 '우리도 해보자!'라는 호기로운 다짐 하에 국내 데이터저널리스트를 위한 R 커리큘럼을 만들기 시작했다.

킵고잉 R만한 데이터저널리즘!


3. 좌충우돌 제작기


처음 시작만큼 여정이 항상 순조로웠던 것은 아니다. 여운선배의 긴 데이터저널리스트 경력 덕에 필요한 커리큘럼을 알차게 구성하는 데에는 무리가 없었지만, 작성하다 보니 더 혹은 덜 작성된 부분들이 있어 교차 피드백을 여러번 거쳐 내용을 완성해나갔다. 맥과 windows에서의 차이나 자바 오류 등 커리큘럼을 따라가다 발생할 수 있는 주요 변수들을 최대한 커버하는 데 집중했다. 릴리즈 하기 위한 플랫폼에 대한 고민도 있었다. 미디엄, 깃북 등 여러 플랫폼을 유목민처럼 떠돌다 최종적으로 어느 환경에서나 보기 편하고 오류가 적은 노션을 택했다.

사실 깃북으로 탄생할 뻔 했던 R만한 데저널


여담이지만, 데이터저널리스트들에게 R이 꼭 필요한가?라 혹자가 질문하면 개인적으로는 꼭 그렇다고 답하기에는 어렵다. 세상에는 수많은 언어가 있고 R 외에도 파이썬과 태블로 등을 활용해 좋은 기사를 작성하는 분들도 많기 때문이다. 그럼에도 불구하고 데이터저널리스트 중 다수가 R을 사용하고 있음은 분명하며, 누군가가 내게 데이터저널리즘을 위한 언어를 추천해달라고 말한다면 망설임 없이 R을 추천할 것이다. 그 이유는 R은 진입장벽이 낮고 다양한 라이브러리를 익힐 필요없이 tidyverse 세계관 안에서 데이터 정제, 분석부터 시각화까지 쉽고 정확하게 해낼 수 있기 때문이다. 그런 의미에서 우리가 제작한 커리큘럼이 현직 기자 혹은 기자 지망생들에게 좋은 학습거리가 될 것이라 자신한다.



4. 우리의 셀링(!)포인트


그렇다면 데이터저널리스트(지망생)을 위한 R 커리큘럼, 'R만한 데이터저널리즘'의 셀링 포인트가 무엇인가?! 나름의 PR을 해보자면 크게 2가지 포인트로 정리할 수 있다.


#'국내' '데이터저널리즘' 특화 커리큘럼

데이터 사이언스에서 사용하는 R과 데이터 저널리즘에서 사용하는 R의 가장 큰 차이점은 개인적으로 '정제'에 있다고 생각한다. 물론 전자 역시 데이터 정제를 필요로 하지만 데이터 저널리즘에 있어서 정제의 중요도는 훨씬 커진다. 게다가 '국내'라면 더더욱 중요하다. 보통 정보공개청구를 하거나 이미 공개된 관공서의 데이터를 토대로 기사를 작성하는데, 결코 분석 친화적 형태가 아니기 때문이다. 본 커리큘럼은 이러한 난해한(!) 데이터들을 어떻게 하면 컴퓨터가 좋아하는 tidy한 형태로 만들 수 있는지에 많은 부분을 할애했다.


더불어 실무에서 쉽게 사용할 수 있는 크롤링, GIS 분석 등의 내용도 간단히 담아 다양한 데이터를 R에서 가지고 놀 수 있도록 커리큘럼을 구성했다. 또한 마지막에는 정보공개청구 팁, 데이터저널리즘 레퍼런스 소개 등도 정리해 데이터저널리즘에 관심있는 이들에게 꼭 필요한 내용을 꾹꾹 눌러담았다.


#모든 데이터는 준비되어있다

앞서 언급했듯, 모든 프로그래밍 언어는 직접 해봐야 는다! 그러나 기존 구글링을 통해 알음알음 배우는 R 내용은 데이터를 제공하지 않을 뿐더러 보통 외국 데이터나 R 내장 데이터(iris~) 인 경우가 많다. 우리는 접목이 가능하다면 최대한 국내데이터를 활용해 각각 파트를 작성해 유저가 직접 데이터를 다운받아 코드를 작성하며 따라올 수 있도록 내용을 구성했다. 특히 마부작침에서 기사를 쓸 때 활용했던 코드를 녹여내 "실제로 이렇게 사용한다(!)"라는 것을 보여주려고 노력했다. 예를 들어 정규표현식 같은 경우, 중요성은 익히 들었지만 대부분의 코드가 영어를 타겟으로 하고 있어 한글 데이터에 바로 활용하기에는 조금 머릿속에서 버퍼링이 걸리는 경우가 있다. R만한 데이터저널리즘에서는 마부작침에서 업무추진비내역을 분석했을 때 활용한 코드를 기반으로 정리해 최대한 독자들의 이해를 도우려했다.


이 포인트를 모두 넘어 가장 자신있게 말할 수 있는 점은 나와 지연언니도 R을 사용하다 가끔 막히면(!) 이 블로그를 참고해서 해결한다는 것이다 ㅎㅎ 모쪼록 이 블로그를 참고해 공부하는 사람들에게 조금이라도 도움이 되길 바라며, 글을 마무리해본다.


+) 꾸준히 업데이트할 계획이니 오류와 개선할 점은 언제든 노션 하단에 적힌 contact email로 연락 주시길 바랍니다! :)

작가의 이전글 한국 수제맥주, 데이터로 살펴보다
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari