brunch

You can make anything
by writing

C.S.Lewis

by 이기은 Keyeun Lee Jan 21. 2021

노션과 R로 정리한 마부작침 인턴 생활

2020 하반기 SBS 데이터저널리즘팀 인턴 활동을 마치며

#잊지못할날들

누구에게나 2020년은 유례 없는 바이러스로 인해 평생 잊지 못할 해가 되었을 것이다. 하지만 내게 2020년은 조금 다른 의미에서도 잊지 못할 한 해였다. 바로 SBS 데이터 저널리즘팀 [마부작침]에서 6개월 간 인턴이 되어오랜 기간 꿈꿔왔던 일을 실제로 해보았기 때문이다. 


이전에는 누군가 꿈을 물으면 '데이터 저널리스트'라고 꾸준히 답해왔지만, 한편으론 불안했다. 실무에서 어떤 일을 하고, 이 일을 하기 위해 어떤 능력이 필요한지 쉬이 답할 수 없었기 때문이다. 게다가 '정말 내가 진정으로 원하는 일인가?'라는 회의가 들며 흔들렸던 순간들도 종종 있었다. 하지만 마부작침에서 일하는 동안 너무 재미있어서 심장이 뛸 수 있다는 것을 경험했다. 또한 일이 머릿속에 아른거려서 잠이 안 오는 밤을 지새우며, '내가 진짜 이 일을 할 때 보람을 느끼는구나'를 깨달았다.  

열정 넘치는 고딩 이기은의 생기부

6개월동안의 여정을 정리하는 방법을 고민해보던 중, 일하는 동안 매일 써왔던 인턴일지가 떠올랐다. 그래서 이데이터를 활용해 (한 달이 지나서야) 인턴 생활을 크게 두 가지 방법으로 정리해보고자 한다. 

1) 인턴일지 내용을 R로 분석/시각화한 후, 이를 바탕으로 글쓰기
2) 분석한 데이터를 활용해 웹 페이지 만들기

이번 포스팅은 그 중 1번의 데이터 분석 내용을 소개하려 한다. 2번은 프론트 공부를 하며 이미지 작업도 같이 진행 중이니 겨울방학이 끝나기 전에 (제발) 꼭 완성하고 싶다. 

마부작침에서 진행한 아이템들을 스케치한 것


1. 인턴생활을 데이터로! with Notion

인턴 근무시간 중 매일 마지막으로 했던 일과는 개인 노션에 인턴일지를 쓰는 일이었다. 일지는 크게 날짜, 그날 진행한 메인아이템, 업무유형, 그리고 업무내용 및 소감으로 정리하였다. 메인 아이템의 경우, 당일에 진행한 대표 아이템 하나를 기록해두었고, 업무유형은 데이터 분석, 레터 업무 등 다양한 태그로 기록해두었다. 

차곡차곡 쌓인 일지들

노션을 통해 정리한 내용을 다양한 view로 확인할 수 있는데, 해당 데이터를 Table View로 확인하면 다음과 같다. 이 상태에서 Markdown & CSV 형식으로 Export를 해주면 CSV 파일로 자동으로 변환된다. R에서 분석할 수 있는 토대가 만들어진 것이다. 

노션의 유용한 Export 기능



2. 데이터를 분석, 시각화해보기 with R


#아이템

인턴으로 활동한 기간은 2020년 6월 29일부터 12월 31일까지이며, 인턴일지를 작성한 날은 총 121일이다. 참여한 아이템은 다음과 같이 7개이다. 

1) 업무추진비 (이하 업추비) : 지난 2년간 전국 226개 기초의회에서 쓴 업무추진비 내역을 금액, 사용업종 등에 따라 분석함
2) 유기동물 : 동물보호관리시스템에 등록된 유기동물 데이터를 분석하고 정보공개청구를 통해 지자체별 보호소 현황을 조사함
3) 조두순 : 조두순 출소 D-100에 맞춰 아동성범죄의 현황과 처벌 양상을 판결문 분석을 통해 알아봄
4) 댐 : 댐 방류량과 하천 정비현황 등을 분석해 알아본 지난 8월 수해의 전말을 뉴스레터 사건수첩으로 발행함
5) 재산분석 : 감시 사각지대에 놓인 기초의원의 재산(a.k.a. 부동산) 현황을 분석함
6) 도시재생 : 도시재생뉴딜사업의 선정과정과 집행현황까지 꼼꼼히 분석해 맹점과 한계를 알아봄
7) 기타 : 뚜렷한 메인 아이템은 없지만 발제를 위한 아이템 기획, 뉴스레터 작업들을 메인으로 한 날들!

동시에 여러 아이템에 참여한 날도 있었지만, 분석의 편의상 대표 아이템 하나를 일별로 할당했다.

가장 많이 참여한 아이템은 '유기동물'로, 총 28일 간 참여했다. 팀에 합류한 이후 프로젝트 기획 처음부터 마무리까지 온전하게 투입된 첫 아이템이어서 더욱 애정을 가지고 자료조사를 하며 준비했던 것이 기억이 난다. 당시 재산분석 아이템도 같이 진행되고 있었기 때문에 재산분석 기획에는 많이 참여하지 못했던 것이 아쉽다. 마부작침에서 마지막으로 함께했던 '도시재생' 기획이 26일 참여로 '기타'와 함께 공동 2위를 기록했다.


시작은 업무추진비, 끝은 도시재생

아이템 투입 시작과 마지막 일자를 추출해 덤벨차트로 참여 기간을 시각화했다. 유기동물 아이템을 진행하던 중, 조두순 출소일이 다가와 아동 성범죄 판결문을 분석했던 일이 기억에 남는다. 댐 아이템의 경우, 직접 발제를 했던 첫 아이템으로 발제 준비까지 시행착오가 많았던 아이템이다. 8월 초 유례 없는 폭우로 발생한 수해가 단순 자연재해가 아니라 댐 관리 미숙에서 야기된 인재라는 지적들에, '실제로 수해가 일어난 지역 인근의 댐 방류량과 저수율 등을 강우량과 비교해 분석해보면 어떨까?' 하는 생각에서 시작한 기획이다. 발제 이후, 다시 데이터를 정리 및 분석하고 뉴스레터 형식으로 구성하는 과정에서 선배들에게 피드백을 받으며 기획에 대해 많이 배웠다. 


#업무유형

R로 옮긴 데이터

업무유형을 정리한 Tag들은 위와 같이 쉼표로 구분되어 csv 파일에 저장되었다. 어떤 업무를 가장 많이 했고, 아이템별로 많이 한 업무는 무엇인지 알고싶어 먼저 str_detect와 mutate를 활용해 해당하는 업무 태그가 있으면 '1', 없으면 '0'으로 정리했다. 


진행한 업무는 크게 [회의/취재/레터/데이터/기획/공부]의 카테고리로 나눌 수 있다. 세부 구분은 다음과 같다. 

1) 회의 : 레퍼런스회의, 기획회의
2) 취재 : 자료리서치, 현장취재컨택
3) 레터 : 레터업무, 레터회의 (*뉴스레터가 하나의 사이드 프로젝트 개념이기 때문에, 회의임에도 해당 카테고리에 포함하였다) 
4) 데이터 : 데이터수집, 데이터정제, 데이터분석, 데이터시각화
5) 기획 : 아이템기획, 인터랙티브기획
6) 공부 : 코드공부(R, QGIS, Python, Html/CSS/JS 등)


역시 데이터저널리즘팀은 데이터를 주로 만집니다

분석 결과, 역시 데이터저널리즘팀 인턴답게 데이터와 관련된 업무 비중이 전체 근무일의 95.9%로 가장 높았다. 구체적으로 데이터 세부 태그의 참여일수를 살펴보자면, 데이터수집이 59일(1위), 데이터정제가 30일(3위)을 기록했다. 크롤링과 정보공개청구뿐만 아니라 판결문이나 보고서 내용을 분석 가능한 데이터 형태로 변환하는 일 또한 '수집'이라고 판단했기 때문에 데이터수집을 진행한 날이 가장 많았다. 데이터 정제란, R을 활용해 오타 수정, 카테고리 분류, 세로형 데이터 변환 등의 업무를 하는 것을 말한다. 


세부 태그로는 레터업무가 41일로 2위를 차지하였다. 매주 레터에 들어갈 말로피에 어워드 수상작 소개글과 기타 데이터 저널리즘 기사 소개글을 꾸준히 작성했기 때문에 2번째로 많이 담당했던 업무로 나온 것 같다. 이 외에도 발제를 위해 아이템 기획에 몰두한 날들이 26일로 4위, 매주 월요일 진행한 레퍼런스회의가 24일로 5위를 기록했다.



아이템별로 어떤 업무를 많이 진행했는지도 궁금해 group_by와 summarise의 조합으로 아이템별 업무 유형을 정리해보았다. 눈에 띄는 것은 도시재생에 우뚝 서있는 데이터수집탑이다. 도시재생 팀원이 고생고생하며 사업 계획서와 지정기준검토서를 지자체에서 받아냈던 것이 고스란히 드러나있다. 유기동물 역시 인턴 후 처음으로 기초 지자체 226곳에 유기동물 보호소 현황과 관련해 정보공개청구를 넣었던 아이템으로, 이후 데이터를 받고 재요청 하는 등 많은 고초를 겪었던 것이 보인다. 


더불어 청록색 '인터랙티브 기획' 업무를 짚고 넘어가고 싶다. 유기동물 아이템의 경우, 더 많은 독자들에게 쉽고 임팩트 있게 전달하기 위해 인터랙티브 페이지 구상에 착수하였다. 회의를 통해 팀원들이 생각하는 페이지 구성과 레퍼런스를 공유하며 시야가 넓어지는 것을 실감했고, 스크롤 단계에 맞춰 시각적 효과를 구현하는 작업은 매우 재미있었다. 더불어 페이지 구성을 고민하며, 프론트를 꼭 공부해야겠다고 다짐했다. 디자이너 선배의 멋진 그래픽이 합쳐진 결과는 다음 유기동물에 관한 슬픈 보고서 페이지에서 확인할 수 있다.


#일기워드클라우드

다음은 일지 내용 분석이다. R의 KoNLP 패키지를 활용해 일지에 쓴 내용 중 명사를 추출한 후, wordcloud2 패키지를 활용해 워드클라우드를 만들었다. 

역시 데이터저널리즘팀은 데이터에 대해 주로 고민합니다

누가 봐도 '이건 마부작침팀 인턴이 쓴 일지구나'를 한눈에 알 수 있는 단어 선택이다. 크게 중앙에 자리잡고 있는 데이터를 가장 많이(총 155번) 언급하였고, 오늘(140번), 생각(79번), 선배(73번)이 그 뒤를 이었다. 함께 업무를 많이 하고 가르쳐주신 여운선배와 혜민선배, 인턴 동지 지연 언니의 이름도 보인다. 업무와 관련하여 꾸준히 담당해온 레터 관련 단어들과 정보공개청구, 판결문, 분석 등의 어휘부터 개인적으로 발제를 준비했던 아이템 관련 단어들도 포함되어있다. 마부작침 일을 하며 느끼고 배운 것을 이 워드클라우드 하나로 대표할 수 있겠다는 생각이 든다.


#행복지수와매칭하기

배경이미지는 가장 좋아하는 그림인 쇠라의 '그랑자트 섬의 일요일 오후'

인턴일지 이외에도 따로 하루 일기를 썼는데 이 또한 데이터로 정리해보면 어떨까 하는 생각에 약 6개월 간 Happiness Calculation Project라는 것을 개인적으로 진행했다. 사실 이름만 거창하지, 그냥 그날그날 오전, 오후, 저녁의 기분 상태를 0~100 사이 수치로 각각 기록하고, 70 이상이면 Plus 요인을 30 이하면 Minus 요인을 기록하는 방식이었다. 어떤 시기에 주로 행복 또는 우울한지, 그 감정의 주 원인은 무엇인지 tracking할 수 있는 좋은 경험이었다. 

주식 단타 종목 뺨치는 감정 지수

상당히 보수적으로 감정 상태를 기록한터라 하루 평균 감정지수의 전체 평균을 구한 결과 48이었다. 가장 높은 하루 평균 감정지수는 67이었고, 가장 낮은 지수는 17이었다. 인턴 일을 하고 두 달이 지났을 즈음 슬럼프가 온 적이 있는데, 처음으로 프로젝트 전반에 참여했던 유기동물 관련 업무를 하며 무능력함을 뼈 아프게 실감했었다. 다행히 프로젝트의 말미인 10월 중순 즈음부터 자신감을 얻으며 회복세가 나타난 것이 보인다!


시간대별로 70을 넘는 날에 기록한 plus 요인 중에는 '뿌듯' 태그가 있다. 일을 하며 느낀 보람이 큰 행복으로 이어진 날들로, 총 8일이 있었다. 대표로 7월 27일과 11월 19일의 인턴일지를 공개하고자한다.

2020-07-27
오늘은 R의 날! 오전에는 빅카인즈로 수집한 데이터를 전처리했다. 뉴스레터의 실을 수 있는 껀덕지가 나와 기뻤다. 오후에는 뉴스레터 회의를 했다. 무언가 우리에게 맞는 컨셉을 찾은 것 같아 기쁘다. 쓰는 사람이 재미있게 쓸 수 있는 콘텐츠가 매력을 발휘한다고 믿는다. 주제는 좀 더 고민해봐야겠다. 그리고 여운 선배에게 간단한 크롤링 강의를 듣고 지연센세가 추가 과외를 해줬다. html 무지렁이인 나를 알기 쉽게 넘나 잘 가르쳐줘서 고마웠다. 역시 컴공... R 넘나 잘해서 멋있다.
2020-11-19
오늘은 가덕도 신공항 데이터를 받아서 지도 구현에 꽂혔다. 가덕도 토지 소유 데이터를 쫙 지도위에 뿌리고 연도로 나눠보고, 소유구분으로도 나눠보았다. 또한 반응형 데이터를 웹으로 구현해보고 싶어 plotly 패키지를 활용해 mapbox랑 osm을 연동시켜서도 작업해보았다. 항상 외신들이 쓰는걸 부러워만 하다가 직접 해보니 재미있었다. 도시 뉴딜 아이템 작업도 계속 했는데, 000 교수가 관련 논문을 많이 썼길래 읽어보았고 도시재생대학 현진행중인 곳들을 리스트업 했다. 전문가 리스트업도 마쳤다.


공통적으로 무언가 새로운 것을 배우고 실제 결과물을 구현했을 때 행복했음이 보인다. 마부작침에서 일하는 동안, 보람이 행복으로 이어지는 일을 하고싶다는 마음이 확고해졌다. 앞으로 더욱 데이터 분석과 프론트 공부에 시간을 들여, 훗날 또 다시 뿌듯함 포인트를 거둘 수 있도록 능력치를 레벨업 해두어야겠다. 

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari