brunch

You can make anything
by writing

C.S.Lewis

by 배여운 Dec 02. 2022

데이터가 감시가 되는 곳, 어떻게 만들었나?

<공직자재산포털>과 <데이터 창고> 제작기

최근 <공직자 재산 포털>과 <데이터 창고>를 만들어 공개했다. 그저 이렇게 한 줄로 표현하면 그간의 노력과 정성이 한 문장에 묻히는 것만 같다. 항상 데이터저널리즘 프로젝트를 끝내고 보면 결과에 집중하다 보니 과정 속에 숨어있던 실수와 의외의 복병들을 놓치고도 다시 돌아 보지 않는 경우가 태반이다. 하지만 이번에 선보인 2개의 컨텐츠는 앞으로도 꾸준히 개선하고 발전시킬 녀석들인지라, 지난 1년간의 맥락과 과정을 기록으로 남긴다. 오랜만에 쓰는 작업 일지이기도 하다. 



갑자기 왜 만든거야?


거창한 이유는 없다. 다만 오래된 희망 사항일 뿐이다. 예전부터 좋아한 미국의 언론사가 있다. 프로퍼블리카(Propublica)라고 탐사보도 매체인데 데이터 기반의 심층 취재를 잘하는 곳으로 유명하다. 뉴욕타임즈, 워싱턴포스트 등 이름있는 언론사 기자들이 자발적으로 이직해 오기도 하고, 개발자 혹은 분석가들이 데이터저널리즘 기반 탐사보도에서 주도적인 역할을 하는.. (우리의 시각에서 보자면) 특이한 곳이다. 특히, 공직감시를 위해서 데이터 활용과 공개에 무엇보다 적극적이다. 


그래서 우리 언론 환경과는 큰 차이가 존재할 수밖에 없지만 프로퍼블리카의 방식은 크게 본받을만하다. 2017년 뉴욕에 놀러 갔을 때, 회사 앞을 찾아가기도 했다 (아래 사진).

2017년 프로퍼블리카 건물 앞


어쨌든, 막연하게 언론사를 들어간다면 꼭 저렇게 해봐야지 마음먹은 게 저 때부터였던 거 같다. 다행히도 올해 제작 여건이 딱 맞아떨어졌다. 11월 14일 창사기념일에 스브스프리미엄(스프)이란 새로운 구독 플랫폼을 만든다는 결정이 났고, 구독자를 위한 컨텐츠 기획을 해야 했다. 고민할 게 없었다. 


2018년 이후 변환해 온 고위공직자와 기초의원 재산 내역 DB가 있었고 이를 쉽고 간편하게 검색할 수 있는 사이트를 만들어 공개하고, SBS 데이터저널리즘팀 <마부작침>과 탐사보도팀 <끝까지판다>가 보유한 데이터와 자료 역시 창고처럼 사이트를 제작해서 오픈하자고 제안했다.


그렇게 3월 언저리쯤? 기획이 들어갔다.



데이터에서 재산포털까지, 5년


전 직장이었던 중앙일보 데이터저널리즘팀에 합류했을 때부터 공직감시는 나의 작은 소망이었다. 데이터를 만지는 입장에서는 재산 관보 PDF는 보물창고였다. 셀 하나하나가 데이터였고 감시에 활용할 수 있는 소중한 정보였다. 토지의 경우는 지번 주소까지 나올 정도로 상세하며 종전가액과 현재가액이 나오기 때문에 재산의 증감까지도 살펴볼 수 있을 정도였다.  


다만, 이게 온갖 셀 병합과 사람 눈에 보기 좋은 형태로 형태가 구성되어 있다 보니 과거에는 언론사에서 분석하기 어려워서 깊은 분석 기사가 없었던 이유인 걸로 추측됐다. 뭐가 됐던지 고위공직자들의 재산 내역을 감시하려면 PDF가 아닌 CSV나 Excel 파일이 필요했다. 

재산 내역 PDF에서 CSV까지 10초면 끝!


어떻게 시작했을까? 한 땀 한 땀 옮겨야 했을까? 당연히 그렇게는 무리다. 수천 장의 고위공직자 재산 내역 PDF를 깔끔한 CSV(comma separated value)파일로 변환하는 코드를 개발했고, 해마다 공직자 재산 데이터 분석을 통해 기사를 썼다. 2017년 연말에 처음 코드를 짰고, 2018년도 정기 고위공직자 재산 공개 때 처음으로 포맷 변환에 성공했다. (위의 GIF)


그렇게...공직자 재산 검색기까지도 만들게 됐다. 내가 데이터를 변환하고 정제하면 디자이너와 개발자가 사이트 제작에 공을 들였다. 2019년에는 최초로 재산 검색기 사이트에서 가장 많이 검색한 공직자 순위도 보여줬고, 자동완성 기능으로 쉽게 찾을 수 있게끔 해줬다. 깔끔한 차트와 정확한 정보도 함께, 현재 재산 포털 사이트의 전신이라고 봐도 무방하지 싶다. 

당시에 흔치않은 팀이기도 했지만 그 과정 자체에 큰 보람을 느꼈고, 이게 이번 <공직자 재산 포털>의 시발점이라고 해도 무리는 아닐 거다. 2019년 관보까지는 중앙일보에서, 2020년부터는 현재 직장인 SBS에서 이 작업을 계속하고 있다. 


다만, SBS는 방송사고 8시뉴스에 무게 중심을 두고 있기 때문에 재산 검색기 혹은 포털과 같은 서비스를 운영하는 건 조금 상대적으로 어려운 환경이었다. 개발자도 없고 디자이너의 업무도 다소 다르기 때문이다. 그래서 2021년과 2022년 올해 고위공직자 정기 재산공개와 수시재산공개 때는 데이터 변환 후에 보도국에 공유만 했다. 다주택자 관련해서 기사도 썼지만 사실 재산 내역 DB가 빛을 내는 건 포털과 같은 형태로 검색할 수 있는 형태가 더 적합했다.


그런데 기회가 왔다. 올해 이걸 만들 수 있게 된 것이다. 평소에 늘 그려왔던지라 기획에서 큰 시간이 걸리진 않았던 거 같다. 고위공직자와 기초의원이란 (공직자윤리위원회 성격에 따른) 큰 카테고리를 나누고 검색할 수 있게 큰 그림을 그렸다. 

고위공직자와 함께 기초의원 재산도 함께 공개


올해는 큰 선거가 2번이나 있었기 때문에 수시공개자까지 DB에 포함시키는 수고를 했지만 내년부터는 정기재산공개자들만 검색 대상으로 할 예정이다. 당연히 예전에 경험을 살려 검색 순 옵션을 줬다. 늘 사람들의 관심 속에 있는 공직자가 누군지 알 수 있다는 장점이 있다. 덧붙여 많이들 궁금해하는 재산순 역시 볼 수 있게끔 기능을 더했다.


이렇게만 제공하자고? 그럼 정(情) 없지! 해마다 정보공개청구를 하는 목록 중에 재산심사내역이 있다. 명단까지 공개하지 않아서 기사는 못 썼지만 부처별 재산심사 결과를 알 수 있는 엑셀 자료도 함께 공개하기로 했고, 재산 내역 PDF 원본 역시 취합해서 구글드라이브로 안내하고 있다. 얼추 재산과 관련된 정보는 거의 제공한 거 같다. 



내친김에, 기초의회 내역까지 공개!

 

사실, 기초의원도 재산 의무 공개에 포함되는지 처음에는 몰랐다. 고위공직자만 공개 대상인 줄 알고, 거기에만 힘을 쏟았는데 2020년 초에 우연히 공직자윤리법을 보다가 기초의원도 의무 대상이란 사실을 알게 됐다. 그때만 해도 기초의원 재산 내역은 감시의 사각지대에 놓여 있었고, 15개 광역자치단체 공직자윤리위원회 절반가량이 재산 내역을 올려놓고 있지 않거나 이미지로 변환해서 공개하고 있다는 걸 알게 됐다. 


재산 분석은 하고 싶은데 데이터는 엉망이니, 할 수 있는 건 설득뿐이었다. 개별적으로 전화를 하거나 메일을 보내서 기계에 읽을 수 있는 형태로 공개해달라고 했다. 그렇게 2018년도 재산 내역부터 최근까지 몽땅 받아냈다. 고위공직자 관보 형식과 큰 차이가 없어서 다행히 변환 코드가 잘 먹었다. 결국 2020년도 10월에 <마부작침>팀은 국내 언론 최초로 기초의원 전수 재산 내역 분석을 보도했고 그해 한국기자상 전문보도 부문에서 수상했다.

꽁꽁 감춰져있던 기초의원들의 재산 내역을 공개할 수 있게 된 의미 있는 과정 중 하나였다고 기록하고 싶다. 덕분에 이번 공직자 재산 포털에서 기초의원들 내역까지 공개할 수 있게 됐으니깐. 


매일 포털을 들어가 인기순을 확인해 보고 있는데 생각보다 기초의원들의 재산 내역을 검색하는 구독자들이 많다. 흐뭇할 따름!



여기서 끝이 아니다. 결국 꿈꾸는 건?


그런데 말입니다. 여기서 만족할 생각은 죽어도 없다. 현재 기초의원의 경우 재산과 함께 겸직 내역도 함께 볼 수 있게끔 개발 중이다. 다음 주나 차주에 개발이 완료될 거 같은데, 결국 공직자 재산 포털로 첫 발을 내디뎠지만 종착지는 현재 이름인 <공직자 재산 포털>에서 재산을 떼고 <공직자 종합 포털>이란 청사진을 그리고 있다. 재산, 업무추진비, 겸직 등 공직자 관련 분석을 지난 5년 간 해보며 배운 건 결국 데이터와 정보는 연결시켜서 함께 봐야 한다는 거였다. 

겸직과 재산 데이터를 함께 본 이유

특히 이번 겸직 분석에서 느낀 게 많았는데, 파주시회의 한 의원님이 재개발조합장을 겸직한다고 신고했다. 물론 올해부터 재개발조합장은 불법 겸직이기 때문에 기사를 썼다. 그런데 예전이었으면 그냥 '불법 겸직했습니다'에서 끝났을 거 같지만 이번에 재산 내역을 함께 보면서 본인과 모친의 땅이 재개발 지역 내에 있다는 사실을 함께 끄집어냈다. 다른 케이스도 이와 비슷하게 데이터를 연결해서 분석하며 잡아낸 것들이 많았다. 또한, 동일인의 정보가 분산된다는 점도 꽤 비효율적이다. 


즉, 앞으로 해당 공직자와 관련된 관련 정보를 서로서로 연결(link) 할 예정이다. 그리고 그 시작이 기초의원들의 겸직 정보부터 연결할 테고. 


그뿐만 아니라 하고 싶은 게 한 가지 더 있는데 그건 비밀 쉿!



스브스 데이터, 곳간을 열어라!


그간 기사를 쓰고 데이터 공개를 하지 못해서 아쉬웠다. 주로 방송으로 기사가 나가거나 포털 중심으로 출고되다 보니 마땅히 공개할 장소를 찾지 못했다. 깃헙으로 공개해 볼까 싶어서 이래저래 만져보다가 이것도 아니다 싶었다. 레퍼런스가 있었기 때문에 만족하지 못했던 게 아닐까 싶은데, 여러분들도 한번 보셨으면 좋겠다. 바로 앞서 언급한 프로퍼블리카의 데이터 스토어(data store)를 소개한다.

https://www.propublica.org/datastore/

Tell your own story with data from ProPublica

첫 페이지의 문구다. 취지가 참 멋졌다. 우리의 데이터로 당신만의 이야기를 들려달라. 그러면서 프로퍼블리카가 생산하고 정제한 방대한 데이터를 공개했다. 무엇보다 이런 구조의 플랫폼이 필요했다. 깃헙이 좋긴 하지만 유저의 접근성이나 활용성이 떨어진다는 단점이 있었다. 개발팀에 문의했고 비슷한 형태의 프레임워크가 있다는 답을 받았다. 무엇보다 사내 CMS에 쉽게 업로드 할 수 있고 수정할 수 있게끔 별도 메뉴를 열어주겠다고도 말씀 주셨다. 이렇게 되면, 실시간으로 업로드와 수정이 가능해서 데이터를 관리하기 쉽다는 큰 장점이 있고 제목, 태그, 파일 형식, 설명글 등을 폰에서도 수정할 수 있었다.

기획 초기, 데이터창고에 올릴 데이터 리스트를 짜보니?


그리고 뒤돌아봤다. 그간 컴퓨터에 잠들어 있던 데이터가 어떤 것들이 있는지 살펴봤다. 목록을 다시 정하고 갱신 기간을 설정했다. 연도 업데이트가 필요한 자료들은 다시 다운로드하거나 정보공개를 청구해서 데이터에 쌓인 먼지를 털어내고 진열장에 올릴 수 있을 정도로 광을 냈다. 고위공직자 재산, 기초의원 재산, 침수 지도, 겸직 내역 등 다양한 데이터를 투명하게 공개했다. 앞으로도 마부작침에 쓰인 데이터는 이렇게 공개할 예정이며 끝까지 판다팀에서 입수한 자료도 마찬가지다.


이를 통해 여러분들만의 새로운 이야기를 끄집어 냈으면 한다. 앞으로도 국회 의안목록, 공동발의자 리스트, 여론조사 전수 데이터 등도 공개할 예정이다. 다만 한 가지 부탁이 있다면 원천 데이터를 쓰고 출처는 밝히면 어떨까 싶다. 그래야 공개하는 사람도 보람을 느끼고 이 같은 선순환은 지속되지 않을까?


  


끝으로, 한 마디만 


이걸 오픈했다는 걸로 불편한 분들이 있나 보다. 왜 불편한 거지...? 이유는 모르겠고 별로 알고 싶지도 않다. 다만 추측은 된다. 그리고 그 추측한 게 맞다면 정말 별로다.


애시당초 경쟁은 생각도 없었고, 글머리에서 언급했지만 고생해서 변환한 공직자 재산 데이터에 대한 언론, 시민단체들의 접근성을 높이고 공직감시란 울타리를 낮추는 게 목적이었다. 누구 혼자 할 수 있는 것도 아니고 그런 법도 없다. 그게 해외 언론에서 배운 데이터저널리즘팀의 토양이자 우리 회사에 도입하고 싶은 뿌리기도 하다. 언젠가 꽃은 피겠지 뭐. 


언론에 대한 실망이 큰 오늘이라지만, 내일은 바뀌어야 하지 않을까? 주위에 많은 기자들이 최선을 다하고 있다. 내가 몸담고 있는 곳에서 작게나마 시작해 보련다. 내가 잘할 수 있는 방법으로. 


https://premium.sbs.co.kr/corner/list/data (마부작침 기사는 여기서 볼 수 있어요!) 



매거진의 이전글 회고 2020

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari