화려한 시각화에 숨은 데이터

쓸 수 없거나 잘못됐거나

Aug 2. 2017

[1] 이 데이터 쓸 수 있나?

늘 어려운 게 재료의 선택이다. 메시지가 있으면 데이터가 없고, 데이터가 있어도 쓸 수가 없을 때 골치가 아프다. 타기관에서 데이터를 받아 쓰는 것도 한계가 분명히 있다. 반복적으로 하는 이야기, 다른 곳에서 썼던 데이터 등등을 빼고 나면 사실 데이터는 많이 없다. 그래서 작년부터였나 필요한 건 직접 데이터를 만들곤 한다. 그 기간은 길지만 RAW DATA의 신뢰성도 크로스 체크해 볼 수 있고, 파편화된 데이터를 모아 합쳐보면 꽤 쏠쏠한 것들이 나오면 보람도 크다. 그렇게 만든 TIDY DATA로 활용할 때 괜스레 좋다. 그래도 안 되는 것들도 있다. 겪었던 오류의 과정과 경험을 기록으로 남겨본다.

3월에 Malofiej25를 다녀오고 관심을 가지는 데이터가 북한인데, 이 주제로 데이터 활용은 쉽지 않다. 대상이 폐쇄적인 국가이며 데이터의 출처가 명시되어 있음에도 불구하고 신뢰성에선 늘 물음표가 따라오기 때문이다. 얼마 전, 프로젝트 성격으로 '북한의 숙청' 관련 시각화를 해보고자 데이터를 모았다. 공개된 데이터 / 공개됐지만 기술적 도움이 필요한 데이터 / 공개되지 않은 데이터 등 몇 가지 카테고리를 나눠서 다양한 경로로 데이터를 수집했는데 공개된 데이터로는 통일부와 연합뉴스의 북한 인물 DB가 있었고 공개되지 않은 데이터에 대해서는 정보공개 청구를 했지만 만족스러운 데이터를 얻을 수는 없었다. 모으고 모아서 김일성 정권부터 최근까지 그래도 신뢰할만한 소스를 바탕으로 숙청 DB를 만들어보면 약 50명 수준에서 관측치가 형성됐다.

다양한 경로로 수집한 북한 숙청 인물 DB

보편적인 루트로 모으기가 힘들면 기대볼 수 있는 게 언론 기사와 논문이다. 이 경우에는 각 언론사에서 나름의 취재원을 통해 획득한 데이터와 정보를 바탕으로 제작한 기사 혹은 기사와 그래픽들이 있는데 하나씩 찾아가며 취합해봤다. 북한 관련해서는 정부 쪽 기관보다는 동아일보 발 기사가 더 도움되기도 했다. 그렇게 힘들게 모았지만 이걸 외부에 당당하게 내보일 수 있는가? 아쉽지만 쉽게 그럴 순 없다고 생각한다.

첫 번째 프로젝트였고 우리끼리 프로세스를 만들고 워밍업 차원으로 해봤기 때문이기도 했지만, 중간중간 없는 데이터 값들도 꽤 있고 중요한 건 파편화된 데이터를 바탕으로 '숙청'이란 무거운 이야기를 일반화시키기엔 무리가 있다. 90% 당당하다고 나머지 10%를 간과할 순 없었다. 즉, '일반화의 오류'를 범할 수 없었다. 그리고 다른 방향에서 힘들었던 건 도메인 지식의 부족이었다. 당, 군, 내각의 구분과 특징, 왜 북한은 다양한 직책을 가지고 있는지, 부장과 부부장은 어떻게 다른지. 당의 역할은 정확히 뭔지 등을 알 수가 없어서 데이터를 범주화시키는 게 굉장히 힘들었다. 그러다 진도가 안 나가서 우린 다시 북한의 정치권력에 대한 스터디를 진행하고 이해하는 시간을 가졌던 게 기억난다.

그렇다면, 스스로 한정시킨 그 오류를 걷어내고 완벽하게 북한의 숙청 인물의 성격을 데이터로 나타낼 순 없는 걸까? 신뢰할만한 소스가 없다면 아예 못하는 건가. 뉴스를 보면 북한 전문가들은 말로 쉽게 성격을 규정하고 있는데? (김정은 때 숙청의 성격은 이렇다 저렇다. 과거와는 차이가 무엇이다라고 한다)

기존의 방식으로 쉽게 사안을 규정하지 않기 위해 데이터를 활용하는 것이라면,

그렇기 때문에 데이터에 우리는 더 엄격한 걸 지도 모르겠다.

[2] 멋진데 데이터가 틀렸다

주말에 뉴스가 시끄럽다. 북한이 또 탄도미사일을 쐈단다. 근데 사실 탄도미사일 관련 지식이 거의 없어서 저게 얼마나 심각한 건지 좀 찾아봐야지 싶었다. 다양한 기사를 검색해봤는데... 도통 맥락을 알 수 없는 단편 보도뿐이다. 합동참모본부에 정보공개 청구도 했는데... 전화 조차 받지 않는다. 그래서 스프레드시트를 열어서 여러 출처를 대조해본 데이터를 기록해보다 뭔가 잘못하고 있단 걸 깨닫는 건 한참 뒤다. 미사일과 로켓의 구분 없이 데이터를 만들고 있었던 것. 일반적으로 북한이 탄도 미사일 쏘면 우리보단 미국과 일본의 리스크가 크다. 당연히 해외는 본국에 날아오는 중장거리 미사일이 걱정이다. 국내 언론사 중에선 그 구분 없이 보도하는 경우도 많았다.

각설하면, 탄도미사일 데이터를 만든다면 대륙간 탄도미사일 (중/장거리)만 필터링해야 한다. 그럼 무엇을 빼야 하나? 지대공, 지대함 그리고 로켓이다. 미사일은 유도장치가 붙어있기 때문에 정확히 대륙을 건너 목표지점을 타격한다. 하지만 로켓은 유도장치가 없다. 국내 몇몇 언론에서 가장 많이 실수하는 부분이 바로 300mm 방사포를 포함시킨다. (정리하면, 다음에 한번 기회 되면 글을 쓰고 싶은데 숫자와 텍스트 데이터만 모으는 게 중요한 게 아니라 내가 데이터로 말하고자 하는 주제의 도메인 지식을 충분히 공부하는 것도 꽤 중요)

로이터 기사에는 2016년 4월, 10발을 쐈다고 시각화했다

다시, 국내 언론을 위와 같이 정리해보면 날짜와 발사 장소와 같은 기본적인 데이터는 틀리지 않는다. 문제는 늘 극찬해왔던 외신이었다. 관련 외신을 살펴보다가 좋은 시각화 기사를 봤는데 (좋은 시각화란 맥락을 잘 설명해줬다는 취지에서) 바로 Thomson Reuters에서 만든 <Nuclear North Korea>. 2017년은 직접 만든 데이터와 다른 게 없었지만 2016년 3-4월이 문제였다. 기사 속에서 2016년 3월은 해당 월 발사 건수 총합이 9건, 4월은 10건이다. 돌이켜 생각해봐도 한 달 만에 북한이 탄도미사일을 9-10발을 쏜 적은 없었던 거 같았다. 국내 언론과 해외 연구소 리포트를 검색해보기 시작해보기 시작했다.

유독 저때 미사일 실험을 많이 했다고 나오는데 당시 시점엔 북한의 특이사항도 별로 없던 시기였다. 그럼 어떤 출처로 쓴 거지 싶어 로이터 기사의 출처를 보니 Center for Strategic and International Studies (CSIS)라고 나온다. 들어가면 활용할 수 있는 데이터는 찾을 수 없었고 관련 이미지는 있었다. 이미지에서 2016년 총 발사수는 23 발이다. 내가 모은 데이터에서의 2016년 부분합이랑 동일하다. 하지만 로이터의 2016년 총 발사수 부분합은 34발로 출처 데이터와 맞지 않는 것을 확인할 수 있다. International Institute for Strategic Studies(IISS)에 리포트에 따르면 24 발인데 3월에 하나를 더 카운팅 했다. 이건 3월 29일의 발사체 한 발을 미사일로 간주한 것 같다. (하지만 대부분의 언론과 합동참모본부에선 300mm 방사포라고 함)

@ Center for Strategic and International Studies

기사 출처를 다시 체크해보니 '*Data compiled by...' 즉, 여러 소스들을 편집했단 소리다. 원래 Raw data는 없었고 여러 출처를 종합했단 것인데 다시 국내랑 비교해본다. 연합뉴스, KBS, 조선일보, 중앙일보 등 다양한 미디어에서 보도한 기사를 바탕으로 살펴보면 3월은 10일과 18일에 총 4발, 4월은 15일, 23일, 28일에 총 4 발이다. Reuters에서 말한 각각 9, 10발이 되려면 300mm 방사포를 더해야 하는데 본 기사에 방사포는 제외시켰다고 명시해놨다. 즉, 로이터에서 데이터를 수집하는 사람의 실수 혹은 미사일 범주의 혼동이 아닐까 추측해볼 수 있다.

탄도미사일 일지의 기록 과정 2003 - 2017, 아직 빈 값들이 있다

<다양한 2016년 북한 미사일 도발 일지 그래픽>

작년 이야기지만, 뉴욕타임즈에서도 비슷한 실수를 했었던 적이 있다. 전 세계 각 도시의 기후 변화 시각화, 'How Much Warmer Was Your City in 2015'에서 country code가 잘못되어 있었다. 즉, 시각화도 틀렸었는데 만든 기자에게 트윗을 했더니 바로 수정해줬던 게 기억난다. 믿고 보는 뉴욕타임즈의 시각화에서도 종종 이러한 실수가 나오고 있으니 재료가 된 데이터에 대한 맹목적인 믿음보다는 합리적 검증은 해봐야 하겠다.

오류를 해당 기자에게 말했더니 그제서야 수정해줬다

멋진 요리의 시작은 좋은 재료에서부터

원천 데이터에 대한 신뢰성 그리고 검증에 대한 이야기였다. 종종 이런 생각들을 한 적이 있다. 공공데이터는 100% 믿고 쓸 수 있는 걸까? 결국 사람이 값들을 입력했을 텐데. 미세먼지 데이터가 정확할까? 센서와 수집 위치에 따라 값은 다를 건데. 활용한 데이터에 대하여 따지고 또 엄격해진다면 모든 건 원론으로 돌아갈 것이다.

불편을 말로만 하는 것보다는 검증의 실천이 중요하지 않을까?

생산주체에 대한 신뢰성은 가져가지만 검증하는 자세를 잃지 않는 게 중요할 것이다. 데이터도 애정을 가지고 보고 또 보면 안보이던 것들이 보이는 순간이 온다. 그때 아웃라이어들을 발견하고 실수들을 찾아서 고쳐나가는 과정을 진행하고 또 공유하면서 발전시켜나가면 좋겠다. (이렇게 글을 썼지만 나부터 잘해야지... 종종 실수한다)

그다음에 우린 멋진 시각화를 구현하자라고 말하고 싶다.

keyword

배여운 직업 언론인

SBS 데이터저널리즘팀 마부작침에서 데이터를 만집니다

구독자 461

매거진의 이전글마포구는 원래 1차선인가요?업무추진비, 지난 두 달간의 기록 ①매거진의 다음글