brunch

You can make anything
by writing

C.S.Lewis

by delight Jan 20. 2022

보이는 데이터가 다는 아니다...다크데이터의 세계

다양한 분야에서 데이터가 분석이 갖는 중량감이 점점 커지고 있는데, 데이비드 핸드가 쓴 책 다크데이터는 보이지 않고, 인식할 수 없는 데이터, 제목대로 다크데이터의 중요성을 간과해서는 안된다고 강조한다.


다크데이터라는 용어는 물리학의 암흑물질에 비유할 만 하다. 다크데이터는 우리한테 보이지 않으며 기록되지도 않지만 우리의 결론, 결정, 행위에 막대한 영향을 끼칠 수 있다. 그리고 나중에 소개할 몇 가지 사례에서 드러나겠지만 미지의 것이 숨어 있을 가능성을 우리가 알아차리지 못하다면 그 결과는 참담하거나 심지어 치명적일 수도 있다. 다크 데이터는 발생 형태가 다양할 뿐만 아니라 발생 이유도 가지각색이다.


책에 따르면 보이는 데이터를 갖고 분석한 결과물이 진실을 드러내지 않을 때도 많다. 저자는 몇 가지 사례를 들었는데, 나름 와닿는 부분들이 많아, 일부를 공유해 본다.


우선 설문 조사를 사례로 든 부분이다.

  비슷한 현상이 벌어지는 예로 무응답이 문젯거리가 되는 설문 조사가 있다. 보통의 경우 연구자들은 이론상으로 답을 얻고자 하는 대상의 전체 명단을 갖고 있지만 마찬가지로 보통의 경우 모두가 응답하지는 않는다. 만약 응답한 사람들이 그러지 않은 사람들과 어떤 식으로든 다르다면 연구자들은 통계가 전체 집단의 속성을 잘 짚어내는지 의심해봐야 한다.    어쨋거나  어느 잡지가 구독자에게 '잡지의 설문 조사에 응답하시겠습니까?'라는 단일 설문 조사를 했는데, 응답한 이들의 100%가 예라고 대답했다는 사실을 놓고서 모든 구독자가 설문 조사에 응답했다는 뜻이라고 해석할 수는 없다.


공무원들이 나름 데이터로 뭔가 의미 있는 일을 해보겠다고 했지만 결과적으로 뜻하지 않은 결과에 직면할 수도 있다.

  많은 도시는 도표 표면에 움푹 팬 구덩이가 골칫거리다. 물이 작은 틈으로 들어가서 겨울에 얼어버리는 바람에 틈이 더 넓어지는데 자동차 타이어가 그 틈을 지나가면서 도로가 더욱더 훼손된다. 이런 악순환이 계속되나 결국 도로 타이어와 차축을 망가뜨릴 만큼 큰 구덩이가 생기고 만다. 
  보스턴시는 현대 기술을 이용해 이 문제를 해결하기로 하고 스마트폰에 내장돼 있는 가속도계를 이용한 앱을 내놓았다. 구덩이를 지나갈 때 자동차의 진동을 감지한 다음 GPS를 이용해 구덩이의 위치를 시 당국에 자동으로 전송하는 앱이다. 대단하지 않은가? 이제 도로 유지보수팀은 어디로 가서 구덩이를 메워야 할지 정확하게 알게 되었다.
  이 앱은 현대의 데이터 분석 기술을 바탕으로 한 비용이 적게 들면서도 탁월하게 현실 문제를 해결하는 방법처럼 보인다. 그런데 문제가 하나 있다. 자동차와 비싼 스마트폰 소유자들은 부유한 지역에 집중되어 있을 가능성이 크다. 따라서 가난한 지역에서는 구덩이가 탐지되지 않을 가능성이 크므로 결코 구덩이를 메우지 못할 수 있으며 구덩이 문제를 해결하기는 커녕 사회적 불평등을 더욱 심화시킬지 모른다. 방금 다룬 상황은 TRAN 사례(어떤 데이터가 빠져 있음을 아는 경우)와 다르다. 여기서 우리는 빠진 데이터가 있는지 조차 모른다.


트위터에 데이터가 쏟아진다고 그게 상황을 제대로 보여준다 생각하는 것도 오판일 수 있다.

  2012년 10월 하순 허리케인 샌디, 일명 슈퍼 태풍 샌디가 미국 동부해안을 강타했다. 당시 샌디는 미국 역사상 두번째로 크게 피해를 끼친 허리케인이자 대서양에서 발생한 허리케인 중 가장 큰 규모로 기록되었다. 
  이 사건은 한편으로 현대 미디어의 승리이기도 했다. 허리케인 샌디라는 진짜 폭풍이 닥쳤을 때 진행 상황을 설명하는 트위터 메시지의 폭풍도 함께 닥쳤다. 트위터는 어디에서 무슨 일이 벌어지는지 뿐 아니라 누구한테 벌어지고 있는지도 알려주는 장점이 있다. SNS 플랫폼은 실시간으로 사건 현장 상황을 알려주는 수단이 되기도 한다. 허리케인 샌디가 발생했을 때도 SNS는 제 몫을 톡톡히 해냈다. 2012년 12월 27일에서 11월 1일 사이에 샌디 관련 트윗은 2천만 건이 넘었다.  
  이 정도면 허리케인 진행 상황을 지속해서 추적할 수 있는 이상적인 데이터로 손색이 없을 듯 하다. 이 정보로 어느 지역이 심각한 손해를 입었고 어디에 긴급 구조가 절실한지를 한눈에 파악할 수 있기 때문이다. 하지만 나중에 분석해 봤더니 샌디에 관한 트윗이 가장 많이 나온 곳은 맨해튼이었고 로커웨이와 코나아일랜드 같은 지역에서는 트윗이 매우 적었다. 로커웨이와 코나아일랜드에서 그만큼 피해가 심각하지 않았다는 뜻일까? 맨해튼의 지하철과 거리가 물에 잠긴 것은 사실이지만 맨해튼이 뉴욕에서 가장 심하게 타격을 입은 지역은 아니었다. 당연하게도 진실은 트윗이 적었던 지역은 허리케인 피해가 적은 게 아니라 트윗을 올릴 스마트폰, 곧 스마트폰 사용자가 적었다는데 있었다.
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari