빅데이터 시대를 어떻게 맞이할 것인가?
위의 그림은 제가 대중강연 같은데에서 시작할때 보여주는 그림입니다. "빅데이터가 무엇이냐?"는 질문에 전문가들의 반응을 보여주는 그림입니다. 위의 커다란 코끼리는 빅데이터를 상징합니다. 빅데이터라는 코끼리가 새로운 분야이고 또 너무 방대하기 때문에 어느 누구도 전체적인 그림을 보지 못하고 자기가 처한 위치에서 일부만 볼수 밖에 없는 현실을 이야기 하고 싶었습니다. 그 이야기는 다시 말해서 통계학자인 저같은 사람도 빅데이터에 대해 분명 이야기를 보탤수 있고 그 이야기는 컴퓨터를 전공한 사람이나 아니면 사회과학을 전공한 사람들이 하는 빅데이터 이야기와는 또한 다를수 밖에 없다는 것을 의미합니다. 그렇게 다양한 전문가들의 다양한 이야기들이 모여져서 집단지성의 형태로 전체 그림을 파악할수 밖에 없는게 빅데이터와 관련한 담론이 아닐까 싶습니다.
제가 이 글을 쓰게 된 동기는 최근의 빅데이터/인공지능의 담론에 통계학자들의 목소리가 적게 나오고 있는 현실에서 균형을 맞추고, 특히 정치권에서 데이터청 설립과 관련한 이야기들이 나오는 요즈음, 통계학자로서 제가 생각하는 데이터청의 역할과 선결 과제를 이야기 하는 것은 의미있다고 생각하기 때문입니다. 저는 여기서 가능한 최대한 정치적 편견이나 사심은 배제하고 이야기 하고자 합니다.
"왜 통계청이 아닌 데이터청인가?" 라는 질문에 대한 답으로는 환경의 변화를 들수 있을 것입니다. 통계청은 공식통계 작성기관입니다. 인구관련 통계를 작성하고, 실업률과 같은 몇가지 주요 경제지표를 작성하고, 사회의 변화와 관련된 통계를 생산하고, 또 사업체와 산업 관련 주요 통계를 생산하는 일을 담당합니다. 이러한 통계는 매년 또는 분기별로 생산되어서 공표되고, 이를 바탕으로 사회 각분야의 정책 결정을 위한 기초 자료로 사용됩니다. 이러한 전통적인 의미에서의 통계 생산 활동은 통계청의 영역입니다. 이러한 통계는 인터넷이 나오기 전부터 면접조사, 전화 조사, 또는 우편조사 등을 통해서 수집되었고 보통 전수조사보다는 샘플링을 통한 표본조사가 사용되고 있었습니다.
21세기가 되어서 이러한 통계생산 분야에도 변화가 생기기 시작했습니다. 첫번째 변화는 응답 협조율의 감소와 같은 조사 환경의 변화입니다. 샘플링을 통해 표본조사를 하고자 하여도 응답을 거절하고나 성실한 응답이 실질적으로 얻어지기 힘든 상황이 많아지면서 표본 자료의 대표성에 대한 확신이 떨어지고 가중치 처리나 무응답 대체와 같은 대안적 방법들이 생겨나면서 표본조사를 통한 자료 생산이 점점 더 어려워지기 시작했습니다. 두번째 변화는 분석 욕구의 증가입니다. 사회가 예전보다 훨씬 복잡해지고 다원화되면서 보다 많은 자료와 보다 다양한 자료를 얻고자 하는 욕구가 증가했습니다. 통계청에서 생산하는 통계보다 훨씬 더 많은 정보를 필요한 상황이 되었고 통계청의 제한된 인력과 인프라로서는 이를 만족시키기 어려운 실정입니다. 세번째 변화는 대안 자료의 증가입니다. 20세기에는 표본조사를 통해서 얻어지는 자료가 유일한 분석 가능한 자료인데반해 21세기가 되고 인터넷의 발달로 인해 다양한 형태의 자료가 생겨나기 시작했습니다. 각 정부부처에서도 여러 형태의 빅데이터가 나오고 있습니다. 온라인 패널조사 자료같은 것도 대표성은 떨어지지만 저렴한 비용으로 손쉽게 얻을수 있는 자료이므로 이를 제대로 분석할수 있다면 예전보다 훨씬 수월하게 새로운 발견을 하고 어떤 기회를 얻을수 있을 것입니다. 게다가 클라우드나 컴퓨팅 기술의 급속한 발전으로 인해 데이터 분석과 관련한 외부 환경은 어느때보다 더 좋아졌습니다. 이렇게 새로운 시대가 왔으니 그에 걸맞는 새로운 기관이나 새로운 운동이 생겨나는 것은 역사적으로 필연적인 수순으로 보입니다.
데이터를 통해서 공식 통계를 생산하는건 거시(매크로)적 접근입니다. 중위수나 평균, 지니계수 같은 지표들은 전체 집합의 어떤 속성을 나타내는 숫자인데 그 숫자를 하나의 summary 로 이해해서 전체를 파악하고자 하는 것입니다. 그러한 전통적인 통계 소비 방식과는 다른 패러다임이 나오기 시작했습니다. 그건 미시적 접근이라고 할수 있는데 자료 분석가가 그 마이크로 데이터를 직접 분석해서 새로운 발견을 하고 가치를 창출하고자 하는 것입니다. 매크로적 접근은 자료분석을 공급자 위주로 한다고 본다면 마이크로적 접근은 자료 수집 및 분석을 수요자 위주로 하는 것입니다. 물론 노동연구원의 노동패널자료 같은게 그런 마이크로적 접근으로 만들어진 것입니다. 하지만 그러한 것들 역시 미리 정해진 설문지를 바탕으로 작성되는 것이니 분석가가 원하는 항목이 없을수 있고 자료 수집에 많은 비용이 발생합니다. 분석가 입장에서 더 욕심이 나는 상황은 자기가 원하는 항목들이 측정된 데이터를 저렴하고 얻고 자기가 직접 분석할수 있게 되는 것입니다. 이것은 수요자들에게는 아주 달콤하고 환상적인 이야기입니다. 이는 마치 식당에서 주는 음식만 먹다가, 자기가 원하는 음식을 맞춤형으로 주문해서 먹는것과 비슷할 것입니다. 기존의 방식이 top-down 이라면 새로운 방식은 bottom-up 이 되는 것이니 굳이 표현을 하자면 데이터의 민주주의가 탄생한 것입니다.이러한 새 패러다임에 걸맞는 인프라를 조성하는 작업을 데이터청이 할수 있다면 바람직할 것입니다.
문제는 이러한 새로운 패러다임이 현실에서 제대로 발현되기 위해서는 몇가지 중요한 전제가 필요하다는 것입니다. 이를 제대로 해결 하지 않고 섣불리 졸속으로 추진하게 되면 커다란 후유증과 문제점이 생길뿐만 아니라 오히려 아예 시작하지 않은 것보다 못한 상황이 될수 있기에 이러한 부분에 대해 충분한 숙고와 토론, 그리고 사회적 합의가 이루어져야 할 것입니다.
마이크로 데이터 시대로의 전환에서 핵심은 신뢰의 문제입니다. 신뢰의 문제를 이야기하기 위해 다음과 같은 사고실험을 해보도록 하겠습니다. 만약 당신의 신용카드 사용내역과 전화통화 내역, 병원 기록이 유통되는 상황을 생각해 봅시다. 만약 그게 실명으로 돌아다닌다면 분명 우려되는 상황이고 우리는 당연히 이를 원하지 않을 것입니다. 그 데이터가 아무리 이 사회에 유익을 준다고 하더라도 개인의 사생활 자유가 명백히 침해되는 상황을 아무도 원하지 않을 것입니다. 그렇다면 실명이 아닌 개인정보 보호 처리를 통해 그 데이터가 유통된다면 어떻겠습니까?
여기에서 신뢰의 문제는 발생합니다. 과연 이것이 공익을 위한 것인가? 아니면 감시와 통제를 위한 것인가? 개인정보 보호처리의 진정성을 얼마나 믿을수 있을까? 또 그걸 기술적으로 얼마나 완벽하게 처리할 능력이 있을까? 데이터를 유통하고자 하는 당사자는 위의 질문들에 대해 확실한 대답을 해야 합니다. 사실 예전에도 데이터라는 것은 신뢰를 바탕으로 얻어지는 것입니다. 통계청에서 실시하는 조사통계에 우리가 협조하는 것도 우리가 자발적으로 성실한 응답을 하는 것이 공익에 도움이 된다는 것을 믿기 때문에 협조하는 것입니다. 또한 통계청이 그렇게 얻은 자료를 공식 통계 생산의 본래 목적 이외에 쓰지 않겠다는 약속을 믿기 때문에 협조하는 것입니다. 하지만 만약 조사기관이 통계청이 아니라 일반 회사라면 그러한 믿음이 약간 떨어질수 있습니다. 영리를 목적으로 하는 민간 회사는 그 데이터가 회사 이익에 도움이 된다면 누군가에게 팔수도 있을 것이기 때문입니다.
따라서 신뢰의 문제는 신뢰를 지키려는 의지에 대한 믿음임과 동시에 그 약속을 지킬만한 충분한 능력이 있느냐의 문제이기도 합니다. 기술적으로는 개인정보 보호와 자료의 효용성은 상충관계가 있습니다. 자료에 많은 정보가 담길수록 자료의 가치는 높아지지만 개인정보가 노출될 위험 역시 높아지는 것입니다. 현실적으로 100% 개인정보 보호가 되지는 않고 개인정보 노출의 위험이 있기에 신뢰의 문제는 단순히 의지의 문제가 아닌 기술의 문제이기도 합니다. 게다가 빅데이터가 가지고 있는 선택편향과 같은 것이 어느 정도 보정되지 않은 상태에서는 큰 혼란을 끼칠수 있으므로 빅데이터를 제공할 경우 발생할수 있는 위험과 혼란을 최소화하고 효용을 극대화 하는 방안을 찾아야 하는게 중요한 당연 과제이기도 할 것입니다.
마이크로 데이터가 보다 원할히 유통되고 원하는 가치를 창출하기 위해서는 위에서 말한 신뢰의 문제 뿐만 아니라 좀더 몇가지 기술적인 문제들이 해결되어야 합니다. 이를 국가에서 인프라를 구축하는 측면에서 데이터청 (또는 빅데이터청)을 설립하고 관련 기술 개발을 지원하고 빅데이터 기반 마이크로 통계 제공 및 관련 서비스 제공의 공식 창구 역할을 하는 것은 좋은 생각입니다. 지금은 정부의 여러 부처에서 제각각 다른 방식으로 관련 분야 빅데이터를 제공하는데 제공 범위가 한정되고, 서로 연계가 되지 않고, 제공 방식이 다 달라, 사용자가 제대로 활용하기 어렵고, 분석이 매우 제한적입니다. 빅데이터청(가칭)을 만들면 이러한 모든 빅데이터를 총괄하므로 제공 방식도 통일하고, 노우하우도 축적될 뿐만 아니라, 내부적으로는 개인정보를 바탕으로한 연계가 가능하므로 데이터 제공과 사용에 혁명적인 변화를 가져올수 있다고 생각합니다.
다만 마이크로 데이터가 안전하게 유통되기 위해서는 위에서 말한 신뢰의 문제를 해결하는 것이 선결과제이니 처음부터 빅데이터청을 만들기 보다는 KDI와 같은 빅데이터 싱크탱크를 먼저 설립하여 관련 연구를 먼저 실시하고 전체 가이드 라인과 로드맵을 만든후에 차근차근 준비해서 빅데이터청을 만들수 있으면 더욱 좋을 것입니다.