미래세상 읽기 : 1부 4차 산업혁명과 국가(14)
빅데이터 토론
빅데이터 역시 밝은 면과 어두운 면이 공존한다. 그 양면성에 관련해서 살펴보자.
토론 1. 인과관계에서(확정성) 상관관계로(불확정성)
불확정성 원리에 대해 불만이 있었던 아인슈타인은 “신은 주사위 놀이를 하지 않는다.”라고 말했다. 그랬더니 그와 토론했던 닐스 보어는 “신에게 이래라저래라하지 말게.”라고 응했다.
현대 물리학에서의 승자는 불확정성 원리다. 앞으로 살펴볼 인과관계와 상관관계 토론의 포문을 연 이야기여서 소개해 봤다.
인과관계라는 어떤 결과가 나오는 데는 특정한 원인이 있다는 말이다. 쉽게 설명해서 식중독에 걸린 사람들을 대상으로 역학 조사하면 부패한 생선이나, 우유 등을 공통으로 섭취한 원인을 발견할 수 있다. 사회과학에서도 인과관계를 증명하기 위해서 다양한 설문과 실험을 진행하는데, 그 대상의 범위가 한정적이다.
현재 여론조사도 표준오차 범위를 내세워 예측하지만, 지난 선거를 보면 박빙의 경합일 때는 예측과 다른 결과를 심심치 않게 보여줬다. 대표적인 경우가 19대 총선이었다. 근소하게나마 당시 여당인 새누리당이 1당이 될 것이라는 여론조사가 있었지만 실제로는 더불어민주당이 1당이 됐다. 표본이 적기도 했지만, 여론조사 방법의 한계가 있기 때문이다.
대부분 유선이나 모바일(mobile)을 통한 조사인데, 응답률이 상당히 낮았을 것이고, 응답자가 정확한 대답을 했다고 무조건 믿기도 힘들다. 그러니 박빙의 승부가 예상되는 경우 정확도가 떨어졌다.
인과관계를 규명하기 위한 조사와 실험은 변수의 숫자에 따라 예상할 수 있는 결과가 늘어나기에 조사자와 실험자가 의도적으로 통제 상황을 만들어 실행한다. 그러다 보니, 항상 토론장이 열릴 수밖에 없다.
변수를 어떻게 설정하는가에 따라 결과가 달라질 수도 있고, 역으로 결과를 가지고서 다양한 원인을 추론하기도 한다. 상황이 이렇다 보니, 신빙성 있는 증거를 제시하기 위해 통계자료를 제시하지만, 대체로 통계 자료의 표본도 충분하지 않은 상황이다.
이런 상황에 대해서 막스플랑크협회의 인간개발연구소(Max Planck Institute for Human Development)소장 게르트 기거렌처(Gerd Gigerenzer)의 『통계의 함정』에서는 2,000명을 대상으로 한 설문조사로 6,000만 명 이상의 태도를 예측한다는 것은 ‘영원한 수수께끼’라고 말하며 조소한다.
그러나 빅데이터를 통계자료로 활용하는 순간 인과관계는 사라진다.
여기서 상관관계가 등장한다. 결과에 대한 원인은 알 수 없지만, 하나가 반응할 때 다른 하나가 반응하는 것을 상관관계라고 한다. 위에서 비 오는 날 초콜릿이 많이 팔리는 것, 기저귀 옆에 맥주를 놓으면 많이 팔리는 것 등이 대표적인 사례이다.
정확한 원인은 모르지만, 많은 사람이 그렇게 행동한다는 것이다.
이러한 상관관계에 대한 우려도 있는데 빈센트 모스코(Vincent Mosco)의 『클라우드와 빅데이터의 정치경제학』에서는 “빅데이터에 있어서 상관관계만으로는 인과관계가 어떤지는 전혀 알 수 없으며, 심지어 발견된 상관관계가 실제인지 허위인지도 판단할 수 없다.”라고 하면서 이러한 불확정성은, “근대 세계와 근대적 앎의 방식을 이끌어 온 방법이었던 과학을 포함해 모든 것들을 역사의 뒤안길로 사라져 버리게 할 것”이라고 말한다.
크리스티안 마두스베르그(Christian Madsbjerg)의 『센스 메이킹』에서도 “빅데이터는 인과관계가 아니라 상관관계를 중시한다. 통계적으로 유의미한 관계를 구축할 수 있지만, 왜 그런지는 설명하지 못한다. 그리고 데이터가 많아질수록 통계적으로 유의미한 상관관계를 오도할 위험도 커진다.”라고 지적한다.
또 다른 책 독일의 응용 수학자 제바스티안 슈틸러(Sebastian Stiller)의 『알고리즘 행성 여행자들을 위한 안내서』에서는 “빅데이터를 다루는 알고리즘의 본질은 확정된 규칙이 아니라, 거기에서(빅데이터) 도출되는 다양성에 있으며, 알고리즘은 오직 정보와 소통할 뿐이지 지식은 여전히 인간이 다뤄야 할 영역”임을 강조한다.
아울러 대다수 학자도 알고리즘의 한계를 인정하고 있는데, 알고리즘 분석에 잘못된 데이터를 입력하면, 알고리즘은 무한 반복되는 오류를 양산할 수 있다고 말한다. 즉, 알고리즘 자체가 결정 내리는 게 아니라, 그것을 사용하는 집단(공동체) 자체가 알고리즘의 형식을 빌려 더 나은 결정을 찾는 데 도움받을 뿐이라는 것이다.
그럼에도 불구하고 대세는 빅데이터의 활용이다. 제시하는 근거의 양적 차이가 어마어마하기 때문이다. 세계 인구 10억 명을 대상으로 했을 때와 국내 1천 명을 대상으로 한 자료를 비교한다면, 어떤 것이 더 설득력 있겠는가?
MIT 미디어랩의 세계적 석학 알렉스 펜틀런드(Alex Pentland) 교수는 『창조적인 사람들은 어떻게 행동하는가』에서 기존 사회과학의 분석 방법을 비판하면서 빅데이터를 활용하기를 권하기도 한다.
이제 절대자는 사라진다. 창조주의 우주 창조론을 믿는 신앙이나 신념은 거주할 시공간을 상실한다. 그래서 4차 산업혁명 시대의 종교는 엄청난 위기 상황을 맞이할 수도 있다. 물론, 지구의 공전이나 자전과 같은 진리는 변하지 않을 것이다. 하지만 그동안 굳건한 진리의 위상을 지켰던 사회과학이나 경제학 이론 등은 새로운 경쟁상대의 엄청난 데이터 앞에 그 지위를 잃을 수도 있다.
긍정적으로 생각하면 절대자의 소멸은 상대적 다양성으로 변화될 수 있다. 그러나 부정적으로 살펴보면, 허위적인 상관관계로 파생하는 다양성은 혼란을 초래할 수도 있다.
토론 2. 빅데이터의 편향성
빅데이터의 활용은 다양한 분야(정치, 경제, 사회, 문화 등)에 큰 변화를 예고했고, 현재 큰 영향을 끼치고 있다. 그러나 빅데이터의 활용은 여전히 양면적이다. 통계를 제대로 분석하고 마이닝(mining) 한다면, 기업은 괜찮은 마케팅 전략을 세울 수 있고, 학자는 좋은 논문도 쓸 수 있다. 그러나 인간의 주관적인 편향성이 반영된다면, 빅데이터 분석으로 나온 결과의 집행은 보이지 않는 폭력이 될 수도 있다. 미국 수학자 캐시 오닐(Catherine Helen O'Neil)은 『대량살상수학무기』에서
“빅데이터 원동력인 수학 모형 프로그램들은 실수가 있을 수밖에 없는 인간의 선택에 기반을 둔다.”
라고 말한다. 즉, 언제라도 빅데이터를 다루는 사람의 주관에 놓여있다는 의미다. 초고속 인터넷을 활용하고 다양한 소프트웨어를 학습해서 업무를 진행하지만, 빅데이터를 다루는 사람들은 여전히 부족한 상황이다. 그리고 빅데이터 과학자(Data Scientist)로 불리는 사람들 자체가 “특수한 교육을 받았거나, 특별한 업무에 종사하는 사람들이어서 대부분 고수익자이며, 살아온 배경도 꽤 좋은 편에 속한다”라고 한다.
이런 계층의 편향성은 기업 마케팅으로 활용할 때는 문제가 없을지 모르나, 치안, 교육, 복지 등의 분야에 적용하는 빅데이터는 마이닝 과정 가운데, 편향성이 있을 수밖에 없다.
『대량살상수학무기』에서 말하는 것처럼 빅데이터를 바탕으로 한 대다수 모형은 인간의 편견, 오해, 편향성 등을 코드화했고 이 코드들이 우리 삶을 일상적으로 지배하는 시스템에 그대로 반영됐다고 할 수 있다.
예를 들어 미국 전체 인구에서 흑인의 비율은 13%에 불과하지만, 전체 교도소 수감자 중 40%가 흑인인 것은 분명 문제가 있다. 무엇보다도 사회적 약자와 가난한 자들을 차별하고 부자는 더 부자로 만들어 주는 경향이 큰 문제점이라고 할 수 있다.
토론 3. 빅데이터와 개인 정보
2017년에 빅데이터를 소재로 한 한국 영화가 있었다. 《조작된 도시》인데, 과장된 측면이 없진 않으나, 개인 정보의 유출로 한 사람이 타인에게 통제되고 범죄에 악용되는 부정적인 상황을 묘사했다.
빅토르 마이어 쇤버거(Viktor Mayer-Schonberger)의 『빅데이터가 만드는 세상 : 데이터는 알고 있다』에서는 “다른 사람들이 개인의 데이터를 수집하고, 저장하며 재사용할 기회가 급증할 것”이라고 말하며, 훨씬 오래전에 조지 오웰은 『1984』를 통해 개인을 통제하는 ‘빅브라더’의 출현을 예상하기도 했다. 이런 상황을 고려할 때
“프라이버시는 부자들만이 즐길 수 있는 사치가 되었다.”
라고 말한 오닐이 맞을 수도 있다.
그러나 빅데이터의 활용 없이는 인공지능도, 자율주행차도, 사물인터넷도 제대로 활용할 수 없다. 기계는 있으나 원활하게 작동하게 해 줄 전력이 없는 것과 마찬가지다. 우리나라의 경우 정부가 정보를 관리하는데 적절하게 활용할 수 있는 정책을 고안하는 게 무엇보다 중요하다. 아울러 국가가 주도해서 국민적인 공감대를 조성할 수 있도록 해야한다.
현재 대한민국의 현실은 개인 정보 보호법이 매우 엄격해서, 미국이나 영국 등과 같이 다양한 분야에서 활용하지 못하고 있다.
사실, 빅데이터를 다룰 수 있는 전문가가 많지 않은 상황에서 빅데이터를 공개하는 것은 시기상조일 수도 있다. 그런데도 빅데이터 활용은 이루어져야 한다. 그리고 초기에는 비즈니스 분야보다도 공공분야에서 민관 협력으로 적극적으로 활용하는 것도 하나의 방법이다.
아울러 빅데이터를 활용하는 플랫폼에서는 모형의 알고리즘을 철저하게 영업적 비밀이라고 하면서 공개하지 않고 있는데, 그런 데이터 횡포에 대해서도 데이터 감시자들에게 개방해서 투명하게 관리해야 한다.
토론 4. 빅데이터 ‘권력’
제3차 산업혁명 기간에 IT분야의 견인으로 세계 경제가 성장했다. 그러나 성장의 파이를 분배하는 데는 철저히 실패했다. 특정한 사람을 제외하면, 인터넷을 사용하긴 해도 그것만으로 수익을 창출하지는 못했다. 『거대한 침체』에서는 “인터넷이 고소득의 부자들을 만들기는 했지만, 실제로 과거와 같은 성장이나 고용을 촉진하지 못했다”라는 부분을 지적한다.
빅데이터도 마찬가지다. 4차 산업혁명 시대의 자원인 빅데이터를 원활하게 다룰 수 있는 사람들은 좋은 직장과 고소득을 보장받는다. 미국의 취업 사이트 글래스도어(Glassdoor)에 따르면 “신규 일자리 수, 급여, 승진 기회 측면에서 데이터 과학자가 2016년 미국에서 최고의 일자리였다”라고 한다. 반대로 말하면 이를 활용하지 못하는 사람은 실업 위기에 처할 수 있다는 말이다.
에너지원은 곧 그 시대의 ‘권력’이었다.
빅데이터를 제대로 이해하지 않고서 4차 산업혁명을 말하는 것은 3차 산업혁명 시대의 정보와 인터넷을 이해하지 못하는 것과 같으며, 2차 산업혁명 시대의 석유 역할을 제대로 이해하지 못하는 것과 다를 바 없다.
이라크 전쟁, 그 이전에 쿠웨이트 전쟁, 이란과 미국의 대립 등 대부분의 국제적 갈등은 자원과 관련 있었다. 데이터를 강조하는 많은 책은 ‘데이터가 곧 힘’이라고 말하고 있다. 그렇기 때문에 에너지 민주화가 정치적 민주화를 가져올 것으로 예상했던 제러미 리프킨은 수소와 태양광 시대의 도래로 정치적 민주화가 이뤄질 거라고 주장한 것이다.
알파고(AlphaGo)와 이세돌 9단의 대결에서도 알파고의 승리 원인은 에너지 크기였다. 알파고에 수많은 빅데이터 자료를 주고 이를 활용하도록 제공한 에너지는 이세돌 9단이 사용하는 에너지의 8,650배였다. 즉, 8,650명과 이세돌 한 명이 겨뤘다고도 할 수 있다.
에너지는 곧 힘이고 권력이었다. 4차 산업혁명 시대도 에너지를 많이 확보한 국가나 개인이 더 큰 권력을 차지하게 될 것이다. 4차 산업혁명 시대에 빅데이터가 중요한 이유가 바로 여기에 있다.
긍정론자들은 현재 권력 시스템이 무너지고 권력의 민주화가 이뤄지리라 예측하지만, 빅데이터를 원활하게 다룰 수 있는 개인이 등장해서 새로운 성공의 길로 나아가는 지금 권력과 자원 분배를 긍정적으로 볼 수 있을까?
작가 : 조연호 , 편집 : 안대범