세스 스티븐스 다비도위츠 지음
요즘 빅데이터, 인공지능, 디지털 등 과학 용어가 많이 등장하고 있다.
빅데이터가 무엇인지 알고 싶어 읽었다.
이 책은 2018년 초판 발행 후, 15쇄를 찍었다. 2022년 11월 개정판을 발행했다.
누구나 거짓말을 한다. 퇴근길에 술을 몇 잔 마셨는지, 체육관에 얼마나 자주 가는지, 새로 산 신발이 얼마인지, 그 책을 읽었는지에 관해 거짓말한다. 아프지 않을 때 아프다고 전화한다. 하지 않을 거면서도 연락하겠다고 말한다. 상대와 상관이 있는데도 상관없는 일이라고 말한다. 사랑하지 않으면서도 사랑한다고 말한다. 우울한데도 행복하다고 말한다. 사람들은 친구에게 거짓말을 한다. 상사에게, 아이들에게, 부모에게, 의사에게, 남편에게, 아내에게 거짓말을 한다. 그리고 스스로에게 거짓말을 한다. 설문조사에서도 분명히 거짓말을 한다.
이러한 증거는 1950년에 발표된 논문에서 설문조사가 편향의 희생양이라는 강력한 증거를 제시했다. 연구자들은 덴버 주민 중 몇 퍼센트가 투표했는지, 기부했는지, 도서관 대출 카드를 갖고 있는지 등에 대한 데이터를 공적인 정보원에서 수집했다. 그리고 주민들에게 설문조사를 했다. 결과는 수집한 데이터와 크게 달랐다. 무기명인데도 다수의 사람이 과장했다.
여론조사가 지난 2016년 도널드 트럼프의 승리를 예언하지 못한 데에는 거짓말이 큰 역할을 했을 가능성이 높다. 여론조사는 트럼프에 대한 지지를 약 2%포인트 과소평가했다. 사람들이 익명의 설문조사에서도 그릇된 정보를 주는 이유는 무엇일까. 미시간대학교 투랑조 교수는 “인간은 ‘선의의 거짓말’을 좋아하는 것이 문제의 핵심”이라고 설명한다. “사람들은 평생 세 번에 한 번꼴로 거짓말을 한다. 그 버릇이 설문조사에서도 나오는 것이다.”라고 말했다.
이 책은 그동안 사람의 생각을 연구해온 여러 가지 방법에서 밝혀내지 못한 것을 빅데이터로 풀어보려는 시도를 내용으로 한다. 저자가 실험심리 학자로 평가척도, 반응시간, 동공 확장 검사, 기능성 자기공명영상기법fMRI 등 갖가지 방법을 시도했다. 이런 어떤 방법도 사람의 생각을 훤히 보여주지 못했다. 인간의 생각은 매우 복잡한 명제다. 하지만 빅데이터가 사람의 심리를 엿보는 아주 새로운 방법임을 보여준다. 온라인에서는 익명성 덕분에 사람들은 이상한 것들을 고백한다. 디지털 흔적은 축적과 분석이 쉬운 형태로 저장된다. 사회 각계각층의 사람들이 눈에 잘 띄지 않는 실험에 참여할 수 있다.
미국인 대다수가 구글에 매우 사적인 사항을 이야기한다는 강력한 증거가 있다. 예를 들어 ‘날씨’보다 ‘포르노’를 더 많이 검색한다. 남성 25%와 여성 8%만 포르노를 본다고 인정한 설문조사 데이터와는 거리가 멀다. 전형적인 정보원에서는 숨겨졌지만, 인터넷 검색어에서는 사람들의 악의와 혐오가 확연하게 드러난다. 2012년 도널드 트럼프를 사업가이자 리얼리티 쇼 출연자로 알고 있던 사람들이 4년 후 만만찮은 대선 주자가 되리라고 생각하지 못했다. 인터넷 검색은 이민자에 대한 공격성, 화, 분노처럼 사람들이 가진 가장 나쁜 성향을 이용하는 후보자의 성공과 연결된다.
구글 검색 데이터는 인종주의가 있는 지역에 대한 우리의 생각이 많은 부분 잘못됐음을 말한다. 설문조사와 일반적인 통념은 현대의 인종주의를 주로 남부와 공화당의 전유물로 본다. 하지만 인종차별적 검색 비율이 높은 지역은 남북이 아닌 동서의 구분이 실제 구글 검색데이터가 보여준다. 인종주의는 공화당 지지자에 한정되지 않는다. 구글 검색은 미국 인종주의의 새로운 지도를 그리는데 도움을 주고 있다. 이 지도는 이전의 추측과는 그 모습이 매우 다르다. 남부 공화당원이라 인종주의라고 인정할 가능성이 더 높을지 모른다. 하지만 북부의 민주당 지지자 중에도 태도가 비슷한 사람이 많다. 이 지도는 4년 뒤 트럼프의 정치적 성공을 설명하는 데 매우 중요한 근거가 되었다.
구글은 여론조사가 놓친 많은 정보, 특히 다른 어떤 주제보다도 선거를 이해하는 데 도움이 되는 정보를 많이 갖고 있다는 게 확실해졌다. 구글 데이터는 누가 실제로 투표하러 나올지 알고 있다. 투표하지 않을 사람 절반 이상이 선거 직전에 설문조사에서는 투표할 예정이라고 말해서 투표율 예측을 왜곡한다. 반면, 선거 전 몇 주에 걸쳐 ‘투표하는 법’ ‘투표 장소’가 구글에서 얼마나 검색됐는지 살펴보면 어떤 지역의 투표율이 높을지 정확하게 예측할 수 있다.
트럼프와 힐러리가 맞붙은 2016년 선거에서 사람들은 ‘트럼프 힐러리 여론조사’를 검색한 사람들과 ‘힐러리 트럼프 여론조사’를 검색한 사람들이 있었다. 중요한 것은 후보의 이름이 등장하는 순서다. 연구 결과 사람들이 두 후보의 이름을 포함한 검색어를 입력할 때 자신이 지지하는 후보를 앞에 두는 경향이 유의미하게 강하다는 것을 보여줬다.
그렇다면 빅데이터가 이렇게 강력한 이유는 무엇일까? 특정한 날 온라인에 흩어져 있는 정보 전체에 관해 생각해보면, 21세기 초 보통날 인간은 하루 동안 데이터 250만 조 바이트를 만들어낸다. 데이터에는 다른 상황에서라면 어느 누구에게도 절대 시인하지 않을 정보가 담겨 있다. 특정 개인의 두려움, 욕망, 행동에 관해 절대 알 수 없도록 익명성을 보장하고 데이터과학을 조금 첨가하면 우리는 인간의 행동, 욕구, 본성에 관한 새로운 모습을 발견할 수 있다.
디지털 시대에 이용 가능성이 점차 늘어나고 있는 이 새로운 데이터가 인류에 대한 이해의 폭을 급속하게 확장시킬 것이라고 믿는다. 현미경은 연못에 있는 물 한 방울에 우리가 볼 수 있다고 생각했던 것보다 많은 것이 들어 있음을 보여준다. 망원경은 밤하늘에 우리가 볼 수 있다고 생각하는 것보다 많은 것이 있음을 보여준다. 그리고 이제 새로운 디지털 데이터는 인간 사회에 우리가 볼 수 있다고 생각했던 것보다 많은 것이 들어 있음을 보여주고 있다. 디지털 데이터는 중요한 혁명적인 통찰을 제공해주는 우리 시대의 현미경이나 망원경인지도 모른다.
달리 증거가 없는 일을 증명하는 것도 가치 있는 작업이다. 어떤 것을 짐작하는 것과 그것을 증명하는 것은 완전히 다르다. 하지만 빅데이터로 할 수 있는 일이 짐작을 확인하는데 그친다면 혁명적이라고 할 수 없다. 빅데이터로 훨씬 더 많은 일을 할 수 있다. 데이터는 세상이 내 짐작과 완전히 반대 방향으로 움직인다는 것을 보여준다.
구글 검색이 중요한 이유는 데이터가 많기 때문이 아니라 사람들이 솔직한 생각을 내놓기 때문이다. 사람들은 친구, 연인, 의사, 설문 조사원은 물론 자기 자신에게도 거짓말을 한다. 하지만 구글에서는 결혼생활, 정신건강 문제, 불안감, 적대감에 관해 다른 곳에서는 내놓기 힘든 정보를 공유한다.
여성이 자기 이야기를 한다면 상대에게 관심이 있을 가능성이 높다. 관계를 진전시키고 싶은 남성이 여성의 입에서 들을 수 있는 가장 긍정적인 말은 ‘나’로 밝혀졌다. ‘나’에 대해 말한다는 것은 그녀가 편안하다는 신호다. 여성은 자신이 유도하는 대로 따르는 남성을 좋아한다. 남성이 여성의 농담에 웃고, 화제를 바꾸지 않고 여성이 내놓은 주제로 대화를 계속한다면 그녀는 관계를 더욱 친밀하게 느낄 것이다.
겐츠코프와 셔피로의 연구 결과는 뉴스 매체가 지구상의 다른 산업과 같은 방식으로 운영된다고 암시한다. 슈퍼마켓은 사람들이 좋아하는 아이스크림으로 선반을 채우고, 신문은 사람들이 원하는 견해가 무엇인지 파악해서 그것으로 지면을 채운다. 셔피로는 뉴스 매체는 그거 사업일 뿐이라고 말한다.
전통적으로 학자나 사업가들은 데이터가 필요하면 설문조사를 했다. 설문지의 숫자나 체크 박스를 통해 만들어진 데이터는 형태가 깔끔했다. 이제는 그렇지 않다. 구조적이고, 깨끗하고, 단순한 설문조사 기반의 데이터는 끝났다. 새로운 시대에는 우리가 생활하면서 남긴 복잡한 흔적이 데이터의 주된 원천이다. 단어가 데이터다. 클릭이 데이터다. 링크가 데이터다. 오타가 데이터다. 꿈속에 나온 바나나가 데이터다. 어조가 데이터다. 쌕쌕거리는 숨소리가 데이터다. 심장박동이 데이터다. 비장의 크기가 데이터다. 검색어는 가장 계시적인 데이터다. 사진 역시 데이터로서 면모를 드러냈다.
연구자들은 밤에 조명이 얼마나 많은지가 GDP 측정에 도움을 줄 수 있다고 생각했다. 지구 주위를 하루에 열네 번 도는 위성이 찍은 사진에서 정보를 얻었다. 가난한 지역은 전기료를 내기 어렵다. 결과적으로 경제 상황이 나쁘면 가정과 마을은 밤에 전기 사용량을 최대한 줄인다. 1998년 아시아 금융위기 때 인도네시아의 야간 조명은 급격히 감소했다. 한국은 1992년에서 2008년 사이에 야간 조명이 72% 증가했다. 경제적 성과에 부합하는 결과다. 같은 기간 북한의 야간 조명은 형편없는 경제로 인해 감소했다.
디지털 시대를 맞아 데이터를 이루는 요소에 큰 변화가 일어났고 이 새로운 정보에서 많은 통찰을 얻을 수 있었다. 수백억 달러를 벌어들이는 브린과 페이지의 회사를 필두로 많은 사람이 이 새로운 데이터로 많은 돈을 벌어들이고 있다. 현재 사용할 수 있는 새로운 유형의 데이터를 활용하고 무엇이 데이터로 간주 되는지 광범위한 시각으로 보는 것은 학자들은 물론 기업가들에게도 가치가 크다.
현대 데이터과학자들은 데이터를 보는 전통적 관점에 얽매여서는 안 된다. 슈퍼마켓의 대기 줄을 찍은 사진도 귀중한 데이터가 된다. 꽉 찬 슈퍼마켓 쓰레기통도 데이터다. 사과가 잘 읽었는지도 데이터다. 우주에서 찍은 사진도 데이터다. 입술의 곡률도 데이터다. 모든 것이 데이터다! 이 모든 새로운 데이터로 사람들의 거짓말을 꿰뚫어 볼 수 있다.
윈스턴 처칠이 했다는 “30세 이전에 진보주의자가 아닌 사람은 냉혈한이고, 30세 이후에 보수주의자가 아닌 사람은 멍청이다.” 말이 있다. 데이터 분석 기업 캐털리스트의 수석 연구원 야이르 깃차와 컬럼비아대학교 앤드루 겔먼은 대부분의 사람들은 처음에는 진보적이다가 나이가 들면 점차 보수적이 된다는 일반적인 생각을 연구했다. 연구자들은 정치적 견해가 형성되는 방식이 스포츠팀에 대한 기호가 형성되는 방식과 다르지 않다는 점을 발견했다. 인생에는 뭔가 각인되는 중요한 시기가 있다. 미국인은 14~24세에 당시 대통령의 인기를 기반으로 자신의 정치적 견해를 형성한다. 중요한 시기에 만들어지니 견해는 보통 평생 지속된다.
1941년생 미국인은 인기 있는 공화당 정치인 아이젠하워의 재임 기간에 성년이 됐다. 1960년대 초 이들은 30대에 이르지 않았는데도 확고하게 공화당 쪽에 섰고 나이가 들어서도 계속 공화당을 지지한다. 연구자들은 이 모든 데이터를 기반으로 정치적 입장이 형성되는 가장 중요한 나이는 18세라고 판단했다.
디지털 세계에서 실험은 오프라인 세계에서 실험에 비해 엄청난 장점이 있다. 오프라인의 무작위 실험만큼이나 설득력 있고 자원 집약적이다. 디지털 세계에서 무작위 실험은 비용과 시간이 적게 든다. 참가자를 찾을 필요도, 그들에게 돈을 줄 필요도 없다. 사용자를 어떤 집단에 무작위로 배정하는 코드 한 줄만 쓰면 그만이다. 사용자에게 설문지를 채우라고 할 필요도 없다. 사용자의 마우스 움직임과 클릭만 측정하면 된다. 반응을 정리하고 분석할 필요도 없다. 결과를 정리 분석하는 자동 프로그램만 구축하면 된다. 그 어떤 계약도 필요 없다. 사용자에게 그들이 실험에 참여하고 있다는 사실조차 이야기할 필요가 없다.
빅데이터는 진정한 인과관계를 찾아낼 수 있는 무작위 대조군 실험을 훨씬 더 쉽게 할 수 있게 해준다. 당신이 온라인에 있기만 하면 언제나 거의 어디에서든지 실험을 진행할 수 있다. 빅데이터 시대에는 세상 전체가 실험실이다.
이 순간에도 빅데이터는 나의 성향을 파악하고 있다는 생각이 든다. 무서운 세상이다. 정치인들이 이 책을 보면 좋을 듯하다.
책 소개
『모두 거짓말을 한다』 세스 스티븐스 다비도위츠 지음. 이영래 옮김. 2018.06.17. ㈜도서출판길벗. 388쪽. 18,800원.
세스 스티븐스 다비도위츠 Seth Stephens-Davidowitz. 스탠퍼드대학교에서 철학 석사 수석 졸업. 하버드대학교에서 경제학 박사 학위 취득. 구글 데이터과학자로 근무. 펜실베이니아대학교 와튼 스쿨의 객원 강사. 저서 『데이터는 어떻게 인생이 무기가 되는가』 등.
이영래. 이화여자대학교 법학과 졸업. 리츠칼튼 서울에서 리셉셔니스트로 근무. 번역에이전시 엔터스코리아에서 전문 번역가로 활동하고 있다.