빅데이터로 들여다본 우리네 삶
"내가 그 때 공부를 조금만 더 열심히해서 더 좋은 대학교에 갔다면 지금 내 인생이 바뀌지 않았을까?"
모두가 살면서 한 번쯤은 해보는 고민이다. 성공한 사람들의 대부분이 명문대 출신이고, 입시 컨설턴트들은 명문대로의 입학이 자녀의 성공을 보장한다고 광고한다. 그래서 드라마 <SKY 캐슬>에서 미향이 예서를 서울의대에 보내기 위해 그렇게까지 죽도록 노력했는지도 모르겠다. 하지만 우리의 인생은 한 번 뿐이라 가보지 않은 길을 다시 걸어가볼 수는 없다. 그렇다면 평생 좋은 대학교에 진학하지 못한 아쉬움을 묻어 두고 살아가야 하는 것일까?
여기서 빅데이터를 이용하면 길을 다시 가보지는 못하더라도 그 길을 갔을 때 어떤 일이 일어났을 지 상상해볼 수는 있다. 책 <모두 거짓말을 한다>에서 저자는 이에 관련해 흥미로운 실험 결과를 제시한다.
미국에는 '스타이'라고 알려진 스타이버선트 고등학교가 있는데, 졸업생의 4분의 1이 아이비리그나 그에 준하는 명문대학에 진학할 만큼 미국 최고의 명문 고등학교 중의 하나로 꼽힌다. 미국 중산층 부모들은 스타이에 다니는 것이 상위 대학에 입학하는 것을 보장해준다는 '스타이 효과'를 믿고 있었다. 게다가 비용도 무료라 미국의 공부 좀 한다 하는 학생들은 스타이 진학을 인생의 목표로 삼았다. 스타이에 입학하는 방법은 간단하다. 입학 시험에서 높은 점수를 기록하면 된다.
그렇다면 스타이 진학이 인생의 성공을 가져다줄까? 데이터 과학자들은 이를 위해 스타이에 들어가기 위해 필요한 커트라인에 아깝게 통과하지 못한 학생들과 커트라인을 겨우 통과한 학생들을 각각 모아 두 집단의 학생들이 이후에 얼마나 성공했는지를 비교했다. 성공의 척도는 AP 점수, SAT 점수, 그들이 입학한 대학교의 순위였다.
결과는 어땠을까? 스타이 효과 같은 것은 없었다. 거의 비슷한 AP 점수와 SAT 점수를 받았으며 입학한 대학의 순위도 거의 차이가 없었다. 스타이가 좋은 대학에 가도록 만들어주는 것이 아니라, 애초에 좋은 대학에 갈만한 학생들이 스타이에 입학하는 것이었다. 대학교에 관련된 연구도 마찬가지였다. 배경이 비슷하고 비슷한 명문대학에 합격한 학생들은 다른 학교를 선택했더라도 결국 비슷한 위치에 올라섰고, 비슷한 양의 봉급을 받았다. <SKY 캐슬>의 부모들이 이같은 사실을 미리 알았다면 여러 끔찍한 일들이 일어나지 않았을 수도 있었다.
21세기 우리는 데이터의 홍수 속에 살고 있다. 예전과 다르게 우리에 대한 정보를 SNS, 인터넷 검색 등을 통해서 몇 초만에 얻을 수 있으며, 우리가 검색하는 문구, 심지어 실제로는 검색하지 않더라도 검색창에 썼다 지웠던 내용까지도 디지털화되어 나에 대한 정보로 기록된다. 나의 사소한 인터넷 활동까지 정보로 저장되는 그야말로 빅데이터의 시대이다. 엄청난 양의 빅데이터들이 인터넷 속에 파묻혀 있기 때문에 이를 솜씨 좋게 이용하면 세상을 이해하는 올바른 눈을 키울 수 있다. 스타이 효과를 깨부순 것처럼 말이다.
이러한 빅데이터의 또다른 흥미로운 점은 사람들이 인터넷 검색창에 매우 솔직한 생각을 내놓는다는 것이다. 사람들은 설문조사를 할 때나 다른 사람들 앞에서 조금이라도 더 좋은 사람처럼 보이기 위해 자기 자신까지도 속이는 경향이 있다. 하지만 인터넷 검색창 앞에서는 어떤가? 온라인이고, 지금 나는 혼자 있기 때문에 거짓말을 할 이유가 전혀 없다. 누구나 자신의 말 못할 고민을 인터넷에 검색해본 경험이 적어도 한 두번은 있을 것이다.
이 때문에 구글 빅데이터 분석을 이용하면 일반적인 설문조사로 알 수 없는 사람들의 숨겨진 진심을 알아낼 수 있다. 가장 대표적인 예가 2016년 미국 대선에서 트럼프가 당선된 것이다. 당시 미국의 대부분의 여론조사들은 힐러리가 선거에서 승리할 것이라 예측했지만, 실제 결과는 정반대였다. 이를 빅데이터로 사전에 예측할 수 있었을까? 어느정도 그렇다.
오바마가 미국 대통령으로 처음 당선되던 날 대부분의 미국 방송들이 최초의 흑인 대통령 당선이 가지는 역사적인 의미에 찬사를 보내고 있었을 때, 구글 검색에는 '깜둥이'(nigger) 검색이 증가하였으며 백인 국수주의자 사이트의 가입이 열 배 늘었고, 일부 주에서는 '최초의 흑인 대통령'보다 '깜둥이 대통령'이 더 많이 검색되기도 했다. 미국 내에 인종차별적 검색이 은근하게 이루어지고 있었으며, 인종차별적 검색이 높은 주일수록 이후에 트럼프를 더 많이 지지했다. 사람들은 자신이 인종차별자라는 사실을 드러내고 싶어하지 않기 때문에 일반적인 설문 조사로는 이러한 숨은 인종차별주의를 알아낼 수 없었던 것이다.
책 <모두 거짓말을 한다>에서는 구글 빅데이터 검색을 통해 도널드 트럼프의 사례와 같이 사람들이 숨기고 있는 진심을 하나하나 파헤쳐 나간다. 성(sex), 인종 차별, 포르노, 임신, 낙태와 같이 민감한 주제도 가감없이 다루며 빅데이터 분석의 위력을 보여준다. 빅데이터 분석은 확실히 매력적인 방법이며 사회과학, 경제학의 큰 발전을 가져올 수 있다. 우리가 하는 모든 행동이 데이터로 저장되기 때문에 인간에 대한 의문을 가지고 이를 위한 데이터를 잘 추출해 분석한다면 짧은 시간 안에 훌륭한 결과를 얻을 수 있을 것이다. 빅데이터 분석을 통해 또다른 인간의 대한 통찰을 얻어낼 저자의 다음 책을 기대해본다.
데이터 분석의 미래는 밝다. 차세대 킨제이는 분명 데이터 과학자일 것이다. 차세대 푸코는 데이터 과학자일 것이다. 차세대 마르크스는 데이터 과학자일 것이다. 차세대 소크는 데이터 과학자일 것이다. -p.321