brunch

You can make anything
by writing

C.S.Lewis

by 김다리 Jan 09. 2021

민낯을 보여주는 데이터, 그런데 그게 우리의 전부일까?

<모두 거짓말을 한다>를 읽고

  어느 연구에 따르면 우리는 평생의 1/3을 거짓말을 하면서 살아간다고 한다. 그런 거짓말들 속에서, '진짜'를 찾기란 여간 쉽지가 않다. 어쩌면 다양한 사회 과학 분야의 조사 방법론은 사람들의 '진짜'를 얻기 위한 무한한 과정인 것인지도 모른다.

   <모두 거짓말을 한다>는 거짓말쟁이들조차 솔직해질 수밖에 없는, '구글 검색 데이터'를 분석한다. 구글 검색 데이터를 통해 사람들이 어떤 거짓말을 하는지 밝히고, 속마음을 알아내는 실험도 하고, 미래를 예측하거나 서로 관련이 없어 보이는 것들의 관계를 보여준다. 이 방대한 데이터 안에서 발견되는 인간의 민낯이 그리 유쾌하지만은 않지만, 그렇기 때문에 이 데이터는 의미를 가진다. 우리가 사람들을 오해하고 있다는 것을 알려주기 때문이다.




우리는 모두 잘 보이고만 싶다

   그렇다면 사람들은 왜 이런 오해를 하게 거짓말을 하는 것일까?

   설문조사와 인터뷰는 사람들의 생각을 알아보고 더 나아가 그들의 행동 패턴을 예측하기 위한 좋은 도구이다. 하지만 이 방법들의 맹점은, 사람들이 남들에게 잘 보이고 싶은 나머지 거짓말을 한다는 것이다. 이를 사회적 선망 편향Social desirability bias이라고 한다. 익명성이 보장되어도 마찬가지이다. 사람들은 자신도 모르게 거짓말을 하기 때문이다. 미국 고등학교 졸업생의 4분의 1은 자신의 사교성이 상위 1퍼센트에 속한다는 응답을 했다고 한다. 우리는 남은 물론이고 자신까지도 속인다. 그것이 거짓말인지도 모른 채.


행동은 거짓말을 하지 않는다

   하지만 구글 검색 데이터로는 사람들의 솔직한 마음을 알 수 있다. 구글 검색에는 솔직해질 수밖에 없는 유인책Incentive이 있기 때문이다. 구글 검색에서 필요한 정보를 얻으려면, 말 그대로 '필요한'정보를 검색해야 한다. 그래서 우리는 솔직해질 수밖에 없다. 스스로의 사교성이 상위 1퍼센트에 속한다고 착각하고 있는 사람도 구글 검색에서 만큼은 '새 친구 사귀는 법'을 검색할 것이다. 물론 자신은 그 모순을 눈치채지 못했겠지만 말이다.

   사람들의 민낯은 구글 검색 데이터를 비롯한 다양한 웹/앱 서비스의 모든 기록에 나타난다. 넷플릭스는 사용자들이 나중에 보기 위해 '찜'한 영화를 아무리 다시 추천해줘도 보지 않는다는 것을 발견했다. 사용자들이 찜해놓은 영화는 대부분 좀 있어 보이는 흑백 다큐나 진지한 외국 영화 등이었던 것에 반해, 실제로 보는 영화는 가벼운 코미디나 로맨스 영화였다. 여기서 '찜'이 사용자가 스스로 바람직하게 여기는 모습일 뿐이라는 것을 알게 된 넷플릭스는 더 이상 '찜'한 영화를 추천하지 않았다.(이 대목에서 너무 공감되어 소름이 끼쳤다. 덜덜...) 대신 실제 클릭수와 조회수를 바탕으로 콘텐츠를 추천하기 시작했다. 그러자 더 많은 고객들이 넷플릭스를 방문하고 더 많은 영화를 보았다.


빅-행동-데이터로 하는 빠르고 정확한 실험

   구글이나 넷플릭스와 같은 서비스들에서는 빠르게 아주 많은 양의 데이터를 알 수 있다. 이를 통해 '날씨'라는 변수와, '농담 검색 률'을 이용하여 '날씨가 좋을수록 농담을 더 많이 검색할까?'와 같은 가설을 검증할 수 있다. 더 나아가서 '변수'를 생성하는 것도 가능하다. 바로 A/B 테스트를 통해서이다.

   A/B 테스트는 A집단과 B집단을 무작위로 나누어 실험한 뒤 두 집단의 데이터를 비교하는 것을 의미한다. 예를 들어 A집단과 B집단을 무작위로 나누고, 가입 버튼을 A집단에서는 '가입하기'로, B집단에서는 '더 알아보기'로 제공한다. 실험 결과 두 집단의 가입률이 유의미하게 차이가 난다면, 가입 버튼은 가입률에 영향을 주는 하나의 변수가 된다. 한계점이라면, 여기서는 "왜 '더 알아보기' 버튼일 때 더 가입률이 높을까?"라는 질문에는 답할 수 없다. 하지만 데이터들이 쌓이다 보면 가입률을 높이는 항목과 그렇지 않은 항목을 모아 비교하여 결국 '왜'라는 질문에도 답할 수 있지 않을까 생각해본다.


그럼에도 불구하고 데이터는 사람이 아니다

   이쯤 되면 데이터가 정말 만능으로 보인다. 데이터 안에 사람의 모든 것이 있고, 우리는 모두 데이터로 설명할 수 있는 존재일까? 어쩌면 미래에는 우리의 생각과 작은 움직임조차도 데이터가 되어서 구글은 나의 몇 수를 내다보는 예언가가 될까?

   여기서부터는 철학과 가치관의 문제인 것 같다. 나는 여전히 '사람'의 사람됨을 믿는다. 우리는 구글과 넷플릭스에 보여주지 않는 삶을 많이 가지고 있을 수밖에 없다. 누군가는 사람이 사람일 수 있는 덕목 중 하나로 '예측 불가능성'을 꼽기도 한다(<검색되지 않을 자유>, 임태훈 저). 구글이 추천하는 모든 광고를 클릭하는 사람은 없다. 넷플릭스가 추천하는 모든 콘텐츠가 마음에 드는 사람도 없다. 이것은 단순히 알고리즘이 고도화되지 않아서나 100% 완벽한 알고리즘은 불가능하다는 이론적인 한계 때문은 아니라고 생각한다.

   오늘 내가 자기 전에 했던 생각들, 어린 시절에 만났던 사람들처럼 구글은 절대 알 수 없는 것들이 사람을 사람으로 만든다. 같은 상황에 처해있더라도 이전까지의 경험, 각각의 기질(DNA라고 해야 할까?) 같은 변수들이 사람마다 다른 행동을 하게 한다. 또한 모든 통계가 그러하듯이, 평균은 현상은 설명해주지만 개인을 설명해주지는 못한다. 데이터 뒤에 숨은 사람에 대한 관심이 여전히 필요한 이유이다.




   구글 데이터(를 비롯한 여러 사용자 데이터)는 이를 통해 사람들의 솔직한 생각을 알 수 있다는 점에서 의의가 있다. 솔직히 이 알고리즘이 조금 무섭기까지 하다. 그 데이터를 영리하게 이용해서 나도 모르게 나를 피실험자로 만든다는 점에서는 '이래도 되는 거야?' 싶기까지 하다.

   하지만 도구의 가치는 어떤 방향으로 사용하느냐에 달렸다. 우리는 이 솔직한 데이터들을 통해 세상을 더 잘 이해하고, 그래서 사람을 이롭게 하는 것들을 더 많이 만들 수 있을 것이다. 그러기 위해서는 '소름 끼친다', '오.. 대박' 하는 감상에서 끝나지 않고 이러한 기술들을 어떻게 활용할지에 대한 끊임없는 성찰이 필요하다. 나 역시 언젠가 내 손에 들어올 데이터들을 어떻게 가치 있게 다루어야 할지 더 생각해보게 된다.

   기술이 항상 더 나은 쪽을 향하길 바라는 하는 마음으로, 구글 데이터가 너무 탐이 나는 마음으로 글을 마친다.   

작가의 이전글 벅스의 잘나가는 부캐, essential; 탐구하기
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari