brunch

매거진 테크 마케터의 세상읽기

라이킷 11 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 한톨 Apr 10. 2020

우리는 빅데이터를 믿을 수 있을까

코로나19 사태를 해결하기 위해 테크업체들이 나섰다

코로나19가 전 세계적으로 확산되었다. 이 글을 쓰는 4월 8일 기준 140만 명의 확진자가 나왔고, 이에 모든 기업들이 발 벗고 나섰다. IT 기업들도 마찬가지다. 애플은 시리에 코로나19를 진단할 수 있는 알고리즘을 도입하였고, 구글 역시 세계 최대 검색 엔진으로서 정확한 정보만을 제공하기 위해 노력하고 있다. 또한 구글은 구글 맵으로 수집한 데이터를 바탕으로 131개국에서 마트, 공원, 직장 등으로 이동한 위치 데이터를 분석한 COVID-19 Community Mobility Reports를 배급하였다.

대한민국의 이동 데이터 (출처 : https://www.google.com/covid19/mobility/)

새삼스럽지만, 당연히 데이터가 중요한 때이다. 무엇보다 사회적 거리두기(Social Distancing)가 지속되면서 위치 데이터가 핵심으로 부상하였다. 거리두기가 잘 지켜지고 있는지, 그리고 실제로 효력이 있는지 알기 위해서 사람들의 위치를 파악하고 그 지역의 확진자 확산 추세를 분석하면 어느 정도의 인과 관계는 찾을 수도 있을 테니까.

페이스북 역시 실험에 나섰다. 카네기 멜론 대학교의 연구진과 손잡고 뉴스피드 맨 위에 링크를 제공하여 자가진단을 통해 코로나19의 확산을 예측하여 히트맵을 구성하고 자원이 가장 시급한 지역을 판단하거나 진척 정도를 판단할 수 있게 하겠다는 것이다. 우선 미국에서 시작된 이 프로젝트는 효과적으로 밝혀질 경우 다른 국가로 확산될 예정이다.

출처 : https://about.fb.com/news/2020/04/data-for-good/

포부는 대단하다. 제목부터 그렇다. 선을 위한 데이터(Data for good)라니. 그런데, 뭔가 떠오르는 것이 있지 않는가. 바로 구글의 독감 트렌드 (Google Flu Trend)이다.

2008년, 구글은 독감과 관련 있는 검색어의 검색 빈도를 추적해 독감 유행 시기를 예측하는 서비스인 독감 트렌드를 시작했다. 이 프로젝트는 네이처지에 미국 질병관리본부(CDC)보다 1주 이상 빠르게 독감 유행 시기를 예측할 수 있다는 연구결과가 네이처지에 소개되면서 크게 주목받았다.

그러나 독감 트렌드는 2009년, 신종 인플루엔자(H1N1)의 전 세계적 유행을 놓쳤고 2013년에는 실제 독감 발생률보다 무려 2배 더 많은 감염자를 예측하면서 신뢰성을 잃었다. 네이처지는 구글 독감 트렌드가 기존의 조사를 대체할 수 없다고 비판했고 구글은 결국 서비스를 종료시켰다. 빅데이터의 패배처럼 보이는 사건이었다.

구글 독감 트렌드와 CDC의 발표와의 차이

물론 구글 독감 트렌드가 완전한 실패는 아니다. 구글 독감 트렌드를 분석한 논문 “구글 독감 트렌드가 준 교훈: 빅데이터 분석의 함정(The Parable of Google Flu: Traps in Big Data Analysis)”에서는 비록 독감 트렌드 자체는 좋은 결과를 주지 않았지만, 독감 트렌드와 공식 기관의 표준 예측 결과를 조합했을 때는 실제로 더 나은 결과를 제공한다고 주장한다. 즉, 구글 독감 트렌드는 그 자체로 다른 전통적인 방법을 대체하도록 만들어졌다기보다는 다른 방법을 보완하는 용도로 만들어졌다는 것이다.

데이터의 중요성을 무시하는 것은 결코 아니다. 마케터로서, 데이터의 중요성은 언제나 실감하고 있다. 문제는 이것이 얼마나 유의미하냐는 것이다. 데이터가 틀어질 수 있는 방법은 정말 많기 때문이다.

1. 자가 설문의 오류

가장 먼저 의구심이 드는 내용이다. 데이터 자체의 신뢰성이 문제될 수 있다. 사람들이 얼마나 솔직하게 응답할 것인가? 우리가 페이스북이나 구글을 통해 얻을 수 있는 데이터를 얼마나, 어떻게 신뢰할 수 있는지에 대한 근본적인 질문을 생각해봐야 한다. 소셜 미디어에서는 자신을 포장할 유인이 더 많기 때문에 더욱 편향된 데이터가 나올 수밖에 없다. 저자는 실제로 판매 부수가 유사한 학술지와 가십지의 페이스북 게시물 양은 27:1 정도라고 한다.

SNS별 이미지 차이

우선 계정이나 게시물이 허구일 수도 있고, 사람들이 소셜 미디어에서 자기 자신을 필터링하는 정도 역시 변수로 감안하여야 한다. 또한 1) 기존 사용자의 성향(얼마나 객관적으로 스스로를 인지하는가? 즉, 그냥 열이 나는 '기분'인데 엄살을 부리는 것인가?)이나 2) 소셜 미디어 자체의 생명력 (인스타그램에 을지로 관련 장소 데이터가 많아진 것은 을지로가 트렌드이기 때문인가, 인스타그램 자체의 사용성이 늘었기 때문인가?) 등을 변수로 받아들여야 하는 것이다.

우리는 인터넷에서 얻는 자료를 포함한 모든 빅데이터를 얼마나 믿어야 하는가? 빅데이터는 인간의 무의식을 담고 있다고 한다. 그러나 그 속에는 나를 꾸며내고 싶다는 무의식도 있다. 이 무의식을 우리는 과연 신뢰할 수 있는가?

2. 인과의 오류

두 번째로는 상관관계와 인과관계의 오류가 있을 수 있다. 세스 스티븐스-다비도위츠의 <모두 거짓말을 한다 Everybody Lies>에서 이런 말이 나온다.

광고가 매출을 올린다는 개념은 우리 경제에서 아주 필수적이고 결정적인 요소다. 하지만 증명하기는 미칠 듯이 어렵다. 사실, 이는 상관관계와 인과관계를 구분하기가 얼마나 어려운지를 보여주는 교과서적인 사례다. (…) “그들의 인과관계는 완전히 거꾸로 엮여 있었습니다.” 레빗은 강연에서 이렇게 말했다. 인과관계가 있을지도 모른다. 우리로서는 알 수 없는 일이다. (p.255)

우리는 데이터가 상관관계인지, 인과관계인지 정확히 알 수 있을까? 대표적인 논리의 오류 중 인과의 오류(post hoc ergo propter hoc)가 있다. A 이후 B가 발생했기 때문에 A가 B의 원인이라는 오류이다. 이는 다양한 통계 프로그램에서도 발견할 수 있는 오류이다. 아이스크림의 매출이 올라가서 선풍기의 매출이 올라간 것이 아니라, 단순히 여름이라는 계절성 때문에 둘의 매출이 동시에 올라간 것일 수도 있다. 코로나19 역시 변수가 너무나 많아졌다. 사회적 거리두기와 확산율이 설사 비례한다고 하더라도 확산이 사회적 거리두기 때문에 잦아들었다고 생각할 수 있는 것일까?

내가 노래를 부르니 비가 왔다! 내 노래가 비를 부른 거야!

월마트의 대표적인 ‘기저귀와 맥주’ 케이스 역시 그렇다. 1990년대에 월마트는 수요일마다 기저귀를 사는 사람들이 맥주를 산다는 것을 발견하였다. 한 주의 절반이 지났을 때쯤, 아빠들이 퇴근길에 두 제품을 동시에 샀기 때문이다. 월마트는 이후 기저귀와 맥주의 배치를 가깝게 두었고, 매출이 크게 올랐다. 이 경우, 둘은 인과관계가 아니다. 같은 원인으로 인한, 상관관계가 있는 지표일 뿐이다. 우리는 상관관계와 인과관계를 완전히 분리해서 생각할 수 있을 것인가?

저자는 경주마의 혈통보다 심장의 크기 등이 퍼포먼스에 더 중요한 요소라는 부분에서, 이렇게 말한다.

“그 말이 좋다는 것을 알 수 있다면, 어디서 그 자질을 얻었는지까지 신경 쓸 필요가 있을까요?” (p.90)

즉 저자는 데이터 모델이 효과적인 이유에 대해 생각할 필요가 없다는 것이다. 그렇지만 그것이 상관관계인지, 인과관계인지 밝혀내기 위해서는 그 원인 역시 우리는 고려해야 하지 않을까?

3. 원인을 우리가 알 수 있을까?

결과만 중요할 때도 있지만 때로는 정확한 원인을 밝혀내는 것이 더 중요할 때도 있다. 설사 인과관계가 밝혀졌고 데이터 모델의 원인을 우리가 알고 싶어도 언제나 효과적으로 알 수 있을까? 우리는 어디까지나 그 원인을 ‘추론’할 수 있을 뿐이다.

출처 : 넷플릭스 <익스플레인 : 세계를 해설하다>

예를 들어, 당뇨병은 장수병이라는 말이 있다. 당뇨를 고치려고 운동을 하고 올바른 식습관을 지키다 보면 저절로 장수하게 된다는 것. 하지만 어쩌면 다른 이유가 있을 수 있지 않을까? 실제로 당뇨병 치료제인 메트포르민을 복용한 당뇨 환자는 유전자 변형이 일어나 장수하는 경향이 있다. 이런 원인들까지 우리는 모두 파악하고 변수로 고려할 수 있을까? 우리는 그 변수를 어떠한 방식으로, 그리고 어떤 배경지식을 바탕으로 추론할 수 있는가?

데이터의 힘을 부인하려는 건 아니다. 데이터는 분명 강력하다. 설득력이 가장 큰 방법이기도 하다. 그렇지만 설득되기 전에 정말 제대로 수집되고, 최대한 많은 변수가 고려된 결과인지 헤아려야 한다. 스티븐스-다비도위츠 역시 이렇게 말한다.

숫자는 유혹적이다. 점차 수에 집착하면서 더 중요한 고려사항을 놓칠 수 있다.

코로나19는 수많은 IT 기업들이 그간 구축해온 데이터를 활용할 절호의 기회고 나 역시 이 위기 상황을 극복할 수 있다면 모든 방법을 동원해야 한다고 믿는다. 부디 객관을 바탕으로 올바른 정책이 시행되고 적재적소에 자원이 분배되길 바란다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari