brunch

You can make anything
by writing

C.S.Lewis

by Viel Liebe Jun 04. 2020

#6 구글 검색으로 독감의 확산 추이 예측하기

매튜 살가닉,《비트 바이 비트》2장 - 빅데이터 연구

《비트 바이 비트》의 내용을 살펴보고 있다. 저자가 제시하는 빅데이터 연구 사례와, 그에 관련된 조언을 꼼꼼히 읽어본다. 사회학도로서의 생각을 조금씩 보태면서 내용을 정리하려고 한다.


2장에서는 앞에서 다룬 빅데이터의 특성에 덧붙여, 빅데이터를 이용한 흥미로운 연구방식 세 가지를 제시한다. 각각의 사례와 함께 살펴보자.


개수 세기


아날로그 시대에는 전체, 혹은 전체에 준하는 다수의 통계를 수집하는 일이 불가능했다. 그런 점에서 디지털 시대와 빅데이터는 대규모의 개수 세기라는 새로운 기회를 열어준다. 저자는 흥미로운 질문을 던진다면, 개수를 세는 단순한 일도 큰 의미를 갖는다고 주장한다.


행동경제학에 관심이 있다면 ‘심적 회계(mental accounting)’이라는 용어를 접해보았을 것이다. 우리 마음 속에 장부가 있다는 것이다. 일해서 번 월급의 씀씀이와, 로또로 얻은 당첨금의 씀씀이가 다르다. 또 몇 천 원 비싼 공책을 사는 마음가짐과, 누구 생일에 몇 천 원 비싼 선물을 사는 마음가짐도 다르다.


이처럼 돈의 출처와 사용처를 마음속으로 기록하는 경제적 행동양식을 심적 회계라고 부른다. 돈의 절대적 효용을 따지는 호모 에코노미쿠스와는 거리가 있는 ‘현실의 인간’이다.


이 심적 회계의 사례로 뉴욕 택시기사의 행동양식을 분석하는 행동경제학 모델이 있다. 손님이 많아 돈이 잘 벌리는 날에는 역설적으로 일찍 퇴근하고, 손님이 적은 날에 오히려 늦게까지 일한다는 예측이다. 하루에 얼마를 벌어야 한다는 심적 회계가 작용한 결과다.*


Henry Farber는 실제 뉴욕시 택시의 모든 운행기록을 수집하여 행동경제학의 심적회계 모델이 현실에서 들어맞는지 연구한다.(HS Farber, 2015) 돈이 잘 벌리는 날에 더 오래 일하는 주류경제학적 인간과, 반대로 정해진 일당을 벌면 퇴근하는 행동경제학적 인간 중 무엇이 더 큰 설득력을 지니는지 연구하는 것이다.


연구는 주류경제학의 손을 들어준다. 그래서 논문 제목이 다음과 같다.

“Why you Can’t Find a Taxi in the Rain and Other Labor Supply Lessons from Cab Drivers”

(당신이 비오는 날 택시를 잡을 수 없는 이유와, 그밖에 택시운전사들로부터 얻은 노동공급에 대한 교훈)


심적 회계 모델과 현실의 인간에 관한 흥미로운 질문이 낳은 연구다. 한편 중국 정부의 검열에 대해 관심을 가진 연구자들도 있었다. 그들은 중국이 집중적으로 검열하는 게시물의 종류를 물었다. 국가를 비판하는 게시물일까, 또는 집단행동을 조장하는 게시물일까? 실제로 올라갔다 내려가는 게시물들을 가능한 한 많이 확인하여 중국의 검열정책을 들여다보고자 했다. (G King et al, 2014)


분석 결과, 중국 정부는 민감한 주제나 정부 비판에는 특별한 관심이 없었다.(다른 평범한 주제와 유사하게 검열되었다.) 하지만 시위 등의 집단행동을 유도하는 게시물에는 집중적인 검열을 가하고 있음을 연구는 확인했다. 


연구 결과보다 흥미로운 것은 연구의 방식이었다. 1100만 개의 게시물이 가진 중국 정부에 대한 태도(비판적/호의적/중립 또는 무관심)를 통계적 수치로 전환할 필요가 있었다. 연구는 여기에 인공지능을 활용했다.


소수의 게시물을 수동적으로 분석하여 정치적 입장을 분류한 후, 인공지능에게 그 분류 방식을 학습하도록 훈련시켰다. 인간의 손으로 확실하게 분류한 학습자료로 훈련한 인공지능은, 나머지 대규모의 게시물이 가진 정치적 입장을 분류해냈다. 이 연구는 빅데이터와 인공지능이 열어주는 새로운 기회를 잘 보여준다. 흥미로운 질문을 생각해낸다면, 빅데이터의 잠재력은 무궁무진하다.


*이준구, 《인간의 경제학》, RHK, 2015, 95-100과 139-142 참고


미래예측과 현재예측(nowcasting)


저자는 사회연구에 있어 미래 예측의 곤란함을 인정하고, ‘현재를 예측’하자고 주장한다.(Choi and Varian, 2012로부터) 현재를 예측한다는 개념의 함의는, 사회적 변화의 양상을 시기적절하게 파악하는 데에 있다. 이는 #4 글에서 다룬 빅데이터의 상시 접근과 관련이 깊다. 빅데이터 자료수집이 아날로그 자료수집에 비해 시시각각 변화하는 상황 정보를 포착하기 용이하다는 특징이었다.


대표적인 분야는 역학이다. 전염병이 얼마나 널리 퍼지고 있는지 파악하는 일은 국가 차원의 대책을 마련하는 데 있어서 핵심적이다. 그리고 시기적절한 대처가 중요하는 점에서, 전염병의 확산을 일주일보다는 하루 단위로, 하루보다는 한 시간 단위로 파악하는 편이 효과적이다.


코로나 시국에서 이 중요성은 더더욱 커졌다. 확진자의 동선 및 코로나 확산 동향을 최대한 빠르고 정확하게 공지해야 추가 감염을 조금이라도 막을 수 있기 때문이다. 하지만 국가 차원의 면밀한 분석을 진행하기에는 상당히 높은 시간적 경제적 비용이 소요된다.


이에 대해 빅데이터는 주목할 만한 대안을 제공했다. 몇몇 연구자들은 사용자들이 입력한 검색어를 통해 유행성 독감의 추이를 예측하고자 했다. ‘독감 치료법’ 또는 ‘독감 증상’ 등을 검색한 사람은 일정한 확률로 독감에 걸렸을 것이라는 발상에서 출발했다. (Jeremy Ginsberg et al, 2009)


구글의 검색 트렌드를 분석하고, 이를 미국 질병관리본부(CDC)의 자료에 맞게 조정함으로써. 연구는 독감의 확산을 예측하려 시도했다. 연구는 2003~2007년의 자료를 바탕으로 2007~2008년 독감의 추이를 상당히 정확하게 추정해냈다. 만약 이런 방식으로 전염병의 확산을 시간 단위로 파악한다면, 전염병 대책 수립에 있어 눈부신 도약을 이루어낼 수 있다.


하지만 이 도전에는 명확한 한계가 있었다. 먼저 단순한 수학적 기법을 통한 추정치에 비해 나은 점이 없는 접근이었다. 또 빅데이터의 변동성 때문에 안정적으로 채용하기도 어려웠다. 독감과 코로나가 유발하는 불안 심리는 그 정도가 다르듯이, 각각의 전염병에 대한 구글 사용자의 검색 패턴이 서로 다를 수 있다. 이뿐 아니라 관련검색어를 제시하는 등 검색결과의 제공 방식이 달라진다면, 검색 트렌드와 전염병 추이를 연결하는 모델을 새로 구성해야 한다.


두 가지 한계로 인해 이 연구는 실패로 돌아갔지만, 상시 접근이 가능한 빅데이터를 이용하여 ‘현재예측’을 시도한다는 발상은 아직까지도 빅데이터 연구의 상징적 사례로 남아있다.


실험에 근사시키기 - 자연실험


‘A할수록 B하다’라는 가설을 검증할 때, 연구자는 A와 B 사이의 관계를 통계적으로 분석한다. 이때 둘 사이에 상관관계가 존재하더라도, 그 두 변인이 인과관계인지는 다른 문제다. 두 변인이 인과관계임을 증명하기 위해서는 다른 모든 변인을 엄격하게 통제해야 하는데, 가장 좋은 방법은 실험이다.


실험도 윤리적 문제나 일반화 가능성이 낮아지는 등 한계가 있기는 하지만, 인과관계를 검증하기에는 최적의 연구방법이다. 그래서 저자는 실험 외의 방법으로 만들어진 데이터를 분석할 때도, 그 방식을 ‘실험에 근사시키기’를 제안한다.(정통 실험은 뒤에서 다룰 예정이다.)


비실험 데이터를 실험에 근사시키는 방법 첫 번째는 자연실험이다. 말 그대로 자연이 사회에 실험했다고 생각하고, 실험의 접근법을 취하는 방식이다. 이때 자연은 nature보다는 naturally로 이해하는 편이 낫다. 자연실험은 (연구자에 의해서가 아니라) 자연스럽게 누군가에게는 실험조치가 취해지고, 누군가에게는 취해지지 않은 사례를 찾아 분석한다. 이런 방법으로 마치 작위적인 실험을 한 것처럼, 다른 대부분의 변인이 통제된 상황을 만든다.


저자는 ‘소득에 대한 군복무의 영향’에 관한 연구를 소개한다.(Angrist, 1990) 연구를 위해 누군가를 군대에 보낼 수도 없는 노릇이고, 우리나라 같은 징병제는 복무한 사람과 그렇지 않은 사람 사이에 체계적인 차이가 존재한다. 모병제는 사회경제적 지위가 낮은 사람이 복무할 가능성이 높아 대표성의 문제가 생긴다.


그래서 연구는 베트남 전쟁에서 미국 군인을 대상으로 삼았다. 당시 미국에서는 추첨을 통해 군인을 선발했다. 이처럼 군복무라는 실험조치가 무작위적으로 가해진 집단과 그렇지 않은 집단을 비교분석함으로써 관심 주제를 연구할 수 있었다. 연구는 군 복무자들의 소득이 비복무자들에 비해 15% 가량 낮았다고 결론내렸다.


디지털 플랫폼을 이용한 자연실험 연구로는 동료의 생산성이 노동자의 생산성에 미치는 영향에 관한 연구가 있다.(A Mas, E Moretti, 2009) 연구는 여러 명의 노동자와 교대로 협업하는 조건을 만족하는 슈퍼마켓을 찾았고, 그곳의 디지털 계산 시스템에 남아있는 기록을 활용하여 연구했다. 노동자는 그를 지켜보는 다른 노동자의 생산성에는 긍정적 영향을 받았지만, 그를 볼 수 없는 노동자의 생산성에는 별 영향을 받지 않았다.


빅데이터는 디지털 세계에만 존재하지 않는다. 비단 SNS나 인터넷에 남아있는 활동정보만이 아니라, 항상 우리를 감시하고 기록하는 일상적 시스템도 빅데이터의 범위 안에 있다. 우리 삶에는 생각보다 넓고 깊게 데이터가 뿌리박고 있다. 다양한 종류의 빅데이터가 자연실험의 출발점이 될 수 있다.


**덧붙여서 자연실험은 사회역학(의료사회학)에서도 널리 사용하는 기법이다. 직접 의학적 실험을 가하면 윤리적 문제가 생기기 때문이다. 다른 글에서 다룬 적 있는 김승섭의 《아픔이 길이 되려면》도 자연실험이라는 방법론적 아이디어의 측면에서 읽어볼 수 있다.


실험에 근사시키기 – 비실험 데이터 조정


비실험 연구를 실험에 근사시키는 두 번째 방법이다. 비실험 데이터 조정이란 실험 밖의 방법으로 얻어진 데이터를 마치 실험으로 얻은 것처럼 보정하는 작업을 말한다. 비실험 데이터 조정의 다양한 종류 가운데 저자는 ‘매칭’을 소개한다.


다시 자연실험을 떠올려보자. 자연실험은 일부에게만 무작위로 가해진 실험조치를 나머지와 비교했다. 이와 비슷한 맥락에서 연구자들은 널려 있는 데이터 중에서, 원하는 변인만 다르고 나머지는 대체로 비슷한 데이터쌍을 추출할 수 있다.


그렇다면 그 데이터는 마치 사회 실험의 실험집단에서 얻은 데이터와 유사해진다. 동질적인 두 집단에서 한 집단에만 실험조치를 가했을 때처럼, 연구자가 상정한 변인에 있어서만 타 집단과 이질적이기 때문이다. 이를 매칭이라고 한다.


수학적으로 표현하자면 데이터 A의 속성이 (x,b,c,d,e)라면, 그에 매칭되는 데이터 A’의 속성은 (y,b,c,d,e)가 된다. 첫 번째 속성에서 두 데이터가 x와 y라는 상이한 값을 가지므로, 연구는 A를 실험집단, A’을 통제집단으로 간주하고 통계분석을 실행할 수 있다. 디지털 플랫폼이 제공하는 방대한 데이터 속에서라면, 이와 같은 데이터쌍을 몇 개든 발견할 수 있다.


온라인 시장에서의 판매전략에 관한 연구에서 매칭 기법을 이용했다.(Liran Einav et al, 2015) 연구는 경매 시작가가 경매 결과(판매 여부와 판매 가격)에 미치는 영향을 질문했다.


일반적으로 두 가지 접근법이 있었지만, 각각의 한계가 뚜렷했다.

1. 만약 경매 시작가와 판매 가격 사이의 통계적 관련성을 분석한다면, 품목과 가격대별로 달리 나타나는 판매 경향을 놓칠 수 있다.

2. 직접 몇 개의 제품을 선택하여 다양한 가격대에 경매해본다면, 그 제품의 대표성이 문제가 될 수 있다. 즉, 그 밖의 제품을 경매하는 경우에도 연구의 결론을 일반화할 수 있는지가 애매하다.


그래서 연구는 매칭되는 데이터쌍을 수십만 개 찾아내 분석했다. 일반적인 결론은 경매 시작가가 높을수록 판매 가능성은 낮아지고, 판매 가격은 높아진다는 당연한 발견이었다. 더불어 기준가격 대비 5~85%의 경매시작가는 경매 결과에 별 영향을 주지 못하는 경향도 발견했다. 이는 앞에서 설명한 두 가지 다른 방법으로도 알아낼 만한 결과다.


하지만 매칭 기법 덕분에 연구는 품목별로 이질적인 경향성을 포착했다. 품목은 다양해서 여기서 전부 다루기는 어렵다. 주목할 만한 품목은 기념품과 DVD다. 기념품은 높은 희소성 때문인지 경매 시작가가 판매 여부에 미치는 영향은 낮았고, 오히려 높은 경매 시작가는 판매 가격을 높여주었다. 반면 DVD는 희소성이 낮아, 경매 시작가를 높게 불러봤자 판매하기 어려운데다 판매 가격에도 별 이점이 없었다.


연구하고자 하는 변인이 다양한 상황에서 갖는 이질적인 의미를 이해하고, 현장실험보다 큰 규모의 표본을 얻고자 한다면 매칭은 효과적인 기법이다. 다만 연구결과에 영향을 미치는 중요 변인을 고려하지 않고 데이터쌍을 모은다면, 타당한 결과를 얻지 못할 위험은 있다.


이상 빅데이터가 제공하는 새로운 방식의 연구 기회들을 살펴보았다. 《비트 바이 비트》는 계속 다룰 예정이지만, 이제 슬슬 내 프로젝트의 주제를 정할 시점이다. 이 카테고리에 올리는 글은 실제 과정보다 느리기 때문에 사실 이미 주제를 결정하긴 했다. 어쨌든 다음 글에서는 지금까지 다룬 내용을 일정부분 참고하여, 여러 연구 주제를 떠올려보도록 하겠다.




매튜 살가닉, 《비트 바이 비트》, 강정한 외 3인 역, 동아시아, 2020

매거진의 이전글 #5 빅데이터는 무엇이 다를까 <2>
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari