매튜 살가닉,《비트 바이 비트》3장 - 설문조사 <2>
《비트 바이 비트》의 내용을 살펴보고 있다. 저자가 제시하는 빅데이터 연구 사례와, 그에 관련된 조언을 꼼꼼히 읽어본다. 사회학도로서의 생각을 조금씩 보태면서 내용을 정리하려고 한다.
3장은 빅데이터 시대의 설문조사에 관한 내용이다. 설문조사의 역사와 특성을 개괄적으로 살펴본 후, 빅데이터가 설문조사에 가져올 변화를 내다본다. 이 글에서는 빅데이터가 제공하는 새로운 설문조사 연구 방법의 사례를 살펴본다.
다음으로 저자는 컴퓨터가 제공하는 새로운 측정 방식들을 소개한다. 첫째는 ‘생태순간평가(Ecological Momentary Assessment)’다. 복잡한 모델이 있지만, 결국 핵심은 우리의 일상 곳곳에 설문을 쪼개어 넣는 방식이다. #4 글에서 언급한 빅데이터의 상시 접근과 관련이 깊다. 빅데이터는 우리의 일상에서 형성되므로, 설문조사를 거기 심어두면 원하는 데이터에 상시적으로 접근할 수 있다.
저자는 출소자의 재사회화 정도를 측정하려는 연구를 소개한다. (Sugie, 2016) 연구는 무작위로 선정된 출소자 표본에게 매일 일정 시간에 설문조사를 진행하였으며, 위치 정보와 통화 및 문자를 수집하였다. 이러한 방식으로 연구는 수개월 단위의 설문조사보다 사실적이고 세밀한 정보를 얻었다.
하지만 이 연구를 보면 불편한 느낌이 든다. 출소자의 사생활을 연구 대상으로 삼기 때문이다. 이것은 상시 접근성을 제공하는 수동적 데이터(passive data)가 가진 본질적 한계다. 하지만 Sugie는 연구윤리위원회의 지침에 따라 출소자의 사생활을 지키기 위해 최선을 다했으며, 출소자의 재사회화라는 가치 있는 주제를 연구했다. 엄청난 양의 데이터가 범람하는 지금 연구자들은 사생활과 연구 사이에서 고민하지만, 모두를 존중하는 태도로 연구를 해나가라고 저자는 조언한다. 그렇다면 생태순간평가와 빅데이터도 충분히 이로울 수 있다.
다음으로 위키 설문조사를 살펴보자. 사실 엄청난 아이디어는 아니다. 설문조사를 하다 보면 ‘기타’라는 선택지를 여러 번 보았을 것이다. 응답자가 원하는 답이 정해진 선택지에 없을 때, 응답자가 생각하는 답을 기재하는 칸이다. 이 ‘기타’ 응답을 통해, 연구자 혼자서는 생각지 못한 다양한 아이디어를 얻을 수 있다. 컴퓨터 설문은 이 장점을 극대화시킬 수 있는데, 한 번 인쇄하면 바꿀 수 없는 서면 설문과는 달리 언제든 수정할 수 있기 때문이다.
뉴욕시에서 도시의 지속 가능성을 높이는 방안을 설문조사할 때 위키 설문조사 방식을 채용했다. 미리 만들어놓은 25개의 선택지 이외에 다른 방안을 원하는 대로 제시하도록 질문을 설계했고, 시민들의 아이디어는 시장실의 승인을 받으면 질문에 들어갔다. 그 결과, 가장 많은 선택을 받은 상위 10개 아이디어 중 8개는 시측에서 떠올리지 못한 새로운 아이디어였다.
또래 친구들이 제작한 설문을 보면 ‘기타’란을 만들어놓는 경우는 많지만, 거기서 얻은 아이디어를 즉각적으로 반영하는 설문은 본 적이 없다. Google Form에는 그런 기능이 없기 때문에 당연하다. 좀 더 본격적인 조사를 한다면, 직접 코딩을 통해 위키 설문조사 방식을 채용해보는 것도 흥미롭겠다.
마지막으로 ‘게임화(gamification)’라는 아이디어를 살펴보자. 일반적인 설문은 질문-응답이라는 평이한 형태로 이루어져 있다. 저자는 이를 조금 더 게임처럼, 재미있게 설계하여 참여율을 높여보라고 제안한다. 사람들이 자신의 친구와 얼마나 닮았다고 생각하는지, 그리고 실제로는 얼마나 비슷한지를 조사한 연구를 보자.(Goel et al, 2010)
연구는 딱딱한 설문 대신 일종의 게임 형식으로 질문을 설계했다. “당신의 친구라면 주제A에 대해 어떻게 생각할 것 같습니까?” 라는 식의 질문에 답하고, 그 친구에게 답변을 공유함으로써 자신의 추측을 확인하게 만들었다. 질문은 중동의 사회적 상황이나 보편적 의료 서비스를 바라보는 정치적 성향에서부터, 선호하는 술의 종류나 초능력 같은 사소한 성향까지 다양했다.
연구는 질문을 게임처럼 설계함으로써 많은 참여를 이끌어냈다. 사실 게임화의 사례는 보다 가까이서도 찾을 수 있다. 코로나 시국 초중반에 유행했던 심리테스트의 답변 정보도 일종의 연구 자료가 될 수 있다. 필자는 ‘8values 정치 성향 테스트’를 인상 깊게 보았다. 정치 현안이나 정치철학적 딜레마에 관한 흥미로운 질문을 풀면서 응답자의 정치적 성향을 판단해준다.
답변 정보를 연구에 이용하면, 정치 성향에 따라 분류한 여러 집단이 특정 현안에 어떤 태도를 보일지 짐작해볼 수 있을 것이다. 혹은 같은 통계로 인간의 정치적 성향이 얼마나 일관되었는지, 특정한 성향이 어떤 다른 성향과 관련이 깊은지 등의 심리학적 연구도 가능할 것이다.
지금까지는 컴퓨터라는 공간이자 매개가 설문조사를 바꿀 수 있는 방향들에 대해서 살펴보았다. 컴퓨터라는 새로운 설문조사 수단은, 단순한 수단의 변화 그 이상의 의미를 가지고 있다. 이번에는 조금 다른 차원에서, 빅데이터의 존재가 설문조사에 어떠한 영향을 미치는지 살펴볼 차례다.
앞에서 잠깐 이야기했듯이 빅데이터는 방대한 관찰자료를 제공해주지만, 연구자의 목적에 맞게 설계된 설문조사를 완전히 대체할 수는 없다. 빅데이터와 설문조사를 대체 관계가 아니라 보완 관계로 받아들여야 한다고 저자는 주장한다. 빅데이터와 설문조사를 연계(link)하는 데서 강력한 시너지가 발생하기 때문이다.
먼저 조금 단순한 조합을 떠올려볼 수 있다. 빅데이터는 많은 경우 연구의 목적에 완전히 부합하지 않았다.(#4 글에서 불완전성) 이는 데이터의 특정 부분은 연구에 들어맞지만, 특정 부분은 비어있다는 의미다. 이렇게 비어있는 내용을 채우는 데에 설문조사는 굉장히 효과적이다. 연구자의 의도에 맞게 제작하여 정밀한 결과를 얻어낼 수 있기 때문이다.
빅데이터와 설문조사 데이터를 결합하여 연구 목적에 부합하는 온전한 데이터셋을 생성하는 작업을 저자는 ‘레코드 연계(record linkage)’라 명명한다. 페이스북 상호작용과 친구 사이 친밀도 사이의 관계를 분석하는 연구는 레코드 연계를 활용했다.(Burke and Kraut, 2014) 페이스북 로그 데이터를 통해 상호작용을, 설문조사 데이터를 통해 친밀도를 분석했다. 설문만으로는 완전히 수집하기 어려운 상호작용 행위에는 상시 수집중인 빅데이터를 이용했고, 기록과 수치만으로는 완전히 파악하기 어려운 친밀도는 설문조사를 통해 메꾸었다.
미국에서의 유권자 행동에 관한 연구도 조금 더 복잡하지만 마찬가지의 기법을 사용했다. 미국은 모든 시민의 투표 여부를 공개한다. (누구를 찍었는지는 비밀이다.) 이 방대한 데이터를 사회과학적 상업적 연구 목적의 파일로 제작하는 몇 개의 기업이 있다. 연구자들은 그 기업 중 하나인 Catalist LCC와 제휴를 맺어 투표 파일을 얻었다. 그리고 설문조사를 통해 응답자가 투표를 했는지 아닌지에 대한 데이터를 얻었다.
연구는 이 두 가지 데이터를 연계하여, 응답자가 보고한 투표 여부와 실제 투표 여부의 부합 여부를 살펴보았다. 그 결과, 실제로는 투표를 하지 않은 사람 중 거의 절반이 투표했다고 허위보고한 사실을 발견했다. 나아가 그 허위보고에 나타나는 일정한 경향성을 포착했는데, 고소득자/고학력자/공직자가 다른 집단에 비해 높은 허위보고(실제 투표x, 투표 보고 o) 비율을 보였다.
이처럼 빅데이터와 설문조사를 연계하면 상당한 규모의 연구를 양적으로나 질적으로나 충실하게 진행할 수 있다. 또한 두 사례는 상업적 데이터도 사회과학 연구를 목적으로 사용할 수 있음을 보여준다.
-통화 기록으로 부의 수준 예측하기
빅데이터와 설문조사를 조금 더 복잡하게 조합하는 방식을 들여다보겠다. #6 글의 중국정부의 검열에 관한 연구(Gary King et al,------)를 읽어보면 이해에 도움이 될 것이다. 해당 연구에서는 소규모 표본 데이터를 인간의 손으로 분석한 후, 그 분석 방식을 인공지능에게 학습시켜 1100만 개 게시물이라는 빅 데이터에 적용하게 만들었다. 지금 살펴볼 연구는 그보다 조금 더 복잡하다.
어떤 대상 사건을 연구할 때, 가장 완벽한 방법은 뭘까? (질문 방식이 완벽하다는 전제 하에) 모집단 전체에게 설문을 뿌릴 때, 우리는 대상 사건에 관한 최신의 정확한 정보를 얻어낼 수 있을 것이다. 하지만 그것은 불가능하다. 모든 사람에게 질문하고 그것을 분석하는 일은 너무나 많은 시간과 돈이 들기 때문이다. 그래서 우리는 표본을 추출하여 설문조사하고, 그것을 다시 일반화하여 모집단 전체에 적용한다. 일반적인 설문조사는 이처럼 통계학적인 방법을 통해 일반화된다.
그런데 여기서 모집단 전체에 가까운 빅데이터의 존재를 떠올려보자. 만약 소규모의 설문조사 데이터가, 그 응답자에 관한 빅데이터 내용과 체계적 관련을 가지고 있다면 어떨까? 그 체계적 관련성을 분석하여 나머지 빅데이터로부터 설문에 대한 응답을 추정해볼 수 있다. 즉 정리하자면 다음과 같다.
1. 소규모 설문조사를 실시한다.
2. 설문조사 응답자에 대한 빅데이터 일부분과, 설문결과 두 가지를 연계하여 설문조사 데이터와 빅데이터 사이의 체계적 관련성을 추론한다.
3. 빅데이터의 나머지 부분에 그 관련성을 적용해서 다시 설문결과를 추정한다.
원래 대부분의 설문 결과는 빈칸이었지만 이 단계에 의해 채워진다. 저자는 이를 ‘자료 증폭’이라고 부르는데, 자료 증폭을 이용한 사례로는 개발도상국의 빈곤을 세밀하게 그리려 시도했던 연구를 소개한다.(Bluemanstock, 2014)
정확히 말하자면 르완다, 르완다에서 가능한 대규모 국민의 경제 수준을 파악하여 개발도상국 국민의 전반적 빈곤 수준을 파악하고자 했다. Bluemanstock은 르완다 최대 규모의 휴대전화 기업과 제휴를 맺어 익명 처리된 150만 명의 통화 기록을 얻었다. 이는 설명한 모델의 빅데이터에 해당한다. 다음은 소규모 설문조사를 실시할 차례다. 연구는 150만 명 중 1000명을 추출하여 부의 수준을 묻는 질문을 던졌다.
그 후 설문 결과와 빅데이터(설문 집단에 대응되는 일부분)의 관계를 인공지능에게 학습시켰다. 조금 더 구체적으로 말하자면, 연구는 빅데이터의 특징을 직접 라벨링했다. 활동 일수, 연락한 사람의 수, 휴대전화 사용시간에 지출한 돈의 양 등. 이러한 기준으로 빅데이터에 들어있는 150만 명의 사람을 분류했고, 특정 종류의 사람이 설문조사에 어떻게 응답하는지를 인공지능은 학습했다.
이를 바탕으로 인공지능은 나머지, 설문에 참여하지 않은 149만 9000명의 사람들이 설문에 어떤 응답을 내놓을지 추정했다. 항목에 따라 다르지만, 나름의 성과는 있었다. 자전거 소유, 가정 내 전기 보유 여부 등을 추측할 때, 빅데이터와 설문조사를 학습한 인공지능은 일반적 수학 모델보다 확실히 나은 추정치를 냈다. 휴대 전화 사용자 집단이 전체 르완다 국민에 대해 체계적으로 편향되어 있을 수 있다. 하지만 전통적 기법을 이용한 연구 결과와 비교해본 결과, Bluemanstock의 연구는 상당히 정확했다.
물론 전통적 기법이 정확하고 안정적이지만, 자료 증폭을 이용한 연구는 저렴하고 빠르게 매일매일 같은 질문을 반복할 수 있다는 장점이 있다. 150만 명의 부의 수준을 매달 질문하는 일보다는 통화 기록을 얻는 편이 훨씬 효율적이다.(윤리 문제는 남아있다.) 자료 증폭은 빅데이터에 궁극적 목표를 두지 않는다. 빅데이터는 궁극적 목표를 위한 연구 자료도 아니고, 거쳐가는 수단 정도다. 하지만 그것이 소규모 설문조사 자료를 ‘증폭’시킬 잠재력을 갖는다는 점에서, 사회과학자들은 다양한 종류의 빅데이터에 관심을 기울일 필요가 있다.