brunch

You can make anything
by writing

C.S.Lewis

by Viel Liebe Jul 16. 2020

#9 XBOX 사용자를 표본으로 대선 결과 재현하기

매튜 살가닉,《비트 바이 비트》3장 - 설문조사

《비트 바이 비트》의 내용을 살펴보고 있다. 저자가 제시하는 빅데이터 연구 사례와, 그에 관련된 조언을 꼼꼼히 읽어본다. 사회학도로서의 생각을 조금씩 보태면서 내용을 정리하려고 한다.


3장은 빅데이터 시대의 설문조사에 관한 내용이다. 설문조사의 역사와 특성을 개괄적으로 살펴본 후, 빅데이터가 가져올 변화를 내다본다.


설문조사의 변천사


우선 설문조사의 역사적 변천을 살펴보자. 현재의 관점에서 설문조사의 세대를 3개로 분류하는 기준이 있다. 1기는 전자 기기를 일체 사용하지 않은 대면 면접형 설문조사 방식이다. 그 후 유선 전화가 보급되면서, ‘임의 번호 추출법’을 통한 2기 전화 설문조사 방식을 사용하기 시작했다. 유선 전화 설문은 집에 있어야 응답할 수 있기 때문에, 유선 전화 설문의 결과에 편향이 존재한다는 비판이 제기되었다. 그래서 지금은 휴대 전화로까지 확대한 설문 방식을 많이 활용한다. (사실 그 밖에도 전화기의 소유 여부, 무응답률 증가 등과 관련된 편향 문제는 남아있다.) 2기 설문조사 방식으로는 지금까지도 이루어지는 여론조사가 대표적이다.


이에 반해 3기 설문조사는 컴퓨터와 디지털 플랫폼을 이용한다. 디지털 세계에는 설문조사를 대체할 만한 수많은 데이터가 존재하지만, 연구자가 자신의 목적에 맞게 자기 손으로 제작한 설문에는 여전히 큰 가치가 있다. 뿐만 아니라 디지털 플랫폼과 빅데이터는 설문조사에 새로운 힘을 불어넣어준다. 지금부터 본격적으로 이야기해볼 것이다.


설문조사의 오류와 원인 - 종합 설문조사 오류 체계


저자는 우선 설문조사의 오류에서 출발한다. 사회과학에서 널리 쓰이는 설문조사의 이해 체계로서 ‘종합 설문조사 오류 체계’가 있다. 이 개념적 모델은 설문조사의 오류를 편향과 분산으로 분류한다. 먼저 편향자료가 한쪽에 치우치는 오류를 말한다. #4에서 소개한 체계적 오차와 관련이 깊다. 반면 분산은 자료가 하나의 값을 중심으로 나타나지 않고, 각 값이 큰 변동성을 지니는 오류를 가리킨다. 이쪽은 비체계적 오차(무작위 오류)에 가깝다.


당연히 두 가지 모두를 최대한 줄이는 게 좋지만, 쉬운 일은 아니다. 편향과 분산 모두 완벽히 잡기 어렵다면, 어느 한 요소를 포기하는 편이 좋을 수 있다.


그리고 종합 설문조사 오류 체계는 오류의 원인도 설명한다. 대표성과 측정 방식이라는 두 가지 측면에서 우리는 설문조사가 지닌 오류의 원인을 발견할 수 있다. 저자는 각각을 살핀 후, 빅데이터 시대의 사회과학 연구가 각 문제에 대응하는 방식에 관해 조언한다.


대표성부터 살펴보자. 대표성 문제로 가장 흔히 인용하는 사례는 잡지사 <리터러리 다이제스트>의 미국 대선 여론조사다. 1936년 대선에 출마한 알프 랜던과 프랭클린 루스벨트 중 누가 당선될 것인지 알아보기 위해, 잡지사는 전화번호부와 자동차 등록 기록에 등재된 천만 명을 대상으로 설문조사를 실시했다. 이 가운데 돌아온 240만여 개의 응답을 분석한 결과, 잡지사는 랜던이 루스벨트를 누르고 대통령이 될 것이라 전망했다. 하지만 실제 투표에서는 루즈벨트가 압도적인 승리를 거두었다.


이는 당시 잡지 구독자가 경제적으로 안정된 계층이었다는 점에 기인했다. 경제적 측면에서의 표본 편향은 설문 결과에 체계적 오차를 일으켰다. <리터러리 다이제스트>의 여론조사는 240만이라는 어마어마한 표본도 대표성이 없다면 한쪽으로 크게 치우치는 결과를 낳을 수 있다는 것을 보여준 상징적인 사례다. 이와는 대조적으로 단 1500명만을 무작위로 추출한 갤럽의 여론조사가 루즈벨트의 승리를 전망했다는 점에서, 단순히 큰 규모가 타당한 연구결과를 보증하지 않는다는 사실은 명백하게 드러난다.*


다음 살펴볼 것은 측정 방식의 문제다. 몇몇 연구자들은 질문 방식에 따라 설문의 응답이 심각하게 달라지는 현상을 지적해왔다. 한 연구는 사회적 환경과 개인의 책임 가운데 무엇이 더 중요한 범죄 요인인지를 질문했다.(Schuman and Presser, 1996) 그러나 서로 다른 방식으로 두 번 물었다. 하나는 ‘사회적 환경보다 개인에게 더 책임이 있다.’였고, 다른 하나는 ‘개인보다 사회적 환경에 더 책임이 있다.’였다. 놀랍게도 두 설문 모두 찬성의 비율이 더 높았다.


또 복지정책에 대한 지지도를 묻는 연구가 있었다.(Huber and Paris, 2013) ‘빈곤층 지원’에 관한 질문에서는 너무 적다고 답한 비율이 60% 이상이었지만, ‘복지’ 항목에서는 너무 많다고 답한 비율이 40% 정도로 가장 높았다. 빈곤층 지원과 복지가 실제로 조금은 다른 개념이더라도, 그만큼 큰 분포의 차이가 나타난다는 점은 질문 방식의 중요성을 시사한다.



빅데이터와 대표성 문제

-XBOX 사용자를 표본으로 대선 결과 재현하기


이제 빅데이터가 설문조사에 미치는 영향을 살펴보겠다. 먼저 대표성의 측면이다. 표본의 크기가 과거와는 차원이 다른 빅데이터 시대에는, 체계적 오차(편향)의 위험도 크게 증가한다. 사회과학 연구를 목적으로 형성되지 않기 때문에 대표성이 낮고, 데이터의 크기가 커지면서 편향의 정도도 강해진다.


이 위험성을 새로운 기회로 전환하기 위해 저자는 ‘비확률 표집’을 제안한다. 표집의 의미부터 알아보자. 설문조사의 표본을 선택하는 과정은 크게 세 단계로 나뉜다. 이 중에서 2단계가 표집 단계다.

1단계: 전체 모집단에서 설문 가능한 (모)집단을 추출한다.
2단계: 설문 가능한 모집단에서 설문조사를 실시할 표본을 추출한다.
3단계: 추출한 표본 가운데 응답자가 응답한 표본만이 연구의 대상 표본이 된다.


생각해보면 금방 알 수 있는데, 1번과 3번은 기본적으로 연구자가 조정할 수 없는 단계다. 어떤 사람이 설문 가능한지는 연구의 사전 조건에 가깝고, 그에 대해 응답할 것인지도 응답자의 선택에 달려있다. (설문 가능한 사람의 폭을 넓히고, 응답이 잘 돌아오게끔 만드는 정도가 연구자의 최선이다.)


이에 반해, 설문 가능한 모집단에서 체계적인 편향이 일어나지 않도록 ‘골고루’ 설문을 실시하는 일은 연구자의 몫이다. 설문 인원을 골고루 배정하기 위해 만들어진 방식‘확률 표집’이다. 확률 표집에는 다양한 모델이 존재한다.**


하지만 만약 설문 가능한 인원에 편향이 있다면 어떨까?(1단계와 관련된 문제) <리터러리 다이제스트>의 사례가 그것이다. 잡지사가 설정한 설문 가능 인원은 전화번호부와 자동차 등록 기록에서 얻어낸 집단이다. 잡지사는 골고루 뽑을 것 없이 엄청난 규모의 설문을 통해 설문 가능한 모집단에 대한 대표성을 확보했다. 하지만 이미 설문 가능한 모집단 자체가 전체 모집단에 대해 편향되어 있었기 때문에, 잡지사의 여론조사는 타당한 결과를 도출하지 못했다.


응답률에 문제가 생겨도 곤란하다.(3단계와 관련된 문제) 대표성 있는 설문 가능 모집단을 만들고, 그 중에서도 대표성 있는 설문 집단을 구성하더라도 응답의 문제는 발생한다. 특정 요인에 의해 특정 집단이 응답할 수 없거나 응답을 거부하는 경우가 있기 때문이다.


이처럼 1,3단계에서 문제가 생기면, 수학적으로 아름다운 확률 표집 모형도 큰 의미가 없다. 편향된 모집단에서 골고루 표본을 추출하는 일, 골고루 추출된 표본에서 편향된 일부만이 응답하는 일이 발생하기 때문이다.


그래서 저자는 이왕 편향이 생기는 김에, 표집 과정에서도 편향된 표집을 실시하자고 주장한다. 확률 표집은 느리고 경제적 비용도 크다. 하지만 수학적 아름다움을 포기하고 표본을 얻고자 한다면, 빅데이터 세계는 빠르고 저렴하며 품질좋은 대규모의 표본을 제공한다. 물론 편향된 표본 자체를 연구하자는 말은 아니다. 저자는 대신 편향 요인을 가능한 한 모두 고려하여 자료의 편향성을 보정하는 방안을 제시한다.


그 사례로 미국 XBOX 게임 사용자를 표본 삼아, 2012년 대선 결과를 재현한 연구가 있다.(Wang et al, 2015) XBOX 사용자 집단은 그 자체로 편향되어 있다. 이 가운데서 골고루 표본을 뽑는 일은 의미가 없었다. 그래서 연구는 XBOX 사용자가 어떻게 편향되어 있는지를 분석하기로 했다.


성별, 인종, 나이, 교육, 주, 정당, 정치성향, 2008년 대선 투표까지 연구는 8가지 요인의 편향성을 고려한다. 성별을 예로 들자면, 남성 유권자는 전체의 47%뿐이었지만 XBOX 표본의 93%를 이루고 있었다. 연구는 이러한 수치 차이를 고려하여 각 요인에 가중치를 부여하여 여론조사를 보정하였고, 2012년 대선 결과를 성공적으로 재현했다.


+ 딜레마

이러한 비확률 표집-조정 방식에는 딜레마가 있다. 더 많은 요인을 고려하여 자잘한 집단을 구성할수록 분석의 세밀함은 높아지지만, 정작 그 집단에 속하는 현실의 표본을 얻기는 어려워진다. 책의 표현을 따오자면, ‘캘리포니아에 거주하는 18세에서 29세까지의 대졸여성’에 해당하는 XBOX 사용자를 찾기는 꽤나 어려울 것이다. 진보적 정치성향을 띠는 천주교인이라는 집단으로까지 좁힌다면 더더욱. 그래서 ‘캘리포니아에 거주하는 30세에서 49세까지의 대졸여성’ 정도의 비슷한 표본이 존재한다면, 연구는 그것을 바탕으로 추정하여 비어 있는 집단을 채워넣었다.


확률 표집에 대한 믿음이 흔들리고 있으며, 빅데이터는 비확률 표집의 경우에 커다란 이점을 제공한다. 빅데이터 시대의 연구자라면, 비확률 표집의 가능성도 염두에 두어야 하겠다. 설문조사의 오류를 일으키는 ‘대표성’의 측면에서, 빅데이터는 비확률 표집이라는 새로운 기회를 열어준다.


빅데이터와 측정 방식 문제

- 비대면 설문조사


다음은 측정 방식의 문제다. 빅데이터는 측정 방식을 개선해줄 수 있을까? 서두에서도 언급했듯이 3기 설문조사는 ‘컴퓨터’에서 출발한다. 대면 설문과 전화 설문의 시대를 지나, 이제는 많은 설문이 인간 대 인간의 접촉이 사라진 컴퓨터 운영 방식을 채택한다. 필자 역시 대학 친구들과의 단톡방에 올라오는 Google Form 설문은 여러 번 응해봤지만, 입학 이후 설문자가 나눠주는 서면 설문에 응해본 경험은 거의 없다.


이처럼 인간이 아닌 컴퓨터(핸드폰)를 마주보고 응답하는 설문은, 설문조사에서 인간 대 인간의 접촉이 미치는 영향을 제거한다. 이것의 효과는 양면적인데, 긍정적 측면은 먼저 ‘사회적 바람직성 편향’이 줄어든다는 점이다. 사회적 바람직성 편향이란, 설문의 응답자가 사회적 가치에 부합하는 방향으로 응답해서 발생하는 편향을 말한다. 인간을 마주하면 이러한 경향이 심해지지만, 컴퓨터를 마주한다면 꼭 자신을 올바르게 보고할 필요가 없어진다. 더불어 인간 면접관의 성향에 따라 응답이 조금씩 달라지는 ‘면접관 효과’도 작용하지 않는다.


하지만 직접 설문을 전달하는 인간이 사라진다는 점에서, 설문에 대한 응답률이 낮아질 수 있다. 또 응답자의 입장에서 헷갈리는 질문에 대처하기도 곤란해진다는 단점도 있다. 연구자는 3기 설문조사의 전반적인 장단점을 이해하고 유연하게 활용할 필요가 있다. 결정적으로 컴퓨터 운영 설문조사는 연구의 시간적 경제적 비용을 크게 절감해주기 때문이다. 설문조사의 비용과 정확성 사이에서 발생하는 딜레마를 다루며 글을 마치겠다.


+ 설문조사의 비용 문제, 중심극한정리의 관점에서

정확성을 조금 포기하면 (비교적) 저렴한 설문을 수행할 수 있다. 빅데이터는 조금 덜 정확하더라도 합리적인 데이터를 대규모로 제공한다. 빅데이터 시대의 사회과학자는 이를 적극적으로 활용할 필요가 있다. 저렴한 설문의 품질이 우려된다면, 무결점 설문 하나를 준거 자료로 삼아 저렴한 설문의 상대적 신뢰성을 판단할 수 있다.




*리터러리 다이제스트

https://eiec.kdi.re.kr/material/clickView.do?click_yymm=201512&cidx=1881


**확률 표집 모델들

https://blog.naver.com/PostView.nhn?blogId=sgjjojo&logNo=221248955570&proxyReferer=https:%2F%2Fwww.google.com%2F



매거진의 이전글 #8-1 사회혁신 프로젝트 관련 코드
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari