#4 빅데이터는 무엇이 다를까 <1>

매튜 살가닉, 《비트 바이 비트》2장 - 빅데이터의 특성

May 30. 2020

《비트 바이 비트》도 강의에서 다루는 책이다. 빅데이터를 이용한 사회연구에 관한 다양한 사례와 조언이 담겨있다. 책의 내용을 정리한 후, 사회학도로서의 생각을 조금씩 보태는 식으로 글을 전개하려고 한다.

2장 '행동 관찰하기'는 빅데이터의 10가지 특징을 소개한다. 빅데이터는 무엇이 다른지, 무엇을 조심해야 하는지 힌트를 얻어보자.

큰 규모

말 그대로 빅데이터는 방대한 규모를 갖는다. 그 규모가 사회과학자들에게 제공하는 혜택은, ‘이질성’을 발견할 수 있다는 점이다. 독립변인 x가 종속변인 y에 미치는 영향을 분석할 때, 표본의 수가 거대해서 그 표본을 더 작은 인구학적 집단으로 쪼갤 수 있다면, 각각의 집단에 x가 갖는 이질적인 의미를 파악할 수 있다.

책에서는 Raj Chetty의 미국 사회이동성 연구를 소개한다.(Raj Chetty, 2014) 4천만 명의 세금 기록을 분석한 결과, 주별로 유의미하게 다른 사회이동성이 나타난다는 사실을 발견한다. 만약 표본이 그보다 작았다면 각각의 주 사이에 존재한 이질성은 포착할 수 없었을 것이다. 작은 이질성을 발견하는 일이 시장에서의 성공과 좋은 정책에 이바지하리라 저자는 전망한다.

하지만 위험성도 존재한다. 바로 ‘체계적 오차’가 문제가 된다.

체계적 오차(systematic error)란 특정 요인이 자료의 분포에 구조적인 편향을 일으키는 상황을 말한다. 교육이나 지식, 사회경제적 지위 같은 사회적 요인이 대표적이다. 그밖에도 사회적으로 적절한 응답을 하려는 ‘사회적 바람직성 편향(social desirability bias)’이 나타나기도 한다. 응답도구와 응답자, 연구자와 응답자 사이의 상호작용도 체계적 오차의 원인이 된다. 체계적 오차가 일어날 때, 분포는 참값에서 항상 일정한 방향으로 벗어난다.

반면 비체계적 오차(무작위 오류, random error)는 특정 요인이 자료의 분포에 임의적인 영향을 끼치는 상황을 말한다. 비체계적 오차는 분포를 일정한 패턴 없이 교란한다. 응답자의 개인적인 경험이나 감정이 대표적 원인이다. 비체계적 오차가 일어날 때에는, 분포가 참값에서 넓게 분산되는 효과가 발생한다.
https://blog.naver.com/chunsa1009/60052096696를 참고하라.

다시 본론으로 돌아오자면, 빅데이터가 제공하는 커다란 표본은 비체계적 오차를 크게 감소시킨다. 수학적으로는 두 가지 정리에 의해 그렇게 된다. 중심극한정리에 의해 표본 크기가 커질수록 표본 평균의 표준편차가 0에 가까워지며, 큰 수의 법칙에 의해 표본 크기가 커질수록 표본 평균은 모평균에 근사한다. 쉽게 말하자면, 표본의 크기가 커지면서 표본이 가진 대표성이 커지고, 비체계적 오차가 줄어드는 것이다.

하지만 표본의 크기가 커지면 체계적 오차의 위험성은 오히려 증가한다. 즉 데이터가 생성되는 방식 자체에 오류가 있었다면, 더 많은 데이터를 잘못된 방식으로 수집함으로써 조사 자료는 한쪽으로 크게 치우친다.

상시 접근

빅데이터는 24시간 정보를 수집한다. 예컨대 페이스북이나 인스타그램은 한시도 멈추지 않는 관계망을 형성한다. 특정 시기 특정 상황을 선택하여 자료를 수집할 수밖에 없는 아날로그 방식에 비해, 빅데이터에 기반한 디지털 정보수집 방식은 사회과학자들에게 새로운 기회를 열어준다.

저자가 소개하는 Ceren Budak과 Duncan Watts의 연구는, 터키 반정부 시위에서 벌어지는 시기별의 변화를 포착해냈다.(Budak and Watts, 2015) 논문 초록만 읽어보자면, 연구는 사회적 운동이 다양한 사람들을 한 데 모음으로써 참가자들의 의견과 태도를 적극적으로 형성할 힘을 가지고 있는지 질문한다. 이 연구는 시위 이전/도중/이후의 참가자/비참가자 3만 명의 트윗 자료를 이용하여 그 힘을 확인한다.

나아가 그 힘의 원동력을 시위 참가자들 간의 상호작용으로 볼 것인지, 아니면 시위 참가자들이 가진 인격적 특성(정치운동에 잘 공감하는 성격)으로 볼 것인지 질문한다. 방대한 데이터를 분석한 결과, 두 요인이 모두 작용하지만 시위 참가자들의 상호작용이 보다 큰 효과를 지님을 밝혀낸다.

초록 말미에서 말하듯이, 시위 참가자/비참가자의 대규모 태도변화를 시기별로 관찰하는 일은 오로지 SNS 빅데이터 분석으로만 가능했다. 초록에서 저자는 연구가 “예측하기 어렵고 접근불가능한 사건”을 사회과학적으로 탐구한다는 특별한 의미를 갖는다고 자평한다.

상시접근할 수 있는 빅데이터는, 코로나19처럼 시시각각 변화하는 사건을 다루기에도 적합하다. 실제로 구글은 사용자들의 검색패턴을 통해 독감의 추이를 예측하려고 시도한 적이 있다. 후에 다루어보자.

비반응성

사회연구가 마주치는 흔한 딜레마는 연구를 고지해야 하는 윤리적 의무와, 고지가 연구의 신뢰성을 위협할 가능성 사이에서 발생한다. 자신이 연구의 대상이라는 사실을 자각한 연구 대상자들이 자신의 행동패턴을 바꿀 가능성이 있기 때문이다. 이를 ‘반응성’이라고 한다. 연구 대상자가 연구 사실에 ‘반응’한다는 말이다.

하지만 빅데이터는 그 생성에 참여하는 수많은 사람들이 자신이 연구 대상인지 모르고 평소와 똑같은 행동패턴을 보인다는 장점이 있다. 우리가 페이스북과 인스타그램 등을 통해 친구와 소통하는 일상적 행위가 곧 빅데이터인 셈이다. 이는 고지가 연구의 신뢰성을 위협할 가능성을 원천적으로 차단한다. 그러므로 빅데이터는 아날로그 연구보다 정확한 결과를 제공할 수 있다.

그렇지만 딜레마는 남아있다. 디지털 세계에서 일상적 삶을 영위하는 수많은 사람들이 연구에 관해 고지받지 못하기 때문이다. 결국 빅데이터도 고지의무를 교묘히 회피할 뿐, 사회연구의 근본적 딜레마로부터는 자유롭지 못하다. 어쨌거나 연구 대상자가 비반응적이라는 점은 빅데이터 연구가 가진 하나의 장점으로 볼 수 있다.

불완전성

A할수록 B하다는 사회과학적 가설은, 구체적인 연구 단계에 이르러서는 구체적 독립변인 x가 종속변인 y에 미치는 영향에 대한 진술로 변화한다. 즉 추상적 개념이었던 A와 B가, x와 y라는 구체적 수치를 가진 변인으로 치환되는 것이다. 이를 사회과학 개념으로 ‘이론적 구성물을 조작화한다’라고 표현한다. 일반적 추상적 가설을 지탱하는 관념인 ‘이론적 구성물’을, 눈으로 확인할 수 있는 숫자로 조작화하는 것이다.

예를 들어 ‘돈이 많으면 행복해진다.’라는 가설의 참거짓을 가리기 위해 사회연구를 한다 치자. 가설을 수학적으로 검증하기 위해서는, 사람들의 경제력과 행복 수준을 실제 수치로 나타낼 필요가 있다.

하지만 이 과정에서 어떤 지표를 이용해야 하느냐가 문제가 된다. 경제력을 세전 소득으로 봐야 할까, 세후소득으로 봐야 할까? 아니면 그밖의 지표를 이용해야 할까? 어느 기관의 누가 만들어낸 행복도 검사로 사람들의 행복수준을 측정해야 할까? 어떤 내용의 질문을 어떤 형식으로 물어야 할까?

연구의 타당성을 높이기 위해서는 이론적 구성물을 세밀하게 조작해야 한다. 연구의 구체적인 목적, 방향성에 따라 같은 관념도 다른 수치로 표현할 수 있다. 그런데 빅데이터라면 이야기가 조금 다르다. 빅데이터는 연구자가 건드릴 수 없는 종류의 데이터다. (저자는 이를 ‘레디메이드’라고 묘사한다.)

이미 수집된 데이터는 이론적 구성물을 뒷받침하기 어려울 가능성이 크다. 연구와는 다른 목적으로 만들어진 경우가 대다수기 때문이다. 회사의 경영을 위해 수집한 상업적 데이터를 고스란히 따와 사회과학적 연구에 사용한다면, 연구의 타당성을 인정받기 어려운 경우가 적잖이 발생할 것이다.

저자는 이에 대한 해결책을 크게 세 가지 언급한다. 디지털 세계에서 직접 자료수집을 할 수 있고(설문 또는 실험), 통계적 기법(imputation)으로 처리할 수 있으며, 여러 불완전한 데이터를 결합시켜 보다 나은 연구용 데이터를 얻어낼 수 있다.

접근 불가능성

말 그대로 빅데이터에 접근하기 곤란한 수많은 상황이 존재한다. 이는 빅데이터를 이용한 연구가 복잡한 법적 사업적 윤리적 위험성을 내포하고 있기 때문이다. 우선 연구 대상자의 자료를 고지 없이 사용하여 연구했을 때, 연구 대상자에 의해 법적인 소송에 휘말릴 소지가 있다.

또 연구 대상자에게 고지하지 않고 연구하는 일 자체가 윤리적 문제를 지닌다. 만약 연구 대상자의 정보가 밖으로 노출된다면, 문제는 훨씬 더 복잡해진다.

그리고 사업적으로는 법적 윤리적 문제를 지닌 연구가 기업 이미지에 타격을 줄 수 있으며, 연구 결과가 사측의 이해관계와 충돌할 때에도 문제는 복잡해진다. 그럼에도 빅데이터가 사회과학에 다양한 기회를 제공하므로 저자는 여러 빅데이터 기관과 적극적으로 제휴하기를 권한다.

keyword

Viel Liebe 소속 연세대학교 직업 학생

사랑하고, 배우고, 행복하고!

팔로워 35

매거진의 이전글#3 대량살상 수학무기, 새로운 접근#5 빅데이터는 무엇이 다를까 <2> 매거진의 다음글