#5 빅데이터는 무엇이 다를까 <2>

매튜 살가닉, 《비트 바이 비트》2장 - 빅데이터의 특성

May 30. 2020

《비트 바이 비트》도 강의에서 다루는 책이다. 빅데이터를 이용한 사회연구에 관한 다양한 사례와 조언이 담겨있다. 책의 내용을 정리한 후, 사회학도로서의 생각을 조금씩 보태는 식으로 글을 전개하려고 한다.

2장 '행동 관찰하기'는 빅데이터의 10가지 특징을 소개한다.(앞의 글에서 5개를 다루었다.) 빅데이터는 무엇이 다른지, 무엇을 조심해야 하는지 힌트를 얻어보자.

비대표성

모집단에서 일정 부분의 표본을 추출해 연구하는 (사회)과학 연구들에서, 표본이 전체 모집단에 대해 얼마만큼의 대표성을 갖느냐는 항상 중요한 문제다. 연구자가 추출한 표본이 전체를 대표하지 못한다면, 연구 결과를 사회 전체로 일반화할 수 없기 때문이다.

빅데이터가 지닌 비대표성의 문제는 그러므로 빅데이터 시대에 새롭게 발생한 문제는 아니다. 어쨌거나 빅데이터를 이용함에 있어서도 데이터의 대표성에 관심을 갖는 일은 중요하다. 빅데이터는 ‘체계적 오차’의 가능성을 키우기 때문에 더더욱.

예컨대 소셜 커머스(쿠팡, 위메프 등)의 결제 정보를 얻어서 소비자들의 소비 패턴을 분석한다고 하자. 편견일지도 모르지만 여성이 가정의 소비에서 더 많은 결정권을 쥔다고 전제한다면, 데이터에 나타난 소비 패턴에 여성이 과대대표되었다 할 수 있다. 또 소셜 커머스의 특성상 인터넷에 익숙지 않은 이들은 잘 이용하지 않고, 따라서 고연령층과 정보소외계층이 과소대표될 가능성이 크다.

이러한 데이터를 이용하여 사회적 결론을 이끌어낸다면, 그것을 사회 전체에 적용하기는 곤란하다. 하지만 이와 같은 ‘표본 외 일반화’를 피하는 대신 ‘표본 내 결론’을 도출하는 데에 집중한다면, 비대표적 데이터도 큰 가치를 지닌다.

저자는 과학 연구를 인용하는데, 영국 남성 의사를 표본으로 흡연과 암의 관계를 조사한 연구는 적어도 남성에게 일반화시키기에는 무리가 없을 것이다. 표본 내부의 비교를 통해 결론을 이끌어내는 방식의 연구는, 표본이 아니라 메커니즘에 관한 연구이기 때문에 그 메커니즘을 전체로 일반화하기 쉽다.

앞선 사례로 돌아가자면, 소셜 커머스의 결제 정보를 통해 대한민국 국민 전체가 유아용품과 화장품 중 어느 것을 더 많이 소비하는지 알기는 어렵다. 하지만 비가 오는 날과 해가 쨍쨍한 날, 코로나 시국 이전과 도중 언제 더 많이 소비하는지를 결제 정보 내부에서 비교분석한다면, 보다 가치 있는 결론을 끌어낼 가능성이 크다.

변동성

앞서 빅데이터가 (거의) 24시간 쉼없이 수집한 데이터를 제공한다는 특징을 살펴보았다. 시시각각 변화하는 사회현상이 아날로그 자료수집으로는 파악하기 어려웠지만, 디지털 자료수집으로써 분석가능해진다는 사실은 빅데이터의 장점이었다.

하지만 동시에 빅데이터가 가진 ‘시간’이라는 축은 연구의 신뢰성을 위협하기도 한다. 연구 목적에 부합하지 않는 변화들이 시간의 흐름에 따라 나타날 수 있기 때문이다. 빅데이터가 축적되는 디지털 환경의 유동성은 이 위험을 증대시킨다.

저자가 제시하는 변동의 사례들 가운데 첫째는 인구의 변화다. 다양한 요인으로 특정한 디지털 환경의 인구 집단이 장단기적으로 변화한다는 사실은 통계적으로 입증되었다.

우리도 실제 사례를 떠올려볼 수 있다. 인스타그램을 생각해볼까. 해가 쨍쨍한 날에는 외부활동을 인스타그램에 공유하는 식의 활동이 많아지겠지만, 비가 퍼붓는 날에는 그런 활동은 줄어들고 집안에서의 생활을 공유하려 할 것이다. 코로나도 유사한 영향을 끼쳤을 것이다.

한편 나의 또래집단이 집단적으로 활용하는 SNS 플랫폼은 수년 전에는 카카오스토리였지만, 페이스북을 거쳐 이제는 인스타그램을 가장 대중적으로 활용한다. 수년 단위의 빅데이터 분석을 한다 할 때, 이런 장단기적 변화는 연구결과에 혼란을 주는 요인이다.

둘째로 행동의 변화도 일어난다. Zeynep Tufekci의 연구에 따르면, 터키 반정부 시위에서 트위터 해시태그의 용도가 시간이 흐르면서 변화했다.(Zeynep Tufekci, 2014) 원래는 본문 내용을 담았던 해시태그가, 나중에는 다른 유저의 관심을 끌기 위한 용도만으로 사용되었다고 연구는 설명한다. 인터넷 문화의 유동성이 연구에 미칠 수 있는 영향을 사회과학자는 항상 고민해야 한다.

셋째는 시스템의 변화다. 저자는 페이스북이 상태 업데이트 길이 제한을 늘린 정책을 예시로 든다. 다른 모든 변인을 통제했다는 전제 하에 신뢰성을 얻는 사회과학적 연구는, 시스템의 사소한 변화에도 큰 영향을 받을 수 있다.

알고리즘에 기반한 교란

앞의 변동성 항목에서 빅데이터 플랫폼이 사회과학 연구에 미치는 영향을 엿볼 수 있었다. 시스템의 변화만이 아니라, 시스템 자체가 연구에 영향을 미친다고도 충분히 생각해볼 만하다.

Johan Ugander는 페이스북 내에서 친구가 20명 내외인 사용자의 비율이 비정상적으로 높다는 사실을 확인했다.(Ugander et al, 2011) 인간의 사회적 본성을 드러내는 마법의 숫자 20을 연구했지만, 사실 그 숫자의 비밀은 페이스북 알고리즘이었다.

페이스북에는 친구가 적은 가입자에게 친구 숫자가 20명이 될 때까지 친구 추가를 장려하는 알고리즘이 있었던 것이다. 즉 20은 인간의 사회적 본성이 아닌 페이스북 시스템을 설명하는 자료였던 셈이다.

같은 연구에서 인간의 사회적 네트워크가 지닌 ‘이행성’도 관심 주제였다. 이행성이란 친구의 친구와 친구관계를 맺는 경향성을 가리킨다. 연구자들은 페이스북 내에서 이행성 수치도 높게 나타난다는 사실을 확인했다.

하지만 페이스북을 해본 사람이라면 이 연구의 문제점을 어렵지 않게 눈치챌 것이다. 페이스북에는 사용자에게 ‘친구의 친구’들을 소개하는 기능이 있다. 연구자들이 포착한 높은 이행성도 이 알고리즘에 의해 적잖은 교란을 당한 결과라고 볼 수 있다.

지저분함

빅데이터를 연구 목적에 맞게 수집하고 정리하는 일은 쉽지 않다. 빅데이터 집합에 연구와 무관한 자료가 끼어들어갈 가능성이 있기 때문이다. 예를 들어 9.11 테러에 대한 감정적 반응 연구는 무선 호출기 5천 개의 자동 녹음 메시지를 이용했다. (Back, Küfner, and Egloff, 2010)

연구는 메시지에 사용된 감정적 어휘를 세 가지 감정 카테고리로 나누었다. 슬픔(sadness/crying/grief 등), 불안(anxiety/worried/fearful 등), 분노(anger/hate/critical 등). 연구는 분노에 관련된 메시지가 하루 내내 증가한다는 사실을 밝혀냈다.

하지만 이듬해의 후속 연구는, 하나의 자동호출기가 critical이라는 용어를 반복적으로 사용하였음을 밝혀냈다.(Pury,2011) 이는 연구에 명백히 부정적인 영향을 끼쳤다. 이처럼 자동적 시스템에 의한 교란뿐 아니라, 의도적으로 가짜/스팸 데이터를 생성하는 세력들도 연구를 방해할 수 있다. 저자는 이를 막기 위해 데이터가 만들어지는 다양한 방식을 고려하라고 조언한다.

예컨대 총선과 관련하여 인스타그램 해시태그를 바탕으로 한 여론조사를 시도해볼 수 있다. 썸트렌드*에서 조사한 결과, ‘#더불어민주당’의 해시태그는 14000여 건, ‘#미래통합당’의 해시태그는 7000여 건이었다.

하지만 이 결과를 바탕으로 더불어민주당의 지지율이 미래통합당에 비해 두 배 높다고 분석한다면, (인스타그램 사용자에 한하더라도) 이는 섣부른 생각일 수 있다.

인스타그램을 꽤 즐겨하는 내 주관적 감각에 비추어 볼 때, 특정 정당을 지지하지 않고 양쪽의 해시태그를 모두 사용하는 게시물도 심심찮게 발견할 수 있었다. 또 그 정당을 지지하는 사람들만 해시태그를 사용하지도 않는다. 더민주와 미통당을 비판하는 게시물에서도 각각의 해시태그를 걸어놓기도 한다.

이러한 지저분한 데이터를 처리하는 방식에 따라, 인스타 사용자의 정치적 성향을 다르게 해석할 것이다. (타당한 분석을 위해) 중요한 것은 해시태그가 활용되는 다양한 맥락과 방식을 이해하고, 그것을 수학적으로 처리하는 일이다.

민감함

인간을 연구하는 사회과학자들은, 모든 연구자료가 누군가에겐 치명적인 프라이버시일 수 있다는 사실을 인지해야 한다. 사생활과 사회과학 연구 사이의 딜레마는 꽤나 익숙한 주제다. 하지만 빅데이터 시대에 사람들의 보다 세밀한 일상까지 수학적 정보로 축적되면서, 프라이버시는 점점 더 중요한 이슈로 떠오른다.

저자는 상징적인 사례로 넷플릭스의 영화 평점 정보를 제시한다. 영화 추천 알고리즘을 개발하는 공모전을 위해, 넷플릭스는 자사 사용자들이 매긴 영화 평점 정보를 공개했다. 나름의 보안을 거쳤지만, ‘재식별화’라는 과정을 통해 사용자들의 신원이 드러났다.

이것이 문제가 된 이유는, 사용자들이 평가한 영화의 장르와 내용이 민감한 정보를 노출시켰기 때문이다. 성적 지향이 하나의 사례다. 한 레즈비언 여성은 넷플릭스가 자신의 성적 지향을 드러냈다는 이유로, 넷플릭스에 대한 집단소송에 참여했다.

연구자들은 모든 정보가 민감할 수 있음을 항상 염두에 두고 연구를 진행해야 한다. 빅데이터는 앞에서 말했듯이(비반응성) 연구 참여자들의 동의를 구하지 못한다. 고지에 입각한 동의를 얻지 못한 자체에서 발생하는 윤리적 문제가 현실의 문제로 확대되지 않도록 각별한 주의가 필요하다.

*SNS와 미디어를 분석하는 빅데이터 플랫폼이다. 본문 관련 정보는 아래의 링크를 참고하라.

https://some.co.kr/magazine/magazineDetailV2?magazineSeq=34

매튜 살가닉, 《비트 바이 비트》, 강정한 외 3인 역, 동아시아, 2020

keyword

Viel Liebe 소속 연세대학교 직업 학생

사랑하고, 배우고, 행복하고!

팔로워 35

매거진의 이전글#4 빅데이터는 무엇이 다를까 <1>#6 구글 검색으로 독감의 확산 추이 예측하기매거진의 다음글