brunch

You can make anything
by writing

C.S.Lewis

by 마냐 정혜승 Aug 09. 2020

<타겟티드> 데이터로 사람을 읽고 조종한 선거라면


18세 이상 미국인 2억4000만명에 대해 5000개의 데이터 포인트를 보유했습니다. 이를 2016년 미국 대선에서 트럼프 캠프 선거운동에 활용해서 유권자의 투표 행태에 영향을 미쳤죠. 마크 저커버그가 미국 의회의 청문회에 불려나갔고, 세상을 뒤흔들었습니다. 케임브리지 애널리티카(CA)라는 회사 얘기입니다. 책은 CA에서 일했던 이의 내부고발입니다. 참회록이라고 보기 어렵고, 셀프변론에 가깝습니다.
 
2016년 미국 대선에서 벌어진 일
 
페이스북에 많이 돌아다니는 ‘섹스 나침반’이라는 성격 퀴즈, ‘음악을 좋아하는 바다코끼리’ 같은 설문조사가 개인의 특성을 수집했습니다. 페북 이용자들은 서드파티 앱(페북에 뜨지만 제3자인 다른 회사가 만든)의 서비스 이용약관에 ‘Yes’라고 했을 뿐입니다. 이걸로 앱 개발자는 물론 앱 개발자가 정보를 공유하겠다고 하는 모든 이에게 자신과 친구들의 데이터를 몽땅 제공했습니다. 이게 어떻게 가능하냐고요? 페북은 (악명높은) ‘그래프 API’를 통해 이같은 접근이 가능하게 했죠. (89쪽) 물론 페이스북은 8700만 명 이상의 정보가 유출된 것, CA가 개인정보를 삭제하지 않은 것 등에 몰랐다고 했습니다. 요즘 한참 유행했던 MBTI 성격 조사를 이것저것 해본게 문득 찜찜해집니다.
 
데이터가 확보되면 그 다음엔 맞춤형으로 설득합니다. CA는 모두 32개 유형으로 사람들을 구분했습니다. 새로운 경험을 즐기는지, 전통을 중시하고 의지하는지, 성실성 점수는 즉흥적인 것과 계획적인 것 중 무엇을 더 선호하는지에 대한 지표가 됐고, 외향성 점수는 어느 수준까지 다른 사람들과 관계 맺고 공동체의 일부가 될 수 있는지 드러냈습니다.  페북의 온갖 퀴즈들이 성격 테스트란 걸 생각하면 당연한 결과. 오디언스를 반복적으로 검증하면서 정확도가 95%에 이를 때까지 정교하게 다듬었다는데, 모든 소셜미디어를 다 활용했고, 구글의 검색어 목록을 구매해 그들이 검색어를 입력할때 접근했습니다. (97~99쪽)

테드 크루즈 상원의원 캠프 시절 CA가 한 일을 보죠. 예컨대 아이오와에는 설득 가능한 유권자가 8만2184명 있고, 사우스캐롤라이나에는 36만409명. 유권자들은 극기주의자형Stoics, 보호자형Carers, 전통주의자형Traditionalists, 충동적 유형Impulsives 으로 세분화됐습니다. 극기주의자에겐 전통, 가치, 과거 행동, 결과 등의 단어를 이용한 메시지를 보내죠. 단순하고 애국적이면 됩니다. 보호자 유형에는 가족을 강조하고 지역사회, 정직, 사회 등의 단어들을 써서 따뜻한 메시지를 냅니다. (201~203쪽)


조지아주에는 44만1300명의 '설득 가능자'가 있는데 이 가운데 76%는 백인 여성. 국가 부채, 임금, 교육, 세금에 관심 있는 반면 멕시코 국경 장벽에 대해서는 듣고 싶어하지 않는 걸로 나타났다고 이들의 생각을 바꾸기 위해 약 900만 건의 광고 노출이 필요하다고 계산이 딱 나온답니다.(254~255쪽) CA가 캠프에 약을 잘 판 측면도 있지만 그리 넘어갈 일은 아니죠.


트럼프 캠프는 2016년 대선에서 CA를 통해서만 디지털 광고에 1억 달러를 썼다고 합니다. 대부분 페북 광고. 페북과 구글, 트위터가 (고객인) 캠프에 직원을 파견했다는 것도 놀랍습니다. (카카오나 네이버가 대선 캠프에 인력을 파견? 어우..상상불가. 다만 1200억원 광고비 쓰는 고객에게 저런 서비스는 당연해보이기도 합니다.) 마침 클린턴 캠프는 이런 ‘서비스’를 거부한 와중에 페북은 특히 적극적이었는데, 유사 타겟을 수집하고 맞춤 타겟을 만드는 방법, 특정한 사람에게만 보이는 암흑광고(dark ads) 제작법 등을 캠프에 알려줬다고 합니다. 스냅챗은 선거운동 지지자로 등록해달라고 요청하면서 데이터를 수집했고요. 트위터는 해시태그 클릭시 광고도 자동 리트윗되는 상품이 있는데 덕분에 트럼프 캠프 트윗의 리트윗이 힐러리를 압도했다고 합니다.
 

‘구글의 공화당 팀은 사용자들이 구글을 검색했을 때 처음 노출되는 결과를 통제하기 위해 많은 광고비를 지출했다.’ (이게 공화당에 파견된 구글팀이 광고비 쓴 주어일리 없지만, 번역 문제인지..) 하여간에 ‘트럼프', ‘이라크', '전쟁'을 검색하면 '거짓말쟁이 힐러리 이라크 전쟁에 찬성 투표, 잘못된 판단’이라는 배너가 있는 슈퍼팩 링크와 함께 ‘힐러리 이라크 전쟁에 찬성 투표, 도널드 트럼프는 반대’가 나타났다고요. 사용자가 '힐러리'와 '거래'라는 검색어를 입력하면 '사기꾼 힐러리' 웹사이트가 최상단 노출되고요. 구글은 매일 트럼프 선거 캠프에 키워드 목록을 판매했고, 인기 있는 유튜브 채널에 언제 새로운 독점 광고를 게재할 수 있을지 알려줬다고 합니다. (221~223쪽) 구글이 저 정도로 해줬나 싶은 대목입니다.. 검색광고 저렇게 팔아도 되나요....


데이터에 따라 유권자 분류가 정교해지면, 선거 유세의 우선순위를 정하고 누구를 목표로 해야하는지 전략이 나옵니다. 미세한 타겟 광고가 가능해지고 CA는 ‘각 광고마다 1만 번 이상 창의적으로 반복되는 5000개 이상의 개인 맞춤형 광고를 운영’했다고 합니다. (251쪽)

결과적으로 타겟 유권자 중 광고를 본 사람들 대상으로 조사한 결과, 14.7만 명(11.3%)에서 트럼프에 대한 호감도가 올라갔고, 이중 투표할 의향이 있는 사람이 8.3% 증가했고(257쪽) 어떤 광고는 트럼프에 대한 투표 의향을 3.9% 높인 반면 힐러리에 대한 투표 의향을 4.9% 낮춘 것으로 나타났다고요.
 
오바마의 선거 vs 트럼프의 선거
 
트럼프 당선의 배후로 꼽히는 회사에서 일했지만, 저자는 원래 오바마 캠프에서 일하던 민주당 지지자입니다. 그런데 그쪽 진영엔 일자리가 없었죠. 부와 권력이 다 손에 잡힐듯해서 들어간게 CA입니다. CA는 금권으로 공화당을 움직인 로버트, 레베카 머서 부녀(이들은 별도로 파헤쳐볼만큼 흥미진진)의 우산 아래 있었고, 극우 매체 브레이트바트의 대표이자 트럼프의 수석전략가이던 스티븐 배넌과 깊은 관계였지만 저자는 정치적 호불호가 적었다고 주장합니다. 다만 미국 민주당 쪽은 비슷한 경쟁 업체가 엄청 많았고, 트럼프 진영엔 자기들이 독보적이었다는 겁니다. 민주당 쪽은 데이터로 선거하는 전문 업체가 많았다는게 사실 틀린 말은 아닐듯합니다.
 

<빅데이터, 승리의 과학>이라는 책을 재미나게 읽었던 기억도 있지만, 오바마 캠프도 유권자를 정밀하게 분석해 맞춤형 선거를 했습니다. 이메일 제목도 다 다르게 붙였고 당시에 할 수 있는건 다했어요. 저 책 설명에도 2억 명의 데이터를 이용해 승리했다고 하잖아요. 즉 CA가 트럼프를 당선시키는데 기여했다고 하더라도, 과연 민주당 캠프와 손잡은 업체는 어디까지 한건지, CA 만큼 못했을 뿐인건지 궁금합니다.


그리고 사실 개인적으로 데이터 수집과 활용의 무서움에 본격 눈 뜨게 된 것은 뉴머러티라는 책 덕분입니다. 11년 1월에 리뷰 남겼어요. 이미 9년 전에 미국 사회가 어떻게 데이터를 수집하고 활용하는지, 빅브라더 수준에 놀랐어요. 고양이를 키우는지, 개를 키우는지, 무슨 차를 타는지 등의 정보를 다 수집해 정당 성향도 파악하는 나라. 블로그 문장으로 제 교육수준까지 다 털린다는데 할 말 없잖아요. 액시엄 같은 기업 이름을 그 때 알았고, 이후 '제로투원'의 피터 틸이 만든 팰런티어 같은 기업이 미국 정부 상대로 데이터 장사하는 곳이란 것도 놀라웠죠.


그 해에 읽었던 책 중 <생각조종자들> 역시 필터버블에 대해 눈 뜨게 해줬습니다. 그게 2011년이라니까요...


즉 미국은 '뉴머러티'들이 '생각조종자들'로 활약한지 오래된 사회입니다. 2001년 9.11 이후 미국이 이른바 애국법(USA PATRIOT ACT) 만들면서 무지막지한 정보 수집을 용인했잖아요. 다른 나라에선 다 불법이지만 미국에선 합법인 데이터 수집이 많다는 겁니다.
이번에도 문제가 된 건 페이스북의 '그래프 API'란 것인데, 이거 구글링해보면, 어떻게 잘 쓸 수 있는지 개발자를 위한 팁이 넘쳐납니다. 분명 CA의 정보 수집이 과했지만(이라고 쓰지만 사실 엄청 잘한거죠..) 다 페북이 용인한 거였고, '구멍'을 발견한 페북이 다 막았다고 발표한 것과 달리 계속 구멍이 열려있었다는 것, 즉 페북과 CA가 둘 다 거짓말한게 문제일 뿐 아주 새삼스럽지는 않습니다.

오바마 선거운동본부의 미디어 분석 국장인 캐럴 데이비슨이 18년 3월에 한 말이 나옵니다.
“나는 오바마 포 아메리카에서 모든 데이터의 통합 프로젝트를 추진했다. 우리는 규정을 지키면서 일했고 데이터를 가지고 추악한 일은 전혀 하지 않았지만 유일하게 소름끼치는 것이 그래프 API 였다.”
소름끼쳤다고 하지만, 그래프 API는 페북 바깥 외부 업체 개발자라면 누구나 사용하라고 열어둔 겁니다. 그래서 헷갈리기 시작하는 겁니다. 케임브리지 애널리티카 때문에 이 난리가 난 것은 무엇 때문이지?  페북의 정책 덕분에 4만 개의 외부 개발업체들이 서드파티 앱을 만들었고, 이를 통해 유입된 점점 더 많은 이용자들이 페북에서 시간을 보냈고, 데이터를 남겼습니다.(179쪽)


이 책을 혼자 봤으면 그냥 데이터 세상이 무섭고 CA 나쁜 놈들이라고 분개했을지도 모릅니다. 그런데 #트레바리 #디지털시대읽기 멤버들 중 일부가 같은 문제를 제기했어요. 어디까지 불법이냐, 내부고발자 브리태니가 폭로한 것 중 일부는 불법은 아닌 것 같다고요. 실제 브리태니도 "우리가 데이터를 불법으로 획득했다면 왜 그런 것들을 홍보했을까?"(169쪽) 라고, 반론을 폅니다.

저는 데이터보다 더 기이한게 정치 매체 <폴리티코>의 행태여요. 트럼프 캠프가 클린턴 재단의 부패에 관한 콘텐츠를 싣기 위해 광고비를 지불했고, <폴리티코> 광고 팀은 이를 자사의 뉴스와 동일한 형식으로 게재했답니다. 독자들은 이  광고를 뉴스로 받아들였다고요. (258쪽) 언론이 돈받고 이런걸 뉴스로 포장해주는 건 이상한거 아닌가요?

아무도 예측못한 트럼프의 승리, 그리고 브렉시트 찬성의 배경에 기여한 곳이 마침 한 회사였다는 것, 수억 명의 정보를 수집해 너무 정교하게 맞춤형 정보를 내보내면서 사람들의 마음을 바꾼게 죄인데, 이게 어디에 걸리는 건가요. CA 편드는 건 절대 아니고요. 불법 있었어요. 그들의 작업은 사실 소름끼칩니다. 그런데 불법 여부에 상관 없이 난감한 부분이 있습니다.

프로파간다, 선동의 영역

사실 이 책에는 관심이 없었습니다. 저자 인터뷰 당신이 누른 '좋아요 68개'로 당신의 모든걸 알고있다 를 봤는데, 이런 일이 반복되지 않으려면 실명제를 해야한다고 주장하더라고요. 저는 명백히 잘못된 처방이라 생각해요. 페북은 사실상 실명 기반 서비스인데 악용되고 있죠. 본인 인증이란건 사실 기만적이고요. (한때 우리나라에는 20원짜리 주민번호가 돌아다니면서 쉽게 가짜 신분으로 본인확인을 했습니다)


책의 내용은 넷플릭스 다큐로 먼저 봤습니다. 저자가 사실상 주인공이어요. 책에 호기심이 생겼죠.


CA의 패밀리 회사인 SCL 그룹은 1993년 설립 후 선거를 200회 이상 치렀고, 50여개 국가에서 국방, 정치 및 인도주의적 프로젝트를 수행했다고 홍보합니다. (17쪽) SCL은 16년 대선 직전 미국 중간선거에서 44개 선거구 중 33개에서 승리하는데 기여, 정치 홍보 회사로서 승률 75%를 기록했다고 자랑합니다. (49쪽)
1999년 인도네시아 학생운동을 배후조정해서 '민주화 운동'을 효과적으로 '창출해냈다'는 자랑, 나이지리아에서 부정선거 정보를 미리 노출해 예방주사를 놓은 전략 등이 구체적입니다. 2011년 콜롬비아 보고타 시장 선거에서는 부패한 모든 후보들이 증오의 대상이 된 상태에서 후보는 등장시키지 않고 존경받는 상징적 인물들을 앞세워 광고했고요. 2013년 케냐에서는 젊은 이들을 운동과 축제, 마을 청소운동 같은 걸로 동원해 8개월 만에 200만 지지자를 모읍니다. 다큐에 자세히 나오지만 2010년 트리니나드토바고 사례는 무섭습니다. (296~304쪽)


CA의 대표 알렉산더 닉스는 프레젠테이션의 귀재. 극장에서 화면을 응시하는 한 관객의 사진을 보여주면서 더 많은 콜라를 팔고 싶다면 뭘 해야하나 질문을 던집니다. 다들 브랜드를 구축하고, 광고를 해야 한다, 온통 콜라에 대한 이야기만 하는게 기존 선거운동의 문제라고요. '해야 할 일은 그저 영화관의 실내 온도를 높이는 것'이라고 풀어갑니다. 해결책은 광고에 있는 것이 아니라 관객에게 있다고요. (56~57쪽)
CA가 잘한건, 사람들의 행동과 심리를 읽어내고 거기에 맞춰서 '선동'한 겁니다. 투표를 해라, 하지 말라, 누구를 지지해라, 이런 선동요. 그런데 합법적 선거운동과 '선동'의 경계는 무엇인가요.

브리태니는 자신들의 성과에서 '정치 세계에 존재하는 어둠을 보았다'고 고백합니다. 가장 원초적 본능에 대한 호소, 공포심 조장, 속임수, 서로를 반목하게 만드는 술수. 유권자 선동에 동원된 기법이 어떤 후보의 정책 비전이나 살아온 삶에 대한 평가 대신 저런 심리만 부추겼다고 하면 선거 자체를 다시 돌아보게 됩니다. 민주주의 사회의 선거는 어떤 방식으로 진행되나요. CA처럼 정교하게 타겟팅하지 못하던 시절에도 저런 작업이 없었나요? 흑색선거와 비방에 대해 엄격히 규제한다지만, 우리도 요상한 '받은글' 속에서 균형을 잃기도 합니다. 정치 유튜브 중 저런게 얼마나 많나요.

브라질에서 극우 대통령이 당선된 배경에 유튜브가 있었다는 NYT 특집기사도 있었죠... 


"여러분이 대통령에 대해 어떻게 생각하는지는 관심이 없습니다. 대신 여러분에게 관심이 있죠. 여러분을 작동시키는 버튼은 무엇인가요?"(304쪽) 알렉산더 닉스의 이 말에 소름끼치는 겁니다. 후보가 아니라 당신의 관심사에 맞춰서 선동하는 것.
사실, CA에 문제가 있다는 걸 인정해도, 오늘날 선거가 어떤 식으로 훼손되는지 증언은 다양하게 나옵니다.. 브리태니의 다큐가 '거대한 해킹'이지만, 세풀베다 얘기를 보면... 수준이 다르기는 합니다. 저 스토리에 사실 충격 좀 받았었죠...


#OwnYourData


브리태니는 이제 개인의 데이터 수호자로 변신했습니다. 당신이 데이터의 주인이 되어야 한다는 운동을 시작했습니다. 네, 저 트윗 프로필 사진이 그녀입니다.


사실 책을 다 보고 난 뒤에도 그를 지지할 마음은 들지 않아요. 알렉산더 닉스는 "내가 그녀를 변화시켰다"며 저자인 브리태니가 정치적 성향을 배신하고 CA에서 활약한 것을 언급합니다. 선동이란게 원래 세뇌 아닌가요. 저자인 브리태니 입장의 서술이란걸 감안해야 합니다. 서서히 스며들었다고 해야할지, 굳이 저렇게까지 했을까 싶은 장면도 있지만, '일잘러'로 인정받고 싶은 욕망은 어느새 선을 넘어버립니다. (법원행정처의 추악한 진실을 알게 된뒤, 일을 못하기로 결심했던 이탄희 전 판사의 에피소드가 떠오르는군요)


그래도 데이터 수집에 대한 경계는 의미 있으니
  

"책을 온라인으로 샀다면 검색 데이터, 거래 내역, 구매하는 동안 둘러본 시간.. 당신이 허용한 쿠키가 온라인 데이터를 수집하는데 필요한 추적 장치를 설치했을 것. 쿠키는 날마다 일상적으로 수용하는, 사회적으로 받아들일 수 있는 수준의 스파이웨어. 말 그대로 컴퓨터나 휴대전화로 당신이 하는 모든 것을 추적. 1분 동안 단 두곳의 뉴스 페이지를 방문했을 뿐인데 제3의 웹사이트 무려 174곳에 내 정보가 연결된다" (91쪽)

온라인 활동은 흔적이 고스란히 남습니다. 구글 애널리틱스는 '세계적 유명 웹사이트 절반 정도의 사용자 데이터를 수집 분석'하는데 '전 세계 스마트 기기에 트래킹 쿠키를 설치하는 방식으로 수 많은 사람들의 행동 데이터 세트를 수집'합니다.(111쪽) 업무상 구글 애널리틱스를 친숙하게 써온 주제에 새삼 놀라는건 뭔가요.

저자가 소개한 사이트 중 https://www.ghostery.com/ 는 개인적으로 써본적 있습니다. 가끔 얘 때문에 동영상이 안 돌아가는 경우도 있어요. 무튼 유료 업글 않고 가끔 쓰는 정도. 이 사이트 https://privacybadger.org/ 는 참고용으로 저장. 저자의 조언을 목차대로 옮겨놓고 마무리합니다. 이 분은 무튼 일관성 있는 느낌이어요. 뭐라 설명하기 어렵군요.


1. 디지털에 관한 지식을 습득하라
2. 국회의원들과 협력하라
3. 기업들이 윤리적으로 옳은 선택을 하도록 도우라
4. 규제 당국에 권한 남용에 대한 책임을 묻도록 요구하라
5. 디지털 생활 중에 윤리적으로 올바른 선택을 하라


최소한 디지털 세상을 제대로 이해해야 한다는 것은 분명합니다. 책 뒷 표지에 나오지만..

70개의 '좋아요'  사람의 친구들이 알고 있는 것보다  많은 것을 알아내기에 충분하고, 150개의 '좋아요' 부모보다  많은 것을 알아낼  있다고요. 어쩌면 나보다 더 나를 잘 알게 되는 AI가 어떤 모습으로 등장할지 긴장됩니다.


트레바리 #디지털시대읽기 제 발제도 남겨놓습니다.

선거를 해킹하다>
 - 마이크로타겟팅을 통한 선동이 트럼프 당선, 브렉시트에 영향을 미쳤다고 보나요?
 - 데이터 불법 이용 외 합법적 선거운동과 불법 선동의 차이는 뭘까요?
 - 오바마 캠프의 데이터 활용, 빅데이터 선거와 차이는? 2020년은요?
 - 민주주의와 선거제도가 지속가능하려면 어떤 보완이 필요할까요?
 Own Your Data>
 - 데이터 수집 저장 활용에 대해 동의에 대해 평소 인지하고 있나요?
 - 데이터 거래세, 데이터댐 등 최근 데이터 활용방안에 대해 어떻게 생각해요?
 - 맞춤형 서비스의 편익과 불편함을 가르는 경계는 뭘까요?
 - 데이터 운동가로 변신한 저자에 대해 얘기 덧붙여볼까요?


 
 

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari