당신은 오늘도 무인자동차를 훈련시켰습니다. 공짜로.

재주는 내 정보가 부리는데 돈은 누가 벌고 있나요

Jun 7. 2020

대부분의 웹사이트에 가입하려면 "자동가입 방지 문자"가 뜬다. 이렇게 생긴 것들이다.

인터넷을 전혀 안 하는 사람이 아니라면, 분명 본 적이 있을 것이다. 늘 아래에는 작은 글씨로 reCAPTCHA라고 붙어있다.

단순히 '나는 로봇이 아니야, 사람이라고!'라고 증명하는 수단이라고 생각했었다. 그런데 기억을 잘 더듬어 보니 얘들도 진화라는 걸 했다. 처음에는 그저 의미 없는 문자들만 나열되는 시절이 있었다 - V4 sxg8 am0처럼. 그러더니 언젠가부터 저 위의 글자들처럼 꼬불꼬불하고 알아보기 힘들게 쓰인 영단어가 되었다. (미국 산다고 하기 무색하게 자주도 틀렸다) 요즘은 아예 다음처럼 그림으로 나온다 - 신호등, 횡단보도, 버스, 트럭을 고르시오 - 신호등 끄트머리가 네모칸을 아주 조금 삐져나왔을 때, 나는 늘 이 부분도 선택해야 하는지를 고심한다.

사실 우리는 이 행동을 통해 공짜로 남 좋은 일을 시키고 있다. 회사가 공개하지 않기 때문에 구체적으로 어느 자율주행차 업체에 팔았는지는 알 수 없지만, 우리가 머신러닝(machine learning, 기계학습)에 데이터를 제공하는 역할을 맡고 있다는 것 정도는 알 수 있다. 자율주행차도 눈 앞에 뛰어드는 게 고라니인지 사람인지 알기 위해서는 인공지능을 통한 학습을 끊임없이 해야 한다. 테슬라를 비롯한 자율주행차 회사들이 원칙을 세우고 가르치긴 하지만 발생할 수 있는 모든 변수에 대해 의사결정을 미리 내려줄 수는 없다. 2018년에 자율주행차로 인해 발생한 첫 보행자 사망사건의 경우에도 밤 10시에 어두운 색의 옷을 입은 사람이 횡단보도도 아닌 찻길에 조명도 없는 곳에서 튀어나왔다 - 심지어 차 쪽을 보지도 않으면서. 이렇게 판단이 애매모호한 상황들에 대해 기계에게 가르치는데 전 세계 인류가 동원되고 있는 것이다 - 모르는 사이에.

처음 CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart)가 개발된 것은 카네기멜론 대학의 연구실에서였다. 말 그대로 보안을 위해서 기계가 쉽게 알아보기 힘들게 생긴 의미 없는 숫자와 알파벳의 나열을 입력하는 식으로 만들어졌다. 사용자 입장에서 은근히 귀찮은 이 과정이 좀 더 생산적으로 쓰일 수는 없을지 고민하던 박사 학생 루이스 본 안(Ahn 씨이지만 한국인은 아니고 과테말라 사람이다)은 reCAPCHA라는 업그레이드 버전을 만들었다. 그리고 이는 전 세계의 인류가 협력해서 오래된 고문서와 서적들을 디지털화하는 프로젝트에 이용되었다. 수백 년 된 고문서를 디지털 기록보관소에 저장하기 위해서는 먼저 스캔을 뜨고 컴퓨터가 인식해야 하는데, 페이지가 변색/파손되거나 필체가 이상하거나 등 다양한 이유로 컴퓨터가 읽지 못하는 단어들은 우리가 모두 함께 읽어내자!라는 목표로. 전 세계의 2억 명이, 평균 10초의 시간을 들여 하루에 약 1억 개의 단어를 읽어냈고, 이는 무려 1년에 책 250만 권에 달한다. 저 위에 있는 overlooks나 inquiry 같은 단어는 실제로 고서적의 한 부분을 내가 컴퓨터 대신 읽어준 셈이다.

나도 모르는 사이에 인류에 공헌한 것 같아서 왠지 마음이 뿌듯하다. 내가 인공지능에게 가르쳤다니 어깨도 으쓱하다. 비슷하게 우리는 뉴욕타임스가 1851년부터 보유한 오래된 신문과 자료 또한 영원히 삭거나 불타지 않을 디지털 공간에 저장하는데 일조했다. 박사 학생이던 시절 이런 천재적인 아이디어를 생각해 낸 안 씨는 (reCAPCHA를 구글에 팔았다) 현대 크라우드 소싱의 아버지라고 불린다. 그런데 이렇게 인류를 위해 훌륭한 목적이 아니라 이젠 사기업들이 돈을 벌게 해 주는데 일조하고 있다면 그래도 뿌듯할까?

reCAPTCHA는 신문사도 아니고 자율주행차 회사도 아니니, 내가 읽어낸 단어와 골라낸 신호등 그림은 데이터 브로커들을 통해 필요한 회사에게 매각된다. 쩨쩨한 액수가 아니다. 빅데이터는 미국의 조사업체 추산상 300조 원짜리 엄청난 규모의 시장이다. reCAPCHA는 내가 만든 데이터를 팔아서 큰돈을 벌고, 자율주행차 업체든 아마존이든 그 데이터를 산 회사는 그걸 돈벌이에 귀신같이 활용해서 또 돈을 번다. 그런데 왜 우리는 우리가 제공한 데이터에 대해서 보상은커녕, 이게 어떻게 쓰이는 지조차 모르고 있을까. 괜히 좀 억울하다.

1871년 벌어진 소송을 참고해 보자(Haslem v. Lockwood) 당시에는 마차가 주된 이동수단이었는데, 말들을 돌아다니면서 아무 때나 배변을 해 대도시는 거의 '말똥에서 헤엄칠 정도'였다고 한다. 말 주인들도, 마부들도, 말의 용변이 가치가 있을 거라고 생각하지 않았다. 그러다 한 사람이 이를 모아 거름으로 쓰려고 한 곳에 잘 모아뒀는데, 이를 본 다른 사람이 모르고 가져다 써 버렸다. '내가 모아둔 말똥 변상해!', '당신 말이 싼 똥도 아니잖아!'라며 옥신각신하던 문제는 결국 소송이 되었다. 법원에서는 원칙적으로는 말의 주인들에게 소유권이 있겠지만 그들에겐 가치가 없어 버렸다고 보고, 처음에 이를 모은 사람의 손을 들어줬다. 그런데 이 판결 이후 재미있는 현상이 생겼다. 말 주인들이 말똥을 모아 팔기 시작한 것이다. 우리의 데이터가 '말똥'이라면, 이는 우리에게 가치가 있을까, 없을까?

말똥 모으는 가방

몇 년 전까지만 해도 이러한 논의에 대해서는 일반인들은 물론, 학자들도 손사래를 쳤다. 어느 집 말이 그날따라 변비였는지 설사였는지 알 수가 없는 상황에서 누가 얼마를 받아야 할지를 어떻게 공정하게 추산하느냐, 혹은 알고리즘을 개발한 건 회사들인데 알지도 못하는 사이에 정보를 제공한 사람이 권리를 요구하는 건 장사를 하지 말라는 소리냐 등등 반대의견이 거셌다. 그러나 최근 온라인 정보와 보안의 중요성이 강화되고, 회사들의 타깃 광고 알고리즘이 나날이 고도화됨에 따라 이제는 다른 목소리들도 힘을 얻고 있다.

산악자전거에 푹 빠진 사람이 자전거 영상을 한참 보다가 페이스북에 들어가면 자전거 장비 광고가 뜬다. 다음날 월마트에서 아웃도어 제품을 살 때 20% 할인해주는 쿠폰이 도착하는 시대다. 이러한 타깃 광고를 진행할 수 있는 알고리즘은 우리와 같은 사용자가 제공한 데이터가 없었더라면 분명 불가능했을 것이다. 따라서 이론적으로는 우리에게도 권리가 있다고 볼 수 있지 않을까? 적어도 내가 만든 데이터가 어떻게 쓰이는지, 어디에 쓰이는지는 알아야 하지 않을까. 전쟁에 반대하는 사람이, 자신이 모르고 제공한 정보가 군수회사에 팔려 대량살상 무기를 만드는 데 쓰이길 원하지 않듯이.

(미디엄 지에 실린 연관 기사: https://medium.com/consequential-podcast/data-subjects-and-manure-entrepreneurs-e3bc61cef7eb)

keyword

박쌤 직업 컨설턴트

시간이 느릿느릿 흐르는 미국 시골에 살며 급변하는 세상에서 성장과 삶의 균형을 고민합니다.

팔로워 1,532

매거진의 이전글나쁜 놈들 전성시대 - 미국이 불타고 있다평범한 아줌마, 미국 광고에 출연하다매거진의 다음글