brunch

You can make anything
by writing

C.S.Lewis

by 정순호 Oct 27. 2020

프라이버시 패러독스와 인공지능 시대의 데이터 관리

정순호

왜 이 글을 썼는가? (Why?)   

인공지능, 머신러닝, 추천 알고리즘 등 데이터 중심의 비즈니스 모델과 이에 대한 요구가  갈수록 중요해지는데 반해 이러한 비즈니스를 하는 사람들이 고려해야 할 데이터 관리 및 활용에 관심이 소홀한 편이다. 따라서 여러 사례를 통해 중요성을 깨닫고 현업에서의 데이터 리스크 관리를 점검해 볼 수 있는 계기를 마련하기 위해 작성하였다.


누가 보면 좋을까? (Who?)   

데이터와 관련된 업무를 하는 사람부터 이를 활용하는 디지털 마케팅 & 비즈니스 팀 그리고 관련 임원 및 경영자


어떤 내용인가? 3줄 요약 (What?)   

데이터를 모으고 알고리즘을 고도화해서 추천 및 타기팅 광고의 목적으로 '데이터'를 활용할 때 '프라이버시 패러독스(The Privacy Paradox)'을 고려해야 한다

소비자는 개인적인 정보일수록  불편함을 느끼고, 자신도 모르게 전달되는 정보 방식에도 불쾌감을 갖는다. 소비자들은 자신들의 개인정보가 원치 않는 방법으로 공유되고 사용된다는 사실을 알게 될 때, 오히려 구매 의사가 줄어든다.

머신러닝 및 인공지능 시대에 데이터 리스크 관리를 위한 data compliance는 더욱 중요해지고, 위기를 기회로 만들기 위해서는 투자와 리스크 관리가 동시에 이루어져야 한다



최근 넷플릭스 오리지널에서 인상적이고 재미있게 본 다큐멘터리가 ‘소셜 딜레마(Social Dilemma)’이다. 아직 안 본 사람이 있다면 추천한다.  넷플리스 계정이 없는 분은 여기 리뷰에서 내용을 참고해 볼 수 있다.

이미지 출처: 넷플릭스 오리지널 'The social dilemma' 포스터


소설 미디어 상의 가짜 뉴스와 중독 문제를 다룬 넷플릭스 오리지널의 다큐멘터리로 구글,  페이스북, 핀터레스트, 트위터 등에서 근무했던 직원들이 인터뷰를 통해, 오늘날 소셜  채널의 표준을 만들었던 그들이 오히려 본인들이 만든 소셜 채널의 위험성에 대한 경고를 한다. 소셜 채널의 중독성과 편향성, 양극화 같은 다양한 문제들을 제시하고 이해하기 쉽게 이를 설명하는 내용이다.


페이스북은 이를 의식했는지 이달 초 (10월 2일) 공식 입장을 바로 발표했는데 "소셜 딜레마는 선정주의에 실체를 묻어버렸다며, 기술의 미묘한 함의는 놓친 채 소셜 미디어 플랫폼에 대한 왜곡된 시각만을 보여주고 이미 진행하고 있는 자발적인 노력 등은 다루지 않고 있다" 고 반박했다. (출처: business insider & 국내 기사)


이미지: The Social Dilemma 속의 한 장면


대부분의 사람들이 페이스북이나 인스타 그램, 구글 혹은 유튜브를 일상생활 속의 일부처럼 여기고 있다. 사용하면 할수록 여기에서 보이는 콘텐츠는 나에게 최적화되어 내가 관심 있는 일이나 주변 친구들 소식 그리고 원하는 정보들을 일일이 찾지 않아도 스스로  제공해 준다. 이제 이러한 디지털 플랫폼 들은 우리 삶에서 없어서 안 되는 필수적인 생활양식이 되어 버렸고, 특히 코로나로 인해 더 많은 시간과 관심을 이곳에 쏟고 있다.


여기서 중요한 점은 페이스북, 구글 등의 소셜 채널들이 내가 원하는 정보를 어떻게 알아서 착착 제공해 주는지 이다. 소셜 딜레마 내용 중에 이에 대한 대답이 나오는데 트위터 제품 수석 이사인 제프 세버트(Jeff Seibert)는 "우리가 온라인에서 하는 모든 행동들은 감시되고, 추적되고, 측량됩니다. 무슨 이미지를 얼마나 오래 봤는지도 말이죠"라고 이야기를 하면서 어떻게 데이터를 모으고 분석해서 알고리즘을 고도화시켜 얼마나 쉽게 사람들을 조정할 수 있는지에 대해서 경고하였다.


FAANG*으로 불리는 대표적인 테크 기업들의 공통점들 중의 하나가 바로 '데이터'를 적극적으로 활용해서 자신들의 비즈니스에 적용하고 활용한다. 더 나은 고객 경험과 서비스를 위해 소비자 원하는 콘텐츠와 정보를 제공해 자신들의 플랫폼으로 락인(lock-in)을 시키는데 데이터를 통해 사용자 예측 모델을 강화하고, 이를 통해서 시장 지배력을 확장해 나간다.   

FAANG (Facebook, Amazon, Apple, Netflix, Google)이란 대표적인 미국 테크 기업들의 앞 글자를 따서 만든 신조어로 갈수록 커지는 이들의 시장 지배력과 주식 시장의 영향력을 나타낼 때 주로 사용된다.
이미지: 넷플릭스와 유튜브


예를 들어 요즘 가장 인기 있는 유튜브(Youtube)와 넷플릭스(Netflix)의 경우 뛰어난 추천 알고리즘으로 시장 지배력을 강화하고 있다.  이용자의 데이터를 수집할 때 어떤 영상에 구독을 눌렀는지,  특정 영상을 얼마나 시청했는지, 또한 어떤 키워드로 검색했는지 등을 바탕으로 '콘텐츠 기반 필터링'과 '협업 필터링'을 통해 개인화 추천을 한다.   

콘텐츠 기반 필터링: 사용자의 데이터를 통해 콘텐츠 자체의 특성을 분석해 이와 비슷한 내용을 추천
협업 필터링: 사용자와 콘텐츠 사이에서 측정된 유사성을 기준으로 비슷한 성향의 사용자들의 선호하는 콘텐츠를 추천하는 방식


또한 이렇게 수집된 방대한 양의 데이터를 머신 러닝을 활용해 알고리즘을 학습시켜서 추천 기능을 고도화시키는데 이를 통해서 추천의 정확도를 높이고 있다. 사실 많은 기업들이 이들의 알고리즘을 부러워하고 또한 이러한 기술과 능력을 갖기 위해 인공지능과 데이터 사이언스에 엄청난 투자를 하고 있다.


사실 이러한 데이터 드리븐(Data Driven) 경영 추세는 최근의 일은 아니고 예전부터 우리는 데이터로 얻은 인사이트를 통해 더 나은 의사 결정을 내리기 위해 노력해 왔다. 생각해 보면 회사 일의 많은 부분이 데이터를 분석해서 결과를 만들어 내고, 이를 잘 전달하기 위해 대시보드 툴을 통해 시각화시키고,  의사결정을 내리는 데 참고해 왔다. 또한 인터넷의 발달과 데이터 기술의 발전으로 소비자들에 대한 많은 디지털 정보를 얻을 수 있게 되었고, 이에 따라 데이터 중심의 고객 마케팅이 중요해졌다. 고객 데이터를 세부적으로 나누고 타깃 그룹에 알맞은 맞춤 정보를 제공해 판매를 촉진해 왔다.


유명한 한 가지 사례로 미국의 유통업체 타깃(Target)의 경우를 들 수 있다.

이미지: Target 매장 내부


타깃 마케팅 팀에서는 아기가 태어날 것이라는 사실을 다른 회사보다 먼저 아는 것이 중요했다. 왜냐면 일반적으로 출생 신고가 접수되면 이는 공공 데이터가 되고 이는 경쟁사에서 할인 쿠폰과 광고를 통해 육아 용품 판매 경쟁이 치열해지는 것을 말한다. 그래서 타깃에서는 수십 년간 고객 데이터를 수집해 왔고, 이를 통해 자료를 분석해서 일정한 패턴을 찾아냈다. 마침내 임신을 예측할 수 있는 25가지의 연관 상품을 알게 되었고 이는 유의미한 결과로 출산 예정일까지 높은 확률로 맞출 수 있게 된 것이다. 이러한 모델을 통해 예상되는 잠재고객 여성들에게 임신 및 출산 관련 제품 쿠폰을 보냈고, 정교한 타겟팅으로 인해 매출이 당연히 오를 것으로 기대했다.


그러나 예상과는 다르게 미니애폴리스(Minneapolis) 타깃 매장에서 고객 컴플레인이 들어왔다. 이유는 아직 고등학생인 딸에게 임신 및 출산 관련 쿠폰이 배송되었고, 이에 격분한 아버지가  매장에  와서 따진 것이다. 해당 매장 매니저는 사과를 했고, 얼마 후 고객 관리 차원에서 다시 전화를 걸었다. 그러나 놀라운 사실은 그 고등학생 딸이 실제로 임신 중이었고, 그 아버지는 나중에 그 사실을 알게 된 것이다. 문제는 여기서 끝나지 않았고, 위 사례가 뉴욕 타임스를 통해 보도가 되자 많은 소비자들이 자신의 개인정보를 이용해 이익을 챙기려 한 것에 분노했으며, 타깃은 기업 이미지에 심각한 손상을 입었다.


여기서 한 가지 생각해 볼 점은, 앞서 이야기 한 유튜브와 넷플릭스 개인화(personalization) 추천 알고리즘은 환영받는데 왜 타깃의 경우는 소비자로부터 미움을 받게 되었을까? 이러한 문제가 왜 발생했을까?
이미지 출처: JOHN HERSEY ILLUSTRATION: THE PRIVACY PARADOX


이에 대해 참고할 만한 내용으로 HBR에서 발표한 아티클 중에  '프라이버시 패러독스(The privacy paradox)'로 이를 설명할 수 있다. 즉 사생활 보호, 프라이버시에 있어서 사람들은 논리적인 반응을 보이지 않는데, 일반적으로 사적이고 은밀한 정보일수록 다른 사람들이 알게 되는 것을 불편하게 느낀다. 넷플릭스 추천은 개인정보의 위험이 없는 영화라는 취미의 영역 임에 비해 타깃의 경우에는 '고등학생 딸의 임신'이라는 매우 민감한 내용이기 때문이다.


다음으로는 개인 정보가 전달되는 방식에 있다. 즉 본인 스스로 어떤 개인 정보를 공개하는 것에는 불편함이 없지만, 자신도 모르는 사이에 다른 사람에게 자신의 정보가 전달되는 것은 매우 불쾌하다는 것이다. 즉 내가 좋아하는 영화를 몇 개를 선택해서 이를 통해 나에게 추천되는 넷플릭스 영화는 기쁘게 받아들일 수 있지만, 알리고 싶지 않았던 임신 사실을 추측해 출산 용품 쿠폰을 보낸 타깃은 반갑기보단 두려운 것이다.


또한 이러한 프라이버시 패러독스는 디지털 환경에서도 적용이 되며, 소비자들은 자신들의 개인정보가 원치 않는 방법으로 공유되고 사용된다는 사실을 알게 될 때, 구매 의사가 줄어든다는 실험 결과를 보여 준다. 이렇듯 데이터의 활용은 양날의 검이 될 수 있고 이에 따른 리스크는 더욱 커질 수밖에 없다.   

HBR 'Ads That Don't Overstep' (2018) by Kate Barasz, Tami Kim, Leslie K. John
참고: 임신마저 알아내는 획기적 프로그램 개발한 유통사의 결말 (인터비즈 공식 블로그)



앞으로 빅 데이터를 활용해 머신 러닝을 강화하고 이를 통한 알고리즘 고도화로 인공 지능이 비즈니스 전략의 핵심이 될 날이 멀지 않았다. 이는 회사 업무의 대부분이 데이터를 모으고, 가공하고, 훈련시키는 일들이 주된 업무가 된다는 것이다. 이 업무가 고도화될수록 우리는 개개인의 소비자들을 더욱 잘 알게 되고 무엇을 원할지 예측하고 이를 제공하는 일이 일상이 될 것이고, 이를 위해 많은 고객 정보와 데이터를 모으고 기존 데이터를 활용하기 위해 노력해야 한다.


하지만 이러한 노력에 비해 우리가 가지고 있는 데이터 인식 및 리스크 관리는 어떤지 한번 살펴볼 필요가 있다. 일반적으로 회사에서 데이터를 관리하고 책임지는 부서는 따로 있다 라고 오해를 한다. 즉 데이터 분석가와 엔지니어가 회사 업무와 관련한 데이터를 모으고 관리하기 때문에 그들의 책임이라고 생각하기 쉽다. 하지만 앞으로 다가올 인공지능 시대의 데이터 전략은 특정 부서 만의 책임이나 권한이 아닌 모두가 데이터 전문가가 되어야 하는 만큼 지금부터 데이터 활용 및 관리에 대한 이해와 관심을 높여야 한다.


단기간에 할 수 있는 방법으로는 사내의 데이터 보안 강화는 물론이고, 누가 데이터에 접근할 수 있고, 이를 누가 승인할지에 대한 점검이 필요하다. 또한 데이터를 활용함에 있어서는 privacy paradox를 염두에 두고 개인정보 데이터를 활용해야 할 것이고, 머신 러닝 및 빅 데이터를 활용하고 싶다면 먼저 데이터 전처리(데이터 가공 후 저장)에 지속적인 투자를 해야 할 것이다.


그리고 경영자 입장이라면 내부 교육 시스템을 보완 및 data compliance 리스크를 관리해야 한다. 앞으로 데이터 관련 법규가 강화되고 있고, 준법 감시 및 내부 통제 프로세스를 확인해 미연에 사고를 방지할 필요가 있다. 또한 자기 회사만이 가지고 있는 데이터로는 인공지능 활용을 위한 빅  데이터로 부족하기 때문에 어떻게 이를 제휴 및 활용할 수 있을지도 염두 해 두어야 한다. 


데이터 3 법 즉, 개인정보 보호법, 정보통신망법, 그리고 신용정 보법은 올 8월부터 시행되었다. 데이터를 활용할 수 있는 환경이 마련되었고 이를 어떻게 활용할지는 개별 회사의 데이터 성숙도에 따라 달라질 것으로 본다. 위기를 기회로 만들기 위해서는 반드시 투자와 리스크 관리가 병행되어야 한다.




브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari