[개인정보부스러기와 인공지능] 내가 흘린 정보 부스러기가 AI의 밥이라면
내 개인정보가 AI의 ‘밥’이 될 수도 있다는 생각, 해본 적이 있나요?
기술 인문 아카데미 네 번째 이야기 <개인정보 부스러기와 인공지능 - 내가 흘린 정보 부스러기가 AI의 밥이라면?>을 진행해 주실 유재연 연사님을 칼럼으로 먼저 만나보겠습니다.
유재연 연구원
서울대 융합기술대학원 연구원
중앙일보 <유재연의 인사이드 트랜 D> 연재
동아 비즈니스 리뷰 <데이터 사이언스 인 프랙티스> 연재
최근에 휴대전화 번호를 한 번 바꾼 적이 있었어요. 쓰던 번호로 오는 각종 광고 전화가 지긋지긋해서 다른 번호로 갈아타면 좀 낫지 않을까 생각한 거였죠. 하지만 번호를 새로 받고 난 이후에는, 이 번호의 이전 사용자와 관련 있어 보이는 교회와 금융 상품, 거주지 주변 상점의 세일 광고까지 너무 많은 정보가 켜켜이 쌓이기 시작했어요. 순간 아차 싶었답니다. 내가 10년 넘게 쓰던 번호를 받게 되는 익명의 누군가가, 나에 대해 너무 많은 걸 알게 될 것 같았기 때문이지요. 얼른 예전 번호를 되찾아 다시 쓰기 시작했답니다.
이제 더 이상 개인정보 흘리는 걸 우습게 생각하면 안 돼요
내가 여기저기 흘리고 다닌 개인정보는 이제 더 이상 ‘스팸 문자 좀 받는 것’으로 끝나지 않아요. 이미 우리 생활에 쑥 들어와 버린 인공지능(AI) 기술이 개인화 추천 서비스에 특히 치밀하게 대응하기 시작했거든요.
AI는 다량의 데이터를 신경망 구조의 여러 수학적 레이어에서 학습을 한 뒤 결과물을 만들고, 그에 대한 피드백을 바탕으로 점점 더 정확도를 높이는 기술이에요. AI가 해결할 수 있는 태스크는 여러 가지가 있는데요. 내게 맞춤형 콘텐츠나 광고를 추천하고,
약간의 내 목소리 파일만 가지고도 내가 부른 듯한 노래를 만들고, 내 얼굴 사진을 활용해 가상의 인물 이미지를 만들어낼 수도 있지요.
이렇게 우리 일상에서 편리함도 가져다주고, 또 신기하기까지 한 기술이지만, 사실 논란도 끊이지 않고 있답니다. 특히 개인들의 데이터를 가져다가 몰래 쓰거나, 혹은 의도와 달리 악용하는 경우, 개인이 볼 수 있는 화면에 의도적으로 접근해 실험을 하는 경우가 대표적이에요.
내 얼굴 합성당하는 것, 이제는 너무 손쉬운 일이 됐어요
얼마 전 미국의 테크 미디어인 MIT 테크놀로지 리뷰에서는 딥 페이크(deepfake)를 활용해 일반인의 사진을 포르노에 합성하는 프로그램의 존재를 알리며 공식적으로 문제제기를 했어요. 딥 페이크는 인공지능 기술을 활용해 이미지 속 패턴을 정교하게 학습하고, 스타일을 입혀서 가짜 이미지를 만들어내는 방법 중 하나예요.
몇 년 전까지만 해도 어쩐지 머리카락 표현이 어색하다거나, 목 주변 연결부가 조작된듯한 느낌이 많았는데요. 지금은 사람이 맨눈으로는 구별하기 힘들 정도로 정교해졌답니다. 가짜 포르노 동영상이 퍼져도, 이것이 가짜임을 밝히는 게 오히려 힘들어질 정도로요. 다행히 해당 사이트는 사라졌다고 하지만, 기술적으로는 충분히 가능해졌다는 게 증명된 셈이죠.
이런 이유로 우리의 정보 유출 한 건 한 건이 개인에게 큰 상처나 피해를 입힐 가능성도 커졌어요. 가령 보이스피싱에서 악용될 수도 있지요. 내 목소리 또는 내 얼굴 이미지를 가져다 조작해서 가짜로 음성 전화를 걸고, 허위의 영상통화를 할 수도 있어요. 범죄가 더 지능화될 가능성이 높아지는 겁니다.
그런데 우리도 모르게 정보를 내어주고 있지는 않았나요?
무심코 눌러서 하는 게임부터 ‘개인정보를 수집하지 않는다’는 말이 나와있지 않은 심리테스트까지. 우리는 흥미롭다는 이유로, 혹은 남들과 이 재밌는 걸 나누고 싶다는 마음으로 콘텐츠들을 체험하고, 공유하고 있어요. 하지만 일부 콘텐츠에서 여전히 개인정보 접근 권한을 허용하라, 개인정보 수집에 동의하라는 요청을 보내고 있지요. ‘전체 동의’를 하지 않으면 서비스 자체를 이용하지 못하는 일도 대부분이고요.
가장 대표적으로 악용된 사례는 케임브리지 애널래티카 정보 유출 스캔들이에요. 2010년대 중반, 케임브리지 대학의 연구진이 ‘성격 퀴즈 앱’을 개발했고, 이에 흥미를 느낀 페이스북 유저들이 잔뜩 이 성격 테스트에 참가했는데요. 이때 참가자들과, 참가자의 친구들에 대한 각종 정보들을 수집하는 내용이 본인들도 제대로 파악하기 어려운 상태에서 일괄적으로 ‘동의’ 처리됐어요. 수집 내용은 그저 프로필 정보에 그치지 않았고, 일부에선 그가 쓴 메시지나 타임라인에서의 여러 상호작용이 포함되기도 했다고 해요. 그렇게 수집된 정보는 심지어 본래의 학술 용도와는 달리 정치 캠페인 등에서 활용됐죠.
이 데이터를 기반으로 유저가 어떤 성향의 사람인지를 파악하고, 맞춤형으로 광고와 메시지를 보내는 게 가능해졌어요. 이러한 시도는 뒤이어 여론조작이나 감정실험 같은, 페이스북에서 벌어진 수많은 실험들의 뼈대가 되었답니다. 여러 부작용을 막기 위해 개인정보 보호를 강조하는 GDPR(2018년부터 시행된 EU의 개인정보보호 법령) 등 관련 규제도 이 즈음부터 강화되기 시작했답니다. 우리나라에선 데이터 3 법(개인정보보호법, 신용정보법, 정보통신망법) 개정안이 지난해 8월부터 시행되기 시작했고요.
흥미나 편의가 먼저냐, 아니면 내 정보를 지키는 것이 우선이냐. 여기에 대해선 어떤 가치를 평가하기 힘들 것 같아요. 하지만 적어도 일단 ‘전체 동의’ 누르고 넘어갈 게 아니라, ‘선택 동의’를 할 수 있는 것에 대해선 한 번쯤 살펴보고, 생각하고, 결정할 필요가 있어요.
아무래도 더 강력하게 나를 지킬 방법이 필요해요!
하지만 늘 트레이드오프를 생각하기에는 우리는 이미 너무나도 기술 플랫폼에 익숙하고, 동의를 피할 수 없는 세상에 살고 있어요. 애초부터 개인정보의 통제나 이용에 있어, 정보의 주인인 본인이 주체가 되는 ‘마이 데이터’ 모델이 각광받고 있지요.
마이 데이터 모델은 내 정보를 정보 수집 업체에 직접 요구할 수 있는 권한이 주어지는 것이에요. 예를 들어 카드 회사에 내 데이터가 어떻게 수집됐는지 제공받는 것이죠. 뿐만 아니라 신용등급이 떨어졌다면, 그 자동화된 결정에 대해서도 설명을 요구할 수 있게 된답니다. 보다 더 데이터의 주체가 되는 것이지요.
이것만으로도 부족하다면, 보다 더 강력한 ‘데이터 레버리지 운동’이 있답니다. 데이터를 몰래 빼다가 못되게 써먹는 업체들에게 일종의 공격을 하는 형태지요. 알고리즘이 그릇된 결정을 내리도록 일부러 ‘독을 타듯' 서비스 이용을 평소와 다른 패턴으로 마구 하기도 하고, 경쟁 업체에 나의 양질의 데이터를 몰아주기도 하는, 말 그대로 의도적으로 데이터를 제어하는 운동이에요.
AI는 인간이 만드는 데이터를 먹고 자라납니다. 기왕 좋은 기술로 키우려면, 그만큼 올바른 형태의 데이터 제공/수집도 뒤따라야 한다고 생각해요. 내 것은 내가 지킨다! 좋은 기술에 잘 쓰일 수 있도록, 항상 두 눈 크게 뜨고 내 데이터 잘 지켰으면 좋겠습니다.
테크 자이언트에 대항하고, 올바른 기술 활용을 위한 적극적인 시민의 움직임이 궁금하다면?
→ 기술 인문 아카데미 신청하기 링크