빅데이터, 양날의 검.
이 글은 제가 참여하고 있는 지식공유 공동체 <오픈 컬리지>의 [미래 그리고 이야기] 프로젝트를 통해 나눈 이야기를 엮은 것입니다. 유행어처럼 번지는 4차 산업 혁명의 기술들에 대해 학습하고, 변화하는 세상에서 새로운 윤리, 철학, 가치에 대해 자유로운 토론을 하고 있습니다.
"이야기가 산으로 가는 것을 넘어 우주 밖으로 훨훨 날아가기"를 좋아하는 젊은이들이 나누는 대화를 통해서, 독자분들도 다가올 미래에 대해 자유롭게 생각해보는 기회가 되시길 바랍니다.
첫 번째 이야기 : 빅데이터의 오늘과 취급 기술에 대하여
세상에 공짜 점심은 없다.
앞선 글에서 확인할 수 있듯이, 빅데이터의 활용으로 우리의 삶은 상당히 편리해졌다. 또한 사회적으로는 저성장 시대를 돌파하는 기업의 신성장동력이 되기도 했다.
그러나 장점이 많은 기술인만큼, 빅데이터에 대한 우려의 목소리도 제기되고 있다.
가장 먼저 손꼽히는 것이 바로 '개인 정보'의 문제이다.
(찬구) "빅데이터를 만드는 것은 우리가 인터넷 상에 남기는 수많은 흔적들이잖아요. 이것들이 개별로는 '점의 정보'라고 하더라도 결국엔 개인 정보인 것인데요. 이러한 개인 정보의 수집에 대해서는 찬반의 입장이 팽팽한 편입니다."
(지연) "네, FBI에서는 빅데이터 덕분에 일하기 쉬워졌다고 하더라고요. 테러리스트를 추적하는데 이러한 정보를 사용할 수 있으니, 사회의 안전망을 구축하는데 일조를 하기도 하죠."
(현욱) "그런데 2016년에 애플에서는 수집했던 개인정보 제공을 거절했던 일화도 있어요. 미국 정부가 테러범의 아이폰에 저장된 정보를 입수하기 위해서 백도어를 제공해달라고 했는데, 애플은 고객의 프라이버시를 침해할 수 없다고 거절했었죠."
(은솔) "개인 정보를 보호하는 것이 최우선이라고 생각하는데, 종종 국가나 다수의 이익과 상충되는 면이 있어서 어려운 문제인 것 같아요. 또 한편으로는 이미 여러 차례 해킹을 통해서 중국에 넘어간 내 주민등록번호가 보호해야 할 나만의 개인정보인지도 이젠 헷갈리네요."
국민의 권리를 지키기 위해 많은 국가들은 법률적 근거를 들어 개인의 정보를 보호하고 있다.
우리나라의 경우 <개인정보보호법>을 통해 규정하고 있다. 현행법상 개인 정보란 살아있는 개인에 대한 정보로서 성명, 주민등록번호, 영상 등을 통해서 개인을 알아볼 수 있는 정보이며, 다른 정보와 쉽게 결합하여 알아볼 수 있는 정보까지 포함하고 있다.
이 개인정보를 수집하고 이용하기 위해서는 사전 동의를 받아야 하는 것이 현재 규정되어 있는데, 각종 비정형 데이터를 수집, 이용하는 빅데이터의 시대에 뒤쳐진 법이라는 평가가 많다.
국내와 달리 해외의 경우에는 디지털 개인 정보에 대한 새로운 법률이 시행되고 있다.
유럽연합위원회(EU)는 이미 2012년 1월에 회원국 간의 단일법으로서 일반정보보호규정(GDPR:General Data Protection Regulation)을 제안하였고, 디지털 경제발전을 도모하기 위한 목적으로 2018년 초부터 각 회원국에 적용될 예정이라고 한다.
이 GDPR에서는 빅데이터 활용을 위해 가명화 된 정보를 직접 활용 가능하도록 하여 빅데이터 활용의 근거를 마련하였다. 특히 공익, 과학적 연구, 역사 연구 및 통계 작성의 목적으로는 정보주체의 동의 없이 "가명"처리된 정보를 사용 가능하도록 명시했다.
이와 동시에 정보를 제공하는 개인의 권리 보호를 위해서, "프로파일링 거부권"과 "잊힐 권리"를 함께 규정하기도 했다.
일본도 2015년 9월 개인정보보호법을 개정하면서, 빅데이터 활용을 촉진하기 위한 기반을 마련했다. EU와 비슷한 맥락으로 '익명 가공 정보화'를 도입하면서, 본인의 동의 없이 제삼자에게 정보를 제공할 수 있도록 하였다.
이러한 법률이 통과될 수 있었던 것은, 개인정보에 대한 정의를 명확히 하고, 적절한 규율 하에서 개인정보의 유용성을 확보했기 때문이다.
일본은 이번 개정안에서 개인정보의 범위를 디지털 기계를 통해 활용되는 지문, 안면인식 자료 등 신체 정보와 개인이 상품이나 서비스를 구매했을 때 부여받는 개인 식별부호가 담긴 것이라고 그 정의를 구체화했다.
또한 동의 없이 제공 가능한 익명 가공 정보라는 개념을 신설하였다. 개인정보를 가공하여 식별 가능성을 낮춘 제 3 유형의 정보를 의미하며, 이는 빅데이터 활성화를 위한 제도적 근간이 되고 있다.
더불어 부칙에 법 시행 이후 3년마다 재검토를 요구하기도 했다. 이는 개인정보에 대한 국제적 동향, 기술의 발전 등에 발맞춰 신산업 발굴과 발전을 도모하겠다는 뜻으로 해석된다.
빅데이터 시대를 맞아 우리 사회가 변화해야 할 부분으로는, 개인정보에 대한 패러다임이 제일 우선한다고 생각한다.
어디까지의 개인 정보를 빅데이터로 활용해도 될지의 여부는, 국가가 나서서 사회적 합의를 통해 구체화시켜야 할 것이다. 이미 제도적으로도 앞서 나가고 있는 경쟁 국가들의 사례를 통해서 반드시 지켜야 할 개인 정보는 보호할 수 있는 장치를 마련하면서도, 적절한 가공을 통해 수없이 생산되고 있는 데이터들을 기업이나 국가가 적극적으로 활용할 수 있는 제도적 근간이 마련되어야 할 것이다.
데이터 크롤링의 내로남불
모바일 기기와 네트워크의 확산에 힘입어, 데이터가 기하급수적으로 증가하면서 이러한 자료를 자동으로 수집하는 '크롤링' 기술이 상당히 많이 보급되었다.
이제는 시중의 책 한권만 제대로 읽어도, 개인이 크롤링을 통해 각종 정보를 얻을 수 있는 시대가 왔다.
(진호) "최근에 <야놀자>와 <여기 어때>가 데이터 크롤링 기술을 가지고 한 판 붙었던 적이 있었어요. <여기 어때>에서 <야놀자>의 숙박정보 데이터베이스를 불법적으로 크롤링했다는 혐의였죠."
(은솔) "크롤링, 스크래핑 기술은 이미 너무 많이 활용되고 있는데, 어떤 경우는 위법으로, 또 다른 경우는 혐의 없음으로 판결이 나더라고요.
지금 여러 금융서비스를 제공하는 앱들도 이 기술을 써요. <TOSS> 간편 송금 앱이나 <Broccoli>와 같은 자산 관리 앱들은 '모바일 스크래핑'을 이용하고 있거든요. 이런 앱들이 처음 나왔을 때 개인의 금융정보를 스크래핑 기술로 활용해도 되는지 궁금해서 찾아봤더니, 이미 2001년 금융감독원에서 낸 보도자료에 스크래핑 관련 내용이 있더라고요.
당시 '스크린 스크래핑'기술을 통한 계좌통합서비스를 도입하면서 금융감독원에서 내놓은 입장인데요.
고객정보 소유권은 계좌 개설의 금융회사가 갖는 것이 아니라 고객이 갖기 때문에, 새로운 서비스의 제공자가 스크린 스크래핑 행위를 하더라도 문제 될 소지가 없다고 보고 있더라고요. 대신 금융회사에게 고객정보에 대한 보안체제를 더욱 강화시키고 있죠."
크롤링(crawling) 혹은 스크래핑(scraping)이란, 온라인 화면을 그대로 가져와서 데이터를 추출하는 행위를 말한다. 더 세분화하자면 크롤링은 기본적으로 모든 데이터를 가져오는 것이라면, 스크래핑은 특정 정보만 추출하는 것으로 범위를 줄여서 생각할 수도 있다.
이러한 작업을 가능하도록 하는 프로그램이 '크롤러'이다.
일반적으로 사용하는 '웹 크롤러'란 웹페이지를 방문해서 자료를 수집하는 일을 한다.
이때 한 페이지만 방문하지 않고, 그 페이지에 링크되어있는 또 다른 페이지를 차례대로 방문하면서 정보를 긁어온다. 즉 각 페이지에 연결된 URL 리스트를 재귀적으로 호출하여 돌아다니면서 필요한 정보를 수집하는 방식이라고 볼 수 있다.
주로 사용되는 웹 크롤러들은 일반현 웹 크롤러와, 분산형 웹 크롤러로 구분할 수 있다.
웹 페이지를 기반으로 두고 일반 웹 크롤링을 설명하자면 아래와 같다.
우리가 보고 있는 웹은 기본적으로 HTML 언어로 구성되어있다.
이 프로그래밍 언어에도 사람들이 사용하는 자연어처럼 약속된 규칙이 있다. (문장이 끝나면 마침표를 찍는다거나, 두 가지의 문장을 합치기 위해서 적당한 조사를 추가하는 것과 비슷한 것이다.)
이렇게 정형화된 규칙을 토대로 만들어진 웹 페이지는, 하나의 페이지에서 다른 페이지로 넘어가기 위해서 URL 주소를 이용한다. 이것은 개별 화면의 소스코드 상으로 확인할 수 있으며, 웹 크롤링의 경우 이러한 규칙들을 따라가면서 링크된 페이지를 열어보고 필요한 정보를 수집하는 과정을 거친다.
이 기술을 활용한 비즈니스는 상당히 광범위하다.
지금에 와서는 대부분의 크롤링이나 스크래핑 기술이 합법적으로 사용되고 있으나, <야놀자>-<여기 어때>의 사례와 같이 법률적 분쟁이 일어날 가능성도 사라지지는 않았다.
크롤링의 합법과 위법사이 줄타기가 가능한 이유는, 합법 여부를 판단하는 것이 사이트 운영자의 의사에 반하지 않느냐가 중요하기 때문이다.
웹사이트 운영자가 크롤링 금지를 명백히 표기하였음에도 불구하고, 이 기술을 이용해서 웹페이지 내용을 그대로 긁어간다면 저작권 침해에 해당할 수 있다. 웹페이지 소스 중 웹 프로그래밍 요소는 저작물로 인정될 수 있으며, 이것에 대한 불법 복제 행위는 저작권 침해에 해당하기 때문이다.
또한 데이터베이스(DB)권 침해에도 해당할 수 있으며, '부정경쟁행위'에 해당할 가능성도 있다. 공정한 상거래 관행이나 경쟁질서에 반하는 방식으로 크롤링을 사용한다면, 법적으로 문제가 될 소지가 있다고 한다.
빅브라더의 출현? 빅데이터, 어떻게 쓸 것인가.
빅브라더는 영국의 소설가 조지 오웰의 <1984>에서 비롯된 용어다.
현대의 정보 독점으로 사회를 통제하는 관리 권력, 또는 이런 사회체계를 비유하는 단어로 자주 언급된다. 긍정적인 의미로는 선의 목적으로 사회를 돌보는 보호적 감시, 부정적 의미로는 음모론에 의한 권력자들의 사회통제 수단을 말한다.
브라이언 아서 스탠퍼드대 교수는 "농업이나 자연 자원을 많이 소비하는 사회에서는 수확체감의 법칙(생산요소가 한 단위 추가될 때 늘어나는 한계 생산량은 줄어드는 것)이 적용되지만, 첨단 기술이나 지식을 기반으로 하는 사회, 네트워크 사회에서는 수확체증의 법칙(생산요소가 추가될수록, 산출량이 기하급수적으로 늘어나는 것)이 적용된다고 하였다.
따라서 4차 산업에 기반한 대부분의 사업은 승자독식에 유리한 분야이다. 특정 기술이 우월성을 갖게 되면 그 후 해당 시장을 완전히 선점할 가능성이 높아진다. 구글이나, 이베이, 페이스북, 아마존 등이 바로 그 예라고 할 수 있다.
시장에서 1위 위치인 소수의 기업이 사실상 시장 전체를 지배하는 현상.
이 현상에서 경계해야 할 것은, 그 특정 기업이 절대다수의 정보를 획득하고 있기 때문에 위험성이 더욱 높아질 수 있다는 것이다.
(은솔) "많은 양의 정보를 가진 자가 두려운 이유는 개인이 너무 미약하기 때문이에요. 예를 들면 국정원이 갖고 있는 엄청난 정보력으로, 특정 개인을 사찰한다던가 하는 문제에 우리는 너무나 속수무책으로 당할 수밖에 없으니까요."
(현욱) "물론 그렇지만 오늘날 우리가 5G나 wifi 를 차단하고 살지 않는 한, 이미 기업이나 사회에서 점의 정보를 모으는 것을 막을 수는 없어요. 대신 우리는 빅데이터로 이루어진 서비스를 공짜로 사용하기도 하잖아요."
(지연) "맞아요. 빅데이터를 통해서 내가 굳이 고민하지 않더라도, 평소 내가 좋아하는 음식 카테고리에 맞는 근처 맛집을 찾을 수도 있고, 생각지도 못했던 새로운 서비스를 추천받기도 하니까요.
그런데 이렇게 사람들이 작은 고민들을 할 필요가 없어지다 보니, 고유한 의사결정 능력을 점점 상실해가는 것 같기도 해요. 요즘 부쩍 <선택 장애>를 가진 분들이 많잖아요."
(진호) "개인적으로는 '내가 정보를 필요로 하는 분야'와 '정보가 나를 필요로 하는 분야'를 생각하면서 서비스를 이용했으면 좋겠어요. 내가 필요한 정보를 위해서 얼마만큼의 데이터를 제공할 것인지, 또 기업이나 사회가 나의 어떤 정보를 자꾸 요구하는지에 대해 심사숙고한다면, 개인 정보 노출에 대한 위험을 스스로 줄여볼 수 있지 않을까 싶어요."
하나의 계정으로 다양한 서비스들이 연동되고, 위치기반 서비스들이 늘면서 이제 빅브라더는 우리가 누군지, 어디에서 누굴 만나고 무엇을 좋아하는지까지 파악할 수 있게 됐다. 빅브라더로 불리는 그들은 수년간 수집한 ‘빅데이터’를 활용해 ‘은밀하고 위대하게’ 우리를 살펴보고 있다.
우스갯소리로 '개인정보야 말로 진짜 공공재'라는 말을 하곤 한다.
좁은 국토와 원자재가 부족한 우리나라는 이렇게 모든 정보가 열려있는 시대에서, 빅데이터와 같은 지식기반산업을 통해 국가경쟁력의 향상을 도모할 수 있는 돌파구를 찾을 수도 있다.
개인 역시 빅데이터를 활용한 훌륭한 서비스를 통해, 보다 편리하고 안락한 생활을 영위할 수 있을 것이다.
그러나 이 기술이 개인과 기업, 국가에 긍정적인 영향을 미치며 발전하기 위해서는, 그 위험에 대해서도 사전에 대비하고 어떻게 활용하는 것이 가장 <공공의 선>에 알맞은지를 고민해 볼 필요가 있을 것이다.
그러한 고민은 '아는 것'에서부터 시작한다.
"빅데이터가 무엇인가, 기업은 어떤 정보를 수집하고 있는가, 무엇으로 활용되고 있는가"에 대해 한 번쯤 관심을 갖고 알아볼 필요가 있다.
무심코 지나쳤던 페이스북의 광고와 쇼핑몰에서 나에게 보내는 알림 푸시들이 어떻게 나에게 '추천'되고 있는지를 생각해본다면, 빅데이터의 시대를 살아가기 위한 충분한 대비가 되지 않을까.
<참고문헌>
한국콘텐츠학회논문지) 빅데이터 분석 서비스 지원을 위한 지능형 웹 크롤러 /서동민, 정한민
미래금융연구센터) 빅데이터 활용과 개인정보보호
통계청) 통계적 목적의 개인정보보호와 비식별화 / 김혜련
KERI) 빅데이터의 활용 현황, 문제점과 대책 / 조하현
http://m.ddaily.co.kr/m/m_article.html?no=151940