10화. 모든 것의 기본은 빅데이터로부터!
어느새 위클리 매거진 10화에 접어들었다.
그동안 IT 트렌드에 관한 이야기를 4차 산업혁명과 함께 다뤘는데, 가장 중요한 주제이면서 모든 것의 기반이 되는 주제를 이제야 쓰게 되었다.
그것은 다름 아닌 빅데이터(Big Data).
사실 브런치 위클리 매거진을 처음 시작했을 때 '빅데이터(Big data)'를 가장 우선하는 아이템으로 잡아야 하지 않을까 고민했었다. 지금까지 언급했던 4차 산업혁명 속의 각 분야들이 기틀을 잡는 데 있어 가장 유용하게 쓰이고 활용되는 것이 바로 빅데이터이기 때문이다.
인공지능과 웨어러블, 사물인터넷과 자율주행 등 4차 산업혁명의 연결고리는 빅데이터와 함께 묶여있다 해도 과언이 아니다. 우리가 한참을 이야기했던 각 분야의 기본이 되는 빅데이터를 간략하게 소개해보고자 한다.
빅데이터란 무엇인가?
'크다'라는 의미의 'Big'과 자료나 정보라는 의미의 'Data'가 만났으니 '큰 데이터'라고 단순 해석하기엔 크게 무리가 있다. 4차 산업혁명이나 IT 분야에서 빅데이터는 키워드의 단순한 의미를 넘어서는 가치가 내포되어 있다.
우리 생활과 뗄 수 없는 관계로 형성된 인터넷은 남녀노소를 불문하고 (거의) 모든 이들의 디지털 라이프를 만들어냈다. 어딘가에 회원가입을 하면서 내 정보를 지출하고 내 스마트폰으로 사진을 찍어 아카이브에 전송하고 텍스트로 트위터를 하는 행위 모두 데이터와 연결된다. 하루가 멀다 하고 쌓이는 페이스북의 피드는 그 규모 자체가 워낙 방대하고 프로모션과 홍보 용도로도 다수 활용되고 있어 피드 생성과 동시에 또 다른 신규 피드로 인해 밑으로 묻히기 일쑤다. 최근 동영상 붐이 불면서 짧은 영상 클립 형태로 만들어지는 VOD 또한 수도 없이 공유되곤 한다.
데이터 형태에 관계없이 이렇게 쌓이는 수많은 데이터들을 빅데이터라고 한다.
사람들이 서로 전송하고 공유하는 행위로 생기는 트래픽은 과거와 비교도 할 수 없을 만큼 폭증했다. 더구나 이러한 글이 이미지와 함께 표현되는 형태를 비롯해 동영상이나 방문했던 위치 정보 또한 빅데이터에 포함되므로 일정한 형태가 없다는 측면에서 그 범위의 제한이 없다고도 할 수 있다. 그렇기에 'Big'의 의미는 'Wide'를 넘어 'Limitless'와도 연결될 수 있겠다.
빅데이터가 가진 주된 특징은 사이즈(Volume)와 다양성(Variety) 그리고 속도(Velocity)다. 이를 일컬어 '빅데이터의 3V'라고도 한다.
사이즈라 하면 데이터의 물리적 크기 즉 기업 데이터나 웹 데이터 등 페타바이트 규모로 보다 확장된 데이터다. ※ 페타바이트(peta byte)란, 테라바이트가 모여 만들어진 사이즈의 단위로 1024 테라바이트 즉 100만 기가바이트를 뜻한다.
그런데 SNS나 동영상 서비스에서는 그 규모가 더욱 커진다.
최근 트위터(Twitter)에서 활용되는 해시태그만 해도 하루 평균 1억 건이 넘으니 해시태그 유무를 떠나 실시간으로 올라오는 트윗의 수는 아마도 그 이상이 될 것이다. 텍스트로 표현할 수 있는 가장 심플한 SNS 행위이고 전 세계적으로 활용되고 있어 어마어마한 데이터가 교류되고 있다는 것.
유튜브(Youtube)의 경우는 어떨까?
세계에서 가장 각광받는 동영상 플랫폼인 유튜브를 통해 하루 동안 평균 약 40억 회가 재생된다고 했는데 이는 몇 년 전 이야기다. SNS와 유튜브와 같은 동영상이 데이터로 쌓이고 트래픽이 일어나는 규모만 보면 거의 10 제타바이트(ZB, Zettabyte) 수준에 육박한다고 해도 무리가 아니다.
이 밖에도 프랑스 비방디 그룹의 데일리모션(dailymotion)이나 네이버의 네이버 TV, 카카오의 카카오TV에서도 수많은 영상들이 재생되고 있다.
※ 참고로 1 제타바이트는 1천 엑사바이트(EB, Exabyte), 1 엑사바이트는 1천 페타바이트다. 1 엑사바이트의 수준으로 따지면 미국 의회도서관 인쇄물의 10만 배 수준이라고 하니 사실상 쉽게 감이 오지 않는다.
교통정보를 수집하는 도로 위에 카메라나 출입카드를 찍으며 생성되는 출퇴근 정보, 검색 창에서 두드리는 나의 궁금증(키워드)까지도 데이터와 트래픽이 폭증하게 만드는 이유 중 하나다.
이처럼 데이터의 사이즈(Volume)를 비롯해, 다양한(Variety) 정보들이 빅데이터 안에 쌓이게 된다. 무수히 생성되는 이 데이터들은 어떻게 처리가 될까? 이 부분에서 속도(Velocity)의 의미를 부여할 수 있다.
하루하루 생겨나는 데이터의 생산은 그 생성 속도만 해도 엄청나다고 할 수 있다. 이를 빠르게 처리하고 분석해내야만 올바른 저장소나 클라우드에 저장이 될 것이고 그로부터 다시 유통이 되거나 수집이 되어야만 한다. 그러기 위해선 처리 속도의 중요성을 절대로 간과할 순 없다.
최근에는 위에서 언급했던 빅데이터의 기본적 성질인 3V를 넘어서는 키워드들도 생겨나고 있다.
데이터는 엄청나게 생겨나고 있는데 '그게 과연 정확한 데이터일까?' 하는 문제에서 탄생된 키워드가 바로 정확성(Veracity)이다. 빅데이터가 쌓이고 유통되는 과정 속에서는 이를 구분하기가 어렵다. 개인을 비롯, 기업이나 정부 및 산하 기관 등에서 이러한 데이터를 수집하고 활용하는 데 있어 '정확한 데이터'는 반드시 필요하다.
또 한 가지 거론되고 있는 키워드는 가변성(Variability).
빅데이터 안에서 큰 비중을 차지하는 SNS의 글들은 정확성과 구별할 필요가 있다. 단지 개인의 생각이나 의견을 피력하는 공간으로서의 SNS는 타인들의 '좋아요' 대상이기도 하지만 공격 대상이 되는 양면성을 보일 때가 있다.
가령 '1+1=2'라는 단순한 팩트를 작성하며 자신의 의견을 덧붙이는데 그 코멘트가 어떤 뉘앙스이냐에 따라 찬반이 나뉘어 논란거리가 되기도 한다. 빅데이터에 쌓이는 정보들은 겉보기에 누구나 인정할 법한 팩트임에도 작성자의 의도와 관계없이 작성된 글 맥락에 따라 부여되는 의미가 다를 수 있다. 이러한 측면으로 거론된 키워드가 바로 가변성이다.
마지막 키워드는 시각화(Visualization).
정보는 많은데 어떤 걸 추출해야 할지 모르는 케이스를 위해 눈으로 확인할 수 있는 정보 제공이라는 측면에서 시각화라는 말이 등장했다. 통상 빅데이터를 분석할 때엔 자신의 실행 용도에 따른 정보를 수집하고 그 정보를 분석해야 한다. 오늘 접했던 데이터가 내일이면 새롭게 변형된 데이터가 될 수 있음을 감안, 실제 사용자가 충분히 이해할 수 있을만한 정보여야 하므로 시각화라는 단어가 등장했다.
빅데이터의 활용 케이스
그럼 이렇게 쌓인 빅데이터는 어떻게 활용될 수 있을까?
구글(Google)은 데이터의 수 자체를 '다다익선(多多益善)'으로 보고 있다. 키워드에 따른 검색 결과가 많으면 많을수록 사용자가 찾고자 하는 그리고 사용자에게 제공되는 정보의 퀄리티가 좋아질 수 있다는 '진리'를 있는 그대로 보여주고 있다. 실제 같은 키워드를 서로 다른 검색엔진을 통해 이용해 보면 충분히 알 수 있으리라고 본다.
우리가 검색 엔진을 통해 한두 번쯤 검색해봤을 법한 쇼핑 키워드들이 이후 배너 광고 형태로 나오는 케이스도 하나의 사례로 들 수 있다. 이른바 리타게팅 광고라 일컬어지는 이 배너 광고는 사용자가 검색 키워드를 통해 방문했던 웹사이트 기록 즉 쿠키(cookie)를 수집해가고 뭔가 액션을 취하지 않았어도 그 정보가 고스란히 배너 형태로 등장하는 케이스다. 유저의 정보를 분석해 다시 방문을 유도할 수 있도록 하는 마케팅 기법이다.
미국의 아마존(Amazon)이 이와 유사한 기법을 마케팅 수단으로 활용하고 있다. 소비자의 소비 패턴을 데이터로 축적하고 이 데이터를 분석해 소비자에게 구매 의사가 있을법한 아이템이나 쿠폰 등을 제공하는 경우다. 빅데이터에 쌓인 정보를 마케팅으로 활용하는 케이스라 하겠다.
카카오가 뉴스 서비스에서 활용 중인 루빅스(RUBICS, Real-time User Behavior Interactive Content recommenderSystem) 역시 데이터에 기반한다. 본래 인공지능이 추천하는 뉴스 알고리즘이라 AI가 그 원천에 있을 것이라 생각할 수도 있지만 이용자의 뉴스 소비 패턴을 파악하는 것이므로 데이터가 우선된다고 볼 수 있다. 데이터와 인공지능이 접목된 방식을 통해 축적된 이용자의 활동 패턴을 인공지능이 학습을 한다. 카카오의 뉴스 편집자들이 뉴스를 큐레이션 하게 되면 모든 사람이 동시에 같은 콘텐츠를 보게 되지만 루빅스가 적용되면 사용자의 뉴스 소비 취향에 따라 화면이 달리 보인다는 점에서 눈여겨볼만하다.
이처럼 빅데이터는 검색, 커머스, 마케팅, 뉴스에 이르기까지 다양한 분야에서 활용되고 있다.
빅데이터는 다시 인공지능이나 사물인터넷, 헬스케어 등 4차 산업혁명에서 언급될 수 있는 산업 분야에 접목되어 우리 실생활과 직접적으로 연결되기도 한다.
SNS에서 생성되는 글들이나 내가 직접 작성한 나의 개인정보가 수많은 정보와 함께 어우러져 어딘가 노출이 되고 있다는 보안의 취약점을 감안해보면 역시 문제시될 수 있다. 특히나 구글의 검색 결과는 수많은 정보를 취하고 있어 나도 모르는 사이 내 모습이나 정보가 드러나기 마련이다.
영화 <베테랑>에서 유아인이 연기했던 캐릭터 조태오는 이렇게 말했다.
"문제 삼지 않으면 문제가 안되는데, 문제를 삼으면 문제가 된다 그랬어요."
당연한 말이다. 문제를 삼으면 얼마든지 문제가 될 수 있다. 보안의 취약점은 4차 산업혁명 내에서 꾸준히 나온다. '초연결사회'라고 할 만큼 연결되는 분야가 많기 때문이리라.
빅데이터의 활용은 정보의 단순한 축적을 넘어 다양한 분야에서 활용되고 있지만 얼마나 신뢰가 가능한지, 얼마나 보안이 잘 되어 있는지 그리고 어디까지 내 정보가 퍼져나갔는지 철저한 체계 마련이 필요하다.
Written by Pen 잡은 루이스
※ 2018년 첫 글이 되었네요! 모두모두 새해 복 많이 받으세요!! ^^