빅데이터의 오늘과 취급 기술에 대하여.
이 글은 제가 참여하고 있는 지식공유 공동체 <오픈 컬리지>의 [미래 그리고 이야기] 프로젝트를 통해 나눈 이야기를 엮은 것입니다. 유행어처럼 번지는 4차 산업 혁명의 기술들에 대해 학습하고, 변화하는 세상에서 새로운 윤리, 철학, 가치에 대해 자유로운 토론을 하고 있습니다.
"이야기가 산으로 가는 것을 넘어 우주 밖으로 훨훨 날아가기"를 좋아하는 젊은이들이 나누는 대화를 통해서, 독자분들도 다가올 미래에 대해 자유롭게 생각해보는 기회가 되시길 바랍니다.
오늘은 빅데이터(Big data)에 대해 이야기를 나누는 날이다.
사실 빅데이터가 IT업계에서 화두로 떠오른지는 꽤나 오랜(?) 시간이 지났다.
그동안 다양한 분석 방법론이 등장했고, 그에 대한 활용도 상당히 진척되었다.
하루에도 몇 번씩 온라인 공간을 이용하면서, 빅데이터를 통한 수많은 마케팅에 노출되어있다. 빅데이터는 이미 채팅창, SNS, 미디어 등을 통해 인간의 판단에 수많은 영향을 미치고 있다.
이런 상황이다 보니 빅데이터 전문가가 TV 프로그램에 출연해서 사회 현상을 분석하기도 하며, 기업에서도 데이터 과학 전문가를 찾기 위한 움직임이 높아지는 것도 사실이다.
(빅데이터를 제공하기 위해) 나의 24시간의 흔적이 남는 시대. 빅데이터는 어떤 세계를 만들 것인가?
빅데이터, 그 모호함에 대하여
(찬구) "오늘은 제가 조사한 내용을 토대로 빅데이터에 대한 이야기를 나누는 시간입니다. 빅데이터에 대해 조사하다 보니 전문적인 IT 개념이 많이 등장하더라고요. 기술적인 부분은 많이 보충해주세요."
(일동) "네^^"
(찬구) "우선 빅데이터가 무엇인가에 대해 먼저 알아보겠습니다. 가트너, 맥킨지, 삼성경제연구소 등 국내외 연구기관에서 각자 정의를 내리고 있는데요. 이들의 정의에 대해 공통적으로 표현하는 것이 <방대, 큰, 대, 거대> 등의 수식어가 붙는다는 점이고, 또 <기존 방식으로는 분석이 힘들다>는 점을 강조하고 있습니다.
조각조각난 비정형적인 데이터들을 조합해서 가치 있는 정보로 재생산함으로써, 결국엔 이것이 경제적인 목적을 달성할 수 있도록 만드는 것 같습니다."
사실 빅데이터는 어느 날 갑자기 탄생한 개념이 아니다. 1990년 이후 인터넷이 확산되면서 문자, 이미지, 음성, 동영상 등 다양한 정보가 무수히 발생하고 손쉽게 공유가 가능해졌다. 이는 정보 홍수(Information overload)나 정보 폭발(Information explosion)이라는 개념을 발생시켰다. 이후 이러한 논의가 오늘날의 빅데이터라는 개념으로 이어졌다고 본다.
빅데이터의 의미를 분석이 어려울 만큼 '방대한 데이터' 그 자체로 볼 것이냐, 혹은 이 거대한 데이터들 중에 '가치를 갖고 있는 원석과 같은 데이터'를 기준으로 볼 것이냐는 것에는 학자별로 이견이 있다. (학부 시절 들었던 개념으로 보자면 전자는 자료(data)라 통칭하고, 후자와 같이 유의미하게 가공된 내용을 정보(information)라 한다.)
개인적으로 2017년의 빅데이터란 후자에 가깝다고 생각한다.
미세먼지만큼 넘쳐나는 데이터들 사이에서, 개인이나 기업, 사회가 필요로 하는 가치를 생산할 수 있을 때 비로소 빅데이터라는 이름을 명명할 수 있을 것이라고 본다.
(찬구) "사실상 오늘날의 빅데이터는 그 형태가 문자, 음성, 영상 등으로 다양하기 때문에, 이러한 비정형 데이터들을 관리하고 분석할 수 있는 정보화 기술이라고 보고 있습니다."
국내외 여러 기관에서는 수치로 표현할 수 있는 데이터를 생산한다. 조사, 보고, 가공된 통계를 작성한 정형화(Structured)된 데이터들이 있고 과거에는 이것을 "신뢰할 수 있는" 데이터로 가치를 부여했다.
그러나 스마트폰의 보급 이후 페이스북, 인스타그램, 유튜브, 카카오톡 외 다양한 채널을 통해서 사용자들의 사진, 음성, 동영상 파일이 다양한 비정형(Unstructured) 데이터로 매일같이 업로드되었다.
과거에는 신뢰성을 부여하기 힘들었던 이러한 데이터들이 다양한 분석기법을 통해서 새로운 가치를 창출하는 수단으로 변모하고 있고, 우리는 스스로 생산한 데이터를 가지고 다시 그것을 소비하는 시대에 살고 있다. 그리고 최근에는 이렇게 개인이 생성한 비정형 데이터를 적절하게 처리하는 것이 빅데이터의 핵심 기술로 떠오르고 있다.
빅데이터의 마케팅 하이프(marketing hype)
(찬구) "빅데이터의 특징을 알아보니 3V라는 개념이 있더군요. 데이터의 양(Volume), 데이터 생성 속도(Velocity), 형태의 다양성(Variety)을 의미하는데요. 가치(Value)나 복잡성(Complexity)도 추가할 수 있다고 합니다."
(현욱) "네. 또 데이터의 종류도 나눌 수 있는데요. 다크 데이터(Dark data), 스마트 데이터(Smart data), 패스트 데이터(fast data), 액티브 데이터(active data)등으로도 세분화할 수 있어요."
다크 데이터란 기업 내에 저장은 되어 있지만 분석이 되지 않은 데이터를 의미한다. 또는 저장할 공간이 없어서 짧은 기간 보관했다가 지우는 데이터도 포함한다. 사용자가 남긴 데이터의 양은 날이 갈수록 쌓여가는데, 이 데이터를 모두 처리하는 것에는 한계가 있다. 기술적인 측면, 또 비용적인 측면에서 낭비(?)처럼 느껴지는 이러한 다크 데이터를 활용하는 것에 대한 의견은 아직도 분분하다.
(현욱) "그런데 질문이 있어요. 데이터의 양이 많다는 것이 정말 좋은 의미인 것일까요?"
(진호) "저는 개인적으로 편중되지 않은 많은 데이터는 진리에 가깝다고 생각합니다."
(지연) "수학의 확률과 통계 같은 의미 아닐까요? 확률이나 통계를 산출하려면 일정 수준의 데이터의 집합이 필요한 것처럼, 산출의 근거가 되는 데이터의 절대적인 양은 일단 중요한 것 같아요."
(현욱) "하지만 CEO입장에서는 너무 많은 데이터를 갖고 있는 것 자체가 비용이고 부담일 텐데요."
(은솔) "그렇다면 그 데이터만 분석하는 사업을 하면 되겠네요. 굳이 모든 기업이 모든 데이터를 다 보관하긴 힘드니까요."
올해 5월 애플이 레티스 데이터(Lattice Data)라는 기업을 2억 달러에 인수했다.
이 기업은 다크 데이터를 인공지능을 통해 의미 있는 데이터로 가공하는 기술을 개발하고 있다. (UNLOCK THE VALUE OF DARK DATA)
2015년 미국 스탠퍼드 대학 연구팀이 개발한 '딥 다이브(Deep-dive)'기술을 상용화시키면서 설립된 회사이다. 이 딥 다이브 기술에 대한 미래를 보고 직원 20명이 근무하는 스타트업인 레티스 데이터에 투자했다는 의견이 지배적이다.
다크 데이터의 분석은 미래 가치에 대한 의미를 지닌다.
이미 시장에 나온 분석기법을 통해 만들어진 빅데이터는 생활양식도 요구도 다른 개개인에게 꼭 맞는 의미를 도출하는 데는 한계에 도달하고 있다.
게다가 미국 IBM에 따르면 최근 2년간 생산된 데이터의 70~80%가 다크 데이터라고 한다. 매일같이 쏟아지는 이 의미 없는 비정형 데이터를 어떻게 분석하여 활용할 것인가에 대한 연구가 진행되고 있는 것이다.
부유하는 다크 데이터들을 통해 딥 다이브와 같은 분석 기술이 기업이나 사회에서 그동안 찾지 못한 새로운 가치를 찾아줄 것이라는 기대로 성장하고 있다.
그렇다면 빅데이터가 각종 마케팅에 활용되는 이유는 무엇인가?
(지연) "올해 우리나라 대선 기억하시죠? 선거 유세 기간 동안 1등은 독보적이었지만, 2위 싸움이 꽤나 치열했었잖아요. 사실 1위와 각축을 벌였던 2위 후보가 개표 후 3위로까지 곤두박질친 것을 보고 많은 사람들이 충격을 받기도 했었죠.
그런데 이 개표 결과를 빅데이터는 이미 알고 있었다고 해요. 최종 선거일 직전에 특정 후보에 대한 검색과 데이터량이 폭발적으로 늘어났는데, 이걸 토대로 빅데이터가 예상한 2위 후보가 적중한 거죠."
(은솔) "빅데이터가 이제 돗자리 깔아야겠네요."
(지연) "또 미국 대선에서도 트럼프가 이렇게 대통령이 될 거라고 예측하지 못했었잖아요? 그런데 알고 보니 도널드 트럼프가 이 빅데이터 분석 내용을 토대로 선거전략을 짰고, 그 결과 꾸준히 지지율을 끌어올릴 수 있었다고 해요. 올해 국내 대선도 마찬가지고요."
과거에는 사람의 마음을 움직이기 위한 방법으로 "인간의 심리"를 직접적으로 탐구하는 활동을 많이 했다.
이때에는 인간의 마음을 인터뷰 등의 방식으로 조사하곤 했는데, 최근에는 이것보다 온라인 상으로 사람들이 남긴 흔적들을 통해 분석하는 빅데이터 기술이 더 신뢰성을 인정받고 있다.
사실 빅데이터 기술이 발전하기 전까지는 조사기관이 사전에 준비한 질문을 가지고 특정 집단에게 의견을 묻는 인과 관계 분석이 최선이었는데, 이것을 조사 기반 정보라고 한다. 그러나 이렇게 모인 개인 단위의 데이터들을 결합하기 어려웠기 때문에 수치화된 데이터들을 가지고 분석의 "감"을 끌어올리는 수준에 그치는 경우가 많았다.
최근에는 <개인의 위치 정보, 시간, 검색 패턴, 단어 정보량>과 같이 내가 온라인 공간에 머물러서 했던 행동이 모두 데이터로 남고 있다. 이러한 데이터는 모두 인위적인 질의응답 과정이 없는 싱싱한 날 것이기 때문에, 가공처리되지 않아 더욱 신뢰도를 높인다고 보고 있다.
이렇게 빅데이터에 대한 신뢰도가 높아짐에 따라 각 기업들의 활용이 눈에 띄게 늘어났다.
대표적으로 넷플릭스가 있다. 넷플릭스는 '플렉스 파일'이라는 빅데이터 분석 프로그램을 통해 고객 유입과 작품, 배우 선호도에 대한 다각적인 정보를 얻었다. 이 정보들을 토대로 치밀한 전략을 세운 넷플릭스는 <하우스 오브 카드(house of cards)>라는 자체 제작 작품을 탄생시켰고, 넷플릭스의 영광을 되돌려주었다.
또한 <시네 매치(cine match)>라는 큐레이션 앱을 통해 시청자에게 영화를 추천하고, SNS, 위치정보 들을 분석해 가입자에게 맞춤형 서비스를 제공하고 있다. 콘텐츠 수는 타 서비스 회사보다 적지만, 소비자 개개인에게 맞춤형 서비스를 제공함으로써 충성 고객을 확보하는 데 성공한 것이다.
도요타자동차는 마이크로소프트사와 합작으로 자동차에서 수집한 빅데이터를 분석하는 회사인 '도요타 커넥티드'를 미국에 설립했다. 자동차와 운전자에 대한 빅데이터 분석으로 자율 주행 시스템 기술 확보를 위한 측면도 있지만, 운전자의 습관을 반영해 새로운 보험 상품을 개발하기 위한 목적도 있다.
즉, 빅데이터를 통해 새로운 사업영역으로 영토를 확장하는 기업도 늘어나고 있는 것이다.
빅데이터. 무엇으로 만드는가?
본 글에서 필자는 빅데이터를 "가치 있는 데이터"로 정하고 있는 만큼, 빅데이터가 되기 위해서는 넘쳐나는 자료들에 의미를 부여하는 작업이 필요하다. 이러한 요구가 바로 데이터 마이닝(Data mining)을 출현시켰다.
빅데이터 분석을 위해서는 아래와 같은 처리가 필요하다.
1. 최근 쌓이는 로우데이터(raw data)는 앞서 언급했듯이 그 형태가 몹시 다양하다. 따라서 이러한 비정형 데이터들을 한꺼번에 취합하고 분석할 수 있어야 한다.
2. 개별 데이터들의 크기가 모두 다르기 때문에 다중의 저장 공간과 분석틀로 데이터의 흐름도 분석할 수 있어야 한다.
3. 빅데이터의 분석은 인간이 사용하는 자연언어를 컴퓨터가 알아들을 수 있는 언어로 변환하여 분석한다.
4. 매 순간마다 쌓이는 양이 몹시 많기 때문에 페타바이트(petabyte, PB : 10의 15승. / 기가바이트(gigabyte)가 10의 9승이다.)나 제타바이트(zettabyte, ZB : 10의 21승 / 아무튼 무지막지하게 크다.) 용량을 실시간(real time)으로 분석하면서 흐름을 찾아내야 한다.
5. 분석을 통해 드러난 내용을 알기 쉽도록 시각화할 수 있어야 한다.
이렇게 빅데이터 수집과 처리를 위한 요구가 늘어나면서 다양한 기술이 개발되었다.
가장 많이 알려진 빅데이터 관련 기술이 '하둡(hadoop)'이다. 하둡은 여러 대의 저렴한 컴퓨터를 마치 하나인 것처럼 묶어서 빅데이터를 처리하는 기술이다. 페이스북이 데이터 중 일부를 하둡에 저장하고 있는데, 방식은 이렇다.
대용량의 사진을 페이스북에 저장하면, 페이스북은 그 데이터를 통째로 하나의 공간에 저장하지 않는다. 개별 작은 데이터로 조각조각 내어 연결된 여러 대(약 2000여 대)의 서버에 매 순간 사진을 처리하고 있다. 사용자가 용량이 큰 사진 파일을 바로바로 내려받고, 다른 사람의 사진도 볼 수 있는 이유다. (우리가 포털 메일에 큰 사진 하나만 올리려고 해도 페이스북 사진 로딩 속도와는 차이를 느낄 수 있다.)
하둡에서 활용한 데이터 처리 시스템을 비관계형 데이터베이스라고 한다.
이 개념이 등장하기 전 컴퓨팅에서 활용했던 관계형 데이터베이스는 데이터를 저장하는 장소(table)들이 약속된 관계(schema)를 맺고 있었다. 옆 집 철수네 가족을 알기 위해서는 옆 집 아이인 "철수"를 알아야 가능한 것처럼, 관계를 통해서 데이터를 수집하고 처리하는 방식인 것이다.
그러나 데이터의 양이 기하급수적으로 늘어나는 빅데이터를 처리하기 위해서는 이에 따라 알아야 하는 관계가 너무 많기 때문에, 성능이 현저하게 떨어진다는 문제점이 있다.
따라서 Nosql과 같은 비관계형 데이터베이스는 특정한 관계(schema) 없이, 분산된 환경에서 단순 검색 및 추가 작업을 위한 키 값을 최적화하고, 지연과 처리율을 우수하게 만든 데이터베이스이다.
(은솔) "그런데 이렇게 빅데이터 처리하는 기술을 위해서는, 클라우드 컴퓨팅이 중요한 것 같아요."
(현욱) "클라우드 컴퓨팅을 뭐라고 설명하면 좋을까요?"
(진호) "음. 예를 들면 월세 내고 사는 것이죠. 우리 회사에 저장 서버를 몽땅 사두는 것이 아니라, 다른 회사에서 제공하는 서버에 비용을 내고 쓰는 것이라고 할까요."
클라우드 컴퓨팅(cloud computing)이란 물리적인 장비, 또 소프트웨어와 같은 논리적인 프로그램 등의 컴퓨팅 자원을 필요한 만큼 빌려 쓰고 사용요금을 지급하는 방식을 말한다. 서로 다른 장소에 있는 자원을 가상화(virtual) 기술로 통합해서 제공하는 기술을 일컫는다.
1초에도 10의 지수 승만큼 생산되는 빅데이터를 한 기업에서 모두 저장한다는 것은 현실적으로 불가능하다.
개별 기업 입장에서는 데이터 저장 공간도 낭비라고 여겨질 뿐만 아니라, 장비 도입 및 유지보수 비용이라는 현실적인 문제에 부딪히기 때문이다.
따라서 도입비용을 최소화하면서도, 관리와 효율 측면에서 우수한 클라우드 컴퓨팅 기술을 토대로 빅데이터를 관리하는 기업이 많다.
1. 비용절감 : 물리적인 스토리지나 서버 도입 비용을 절감할 수 있다.
2. 효율성 : 클라우드 서비스를 제공하는 기업이 가진 기술로 처리할 수 있다.
3. 유연성 : 데이터의 처리량이 증가하거나 감소할 때, 필요한 만큼의 자원만 쓸 수 있다.
4. 다양성 : 모든 종류의 애플리케이션을 실행할 수 있다.
5. 안전성 : 서비스 제공업체에서 테스트, 재해복구, 인프라 확충 등을 담당하기 때문에 보다 안정적인 서비스를 기대할 수 있다.
따라서 이러한 클라우드 컴퓨팅의 특징이 빅데이터와 만났을 때 큰 효과를 낼 수 있다.
이렇게 4차 산업기술들이 서로 융합하면서 더욱 큰 힘을 발휘한다는 것을 눈여겨보아야 한다.
to be continued..
<참고문헌>
kca) 빅데이터 활용에 대한 기대와 우려 / 박원준
KT 종합기술원) Big Data 시대의 기술 / 조성우
http://www.ciokorea.com/news/36216
http://www.ciokorea.com/ciostory/27431
http://dongascience.donga.com/news/view/11089
http://www.nocutnews.co.kr/news/4754965
https://www.youtube.com/watch?v=HQFreqPb3dg