빅데이터의 이해

Sep 3. 2019

빅데이터의 등장

디지털 경제가 확산되면서 아날로그 경제와는 비교가 되지 않을 정도로 많은 정보와 데이터가 생산됩니다. 매 분마다 엄청난 양의 데이터가 쏟아지고 있습니다. 매 1 분 동안 구글은 200만 건의 검색 결과, 유튜브는 72시간 분량의 비디오, 스카이프는 140만 건의 연결, 메일은 2억 4백만 개가 전송됩니다. 인터넷에 방대한 규모의 문자, 이미지와 동영상 데이터들이 점점 빠르게 생성됩니다.

또한, 사람들이 모바일 기기와 PC를 이용한 디지털 경제 활동을 하면서 사람들이 인터넷을 지나다닌 흔적인 데이터가 생성됩니다. 예를 들어, 아날로그 상점은 물건을 매매하는 순간만 장부에 기록합니다. 반면에 온라인 쇼핑몰은 방문자가 돌아다닌 발자국과 머문 시간을 자동으로 기록합니다. 디지털 세상에서는 사람의 모든 행위, 기계의 행위, 사람과 기계 간의 통신, 기계와 기계 간의 통신이 모두 기록됩니다. 매 순간 생성되는 엄청난 데이터를 전통적인 데이터베이스나 시스템은 처리하기 어려울 뿐만 아니라 분석 및 관리도 불가능합니다. 따라서, 방대한 데이터를 수집, 저장 및 분석하여 가치 있는 정보를 만들어 내는 빅데이터라는 기술이 필요합니다.

빅데이터의 특징

빅데이터의 특징은 크게 세 가지로 설명합니다.

Velocity (데이터의 생성 속도)
데이터들이 실시간에 가깝게 생산될 뿐만 아니라 처리되고 분석된다.

Volume (데이터의 양)
데이터의 양이 커지면서 수십 테라에서 수십 페타바이트 이상으로 증가한다.

Variety (데이터의 다양성)
데이터의 종류가 매우 다양합니다. 데이터의 정형화 정도에 따라 정형, 반정형, 비정형으로 구분합니다.
- 정형 (Structured) : 구조화된 데이터, 고정된 필드에 저장된 데이터
관계형 데이터베이스, 스프레드시트, CSV 파일 등
- 반정형 (Semi-Structured) : 고정된 필드는 아니지만 스키마를 포함하는 데이터, 연산이 불가능
XML, HTML, JSON 등의 형태
- 비정형 (Unstructured) : 고정된 필드에 저장되어 있지 않은 데이터, 연이 불가능하고 일정한 형태가 없음
소셜 데이터, 영상, 이미지, 음성, 텍스트 등의 형태

최근에는 빅데이터의 특징 3V에 세 가지 3V를 더 추가하기도 합니다.

Veracity (정확성)
빅데이터를 수집 및 분석을 통해 일정한 패턴을 추출할 수 있다. 정보의 양이 많아질수록 데이터의 신뢰성이 떨어지기 쉽습니다.

Variability (가변성)
자신이 직접 글로 표현하더라도 맥락에 따라 자신의 의도가 다르게 전달되는 경우가 있습니다. 데이터도 맥락에 따라 의미가 달라집니다.

Visualization (시각화)
빅데이터를 수집 및 분석을 통해 얻어진 정보를 사용자가 잘 이해할 수 있도록 가공합니다.

빅데이터의 활용 사례

기업이 보유한 고객 데이터를 활용해 마케팅에 활용하는 시도는 1990년대부터 있었습니다. 기업들은 고객 관계 관리 (CRM, Customer Relationship Management) 솔루션을 구축하여 고객 유지와 이탈 방지 등의 마케팅 활동을 수행하였습니다. 또한, 시간이 지남에 따라 자사 고객 데이터와 제휴사의 데이터를 함께 활용하기 시작했습니다. 최근 저장 용량의 증가와 처리 능력의 향상되면서 빅데이터는 다양한 분야에서 활용되고 있습니다. 구매 이력과 웹로그 분석, 위지 기반 서비스를 결합하여 소비자가 원하는 것을 실시간으로 제안하는 기술까지 확장되었습니다.

빅데이터 분석이 활발해지면서 과거에 불가능했던 일들이 가능해졌습니다. 구글은 독감 관련 검색어 빈도를 분석하여 독감 환자 수와 유행 지역을 예측하는 독감 예측 서비스를 론칭했습니다. 미 질병 통제 본부보다 예측력이 뛰어난 것으로 밝혀졌습니다.

빅데이터의 세계는 데이터의 규모가 중요합니다. 대표적인 사례는 구글의 자동번역 시스템입니다. 구글은 수천만 권의 도서 정보와 유엔과 유럽의회, 웹 사이트의 자료를 활용해 64개 언어 간 자동 번역 시스템 개발에 성공했습니다. 하지만, IBM은 캐나다 의회의 문서를 활용하여 영어와 불어 자동 번역 시스템 개발을 시도했으나 실패하였습니다. 기술의 차이보다 데이터의 양의 차이가 승패를 가른 것입니다.

빅데이터 플랫폼

전통적인 플랫폼으로 처리할 수 없는 거대한 빅데이터를 처리하기 위한 플랫폼이 필요합니다. 현재 가장 인정받는 플랫폼은 하둡 (Hadoop)입니다. 하둡은 여러 개의 저렴한 컴퓨터를 마치 하나의 하나인 것처럼 묶어서 대용량 데이터를 처리하는 기술입니다. 수천 대의 서버를 대용량 파일을 저장할 수 있는 분산 파일 시스템, 저장된 데이터를 분산된 서버를 이용해 쉽고 빠르게 분석할 수 있는 컴퓨팅 플랫폼인 맵리듀스로 구성되어 있습니다.

기업은 데이터의 가치가 얼마나 중요한 지를 알지 못합니다. 가치를 모르는 빅데이터를 값비싼 기존의 데이터베이스를 이용하기보다는 값싼 하둡을 이용하여 처리하는 것을 선호합니다. 하둡이 빠르게 퍼진 또 다른 이유는 누구나 조금만 익히면 사용할 수 있을 정도로 사용하기 쉽고 편리하다는 점과 하둡의 부족한 기능을 보완해주는 하둡 에코 시스템이 있기 때문입니다. 하둡의 주요 에코 시스템은 다음과 같습니다.

플럼 (데이터 수집)
데이터를 수집하여 하둡 파일 시스템에 안정적으로 저장하는 솔루션

스쿱 (RDBMS)
기존 시스템의 데이터를 하둡에 로딩하거나 처리 결과를 다시 RDBMS에 저장할 수 있도록 도와주는 솔루션

엘라스틱 서치 (검색엔진)
데이터 검색

카산드라 (NoSQL)
대용량 데이터를 분산된 서버에 구적으로 실시간 저장 및 조회 기능을 제공하는 데이터 저장소

하이브, 피그 ( 하이레벨 스크립트)
하둡에 저장된 데이터를 맵리듀스 프로그램을 만들지 않고도 SQL과 유사한 스크립트를 이용해 데이터 처리

마후트 (기기 학습)
하둡 맵리듀스에서 실행되는 머신 러닝 라이브러리

휴 (모니터링)
하둡을 모터링 및 관리

주키퍼 (분산 코디네이터)
분산된 환경에서의 자원 제어 및 메타 데이터 관리

keyword

매거진의 이전글데이터 과학자: 21세기 가장 섹시한 직업 (6/6)인공지능의 이해 (1/6): 머신 러닝의 원리매거진의 다음글