brunch

You can make anything
by writing

C.S.Lewis

by 김성범 Jan 17. 2017

빅데이터

요즘 각광받고 있는데...

빅데이터의 어원을 분석해 보면 형용사인 Big이 명사인 Data를 꾸며주는 형태로 용어 자체로는 어떤 행위를 나타낸다기 보다는 그냥 "대용량의 데이터"로 해석이   있는데 내재된 의미를 파악할 필요가 있다.

빅데이터를 설명하기 위해서는 데이터마이닝의 등장배경부터 생각해 봐야 한다. 1990년대  후반부터 본격적으로 등장한 데이터마이닝은 대용량의 복잡한 데이터로부터 의미 있는 정보를 이끌어 내는 일련의 과정을 연구하는 학문이다. 데이터마이닝이 등장할 당시 데이터는 데이터 수집기기와 저장기술의 발달로 기존에는 상상할  없는 방대한 양의 데이터가 쏟아져 나오고 있었다이런 방대한 양의 데이터 처리와 분석은 기존 방법만으로는 해결이 어려웠고 이를 위한 신기술들이 개발되었다이런 신기술들은 기존 데이터분석기법들과의 차별이 필요했고 이에 따라 데이터마이닝이라는 신 용어가 생겨나게 되었다. 이  데이터마이닝 방법론과 응용연구는 활발히 진행되었고 산업공학과통계학과컴퓨터공학과 등을 중심으로 교육이 진행되었다.


2004년 2월 4 창립한 페이스북을 중심으로 소위 소셜네트워트라고 불리는 서비스가 속속 등장하였는데 이로부터 생성되는 데이터는 기존의 데이터와는 그 양과 복잡도 면에서 또 한번 기존의 데이터 처리 및 분석 기술의 한계를 가져왔다. 소셜네트워크 데이터는 사람들이 일상 생활에서 쓰는 대화체의 형태 (자연어)가 대부분이다. 이런 자연어는 당시 컴퓨터 기술로는 바로 인식하고 분석하기가 어려웠고 따라서 컴퓨터가 이해할  있도록 처리를  주어야 하는데 이를 자연어 처리라고 부른다소셜네트워크 데이터는 자연어일  아니라  양이 방대한데  세계적으로 페이스북 이용시간이  9000억분이라고 하니 이로부터 생성되는 데이터의 양은 가히 엄청날 것이다. 이런 엄청난 양의 데이터를 처리하고 분석하는 데는 기존 기술로는 비현실적인 시간이 소요되었고 이를 해결하기 위한 기술의 개발로 이어졌다때마침 구글에서는 설립 초기부터 검색의 효율성을 높이기 위해 분산병렬처리기법을 사용하고 있었고 2004년 이에 대한 기술을 공개한다구글이 공개한 기법은 기존 분산처리기술 보다 훨씬 효율적이면서 사용하기도 쉬웠기 때문에 이를 이용한 기법들을 실제 프로그래밍화 하였고  결과 하둡이라는 오픈 서비스가 무료로 일반인들에게 공개가 되었다하둡을 이용함으로써 그 동안 처리시간문제로 현실 문제에서 사용이 제한되었던 여러 기법들이 세상에 재등장하였으며 방대한 양의 데이터로 인해 분석이 어려웠던 문제들도 해답을 얻을 수 있었다.


바로 여기서 빅데이터 용어의 탄생 시점을   있다빅데이터는 기존 데이터마이닝 시절에 접한 다앙한 정형 데이터 뿐 아니라 대용량의 비정형 데이터의 처리 및 분석을 가능케 해주는 방법을 연구하는 학문이라고 보면 될 것 같다. 데이터마이닝이   데이터분석에 초점이 맞추어져 있었다면 빅데이터는 분석 보다는 데이터의 효율적인 저장과 처리기술에   초점이 맞추어져 있다고 보면 무리가 없을  같다.

여기서 오해하지 말아야  점은 빅데이터 역시 데이터로부터 유용한 정보를 찾아내는 것이 궁극적이 목적임으로 데이터 분석이로부터 얻어지는 결과의 리포팅 기술, 그리고 해석이 결코 경시되어서는  된다는 것이다 중요한 것은 무엇을 빅데이터로 해결할지 문제와 목적을  설정해야지 무턱데고 행하는 분석은 아무런 효과가 없을 거라는 점을 항상 염두해 두어야 한다.


앞으로 어떤 형태의 서비스가 세상에 나올지 아무도 모른다또한 데이터 수집 및 저장 기기는 급속도로 발전하고 있다. 빅데이터라는 용어가 다른 용어로 대체될  있고 현재 그럴 조짐이다중요한 것은 앞으로도 데이터의 양은 계속적으로 증가하게  것이고  복잡도 역시 증가할 것임으로 용어와 관계없이 데이터로부터 근거 있는 정보를 발견하려는 데이터마이닝 연구는  필요한 학문으로 지속될 것이다.


인공지능/머신러닝에 관한 개요를 조금 더 자세히 알고 싶으신 분들은 다음 동영상을 참고하시기 바랍니다.

https://www.youtube.com/watch?v=pFyFHUmxgu0&t=31s

작가의 이전글 머신러닝 (Machine Learning)
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari