참으로 인간은 용어 만들기를 좋아합니다.
주변인들이 ‘데이터 마이닝이 뭔 가요?’라고 물어보면 나의 대답은 간단합니다.
데이터 마이닝은 빅데이터 분석을 의미합니다.
지극히 제 개인적인 의견입니다.
데이터 마이닝은 영어입니다.
원어 그대도 표현하면 Data Mining이죠.
굳이 data가 무엇인지는 설명 안 해도 여러분들이 잘 알고 계실 거고, mining이라는 용어가 새롭습니다.
Mining에 대해 영어사전을 찾아보니 그 의미가 ‘채굴’, ‘채광’, ‘광산업’등으로 나옵니다.
사전 그대로의 의미를 적용하면 데이터 마이닝(data mining)은 ‘자료 채굴’이라고 해석이 가능하겠네요.
자료를 채굴한다?
의미가 확 와 닫지는 않습니다.
대체로 데이터 마이닝을 소개하는 글이나 이론을 살펴보면 이렇게 표현합니다.
‘대규모의 데이터 집합(빅 데이터)속에서 일정한 패턴을 찾아 예측하는 기술과 분석방법.’
대규모의 데이터 집합이라고 하는 걸 보면 빅 데이터와 연관이 있어 보입니다.
빅 데이터이든 스몰 데이터이든, 어쨌든 데이터 분석방법의 하나라고 합니다.
그런데 왜 굳이 데이터 뒤에 ‘분석’이 아닌 ‘마이닝’이라는 용어를 붙였을까요?
전통적인 방식의 데이터 분석과 분명 구분하고 싶은 이유가 엿 보입니다.
데이터 마이닝은 빅 데이터 속에서 이루어 진다고 하니 그 이유를 파악하기 위해 먼저 ‘빅 데이터’에 대해 살펴봐야 겠습니다.
빅 데이터의 보편적 정의는 3개의 단어로 설명됩니다.
흔히 3V라고 하는 크기(Volume), 다양성(Variety), 속도(Velocity)입니다.
이 세가지가 충족되어야 빅 데이터라고 부를 수 있다는 것이죠.
빅 데이터라는 용어에 걸 맞게 데이터 양이 당연히 방대해야 합니다(크기, Volume).
계량되거나 계측 된 값, 혹은 정형화된 데이터만을 다루지 않고 세상의 모든 것들을 데이터화 할 수 있어야 합니다(다양성, Variety).
그리고 이렇게 다양하고 방대한 데이터를 아주 빠른 시간안에 수집, 저장, 탐색, 가공, 분석 가능해야 합니다(속도, Velocity).
저는 개인적으로 여기에 하나를 더 추가합니다.
바로 가치(Value)입니다.
어떤 데이터 분석이 수행되던 반드시 그로부터 충분한 가치가 발견되어야 합니다.
하지만 가치가 포함되고 안 되고는 중요한 이슈가 아니죠.
우리는 빅 데이터와 데이터 마이닝 사이의 관계가 무엇인지 파악하는 게 핵심입니다.
데이터의 크기와 다양성에서 답을 찾아보겠습니다.
빅 데이터라는 용어가 등장하기 이전의 데이터는 전혀 다양하지 않은 소규모의 데이터일까요?
여러분 생각은 어떠세요?
저는 아니라고 생각합니다.
예나 지금이나 데이터는 언제나 ‘빅’이었습니다.
다만 ‘컴퓨터’라는 막강한 개체가 탄생하고 우리가 하나하나 돌아보지 못했던 수 없이 많은 것들이 데이터화 되어 저장되는 기술이 발달했을 뿐이죠.
따라서 크기와 다양성 만으로 ‘너’는 데이터 분석, ‘너’는 데이터 마이닝이라고 구분하기가 곤란합니다.
그러면 남는 건 속도입니다.
속도에 답이 있는 것일까요?
매우 다양한 대 규모의 데이터를 빠르게 처리할 수 있는 능력이 아무래도 관건인 듯합니다.
데이터 분석에 대한 일련의 과정을 짧게 요약하면 앞서 말했듯 수집 -> 저장 -> 탐색 -> 가공 -> 분석 -> 결과(가치 도출)의 순으로 정리할 수 있습니다.
이 일련의 과정을 처리하는 속도는 과거와 현재, 분명 차이가 있습니다.
빅 데이터의 시대에서는 ‘즉문즉답’이 가능해야 합니다.
수집, 저장, 탐색, 가공, 분석이 어떻게 진행되는지 관심 없고 물으면 바로 결과가 나와야 합니다.
예전과 같은 충분한 시간적 여유를 확보한 상태에서 분석 결과가 나오는 건 의미가 없습니다.
속도와의 싸움입니다.
인간의 계산 능력으로 범접할 수 없는 엄청난 능력의 소유자가 일련의 과정을 빠르게 처리해 줍니다.
인간이 다룰 수 없는 데이터, 저는 이것을 알고리즘라 부릅니다.
문제를 풀고 해결하는 능력을 일컫는 알고리즘이 과거와 다르게 엄청난 속도로 발전에 발전을 거듭하고 있는 것이죠.
이 엄청나게 빠른 알고리즘을 이용한 데이터 분석이 바로 데이터 마이닝이라고 할 수 있습니다.
데이터 마이닝의 기술적인 설명은 이상입니다.
끝이냐고요? 아닙니다.
이제 데이터 마이닝의 내면을 좀 더 들여 다 보겠습니다.
요즘 대부분의 분야가 융합(convergence)적 성격을 가지지만, 그 중에서도 데이터 마이닝 분야는 시대를 대표하는 융합 분야입니다.
전통적인 수학 및 통계적 지식은 물론이고 경영, 경제, 산업공학 등의 비즈니스적 관점과 정보통신, 컴퓨터 과학 등의 IT기술과도 복합적으로 작용합니다.
여기에 인문학적 지식이 가미되면 더욱더 풍부한 가치를 도출할 수 있게 되는 것이죠.
비단 열거한 분야만이 아니겠죠.
데이터 마이닝이 이런 융합적 성격은 그만큼 여러 분야에서 필수불가결한 요소가 되었다고 생각합니다.
이렇듯 융합적 성격을 띄고 다양한 분야에서 그 진가를 발휘하고 있는 데이터 마이닝은 어떤 목적으로 활용될까요?
이를 설명하기 위해서는 데이터 분석의 목적이 무엇인지도 정확히 알 필요가 있습니다.
데이터 마이닝 역시 대용량의 데이터를 알고리즘에 의해서 빠르게 분석하는 데이터 분석의 일종입니다.
그래서 목적에 대한 설명은 여타의 데이터 마이닝 목적을 설명한 보편적 이론들과 저는 조금 다릅니다.
저는 데이터 마이닝의 목적은 포괄적인 범위에서 데이터 분석의 목적과 동일하다고 생각합니다.
가설을 세우고 표본을 관찰하여 추론하는 전통적인 통계분석은 조금 다른 성격일 수 있겠네요.
아무튼 데이터 마이닝을 포함한 데이터 분석의 목적은 크게 다음과 같이 4개로 구분할 수 있습니다.
가장 첫 번째는 당연히 예측입니다.
예측은 데이터 분석을 생각할 때 가장 일반적으로 떠올릴 수 있는 목적이지만 그 만큼 가장 어렵고 힘든 작업이기도 합니다.
두 번째 목적은 데이터들의 성격(속성)을 파악하 유사한 것끼리 묶어주는 것입니다.
세 번째는 데이터의 반복적인 규칙을 찾아 내는 것이고 마지막은 데이터들을 정해진 범주로 분류하는 작업입니다.
어쩌면 여기 소개될 대부분의 데이터 분석 기법은 데이터 마이닝을 의미할 지 모릅니다.
빅 데이터 시대에 각광받는 데이터 분석 기법들이니까요.
그래도 대부분의 사람들이 공감하고 주장하는 대표적인 데이터 마이닝 기법을 소개해 보면 의사결정 나무 분석, 연관규칙 분석, 로지스틱 회귀분석, K-평균 군집분석, 인공 신경망 등이 있습니다.