빅데이터란 무엇인가?
빅데이터, 단어 자체의 뜻은 알겠는데(데이터가 크다는 거겠지, 뭐)
의미나 실체를 모르니 누가 물어볼까 겁난다.
애초에 스펠링도 외우기 어려운 처음 본 단어라면 핑계라도 댈텐데,
‘빅’이라는 단어도, ‘데이터’라는 단어도 우리에게는 너무 이미 너무 친숙하다.
왜 익숙한 단어끼리의 조합이 이리도 낯설까. 나만 빼고 다 아는 것 같아 속만 상할 따름이다.
‘4차 산업혁명’이나 ‘디지털 트랜스포메이션’처럼 함께 유행하는 단어들도 마찬가지고
그런 트렌디한 용어들이 아니더라도 회사를 다니다보면 빈번하게 잔소리로 듣게되는
구조화, 도식화, 시각화, 인사이트 같은 단어들도 마찬가지다.
누구나 알고 있지만, 누구나 다른 정의를 갖고 있으면서,
본인도 제대로 설명하고 정의 내리기 어려우면서 다른 사람들을 향해 마치 사전에 제대로 공유된 것처럼 남용되는 이런 “알 것 같지만 설명하기 모호한” 단어들은, 처음부터 스스로 나만의 개념을 잡지 않으면 오랜 시간 우리를 괴롭혀서 단 한 발자국도 나아가지 못하게 만든다.
반복되는 얘기지만, 빅데이터라는 단어의 뜻이야 선명하다.
‘Big’과 ‘Data’라는 단어의 조합이니 ‘큰 데이터’겠지. 물론이다.
그런데 궁금한 게 있다. “그럼, 기존의 데이터는 작았다는 것인가?” “얼마나 커야 큰 데이터야?”
그런데 사실 이건 별로 중요하지 않다. 내 생각에 우리가 빅데이터를 한 번에 설명하기 어려운 이유는,
오히려 빅데이터를 단순히 큰 데이터로만 연상하기 때문일 확률이 매우 크다.
다른 질문을 해보자. 기존에도 데이터가 있었는데 왜 굳이 빅데이터라는 새로운 용어가 생겼을까?
데이터 규모가 커졌기 때문이기도 하지만, 대용량의 큰 데이터를 다룰 수 있도록 기술이 진화했고,
또 보편화되었기 때문이다. 여기서 “진화”와 “보편화”라는 두 단어의 의미를 이해하는 것이 중요한데,
진화는 새로운 기술이 개발되었다는 것이고, 보편화는 그 기술이 누구나 이용할 수 있도록 저렴해졌다는
의미다. 누구에게 저렴해졌냐고? 기업에게.
포털사이트에 ‘빅데이터’라고 검색하면 나오는 세 가지 단어가 있다. 크기(Volume), 속도(Velocity), 다양성(Variety). 이 세가지 단어의 앞 글자를 따서 “빅데이터의 특징은 3V다!”라고 (아직도) 얘기하는 사람이 많은데, 사실 이런 내용은 초기에 회자되었던 것이지 지금은 전혀 몰라도 상관없다.
하지만, 그럼에도 시험 문제처럼 외워야 하는 분들이 있을지도 모르니까 아주 간단하게 설명해 보면 이렇다. (나는 주로 이 내용을 ‘고사양 게임’에 빗대어서 설명한다.)
크기(Volume)야 당연히 빅데이터니까 외우지 않아도 알 수 있는 부분이기는 하지만, 게임에 빗댄다고 했으니 ‘고사양’ 게임이라고 생각해 보자. 고사양 게임을 내 컴퓨터에서 즐기려면 컴퓨터 자체가 고사양이 되어야 한다. CPU칩셋은 물론 저장할 하드 드라이브 용량도 커야하고, 그래픽카드나 램 메모리도 사양이 높아야지 게임이 안정적으로 돌아간다.
게임이 안정적으로 돌아간다는 것은 무엇일까. 게임이 끊기지 않고 돌아간다는 것이고, 끊기지 않고 돌아간다는 것은 속도(Velocity)가 빠르다는 의미이다. 그러니까 크기와 속도는 상당히 밀접하다. 그리고 마지막으로 다양성(Variety), 이게 중요한데, “다양해졌다!”는 의미에 가깝다.
“다양해졌다!”라는 것의 이면에는 기존의 데이터와 다른 여러가지 종류의 데이터가 생겼다는 의미다. 왜? 분석 기술이 진화했으니까. (다시 게임을 예로 들어 보자면) 4K라는 기술이 개발되면 다양한 개발사들이 앞다퉈 4K용 게임들을 제작하기 시작한다. 실사 같은 비행기게임, 축구게임, 슈팅게임 등 각자의 진보한 기술을 과시한다. 데이터로 치면, 기존에는 숫자(점수 등)로만 이뤄져 있던 데이터가 ‘문자’나 ‘이미지’ 등 다양한 ‘형태’를 갖게 된 것이다.
문자나 이미지 정보는 어디에 가장 많이 있을까? 온라인이다.
SNS에 실시간으로 다양한 생각들과 사진, 영상 등을 업로드하는가 하면, 쇼핑 사이트에서 구매 제품에 대한 후기를 남기고, 다름 사람의 글에 ‘좋아요’를 누르거나 기업이 제공하는 서비스에 대해 별점을 남긴다. 이 모든 활동이 온라인에서 벌어지는 활동이다. 그래서 현존하는 빅데이터의 70% 이상은 온라인 환경에 머물러 있다고 하며,
데이터가 빅데이터로 진화한 것은, 갑자기 데이터의 규모가 커졌다기 보다는 데이터를 분석할 수 있는 저렴하고 효과 좋은 기술이 개발되었기 때문이며, 이에따라 그동안 손도 대지 못했던 새로운 자료들을 데이터로서 관리하고 활용할 수 있게 된 것이다.
그래서 누군가 나에게 한 마디로 빅데이터를 정의해 보라고 하면,
나는 언제나 ‘새로운 종류의 데이터’라고 대답한다.
업계 전문가들에 따르면 현존하는 빅데이터의 70% 이상이 온라인을 통해 생성된다고 한다.
온라인에서 생성된 데이터라 함은, 트위터나 인스타그램, 유튜브 등 SNS에 게시하는 글자나 이미지, 포털사이트에서 검색하는 검색어, 온라인 쇼핑몰에서 상품 구매를 위해 특정 사이트에 머물거나 장바구니에 담아두고 클릭하고 구매하는 전반적인 행동, 주고받는 이메일, GPS를 통해 방문한 도시나 상점 등 위치 기반 기록과 같이 다양한 데이터가 될 수 있다.
그리고 나머지 30%에 해당하는 빅데이터는 병원에 있는 의료기록, CCTV 영상, 대형마트 구매내역, 교통 이용 기록 등이 될 것이다.
이렇게 보면, 기존에도 있었지만 규모가 너무 커서 다루기 힘들었던 데이터들을 이제는 비교적 원활하게 분석할 수 있는 환경이 된 것도 있고, 아예 접근할 수 없었던 미지의 영역들도 있는데, 지금 사람들이 주로 관심을 가지는 것은 후자에 가까우며, 포털사이트에 ‘빅데이터’로 검색하면 나오는 것들이 주로 이에 해당된다.정리하면, 결국 빅데이터는 기존의 데이터보다 규모가 커진 측면을 넘어, 글자, 이미지, 영상 등 기존에는 깊게 다루지 못했던 새로운 종류의 데이터가 출현했기 때문에 붙여진 이름이다. 빅데이터가 세상에 알려지기 시작했던 초기에는, 빅데이터를 단순히 규모가 큰 데이터로만 이해해 기존의 데이터들을 ‘굳이’ 스몰데이터(Small Data)라고 부르기도 했지만, 지금은 빅데이터를 새로운 데이터로 이해하는 측면이 강해지기도 했고, 거의 모든 데이터가 빅데이터화 되고 있기 때문에 굳이 구분하기보다 대체로 새로 분석되는 거의 모든 데이터를 ‘빅데이터’라고 부르는 것 같다. 마치 스마트폰이 처음 나왔을 때, 기존의 휴대폰을 피쳐폰으로 부르다가 피쳐폰도, 스마트폰도 다 사라지고 이제는 그냥 휴대폰으로 통합된 것처럼.