빅데이터가 무엇인지 소개하기 위해 다크 데이터를 먼저 설명하는 경우는 흔치 않을 겁니다. 하지만 이 책에서 데이터 관한 최대한 많은 개념들을 다루고자 하는 입장에서 기왕이면 다크 데이터라는 개념도 짚고 갈 겸, 이렇게 소개해보려고 합니다.
참고로 다크 데이터는 요즘 이슈가 되는, 무서우면서 뭔가 불법적인 뉘앙스가 있는 '다크 웹'과는 연관이 거의 없습니다. 그냥 손에 잡히지 않는 무언가를 설명하기 위해 '다크'라는 수식어를 사용하고 있을 뿐입니다.
다크 데이터는 기업에서 다양한 IT 시스템, 네트워크 장비를 운용해가며 사업을 영위하는 과정에서 발생하는 수많은 데이터 중 '손댈 수 없는' 데이터를 말합니다. 손댈 수 없다는 의미는 우선 데이터가 어디 있는지도, 심지어는 이런 데이터가 어딘가에 쌓이고 있는지도 모르는 경우도 많고, 어렴풋이 데이터가 쌓이고 있다는 것은 알지만 도저히 이 데이터들을 어디에 어떻게 써야 할지 모르는 경우도 많다는 뜻입니다.
실제로 요즘같이 디지털화된 세상에서 기업이든 개인이든 IT 시스템을 이용하게 되면 자연스럽게 쌓이는 데이터의 양은 상상을 초월합니다. 더군다나 IoT 시대라는 말에 걸맞게 요즘은 수많은 센서들이 우리 주변에서 활용되는데 특히 자동차나 공장 등에선 수십여 종의 센서 수백수천 개가 쉴 새 없이 데이터를 생산해냅니다.
우리는 이 대부분의 데이터를 그냥 버립니다. 예를 들어 공장 라인에서 무게를 통해 불량품을 감지해내는센서가 있다고 해보겠습니다. 이 센서는 제품의 무게가 정상보다 낮을 경우 해당 제품을 걸러내는 역할을 도와줍니다. 무게를 측정하고 그 무게를 컴퓨터로 보내면 컴퓨터는 그 무게가 정상적인 무게인지 아닌지 판단합니다. 그러기 위해 컴퓨터 메모리에 잠깐은 기록은 할 것입니다. 그리고 판단을 한 다음에 메모리 용량이 다 차면 자연스럽게 지워버리죠. 정말 수많은 제품 하나하나가 그 센서를 통과하는데 그 모든 무게를 다 차곡차곡 기록해두긴 힘들기 때문이죠. 이를 '정보의 휘발성'이라고 표현합니다.
공장뿐만 아니라 자동차, 컴퓨터, 기업의 IT 시스템 또한 마찬가지입니다. 순간순간 생산되는 모든 데이터를 모두 보관할 수 없어 대부분을 폐기해버리지만, 그나마 중요하다고 생각되는 로그(기록) 데이터 등은 저장을 하는 메커니즘을 가지고 있습니다. 많은 IT 담당자들이 그런 로그 데이터를 얼마나 보관해둬야 할지 고민을 하곤 합니다. 간혹, 나중에 혹시 필요할지 몰라 보관은 하고 있지만 대부분 이 많은 데이터들을 어떻게 활용할지에 대해선 감을 못 잡죠. 이것이 바로 다크 데이터입니다.
IBM에 따르면 제조 기업에선 보유한 데이터의 약 1%만을 분석해서 활용한다고 합니다. 그렇게 많은 데이터를 버려 버리는데도 그나마 가지고 있는 데이터의 1%만을 활용한다는 것이죠. 그만큼 많은 데이터를 활용하는 것은 정말 어려운 일입니다. 그래도 이런 다크 데이터의 잠재적 가치는 항상 높게 평가받고 있습니다. 그리고 글로벌 선진 제조기업을 중심으로 고무적인 활용 사례도 많이 나오고 있습니다.
저는 여기서 '빅데이터'의 개념을 설명하려고 합니다. 우선 사전적 개념부터 보겠습니다. IT위키에선 빅데이터의 정의를 "기존의 데이터 처리 능력을 넘어서는 대량의 데이터, 또는 그 데이터를 분석하고 가치를 창출하는 기술"이라고 표현하고 있습니다. 그리고 빅데이터를 이야기할 때 빠지지 않는 특징 3V에 대해선 언급을 하고 가겠습니다. (각주 1)
규모(Volume) 처리하는 데이터의 양이 기존의 데이터베이스에 비해 거대
속도(Velocity) 데이터 입출력 속도가 기존 데이터베이스에 비해 초고속
다양성(Variety) 비정형 데이터까지 다루면서 처리하는 데이터량 대폭 증가
우린 수많은 다크 데이터를 버리거나 방치해둔다고 말했지만, 사실은 현재 아주 일반적인 빅데이터 분석 기술로 분석하는 빅데이터는 이전 시대에 '다크 데이터'로 불리었을 데이터들입니다. 즉 예전에는 분석할 엄두를 내지 못했던 데이터를 지금은 분석하고 있는 것입니다. 이것은 데이터의 저장, 처리 능력, 분석기술이 나날이 발전을 하고 있기 때문입니다.
조금 나이대가 있으신 분들은 하드디스크의 용량이 예전에 비해 턱없이 낮아졌다는 것을 알 수 있으실 겁니다. 물론 메모리, CPU의 성능도 발전했고, 알파고 등장 전후로 AI 기술에 대한 전 세계적인 유행이 불어와 데이터를 통해 가치를 창출하는 수많은 기법, 그런 기법들을 손쉽게 적용할 수 있는 도구 등이 등장했죠. 그리고 클라우드의 대중화로 집이나 회사에서 빅데이터를 위한 장비나 소프트웨어를 갖추지 못한 경우에도 온디맨드, 종량제 방식으로 빅데이터를 처리할 수 있습니다. (각주 2)
결국 빅데이터란 이전엔 처리할 수 없었던 데이터, 지금은 어찌어찌 처리해볼 수 있는 데이터, 또는 앞으로 처리해나가야 할 감당 안 되는 데이터를 의미합니다. 빅데이터는 이렇게나 추상적인 개념입니다. 그렇기 때문에 가트너에서도 3V와 같은 특징을 제시하며 빅데이터란 이런 특징을 가진 데이터라고 막연히 표현한 것입니다.
빅데이터를 이해하려면 빅데이터라는 말의 정의를 이해하기보단, 이 책을 찬찬히 읽어 나가면서 데이터가 어떻게 쓰여 가는지 느껴보시는 것을 권장드립니다. 이것이 데이터의 가치구나. 정말 큰 데이터는 이렇게 처리되는구나. 이런 깨달음을 얻으신다면 앞으로 빅데이터에 대해서도 누군가한테 다양한 관점으로 설명해볼 수 있게 될 것입니다.
각주───────
1) 3V는 가트너에서 제시되어 가장 많이 인용되고 있습니다. 여기에 IBM 등에서 제시한 정확성(Veracity), 가치(Value), 타당성(Validity), 휘발성(Volatility), 가변성(Variability), 시각화(Visualization) 등의 추가적인 V에 대해선 지면상 설명하지 않겠습니다. 3V만큼 대표성을 가지진 않습니다.
2) 규모에 따라 다르지만 데이터 분석에 필요한 장비 및 도구(SW)를 갖추려면 수백에서 수천만 원은 필요합니다. 하지만 클라우드를 잘 활용하면 며칠에 몇 십만 원 정도의 비용으로 필요한 만큼만 사용할 수 있습니다.