빅데이터가 주는 세상

7. 데이터의 히어로 빅데이터

by 자유로운 영혼

1. 통계학(Statistics), 데이터 사이언스(Data Science), 빅데이터는 모두 데이터 분석을 다루지만, 각각의 초점과 접근 방법이 다릅니다. 이 세 가지 개념은 서로 밀접하게 연결되어 있으며, 빅데이터의 분석에 통계학과 데이터 사이언스가 어떻게 기여하는지에 대한 관계를 이해하는 것이 중요합니다. 각 개념이 어떻게 연결되는지 구체적으로 살펴보겠습니다.


첫 번째로 통계학과 빅데이터의 관계입니다.

통계학은 데이터를 수집하고 분석하는 학문으로, 확률과 통계적 추론에 중점을 두고 있습니다. 빅데이터에서 발생하는 대규모 데이터는 통계학적으로 다루기 매우 복잡하고 방대하기 때문에, 통계학의 개념들은 빅데이터 분석에서 중요한 역할을 하고 있습니다.

빅데이터에서 적용되는 통계학의 이론에는 샘플링, 가설 검정 및 추론, 회귀 분석 등이 있습니다.

샘플링은 전체 데이터에서 직접적으로 분석하기 어려운 경우, 표본 추출을 통해 중요한 패턴을 찾는 데 적용될 수 있습니다. 가설 검정 및 추론 이론은 빅데이터에서 특정 관계나 패턴을 찾을 때, 통계적 검정을 사용하여 가설을 검증하는 데 적용되고 있습니다.

회귀 분석은 변수 간의 관계를 모델링하는 데 중요한 역할을 하며, 빅데이터에서 여러 변수들 간의 관계를 분석할 때 활용되고 있습니다. 예를 들어 소비자 행동, 선호도 분석에서 로지스틱 회귀 분석을 사용하거나, 시간에 따른 변화를 추정하는 데 통계학적 방법이 활용될 수 있습니다.


두 번째는 데이터 사이언스와 빅데이터의 관계입니다.

데이터 사이언스는 빅데이터에서 데이터를 추출하고, 이를 분석하여 의사결정을 지원하는 통합적인 분야입니다. 데이터 사이언스는 빅데이터 분석에서 기계 학습(Machine Learning), 인공지능(AI), 데이터 시각화 등의 고급 기술을 활용하여 더 복잡한 문제를 해결할 수 있습니다.

빅데이터에서 적용되는 데이터 사이언스는 데이터 전처리, 기계 학습 및 예측 모델링, 데이터 시각화 등이 있습니다.

빅데이터는 비정형 데이터와 정형 데이터를 모두 포함하는데, 이를 분석할 수 있는 전처리 과정이 필요합니다. 데이터 사이언스는 이 과정을 자동화하고 최적화하는 데 중요한 역할을 합니다.

기계 학습으로 데이터를 분석하여 패턴을 발견하고, 예측 모델을 구축하는 데에도 데이터 사이언스 기술이 필수적입니다. 예를 들어, 빅데이터 환경에서 고객의 구매 행동을 예측하기 위해 랜덤 포레스트나 신경망을 사용할 수 있는 것을 말합니다.

또한 데이터 사이언스는 빅데이터에서 발생하는 대규모 데이터를 이해하기 쉽게 시각화하는 데 중요한 역할을 합니다. 시각화는 데이터를 쉽게 해석하고, 인사이트를 도출하는 데 도움을 줄 수 있습니다.

이처럼 통계학은 빅데이터 분석의 기초를 제공하며, 확률적 추론과 모델링을 통해 데이터를 분석합니다. 그리고 데이터 사이언스는 빅데이터를 분석하기 위해 필요한 기술적 접근법을 제공하고 있으며, 여기에는 기계 학습, 인공지능, 데이터 시각화 등이 포함됩니다. 또한, 데이터 사이언스는 통계학의 이론을 활용하여 복잡한 데이터를 분석하고 의미 있는 결과를 도출합니다.

빅데이터는 이러한 통계학과 데이터 사이언스의 방법론을 통해 대규모 데이터에서 유용한 정보를 실시간으로 추출하고, 예측을 가능하게 할 수 있는 것입니다.

따라서, 통계학은 데이터 분석의 기초를 제공하고, 데이터 사이언스는 빅데이터에서 의미 있는 통찰을 도출하는 데 필요한 다양한 도구와 기법을 제공한다고 볼 수 있습니다.





2. 빅데이터는 우리가 매일매일 생성하는 엄청나게 많은 양의 다양한 데이터로 크다는 뜻의 영어 단어 ‘Big' 과 자료를 뜻하는 ’Data' 를 합친 말입니다. 그런데 데이터의 양이 많으면 무조건 빅데이터라고 할 수 있을까요? 반드시 그렇지는 않습니다. 여기서 빅데이터의 방대한 양이라는 뜻의 의미는 단순히 데이터의 양이 많다는 것뿐만 아니라, 다양한 종류의 데이터가 빠른 속도로 생성되고 변화한다는 의미도 포함됩니다. 더 쉽게 말하자면, 빅데이터는 단순하게 자료의 양이 많다는 의미보다 예전에는 미처 알아내기 어려웠던 새로운 정보나 가치, 사실들을 알 수 있도록 하는 데 도움을 주는 어마어마한 분량의 데이터를 뜻합니다.


빅데이터 정의는 어떤 분야의 전문가들이냐에 따라 생각하고 있는 것이 다르기도 합니다. 예를 들어 컴퓨터 전문가들은 빅데이터를 과거의 데이터베이스 관리 프로그램으로는 처리하기 어려운 방대한 규모의 데이터라고 말합니다. 반면 경영학자들을 포함한 다른 전문가들은 데이터가 적었을 때 찾을 수 없었던 새로운 가치나 사실이 데이터가 커지면서 새롭게 발견된다는 점에 더 초점을 맞추어 말합니다. 이런 측면에서 봤을 때 공통적으로 빅데이터 시대를 가능하게 만든 것이 컴퓨터의 발전이라고 할 수 있으며 특히 데이터 처리, 저장, 분석 능력에 대한 컴퓨터의 기술 진보가 빅데이터 시대를 가능하게 만들었습니다. 빅데이터를 제대로 이해하기 위해 기술 발전과 사회 변화에 의해 촉발된 현상인 빅데이터가 등장하게 된 배경들을 자세히 살펴보겠습니다.


우선 기술적인 측면인 컴퓨터 기술 발전에 대해 과거와 현재를 비교해 보겠습니다.


첫 번째는 프로세서 성능의 향상으로 과거 컴퓨터의 프로세서는 속도가 느리고, 한 번에 처리할 수 있는 데이터양이 제한적이었습니다. 하지만 현재의 컴퓨터의 CPU는 멀티코어 아키텍처를 가지고 있어 여러 작업을 동시에 처리할 수 있습니다. 또한 CPU의 발전은 대규모 병렬 처리가 가능하게 하여 딥러닝과 같은 복잡한 계산을 빠르게 수행할 수 있습니다.


두 번째는 저장 장치 기술의 발전과 메모리(RAM) 용량의 증가입니다. 과거의 컴퓨터 저장 장치인 하드디스크 드라이브(HDD)는 용량이 작고 데이터 접근 속도가 느렸지만 현재 SSD라 불리는 솔리드스테이트 드라이브는 데이터 접근 속도가 매우 빨라졌습니다. 그리고 클라우드 저장 서버는 거의 무한한 저장 용량을 제공하고 있어서 방대한 데이터를 빠르게 저장하고 접근할 수 있게 만들어 줍니다.

또한 메모리 용량이 제한적이고 큰 데이터를 한 번에 처리하는 데 한계가 있었던 과거에 비해, 현재는 메모리 용량이 크게 증가하여 대량의 데이터를 메모리에 올려놓고 빠르게 처리할 수 있으며, 특히 실시간 데이터 분석에 중요한 역할을 하고 있습니다.


세 번째는 네트워크 속도의 향상으로 인터넷 속도가 느리고 대량의 데이터를 전송하는 데 시간이 많이 걸렸던 것이 현재 고속 인터넷과 5G 네트워크의 발전으로 데이터 전송 속도가 크게 향상되었습니다. 이는 실시간 데이터 수집 및 처리, 그리고 클라우드 기반의 데이터 분석을 가능하게 만들었습니다. 그 밖에도 데이터 처리를 단일 서버에 의존했던 것이 분산 컴퓨터 기술과 클라우드 컴퓨팅 서비스로 여러 서버에 분산시켜 병렬 처리가 가능해졌고, 다양한 데이터 분석 도구와 데이터 시각화 도구 등이 개발되어 데이터 분석을 쉽게 수행할 수 있게 되었습니다.


다음은 빅데이터가 등장하게 된 사회적인 측면입니다.

첫 번째 사회적 변화는 데이터의 디지털화 입니다. 과거에는 종이 문서와 같은 아날로그 데이터가 주를 이루었지만, 컴퓨터와 인터넷의 보급으로 인해 많은 정보가 디지털 형태로 저장되고 처리되기 시작했습니다. 이로 인해 전자 상거래, 온라인 뱅킹, 디지털 의료 기록 등과 같은 데이터의 양이 급격히 증가하게 되어 데이터의 디지털화가 확산되었습니다.


두 번째는 인터넷과 소셜 미디어의 발전입니다. 인터넷의 보급과 소셜 미디어 플랫폼의 발전으로 인해 사람들이 매일 생성하는 트윗, 페이스북 게시물, 유튜브 동영상 등이 방대한 양의 데이터를 폭발적으로 증가시키고 있습니다. 하루에 업로드 되는 수백만 개의 유튜브 동영상과 수억 개의 트윗만 봐도 그 양이 어마어마하다는 것을 알 수 있습니다.


세 번째는 사물 인터넷의 확산입니다. 사물인터넷 기술이 발전하면서 다양한 기기들이 인터넷에 연결되고, 이 기기들에서 실시간으로 데이터를 수집이 필요하게 되었습니다. 예를 들어 스마트 홈 기기, 웨어러블 디바이스, 스마트 자동차와 같은 것들이 해당하며 이는 데이터의 양과 속도를 크게 증가시켰습니다.


마지막으로 네 번째는 비즈니스와 학계의 요구가 사회적으로 커졌습니다. 기업에서는 온/오프라인 고객 데이터가 많이 축적되면서 고객의 행동을 분석하고, 시장 트렌드를 파악하는 것이 중요해졌습니다. 이런 작업들의 효율성을 높이기 위해서 데이터에 숨어 있는 가치를 발굴해 새로운 성장 동력으로 빅데이터를 활용하기 시작했습니다. 그리고 학계에서는 인간 게놈 프로젝트, 기후 관찰, 질병 예측 등 거대 데이터를 다루는 학문 분야가 확산되면서 필요한 기술 및 분석에 빅데이터를 활용하고 있습니다.


이러한 빅데이터의 등장 배경을 이해하면 미래 사회에서 빅데이터가 왜 중요한지, 그리고 어떻게 활용될 수 있는지 쉽게 알 수 있습니다. 우리는 빅데이터가 가져다주는 가치에 초점을 맞출 필요가 있습니다. 방대한 분량의 빅데이터를 정리하고 분류하는 기술뿐만이 아니라, 목적에 맞는 핵심 데이터를 찾아내고 분석하는 능력이 어우러질 때 빅데이터는 더 큰 가치와 의미를 가질 수 있음을 생각하고 활용해 나가야 할 것입니다.




3. 우리는 일상생활에서 방대한 양의 데이터를 생성하고 소비하는 디지털 시대에 살고 있습니다. 스마트폰을 사용해 SNS에 글을 올리고, 온라인 쇼핑을 하며, 스트리밍 서비스를 통해 영화를 보는 등 다양한 활동을 통해 끊임없이 데이터를 만들어내고 있습니다. 데이터의 양과 종류가 폭발적으로 증가함에 따라, 전통적인 데이터 처리 방식으로는 이 방대한 데이터를 효율적으로 다루기 어려워졌습니다. 그래서 등장한 개념이 바로 '빅데이터(Big Data)'입니다. 빅데이터는 그 양과 복잡성 때문에 특별한 기술과 접근 방식을 필요로 합니다.


그렇다면, 빅데이터란 정확히 무엇일까요?

이를 이해하기 위해 빅데이터의 세 가지 주요 특징인 '3V'에 대해 알아보겠습니다.

빅데이터 용어가 사용된 초기에 미국의 정보기술 자문회사인 가트너(Gartner) 그룹은 3V인 데이터의 양(Volume), 다양성(Variety), 그리고 속도(Velocity)로 빅데이터의 특징을 설명했습니다. 최근에는 빅데이터 분석을 통해 얻을 수 있는 가치와 데이터에 대한 품질의 중요성이 강조되고 있습니다.

기존 세 가지 요소인 3V 와 최근 중요시되는 2V의 개념으로 빅데이터의 본질을 좀 더 명확히 살펴보고, 이를 활용한 대표적인 사례들에 대해서도 알아보겠습니다.

정보화 시대가 되면서 우리 주위에 활용할 수 있는 데이터는 상상할 수 없을 정도로 빠르게, 또 기존 데이터 관리 시스템의 성능적인 한계에 도달할 만큼 많이 쌓이고 있습니다. 예를 들어 동영상 사이트인 유튜브에 1분 동안 업로드 되는 동영상은 약 500시간 분량으로, 하루에 업로드 되는 콘텐츠를 모두 시청하려면 82년이라는 시간이 소요된다고 합니다. 게다가 1분마다 약 2억 3100만 건의 이메일이 오가고, 약 30만 개가 넘는 트위터 메시지가 업로드 되고 있는데 바로 이것이 빅데이터의 첫 번째 특징인 데이터의 양인 크기(Volume)입니다.

이는 단순히 몇 기가바이트(Gigabyte)나 테라바이트(Terabyte)를 넘어, 페타바이트(Petabyte)나 엑사바이트(Exabyte) 단위로 측정될 정도로 방대한 양의 데이터를 포함합니다.

예를 들어, 페이스북은 매일 수억 명의 사용자들이 생성하는 방대한 양의 데이터를 다룹니다. 사용자들이 게시하는 글, 댓글, 좋아요, 사진, 동영상 등 엄청난 양의 데이터가 실시간으로 축적되고 있는데 하루에 약 4페타바이트(PB) 이상의 데이터를 생성한다고 합니다. 이러한 데이터를 통해 페이스북은 사용자들의 행동 패턴을 분석하고, 맞춤형 광고를 제공하며, 플랫폼 개선에 활용합니다. 또한 우리의 모든 생활이 컴퓨터, 인터넷, 스마트폰, 더 나아가 사물 인터넷으로 연결되면서 만들어진 방대한 분량의 데이터도 점점 더 빠른 속도로 쌓여 개인 맞춤형에 활용되고 있고 대규모 의료 데이터베이스는 분석하여 질병의 원인을 찾고, 효과적인 치료법을 개발하는 데 활용되고 있습니다.


3V 중 두 번째 특징은 다양성(Variety)입니다. 이 다양성은 데이터의 형태와 관련이 있습니다. 데이터베이스에 저장된 숫자나 텍스트와 같은 구조화된 데이터뿐만 아니라 이메일, 동영상, 소셜 미디어 포스트, 이미지, 오디오 등의 구조가 정해지지 않은 비구조화된 데이터까지 모두 빅데이터에 포함될 수 있습니다. 이런 다양성의 특징을 적용하여 페이스북의 소셜 미디어 분석을 살펴보면, 페이스북은 텍스트 형태의 게시글과 댓글뿐만 아니라, 사진과 동영상, 그리고 사용자 간의 태그, 좋아요, 공유와 같은 상호작용 데이터를 모두 수집하고 분석합니다.


이렇게 다양한 데이터는 사용자 경험을 개인화하고, 특정 관심사에 맞춘 콘텐츠를 추천하는 데 사용되고 있습니다. 이처럼 다양한 형태의 데이터들은 함께 분석해야 필요한 정보를 얻을 수가 있고, 데이터 분석 프로그램들이 점점 진화하고 기능도 좋아지면서 다양한 데이터들을 한 곳에 모아 처리하는 일이 가능해졌습니다.

빅데이터의 특징을 말해주는 세 번째 ‘V'는 속도(Velocity)입니다. 이때의 속도는 데이터가 생성되고 처리되는 능력을 말하는 것으로 빅데이터를 제대로 활용하려면 데이터 분석을 빨리, 정확하게 처리해야 합니다. 빅데이터는 실시간으로 생성되고 수집되기 때문에, 이를 신속하게 분석하고 활용해야 하는 경우가 많습니다.

예를 들어, 인터넷에서 쇼핑을 할 때 평소 관심 상품이 추천 상품으로 뜨는 경우를 종종 보았을 것입니다. 이런 기능이 가능하려면 평소에 자주 검색하거나 구입했던 제품들에 대한 데이터가 수집되고 분석된 뒤 사용자가 제품을 다시 검색하려 할 때 실시간으로 알려 줘야 합니다. 바로 빅데이터의 특징인 데이터 처리 능력, 즉 속도가 받쳐 줘야 가능하다는 것입니다. 더 완벽히 적용된 예가 실시간으로 엄청난 속도로 생성되는 데이터를 처리하는 페이스북 입니다. 사용자들이 매 순간마다 새로운 게시물을 올리고, 댓글을 달고, 실시간 스트리밍을 진행하는 등의 활동이 계속되고 있는 페이스북은 실시간 데이터 스트림을 분석하여 사용자가 게시물을 올리는 즉시 친구들의 뉴스피드에 해당 게시물이 나타나도록 합니다. 또한 실시간으로 트렌드를 파악하고 사용자 활동에 기반 하여 즉각적인 피드백을 제공하고 있는 것이 빅데이터의 특징을 활용하는 대표적인 사례라고 할 수 있습니다.


덧붙여 최근에 중요성이 강조되고 있는 빅데이터의 특징은 품질(Veracity) 과 가치(Value)로 2V라고도 합니다.

품질(Veracity)은 데이터의 신뢰성과 정확성이 중요하다는 것을 의미하며, 데이터의 품질이 일관되지 않거나 오류가 있을 수 있기 때문에 이를 정제하고 신뢰할 수 있는 정보를 추출하는 것의 중요성을 말합니다. 특히 소셜 미디어 데이터의 경우 가짜 뉴스나 잘못된 정보가 포함될 수 있기 때문에 고품질의 데이터로 고수준의

분석 결과를 도출해내야 한다는 것을 의미합니다.

그리고 가치(Value)는 방대한 데이터를 분석하고 활용하여 대용량의 데이터 안에 숨겨진 가치 발굴이 중요하다는 것을 의미하며, 다른 데이터들과의 연계 시 가치가 배로 증대하는 것이 강조되고 있습니다.


이처럼 3V, 2V는 빅데이터의 주요 특징을 잘 설명해 주며, 빅데이터가 단순히 큰 데이터가 아니라 복잡하고 다양한 형태로 빠르게 생성되는 데이터를 의미함을 보여 줍니다. 다시 정리해 보자면, 빅데이터는 방대하고 다양한 형태의 데이터를 효과적으로 처리하고 분석할 수 있는 기술적인 부분을 함께 생각해야 한다는 것과 최근에는 빅데이터 처리 기술과 가치 있는 정보를 뽑아내는 분석 방법에 좀 더 초점을 맞추고 있다는 사실입니다. 이런 빅데이터의 특성들을 이해하면 빅데이터를 효과적으로 다루고 활용하는 데 도움이 될 수 있을 것입니다.

이전 06화빅데이터가 주는 세상