여러분들은 빅 데이터와 데이터 사이언스가 과연 같은 의미인지, 아니면 서로 다른 의미인지 헷갈리시지 않으셨나요?
저는 사실 이 둘의 차이점을 구별하기가 참 어려웠습니다 ..
빅데이터와 데이터 사이언스의 차이는 아래와 같습니다.
빅데이터와 데이터 사이언스는 모두 데이터를 다루긴 하지만, 데이터를 다루는 방식은 다릅니다.
� 빅데이터는 방대한 양의 데이터를 취급하고 관리하는 것을 다룬다.
빅 데이터 이전에는 산업 분야에 이처럼 많은 양의 데이터를 관리하는 데 필요한 도구와 리소스가 없었습니다.
그러나 MapReduce와 Hadoop의 등장으로 이러한 형태의 데이터를 더 쉽게 처리할 수 있게 되었습니다.
반면 데이터 사이언스는 데이터를 과학적으로 분석하는 학문입니다. 본질적으로 더 정량적이며 다양한 통계적 접근 방식을 사용하여 데이터 내에서 통찰력을 찾습니다.
� 빅데이터는 데이터를 저장하는 것이고 데이터 사이언스는 분석하는 것이다.
그러나 데이터 과학은 빅 데이터도 포함하는 데이터 작업의 바다라는 점을 명심해야 합니다. 데이터 과학자는 상당히 크고 빅 데이터 플랫폼이 필요한 데이터를 분석합니다. 따라서 이상적인 데이터 과학자는 빅 데이터 도구에 대한 지식도 있어야 합니다.
� 빅데이터는 데이터의 저장 및 관리에만 국한됩니다.
그러나 최근에는 빅데이터 분석을 용이하게 하기 위해 PIG 및 HIVE와 같은 구성 요소가 Hadoop 프레임워크에 추가되었습니다.
또한 Spark와 같은 최신 프레임워크에는 고유한 분석 기능이 있습니다.
� 데이터 사이언티스트와 빅데이터 전문가의 역할도 다릅니다.
데이터 사이언티스트는 강력한 스토리텔링을 통해 데이터를 분석하고, 데이터에서 통찰력을 얻고, 데이터를 시각화하고, 결과를 전달해야 합니다. 반면 빅데이터 전문가는 방대한 양의 데이터를 보유하고 있는 빅데이터 클러스터를 개발, 유지, 관리합니다.
위에서 언급했듯이 데이터 사이언스는 데이터 운영의 바다입니다. 이러한 데이터 작업에는 빅 데이터도 포함됩니다. 데이터 과학은 다른 중요한 데이터 작업과 함께 하위 집합으로 빅 데이터도 포함하는 더 큰 집합과 같습니다. 이 두 필드 모두 데이터를 처리합니다.
또한, 데이터 사이언티스트는 특성상 구조화되지 않은 경우가 많은 빅 데이터를 처리해야 합니다.
이러한 유형의 데이터를 처리하기 위해서는 데이터 사이언티스는 관련 기술을 보유해야 합니다. Hadoop 또는 기타 빅 데이터 기술에 능숙하다면 매우 좋습니다.
최근 빅데이터와 데이터 사이언스의 경계가 허물어지고 있는데,
그 이유는 Spark, Flink와 같은 최근 Big Data 플랫폼에는 데이터 분석 엔진이 프레임워크의 일부로 포함되어 있기 때문입니다.
Hadoop과 같은 구형 플랫폼에서도 기계 학습 알고리즘으로 구성된 데이터 분석 엔진인 Mahout을 출시했습니다. 이를 통해 빅 데이터 플랫폼은 모든 데이터 사이언스 도구를 포괄합니다.
*필자도 아직 배워나가는 중이기 때문에 정보 오류나 미흡한 점이 있을 수 있습니다. 양해 부탁드립니다.