brunch

You can make anything
by writing

C.S.Lewis

by 데이터 스테이션 May 08. 2023

1-2. 데이터 분석의 트랜드 변화

통계분석에서 빅데이터에 이르기까지

2) 통계분석에서 빅데이터에 이르기까지 


 데이터를 이해하는데 있어 가장 쉽게 접근할 수 있는 방법 중 하나는, 데이터 분석과정이 어떻게 변화했는지 보는 것이다. 앞서 설명했듯이, 데이터는 여러 객관적 수치화된 값을 의미한다. 즉 데이터를 분석한다는 것은, 여러 개의 관찰에 의해 얻어진 객관적 사실 값들을 분석한다는 의미이다. 여러 개의 데이터를 처리하여 분석을 진행해야 하므로, 초기에는 ‘통계’라는 학문을 동원해 데이터를 분석했다. 통계는 기본적으로 전체 모든 현상을 데이터로 담기 어렵기 때문에, 일부의 데이터를 추출하여, 추출된 표본 데이터의 통계량을 조사해 전체를 ‘추측’하는 매커니즘이다. 즉 모든 현상에 대한 값이 있는 모집단으로부터, 측정 및 저장 가능한 데이터를 ‘추출’하여 표본(Sample)을 만들고, 표본의 통계량을 조사하여 다시 모집단을 ‘추정’하는 형태로 분석이 이뤄진다. 기존의 전통적 통계는 수학자들과 통계학자들이 만든 수식과 규칙을 바탕으로 데이터가 계산이 되며, ‘가설검정’이라는 절차를 통해 데이터 분석의 객관성을 입증하는 모습으로 분석이 진행된다.


  이후 IT 기술의 발전으로 대량의 데이터를 수집 및 저장, 처리 할 수 있게 되면서 ‘데이터 마이닝’이라는 영역이 등장하게 되었다. 데이터 마이닝은 데이터로부터 데이터 간의 관계를 규명해 수식과 규칙을 찾아내는 방식이다. 기존에 전통적 통계에서는 데이터의 전체를 수집하기 어려웠기에, 일부 데이터만 수집하여 전체를 추정하였다. 그러나 데이터 마이닝에서는 수집된 데이터를 전체 데이터로 가정하여, 데이터 분석을 진행한다. 데이터를 예측하거나 분류할 땐, 전체 데이터의 일부를 가져와 학습 데이터로 구성한 뒤, 학습 데이터에서 규칙을 찾아낸다. 그리고 해당 규칙이 잘 맞는지 확인하기 위해, 나머지 일부 데이터를 추출한 검증 데이터로 검증하는 절차를 밟게 된다. 이렇게 하여, 데이터로 규칙을 찾는 최적화 과정과 찾아낸 규칙이 새로운 데이터에 얼마나 잘 적용되는지 일반화 과정을 거쳐 새로운 상황에 대한 예측 및 분류 등을 진행 할 수 있게 되었다. 이를 기계학습(Machine Learning)이라고 한다. 데이터 마이닝에서 기계학습과 전통적 통계의 가장 큰 차이라고 한다면, 전통적 통계에서는 데이터와 수식을 이용해 새로운 해답을 찾았으나, 데이터 마이닝 기계학습에서는 데이터와 해답을 이용하여, 규칙을 찾는 방식으로 데이터가 다뤄진다. 이러한 데이터 마이닝이라고 하는 트랜드는 2000년 초 실무 현장에서 6시그마(제조 및 생산계열 기업에서 서비스나 물품을 개발하거나 프로젝트를 진행할 때, 사용하는 품질경영기법)라고 불리는 문제해결 방법론과 더불어 큰 유행을 가져왔다.


 그리고 IT 기술이 더욱 발전하면서, 통계, 데이터마이닝과 다른 새로운 관점에서 데이터를 분석하기 시작했다. 전문가들은 이러한 새로운 데이터 분석 매커니즘을 빅데이터(Big Data)라고 부르는데, 여기에는 2가지 관점으로 접근하여 볼 수 있다. 먼저는 데이터의 양(Size)이다. IT기술에서도 데이터를 저장하는 하드웨어 기술이 발전하면서, 데이터를 담고 수집할 수 있는 용량의 한계가 기하급수적으로 늘어나기 시작했다. 빅데이터 처리 기술은 초기에 유전공학과 천문학에서 방대한량의 데이터를 다루면서, 기술이 점차 발전했다. 이후 실무에서는 제조나 공정에서는 IOT장비를 통해, 데이터를 시시각각 수집하여 저장한다. 고객 데이터를 다루는 CRM에서는 수 천, 수 만명의 고객의 행동을 데이터로 수집한다. SNS에서도 전 세계 사람들이 실시간으로 게시글을 올리고, 웹사이트에는 수십억에서 수천억 가량의 데이터를 짧은 시간 안에 검색하고 처리할 수 있다. 이렇게 기술의 발달로 인해 기존과 비교할 수 없는 초 대량의 데이터를 다루는 컴퓨터 구조와 처리 알고리즘들이 등장하였고 이를 바탕으로 새로운 형태의 인사이트를 찾는 형태로 데이터 분석을 진행하였다. 

 두 번째로 데이터의 구조(Data Structure)이다. 기존에는 엑셀 및 CSV 파일과 같은 표 형태의 데이터를 구성하여 분석하였다. 이러한 데이터 구조를 관계형 데이터 베이스(Relational Data Base Management System, RDBMS)이라고 불렀다. 그러나 최근에는 이미지나 소리, 영상, 신호 등 정형화 되어있지 않은 형태의 비정형 데이터들이 수집 가능해지면서, 해당 데이터를 처리하는 알고리즘이 필요하게 된다. 기존의 정형데이터에서는 각 데이터가 갖는 의미가 명확히 존재했다. 예를 들어 주소록 데이터의 경우, 남성 이라는 값은 ‘생물학적, 사회적으로 성별이 남성이다’ 라는 함축적인 의미를 담고 있다. 그러나 비정형 데이터는 하나의 데이터 값에 함축적인 의미를 담고 있는 경우가 거의 없다. 예를 들면, 컴퓨터가 이미지를 인식하고 처리하기 위해서는 먼저 이미지를 픽셀단위로 바꾸어 쪼갠 다음, 해당 픽셀 값을 수치로 나타내어 분석을 하게 된다.

이때, 이미지 한 칸의 픽셀 값을 가져와서 보면, 해당 값이 무엇을 의미하는지 명확히 알 수 없다. 이렇듯 대부분의 비정형 데이터는 각각의 값이 의미가 없는 저차원의 데이터로 이뤄져 있어, 기존의 기계학습 알고리즘으로 예측이나 분류 모델을 사용할 때, 성능향상의 한계가 있었다. 그리고 비정형 데이터들이 컴퓨터가 이해하는 숫자 형태로 변환되어야 하다 보니, 처리해야 하는 데이터의 양도 매우 커졌다. 이에 데이터 엔지니어와 사이언티스트 들은 기존과 다른 알고리즘을 사용해야 했는데, 여기서 등장한 알고리즘이 신경망 알고리즘(Neural Network Model)이다. 신경망 알고리즘은 사람의 신경세포처럼 작동하여, 신경망 알고리즘이라는 이름이 붙었다. 이는 뇌에서 사물을 인지해, 신경을 통해 신호를 전달하고, 머리 속에 추상화 하는 과정까지 간단한 알고리즘으로 구현하여, 저차원으로 이뤄진 비정형 데이터 들이 쉽게 처리될 수 있도록 구성하였다. 이런 신경망 알고리즘은 데이터 분석 및 처리속도를 매우 빠르게 해주고, 비정형데이터들도 처리함으로 써, 기존과 다른 구조와 사이즈의 데이터를 처리하게 되었다. 


 앞서 말한 형태로 데이터 분석의 트랜드가 변화 했다. 전반적으로 IT 기술이 발전함에 따라 데이터의 처리 기술과 방법이 달라지는 것을 볼 수 있다. 따라서 데이터 분석에 있어 IT기술을 이해하는 것은 매우 중요한 역량이 된다. 이 책에서는 Python 프로그래밍 언어를 이용하여, 데이터를 처리하고 분석하는 기법에 대해 알아 볼 예정이다. 


관련 재생 목록 : https://youtube.com/playlist?list=PLhdHuKlSngGz4SjNyGsm6M4P_-kR4HNIQ 

매거진의 이전글 1-1. 실무 데이터 분석
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari