brunch

You can make anything
by writing

C.S.Lewis

by 삼더하기일 Nov 13. 2021

양질의 데이터를 판별하는 5가지 방법

④ 데이터 형식을 파악했는가?

https://brunch.co.kr/@8d1b089f514b4d5/38

https://brunch.co.kr/@8d1b089f514b4d5/39

https://brunch.co.kr/@8d1b089f514b4d5/40



빅데이터는 정말 다양한 경로로 수집이 되며, 또 다양한 방법으로 수집한 데이터를 가공하기도 합니다. 그래서 똑같이 빅데이터로 불린다 할지라도 실제 데이터를 들여다보면 모든 데이터는 그 생김새가 조금씩 다릅니다. ‘양질의 데이터를 판별하는 5가지 방법’ 3편에서 데이터 형식과 관련하여 테이블 형식의 중요성을 살펴보았지만, 거시적 데이터의 모습만이 아니라 상세한 데이터 구조와 생김새에서 모든 데이터는 차이를 보입니다. 그리고 데이터의 생김새, 즉 데이터 형식에 따라서 분석 가치가 높은 양질의 데이터와 그렇지 못한 저품질의 데이터가 나뉘기도 합니다. 한 가지 흥미로운 점은 양질의 데이터일수록 데이터 형식에 특별한 공통점이 있고 저품질의 데이터 역시 마찬가지로 그 형식에 어떠한 특징이 존재하고 있습니다. 이번 편에서는 데이터 형태에 따라 갈리는 분석 잠재력에 대해 자세히 살펴보도록 하겠습니다.


데이터가 순수한 정형 데이터인가?


1) 정형 데이터와 비정형 데이터


데이터라는 단어는 생각보다 긴 역사를 가집니다. 데이터를 다루고 해석하는 방법을 다루는 통계학 분야가 꽤 긴 역사를 자랑한다는 것을 생각하면 당연히 그럴 것입니다. 하지만 최근 단순한 데이터가 아닌 빅데이터가 강조되면서 데이터의 개념이 더 넓어졌습니다. 이전에는 숫자의 모음들을 데이터로 보았지만 최근에는 텍스트, 이미지, 영상, 소리 등 수집하고 분석이 가능한 모든 대상을 데이터라고 부르고 있습니다. 이렇게 단순한 데이터에서 빅데이터로 패러다임이 전환되어 그 개념이 넓어짐에 따라, 데이터는 크게 정형 데이터와 비정형 데이터 두 가지 종류로 분류할 수 있게 되었습니다. 이 외에 구조 정보를 포함한 내용을 담고 있어 데이터라고 충분히 분류할 수 있는 반정형 데이터라는 개념도 존재하기는 합니다. 하지만 반정형 데이터의 경우 실제 분석 대상이 되는 비중이 적으며 정형, 비정형 데이터와는 그 분류 기준이 다소 차이가 있으므로 이번 시간에서는 따로 언급하지 않도록 하겠습니다.



사전적인 의미 상 정형 데이터는 미리 정해 놓은 형식과 구조가 있어 그에 따라 고정된 자리에 저장된 데이터를 의미하며, 비정형 데이터는 반대로 정의된 구조가 없는 데이터를 의미합니다. 쉽게 말하면, 데이터라는 개념을 상상할 때 흔히 생각하는 행과 열의 형태로 담겨있어 엑셀로 저장할 수 있는 데이터가 정형 데이터입니다. 반대로 비정형 데이터는 행과 열 형태로는 저장할 수 없는 텍스트, 이미지, 영상, 오디오 등의 데이터들을 의미합니다. 그래서 숫자 형식으로 지정된 데이터는 정형 데이터, 그렇지 않은 데이터는 비정형 데이터로 단순화해 이해할 수도 있습니다. 엄밀히 따지자면 정형 데이터 속에서도 ‘보통이다’, ‘매우 그렇다’ 등 텍스트 형태인 데이터가 저장될 수는 있으나, 이는 미리 정해 놓은 구조가 있기 때문에 숫자로 변환할 수 있어 사실상 수치 데이터와 같은 것으로 보아도 무방합니다. 


2) 정형/비정형 데이터 간 활용 방식의 차이


정형/비정형 데이터는 그 활용 방식에도 큰 차이가 있습니다. 그 말은 곧 데이터를 분석하고자 하는 목적이 명확히 정해진다면, 정형/비정형 데이터 여부에 따라서도 양질의 데이터 여부를 어느 정도 판단할 수 있다는 것을 의미합니다. 먼저 정형 데이터는 그 활용 방법이 정말 다양합니다. 단순히 평균, 표준편차 등을 계산하여 끝낼 수 있으며, 심화된 통계 기법을 적용할 수도 있습니다. 여기에 더해 최근 발전하고 있는 머신러닝과 딥러닝 기술은 정형 데이터에도 그대로 적용 가능합니다. 즉 인공지능 분야에서도 활용할 수 있는 데이터이기에 미래의 특정 상황을 예측하고자 할 때도 정형 데이터를 이용할 수 있습니다. 


반대로 비정형 데이터는 그 활용 방식에 어느 정도 한계가 있습니다. 비정형 데이터에는 통계 기법을 적용하는 것이 불가능하기 때문입니다. 이미지에 평균 값이나 표준 편찻값이 존재하지 않는 것을 생각하면 이해가 쉽습니다. 그래서 대부분 비정형 데이터를 이용할 때는 그 활용 방식이 인공지능 분야에 국한됩니다. 최신의 딥러닝 기술은 이러한 비정형 데이터에 특화되어 발전하고 있으며 사물 인식, 기계 번역 등 다양한 AI를 탄생시키고 있습니다. 물론 텍스트나 이미지 데이터를 정성적으로 분석하고자 하는 연구도 많이 진행되고 있습니다. 아직 비정형 데이터를 정성적으로 분석하는 방식에는 많은 한계가 있지만, 먼 훗날에는 이 패러다임 역시 변화할 가능성이 충분히 있습니다. 어찌 되었던, 지금의 현실을 종합하면 정형/비정형 데이터 여부에 따라 활용 방식에 차이가 있기 때문에 이 정보만 가지고서도 어느 정도 양질의 데이터를 판별할 수 있습니다. 만약 데이터 활용이 통계적 분석을 주 목표로 삼고 있다면 비정형 데이터를 사실상 사용하기 불가능한 데이터로 판별할 수 있습니다. 



범주형 데이터의 비율이 얼마나 되는가?


앞서 정형 데이터의 경우라면 정성적 분석과 인공지능에까지 그 활용법이 무궁무진함을 살펴보았습니다. 하지만 정형 데이터 역시 세부적인 생김새는 모든 데이터가 다 다르기 마련입니다. 따라서 그 세부적 형식에 따라 정형 데이터도 어느 정도 양질의 데이터를 판별하는 특징을 발견하는 것이 가능합니다. 대표적인 예시가 ‘데이터에 범주형 데이터가 얼마나 포함되어 있느냐’입니다. 이 내용을 자세히 알기 위해서는 데이터의 척도 개념부터 알고 있어야 합니다. 


1) 데이터의 척도


빅데이터 중에서도 정형 데이터에는 데이터 척도라는 것이 존재합니다. 데이터 척도란 데이터가 정의되고 분류되는 방식을 의미합니다. 앞서 정형 데이터는 행과 열을 가지고 있는 테이블 데이터로 이해하면 좋다고 했는데, 여기서 각 데이터들이 열을 기준으로 데이터 척도를 가지고 있다고 이해하면 됩니다. 그리고 데이터의 척도는 아래 그림과 같이 구체적으로 크게 범주형 데이터, 수치형 데이터로 구분됩니다. 그리고 범주형 데이터는 다시 명목 척도와 서열 척도로, 수치형 데이터는 등간 척도와 비율 척도로 구분됩니다.



명목 척도는 남자 = 1, 여자 = 2와 같이 데이터를 단순히 숫자로 변환시킨 것, 서열 척도는 1등, 2등, 3등과 같이 숫자가 단순히 순서만을 의미하는 것, 등간 척도는 온도와 같이 각 값의 상대적 크기 비교가 가능한 것, 비율 척도는 무게와 같이 절대적 기준이 있는 영점(0)이 존재하는 것을 의미합니다. 여기서 중요한 것은 범주형 데이터로 분류되는 명목 척도와 서열 척도는 수학 연산에 한계가 있다는 점입니다. 예를 들어 남자 두 명이라는 말은 여자 한 명이라는 말과 다릅니다. 하지만 명목 척도에서는 남자(1) * 2 = 여자(2)라는 이상한 산식이 성립됩니다. 또한 2등의 2배는 4등이 아닙니다. 하지만 서열 척도에서는 2등 * 2 = 4로 마찬가지로 이상한 산식이 성립됩니다.  


2) 범주형 데이터의 비율


결국 범주형 데이터는 수학적 연산에 한계가 있기 때문에 자연스럽게 적용할 수 있는 분석 기법에도 한계가 있게 됩니다. 다만, 범주형 데이터가 나쁜 것이라고 무조건적으로 단정할 수는 없습니다. 통계학 분야에서의 카이제곱 검정, 머신러닝 분야에서의 CatBoost 등 범주형 변수를 활용하기 위한 기법도 예전부터 다양하게 고안되고 있기 때문입니다. 그래도 머신러닝을 적용하거나 범주형 데이터를 위한 알고리즘을 적용하는 경우를 제외하고, 말 그대로 ‘분석’을 위해 데이터를 활용한다면 확실히 범주형 변수는 한계가 명확합니다. 따라서 양질의 데이터를 판별할 때 있어서, 해당 범주형 데이터의 비중이 얼마나 되는지를 상세하게 살펴보는 것이 유리합니다. 데이터의 대부분이 범주형 데이터로만 이루어져 있다면 이는 분석 대상에서 제외하는 것이 좋습니다.  


실제 데이터를 접하다 보면 범주형 데이터의 비중은 그렇게 작지 않습니다. 어떤 데이터를 이용하던 범주형 데이터는 마주하기 마련입니다. 따라서 모든 데이터가 수치형 데이터로만 구성된 데이터를 이용하고자 하는 것은 욕심일 수 있습니다. 그렇기 때문에 범주형 데이터의 비율이 몇%를 넘어가면 저품질의 데이터로 판단하는 단순한 방식은 좋지 않습니다. 가능한 수치형 데이터가 많이 담겨 있는 데이터를 탐색하되, 데이터의 속성(열) 수 자체가 충분히 많아 분석할 재료가 많은지 등을 종합적으로 바라보는 게 좋습니다. 만약 범주형 데이터의 비중이 높다고 할지라도, 해당 범주형 데이터의 빈도를 단순히 살펴보는 것만으로도 큰 의미를 가질 수 있는 경우가 분명히 있습니다. 이 경우에는 해당 데이터를 분석 데이터로 선정하는 것이 큰 무리가 없습니다. 즉, 범주형 데이터의 비율을 절대적인 조건으로 데이터 판별에 이용하기보다는 하나의 참고 사항으로 양질의 데이터 판별에 활용하는 것이 타당합니다.  



결국 숫자로 표시된 데이터가 높은 활용도를 보인다


종합했을 때 비정형 데이터보다는 정형 데이터의 활용 방안이 더욱 다양했으며 정형 데이터 안에서도 범주형 데이터보다는 수치형 데이터의 활용 방안이 더 다채롭습니다. 따라서 수집하고 분석할 데이터가 정형 데이터라면 그리고 수치가 많이 담겨 있다면 분석에 용이한 양질의 데이터일 확률이 높습니다. 생각해 보면 두 데이터가 모두 사칙연산이 가능한 숫자로 표시되어 있다는 공통점이 있습니다. 빅데이터 분석과 인사이트 도출에 있어서는 결국 ‘숫자’를 대상으로 하는 것이 활용성이 높은 것임을 유추할 수 있습니다. 하지만 정형/비정형 데이터에서 살펴보았듯 만약 분석 목적이 인공지능 구축에 있다면 비정형 데이터도 훌륭한 데이터 자원이 될 수 있습니다. 어찌 보면 가장 중요한 것은, 단순한 데이터 형식이 아니라 분석 목적에 따른 종합적인 판단이 될 수 있습니다. 이와 관련해서는 ‘양질의 데이터를 판별하는 5가지 방법’ 마지막 5편에서 알아보도록 하겠습니다.

매거진의 이전글 양질의 데이터를 판별하는 5가지 방법
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari