양질의 데이터를 판별하는 5가지 방법 (完)

⑤ 목적에 적합한 데이터인가?

by 삼더하기일

Nov 19. 2021

https://brunch.co.kr/@8d1b089f514b4d5/38

양질의 데이터를 판별하는 5가지 방법

① 데이터 양은 충분한가? | 최근 빅데이터는 ‘21세기 원유’라 불리고 있습니다. 데이터를 소유함으로써 인사이트를 분석하거나 산업, 고객에 대한 트렌드를 파악할 수 있기 때문입니다. 여기

https://brunch.co.kr/@8d1b089f514b4d5/38

https://brunch.co.kr/@8d1b089f514b4d5/39

양질의 데이터를 판별하는 5가지 방법

② 믿을 수 있는 데이터인가? | 지난 ‘양질의 데이터를 판별하는 5가지 방법’ 1편에서는 활용하기 좋은 양질의 데이터가 되기 위해서는 많은 데이터 수가 뒷받침되어야 한다는 것을 살펴보았

https://brunch.co.kr/@8d1b089f514b4d5/39

https://brunch.co.kr/@8d1b089f514b4d5/40

양질의 데이터를 판별하는 5가지 방법

③ 관계형 데이터베이스인가? | https://brunch.co.kr/@8d1b089f514b4d5/39 https://brunch.co.kr/@8d1b089f514b4d5/38 지난 ‘양질의 데이터를 판별하는 5가지 방법’ 2편에서는 양질의 데이터를 판별하기 위해 데이터

https://brunch.co.kr/@8d1b089f514b4d5/40

https://brunch.co.kr/@8d1b089f514b4d5/41

양질의 데이터를 판별하는 5가지 방법

④ 데이터 형식을 파악했는가? | https://brunch.co.kr/@8d1b089f514b4d5/38 https://brunch.co.kr/@8d1b089f514b4d5/39 https://brunch.co.kr/@8d1b089f514b4d5/40 빅데이터는 정말 다양한 경로로 수집이 되며, 또 다양한 방법으로

https://brunch.co.kr/@8d1b089f514b4d5/41

앞선 글들을 통해 고품질의 데이터를 판별하기 위한 여러 단서에 대해 알아보았습니다. 데이터 양, 오류 정도를 포함한 신뢰성, 데이터 형식 등 다양한 면모를 살펴봤습니다. 분석하기도 전에 데이터의 다양한 측면을 고려해야 하는 이유는 명확하고 뚜렷하게 양질의 데이터를 판단할 방법이 없기 때문이었습니다. 그리고 다시 양질의 데이터를 판별할 방법이 명확히 없는 이유는 양질의 데이터에 대한 명확한 정의가 부재하기 때문입니다. 사실 좋은 데이터라고 매번 쓰이는 것은 아니며 좋지 않은 데이터라고 절대 사용되지 않는 것은 아닙니다. 양질의 데이터라는 것은 상황에 따라, 분석 목적에 따라 변화하기 마련입니다. 결국 양질의 데이터를 판별하기 위한 가장 근본적이면서도 좋은 방법은 상황에 맞는 데이터를 선택하는 것입니다. 이번 시간에는 상황에 맞는 데이터, 즉 분석과 활용 목적에 적합한 데이터를 판별하는 기준에 대해서 살펴보도록 하겠습니다.

데이터에 원하는 정보가 담겨 있는가?

1) DIKW 피라미드 이론

빅데이터 분야를 이론적으로 학습하다 보면 초기에 배우는 개념 중 DIKW 피라미드 이론이라는 것이 있습니다. 데이터(Data), 정보(Information), 지식(Knowledge), 지혜(Wisdom)의 앞 글자를 딴 것으로 DIKW 피라미드는 데이터가 정보로, 정보는 지식으로, 지식은 지혜로 바뀌어 활용성을 띄게 된다는 내용을 담고 있습니다. 또한 여타 피라미드 구조와 마찬가지로 하위 개념에서 상위 개념으로 갈수록 그 빈도가 줄어듭니다. 결국 데이터 중 몇 개만이 정보로 활용되고 그중 몇 개만이 지식으로, 다시 지식 중 몇 개만이 지혜로 활용되는 셈입니다. DIKW 피라미드 이론은 크게 두 가지의 시사점을 제공해줍니다. 첫째는 데이터 속에서 지혜를 얻는 것은 단숨에 이루어지는 것이 아니라 정보, 지식의 단계를 거쳐야 한다는 점입니다. 두 번째로 지혜, 지식, 정보를 담고 있는 데이터는 전체 데이터 중 일부라는 점입니다. 이 시사점은 이야기하고자 하는 양질의 데이터와 더욱 연관이 있습니다.

데이터를 수집하고 분석하고자 할 때, 수집을 진행하는 사람과 데이터 분석가는 최대한 많은 가능성을 열어두고 데이터를 바라봅니다. 데이터 수집을 진행하는 입장에서는 ‘이 데이터도 언젠가는 사용될 수 있겠지’의 마음으로, 데이터 분석가는 ‘이 데이터도 보다 보면 활용할 가능성이 열릴 수도 있겠지’의 마음을 가집니다. 하지만 혹시나 하는 마음으로 가지고 있던 데이터는 결국 이용되지 않는 경우가 많습니다. 그러한 데이터는 대부분 애초에 원하는 내용을 담고 있지 않는 데이터인 경우가 많기 때문입니다. 데이터를 정보와 지식, 지혜로 발전시켜야 이를 활용할 수 있는데, 애초에 원하는 내용이 담겨 있지 않은 상황입니다. 결국 분석하고자 하는 내용이 충실히 담겨있지 않은 데이터라면 애초에 저품질의 데이터로 판별하고 분석을 이어나가는 것이 더욱 효율적일 수 있습니다.

2) 데이터 vs 분석가

원하는 정보를 지니고 있는지를 기준으로 양질의 데이터를 판별하고자 할 때 한 가지 주의할 점이 있습니다. 바로 분석가의 수준이나 상황에 따라 같은 데이터라도 양질의 데이터인지 여부가 달라질 수 있는 점입니다. 숙련된 데이터 분석가는 속에 숨어있는 작은 정보일지라도 놓치지 않고 찾아내 알토란 같은 인사이트를 도출합니다. 하지만 상대적으로 덜 숙련된 분석가는 어쩔 수 없이 같은 데이터 속에서도 분석 내용이 빈약할 수 있습니다. 따라서 데이터 속에 목적에 부합하는 정보가 담겨있는지 여부는 그 데이터를 분석하는 사람의 역량이 어느 정도냐에 따라 달라질 수 있습니다. 같은 책이어도 누군가에게는 쓸모 없는 종이일 뿐이지만 누군가에게는 소중한 지식이 되는 경우와 비교해볼 수 있습니다.

분석 방법에 부합하는 데이터인가?

앞서 이야기했듯 좋은 빅데이터 분석을 하기 위해서는 목적에 부합하는 정보가 충분히 담겨있어야 합니다. 그리고 숨겨져 있는 정보를 충분히 끌어낼 수 있는 데이터 분석가의 역량도 필요합니다. 하지만 이것이 활용 목적에 부합하는 데이터의 전부는 아닙니다. 보통 빅데이터를 다루고 분석하는 방법에는 많은 종류가 있습니다. 데이터의 활용 목적이 정해지면 어느 정도 분석 방법론의 갈래 역시 함께 정해집니다. 한 가지 안타까운 점은, 데이터 분석 방법론에 따라 필요한 데이터의 구조가 조금씩은 다르기 마련이라는 것입니다. 결국, 활용 목적에 부합하는 정보를 가지고 있는 데이터라고 할 지라도 특정한 알고리즘이나 분석 방법론에는 어울리지 않는 경우도 있을 수 있습니다. 따라서 ‘분석 방법에 부합하는 데이터인가?’에 대한 질문에 대답을 할 줄 아는 것이 양질의 데이터를 판별하는 중요한 요소 중 하나입니다.

1) 머신러닝을 위한 빅데이터

최근 빅데이터를 활용함에 있어 단연코 대세라고 할 수 있는 분석 방법은 머신러닝 기술의 적용입니다. 머신러닝뿐 아니라 딥러닝을 포함하여 모든 인공지능 기술이 다 포함되나 편의상 머신러닝 기술만을 이야기하도록 하겠습니다. 머신러닝 기술의 궁극적인 목표는 미래 상황에 대한 사전 예측입니다. 머신러닝 알고리즘은 과거 데이터를 토대로 학습을 실행하고 미래 시점을 대상으로 예측을 진행합니다. 때문에 머신러닝을 실행하고자 한다면 1차적으로 데이터 양 측면과 관련하여 학습할 수 있는 데이터가 충분히 있어야 합니다.

하지만 머신러닝을 진행할 때 데이터의 양 보다 더욱 중요한 것이 있습니다. 바로 데이터에 종속 변수가 존재해야 한다는 점입니다. 종속 변수란 관심 대상이 되는 데이터를 의미합니다. 머신러닝 분야에서는 예측하고자 하는 정보를 의미합니다. 주식 가격을 학습하고 예측하기 위해서는 그 동안의 주식 가격에 대한 데이터(종속 변수)가 필요합니다. 때문에 종속 변수가 존재하지 않는다면 애초에 머신러닝은 진행될 수 없습니다. 보통 종속변수는 필요에 따라 지정하기 마련입니다. 주식 가격이 종속 변수가 될 수 있지만 때로는 주식 거래량이 될 수도 있으며 가격 등락폭이 종속 변수가 될 수도 있습니다. 이 때 중요한 점은 데이터 활용 시나리오를 생각했을 때 유용한 종속 변수를 설정하고, 데이터 속에 이 값이 명확히 있어야 한다는 것입니다. 하지만 아쉽게도 보통의 데이터 속에 활용에 적합한 종속 변수가 존재하는 경우는 많지 않습니다. 만약 머신러닝을 수행할 때 활용 시나리오에 맞는 적절한 종속 변수가 존재하며, 그 종속 변수가 데이터 속에 명확히 적재되고 있다면 해당 데이터는 분명한 양질의 데이터입니다.

2) 인사이트 도출을 위한 빅데이터

머신러닝이 최근 빅데이터 활용에 자주 쓰인다면 인사이트 도출은 전통적인 빅데이터 활용 방법입니다. 보통 인사이트를 도출하고자 하는 목적으로 데이터를 분석할 때는 앞서 언급했던, 데이터 분석가의 역량에 따라 데이터 품질을 다르게 평가하는 경우가 더 흔하게 발생합니다. 사실 데이터 분석의 시작 시점부터 명확하게 분석 방향성을 정해 놓는 경우는 그리 흔하지 않습니다. 그렇기에 분석가가 분석을 어떤 방향으로 할지 결정하는 것에 따라 다양한 데이터의 활용성이 시시때때로 변하게 됩니다.

이 때는 말 그대로 데이터 속의 진주를 찾아내어야 합니다. 활용 가치가 높은 정보가 데이터에 숨겨져 있는지 심도 있게 고민해야 합니다. 다만, 활용 가치가 높은 데이터를 찾는데 어느 정도 힌트는 있습니다. 일반적으로 인사이트를 활용하고 쉽게 설명하기 위해서는 지수(index) 개념이 활용되는 경우가 많습니다. 예를 들어, 우리나라 모든 기업의 주식 전체 움직임을 일일이 살펴보면 이 속에서 인사이트를 찾는 것이 매우 어려울 수 있습니다. 하지만 코스피 지수라는 특정한 수치가 계산되어 있기에 이를 활용한다면 우리나라 전체 주식에 대한 인사이트를 새롭게 발견할 가능성이 높습니다. 결국, 원천 데이터 그대로가 아닌 어느 정도 가공된 데이터가 인사이트 도출 시에는 유리합니다. 이전 시리즈에서 이야기했던 데이터의 가공 정도와 그 의미가 연결됩니다.

분석 목적이 명확하지 않으면 데이터 품질을 논할 수 없다

돌이켜보면 데이터 양, 데이터 가공 정도 등 양질의 데이터를 판별하는 다른 방법을 적용할 때 조차 분석 목적이 영향을 미치고 있습니다. 결국 양질의 데이터를 구분하기 위해 살펴보아야 했던 다양한 내용들 중 가장 중요한 것이 분석 목적이라고 할 수 있습니다. 분석 목적이 명확하지 않다면 데이터 품질을 논하는 것 자체가 어불성설이 될 수 있기 때문입니다. 최종적으로 분석 목적 설정은 양질의 데이터 판별을 위한 이정표 역할을 해줄 수 있습니다.

이번 ‘양질의 데이터를 판별하는 5가지 방법’ 시리즈에서는 분석하기 좋은, 품질 높은 데이터를 판별하기 위한 여러 특징들을 살펴보았습니다. 서두에 언급했듯 이 방법들이 양질의 데이터를 구분 지을 수 있는 절대적인 규칙은 아닙니다. 데이터 수집과 분석을 진행할 때, 이 5가지 방법을 가이드로 삼고 데이터 선택에 대한 의사결정을 진행한다면 더욱 효율적인 판단이 가능할 것입니다.

keyword

매거진의 이전글양질의 데이터를 판별하는 5가지 방법R vs 파이썬, 빅데이터 분석엔 무엇이 더 좋을까?매거진의 다음글