brunch

You can make anything
by writing

C.S.Lewis

by 치팍 May 10. 2016

데이터 분석을 막는 3가지 현상

이렇게 하면 천지신명님이 와도 분석하기 힘들어요 ㅠ_ㅠ

빅데이터와 딥러닝, 인공지능의 홍수에 사람들이 너도나도 데이터 분석에 관심을 가지기 시작했습니다. 그런데 데이터 분석이 효과가 있으려면 여러 가지 선행조건들이 필요합니다. 그 중에 하나만 강조하라면 전 주저없이 "깨끗하고 정확한 데이터"라고 말하고 싶습니다. "garbage in, garbage out; GIGO" 이라는 유명한 말은 괜히 생긴 것도 아니고, 모든 쓸모없는 노력에서 벗어나게 도와줄 아주 소중한 한마디 입니다.

그런데 데이터라는 건 곧 기록이라는 뜻인데, 처음부터 기록에 노력을 쏟기가 쉽지 않습니다. 개인적인 경험으로 깨끗한 데이터에 대한 노력을 처음부터 하지 않으면 생기는 3가지 현상에 대해서 공유해볼까 합니다.

1. 기록(저장)과 대쉬보드를 분리하지 않는다.

분석을 위한 데이터는 한 기록당 하나의 의미를 담는 형태가 되어야 컴퓨터에게 일을 시키기 좋습니다. 그런데 그 형태가 사람이 보기 좋은 형태(대쉬보드)가 아니다 보니 처음부터 대쉬보드처럼 저장하는 상황이 발생하죠. 특히 개인이 혼자 보는 기록이라면 문제가 없을수도 있지만 모두의 이익을 위해서 관리하는 데이터는 저장의 기능과 대쉬보드의 기능을 분리해야 합니다. 대표적으로 나타나는 문제는 글자로 저장하는 걸 무차별로 허용해서 메모장처럼 사용하는 경우입니다. 디비를 빠르게 수정하지는 않더라도 최소한 수정하기 쉬운 형태로의 저장을 목표로 해야 합니다.

2. 기록끼리 연결되어 있지 않고 분산되어 저장하고 있다.

각각의 기록은 크게 힘이 없습니다. 영화의 일별 관객수가 날짜라는 키를 가지고 날씨와 연결될 때, 날씨와 일별 관객수와의 상관 관계에 대해 분석해볼 수 있는 것이지요. 위에서 날짜를 키라고 표현했는데 이렇게 두 데이터를 연결하는 키가 되기 위해서는 "유일"해야 한다는 조건이 필요합니다. 이 상황에서 분산되어 저장하는 건 의외로 큰일이 아닐 수 있습니다. "키 없이" 분산하여 저장하는 것은 큰일입니다.

3. 사람의 기록을 믿고 강제한다.

이 부분이 가장 어려운 부분이 아닐까 생각합니다. 오히려 자발적인 기록은 그 기록의 진위를 매우 신뢰할 수 있습니다. 예를 들면 페이스북 같은 것이지요. 악의나 다른 의도를 가지고 작성하는 것이 아닌 이상, 대부분의 페이스북 정보는 믿을만 합니다. 많은 경우 페이스북이 강제했다니보단 사람들이 자발적으로 작성했기 때문입니다. 그런데 기업에서 만들어지는 사람들이 생성하는 데이터가 과연 믿을만 할까요? 직원들이 그 데이터를 기록하는 것이 자신에게 직접적인 이익으로 돌아오지 않는 이상, 사람의 기록은 믿을 수 없습니다.

위 3가지가 일찍이 문제가 된 적이 별로 없습니다. 왜냐하면 데이터를 "운영"관점으로만 보면 크게 문제되지 않기 때문입니다. 하지만 "분석"관점으로 보려고 하면 문제가 됩니다. 모든 분석에서 가장 시간을 많이 소비하는 것은 전처리와 정제이고, 위 세가지는 전처리와 정제를 어렵고 시간이 더 걸리게 만들기 때문입니다.

브런치의 첫글을 데이터에 대한 것으로 시작할 수 있어서 대단히 영광입니다. 다음 글은 전처리와 정제 시간을 줄이기 위해 필요한 개념들에 대해서 설명해 보겠습니다.

https://mrchypark.wordpress.com/2016/05/10/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D%EC%9D%84-%EB%A7%89%EB%8A%94-3%EA%B0%80%EC%A7%80-%ED%98%84%EC%83%81/

keyword

치팍

데이터 분석가, 빠른 학습 순환 구축

구독자 18

windows에서 linux용 rstudio 사용기 작가의 다음글

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari