brunch

You can make anything
by writing

C.S.Lewis

by 차지심 Apr 19. 2022

로데이터 잘 정리하는 방법

필자가 19년째 (2022년 기준) 기획자로 일을 하다 보니 다양한 형태의 데이터 분석을 하게 되었고, 특히, 경영기획자로 가장 많은 시간 일을 한지라 이 데이터 분석은 아주 중요한 파트가 되었습니다. 점점 더 기획자에게 데이터를 보는 눈이 중요해지는 요즘, 미흡하나마 필자가 경험한 데이터 분석 업무를 기반으로 아는 정보들을 정리해보고자 합니다. 더 전문가도 많고 전문가 못지않은 분들도 많겠지만 이제 막 데이터 분석에 눈의 뜨는 분들께 작은 도움이나마 되었으면 하는 바램으로 정리합니다.

이 내용은 이전에 열정적인 한 신입사원에게 감동해서 그 사원에게 도움을 주고자 개인적으로 했었던 과외의 일환으로 작성했던 내용들을 기반으로 합니다. 처음 데이터 분석을 접하는 분들께 적합한 내용을 중심으로 정리하였으니 참고 바랍니다.


로데이터 (Raw data)란 무엇인가

우리가 어떤 분석이든 분석을 진행하려면 기본적으로 데이터가 있어야 합니다. 그래서 다양한 방식으로 이 데이터를 수집하게 되는데요. 로데이터는 이렇게 데이터 분석을 하기 위해 필요한 가공하지 않은 원본 데이터를 의미합니다. 데이터 분석을 하기 전 단계라고 할 수 있죠. 


보통 우리가 추출 등의 방법으로 수집한 원본 데이터를 데이터 분석을 하기에 적합하지 않은 상태입니다. 따라서 이 원본 데이터를 정리하는 과정은 필요한 경우들이 많습니다. 물론 추출 또는 수집 등의 과정에서 데이터 분석을 염두에 두고 잘 추출하는 것도 데이터 분석에서는 중요한 실력이긴 합니다. 하지만 언제나 원하는 형태로 데이터가 추출되는 것은 아니기 때문에 정리가 필요하게 됩니다. 


로데이터 정리가 중요한 이유

로데이터 정리가 중요한 이유는 우선 로데이터를 잘 정리할수록 원하는 다양한 형태의 데이터 분석이 가능해지기 때문입니다. 로데이터가 어떻게 정리되어 있냐에 따라 데이터 분석이 필요함에도 한계를 지어야 하는 경우들이 생기거든요. 
그럴 경우 데이터 분석 중 다시 로데이터를 정리해야 하는 과정을 겪어야 할 수 있습니다. 그럴 경우 그동안 진행했던 분석은 소용이 없어지게 되겠죠. 

또한 로데이터를 잘못 정리했을 때도 다시 로데이터를 정리하는 과정을 겪게 될 수도 있습니다. 
결과적으로 미완성으로 정리를 해도, 잘못 정리를 해도 그간의 데이터 분석을 위한 노력이 수포로 돌아갈 수 있으므로 처음부터 정리를 잘하는 것이 중요한 것입니다. 



로데이터를 잘 정리하는 방법

이제부터가 핵심이다 !!

※ 특별히 데이터 분석을 업으로 하지 않는 이상 보통은 엑셀 등의 프로그램을 활용할 가능성이 높으므로 모든 내용은 엑셀을 기준으로 설명하니 참고 바랍니다. 


1. 한 셀에는 하나의 주제만 넣는다.


이런 데이터들을 각각의 주제에 맞게 한 셀 단위로 쪼개 주는 작업을 해야 합니다. 


또 다른 예를 들면, 장소에 대한 분석을 하고 있다고 하는데, 1층 101호로 되어 있는 경우가 있을 경우 이를 1층 / 101호로 나눠야 합니다. 층별 분석이 의미가 없는 분석이라면 모르지만 각 층별의 특징이 중요한 분석에서 1층 101호, 1층 102호 식으로 한 셀마다 되어 있는 경우 이 두 개의 데이터를 1층으로 묶어서 데이터를 볼 방법은 없습니다. 따라서 1층 / 101호 // 1층 / 102호로 나눠서 셀을 분리해줘야 이후 1층의 데이터라는 특징을 잡아낼 수 있는 것이지요. 



2. 동일한 내용이라도 한 행마다 기재해준다

엑셀을 데이터 분석툴보다는 편집툴로 많이 다루었던 경우는 깔끔한 형태로 편집하는 것에 중점을 두기 마련입니다. 따라서 반복적인 내용이 나오는 경우 셀을 통합해서 깔끔하게 보이도록 편집을 하는 경우들이 많습니다. 아래 예시처럼 동일한 A 티셔츠, 서울 등의 내용이 있는 경우는 통합을 해서 보는 사람들이 바로 인식할 수 있도록 해주는 것이지요.


하지만 데이터 분석을 할 때에는 이렇게 할 경우 아주 곤란한 상황이 벌어지게 됩니다. 굳이 묶었던 데이터를 모두 다시 풀어서 하나하나 다시 넣어줘야 하는 문제가 생기거든요. 


데이터 분석은 한 행과 한 열을 각각의 구분을 중심으로 하나의 연결된 데이터로 보는 방식으로 진행하기 때문에 이렇게 묶어 버리면 한 행을 하나의 데이터로 볼 수 없는 문제가 생기게 됩니다.



따라서 데이터 분석을 할 때에는 위와 같이 한 행과 한 열에는 하나의 데이터들이 각각 나오도록 해주어야 합니다. 만일 원본 데이터 자체가 그렇게 되어 있지 않은 경우는 채워주는 작업을 해야 합니다.


3. 표기하는 기준치는 동일해야 한다

숫자를 표현하는 기준치, 사물이나 현상을 지칭하는 단어 등 하나의 항목이라면 어떤 형태로든 동일해야 합니다. 예를 들어 첫 번째 데이터에는 1%라고 했는데, 다음 데이터는 동일한 1%를 1로 표기한 경우 1%와 1은 데이터 상에서는 다른 데이터가 되게 됩니다. 만일 기준치를 %로 잡는다면 숫자만 쓴 1은 100%가 되는 형국이 되므로 기준치는 항상 동일해야 합니다. 


다른 예로 명칭도 통일되어야 하는데, 지명을 나타낼 때 서울특별시, 서울, 서울시 등 동일한 내용을 서로 다른 단어로 표현한다면 이후 분석 시 두 번 작업을 해야 하는 문제가 생깁니다. 최종적으로 분석을 했는데 서울특별시에 대한 데이터, 서울에 대한 데이터, 서울시에 대한 데이터가 각각 나올 테니까요. 



TIP!!


기준치가 되는 항목은 제목 단에 기재를 해두면 좋습니다. 예를 들어 증가율 (%) 이렇게 기재를 해두면 %를 나타내는 수치이니 1이라고 쓰면 1%를 의미한다고 약속할 수 있습니다. 


명칭이 여러 가지라 문제가 될 경우는 엑셀의 목록 기능을 이용하거나 별도 시트 또는 해당 시트 우측 상단에 사용할 명칭 기준을 기재해두고 정리하면 도움이 됩니다. 아래 예시처럼 아예 사용할 목록을 만들어두고 엑셀에서 데이터 유효성 검사 기능을 이용해서 해당 목록에 있는 데이터만을 선택할 수 있도록 하는 방법이 하나입니다. 


명칭이 여러 가지라 문제가 될 경우는 엑셀의 목록 기능을 이용하거나 별도 시트 또는 해당 시트 우측 상단에 사용할 명칭 기준을 기재해두고 정리하면 도움이 됩니다. 아래 예시처럼 아예 사용할 목록을 만들어두고 엑셀에서 데이터 유효성 검사 기능을 이용해서 해당 목록에 있는 데이터만을 선택할 수 있도록 하는 방법이 하나입니다. 


4. 불필요한 공백은 제거한다

데이터를 시스템상에서 추출하다 보면 불필요한 공백이 들어가는 경우들이 있습니다. 이 경우 분석을 진행하다 보면 표면적으로 동일한 단어임에도 다르게 인식될 가능성이 있으므로 사전에 불필요한 공백은 제거하여야 합니다. 예를 들어 ‘서울’, ‘서울 ‘은 사람이 인식하기에는 서울이라는 동일한 지역을 지칭하지만 뒤의 서울에는 마지막에 공백 한자리가 들어가 있어 데이터로는 다르게 인식될 가능성이 있습니다. 따라서 이런 공백은 의미가 있는 사항이 아니므로 제거해주어야 합니다. 



이상 데이터 분석을 위한 첫 단계인 로데이터를 정리하는 방법에 대해서 정리해보았습니다. 물론 상황에 따라 이 규칙 외의 규칙들이 보이실 거예요. 이 부분은 경험이 쌓일수록 더 많이 보이게 되는데요. 우선적으로 위에서 설명드린 부분은 기본적인 규칙이므로 원본 데이터를 딱 접하게 되면 항상 먼저 진행하는 것을 습관화하시면 좋습니다. 



상기 내용은 필자가 운영하는 온라인으로 사수 만나기 (www.onsasu.com)에도 동일한 내용이 게재 중입니다. 

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari