brunch

You can make anything
by writing

C.S.Lewis

by tstory Oct 31. 2017

재미있는 논문 이야기 (19)

데이터 분석

데이터 분석 실전(2탄)


수집한 자료를 깔끔하게 잘 정리하는 것이 당신의 논문의 정상에 오르기 위한
안정된 베이스캠프를 설치하는 것이다.



앞에서 설명한 다양한 방법들을 통해 분석에 필요한 자료를 수집했다면, 수집된 자료를 어떻게 해야 할까? 

많은 초보 연구자들은 자료가 수집되면 바로 빈도분석, 평균분석을 하고 회귀분석을 할 수 있으리라는 희망에 들뜨기 시작한다. 그러나 아직 멀었다^^


우선, 자료를 채취하는 과정에서 묻은 불순물들을 씻어서 제거하고, 뭔가 정상적이지 않은 것들을 걸러내는 작업이 필요할 것이다. 그다음에는 값어치가 나가는 보석을 만들기 위해서는 깎아서 모양을 바꿔보기도 하고, 보석 줄과 장식들을 달아서 보기에도 좋고 사용하기에도 좋은 형태로 가공하는 작업이 필수적이다. 


수집된 자료를 사용할 수 있게 가공하는 작업은 그 자체로 아트(Art)이다. 자료를 가공하는 작업에 익숙해지면 그 자체로서는 아무런 결과를 만들 수 없는 자료를 가지고도 정말 훌륭한 분석모형의 투입물(input)을 만들어낼 수 있으니까 말이다.  



Tip 18. 수집된 데이터는 꿰어야 보배가 된다! 



첫째, 여러 가지 다른 자료들을 가지고 있다면, 공통의 ID를 만들어 결합시키자. 

여러 개의 데이터 셋을 가지고 있는 경우, 이를 활용하기 위해서는 관측치(observation)를 중심으로 결합하는 작업이 우선적으로 이루어져야 한다. 예를 들어, 특정인에게 설문한 자료가 있고, 그 사람이 살고 있는 거주지의 특성이 있다고 할 때, 전자를 disaggregated data라고 하고 후자를 aggregated data라고 한다. 이를 결합해서 모형을 만들기도 하는데, 이 경우, 설문에 응한 특정인을 중심으로 데이터를 결합해서 사용하기도 한다. 홍길동이라는 사람이 이태원동에 살고 있다면, 홍길동이 대답한 설문내용과 이태원동의 지역 특성이 결합되는 것으로 생각하면 된다.

GIS(Geographic Information System) 프로그램 등을 사용해 홍길동이라는 사람의 주거지에서 500미터 반경 내 특성들을 변수로 활용하기 위해 홍길동을 중심으로 데이터 셋들을 결합시킬 수도 있다. 
둘째, 수집된 자료를 씻고 다듬고 쓸데없으면 버리자.

자료를 가공하는 과정에서 가장 기본적으로 해야 될 일은 일반적인 수준을 넘어서는 변수들을 골라내는 일이다. 예를 들어, ‘연령이 200살이 넘는다든가’, ‘주택의 면적이 몇 천 평에 달한다든지’ 하는 것 등은 있을 수도 있겠지만 상식선에서는 평범한 값이라고 볼 수 없다. 이러한 값들은 전체 평균을 왜곡시킬 수 있으니 반드시 확인하고 정정하는 작업이 필요할 것이다. 정확한 값의 확인이 불가능할 경우에는 해당 관측치(observation)를 제거할 수도 있고, 아니면 해당 그룹의 평균값 등으로 대체할 수도 있다. 이러한 값들을 통계에서는 이상치(oultlier)라고 한다. 
셋째, 자료를 목적에 따라 사용하기 좋게 변형시키자.

많은 변수(variable)들은 여러 가지 형태로 변형이 가능하다. 예를 들어, 설문에 답변한 응답자의 연령을 수집된 그대로 사용할 수도 있지만, 청년층, 노년층, 장년층 등의 나이 그룹의 구간을 만들어 가변수(dummy)를 사용해 1, 2, 3, 4 등으로 바꿔서 표현할 수 있다. dummy를 사용할 때에는 1~4 중 2, 3, 4를 모형에서 사용했다면, 해석은 “1과 비교할 때, 2~4그룹은 어떠하다”는 식으로 해석이 가능하다. 예를 들어, “청년층에 비해 노년층은 어떠하다”는 식으로 해석할 수 있다. 

또 다른 예는, 특정한 사람이 거주하는 집의 위치에서 가까운 공원 위치까지의 거리를 측정해서 변수로 사용할 수도 있지만, 집으로부터 500미터 반경 내 공원이 위치해 있는지(있는 경우; 없는 경우), 아니면 몇 개가 반경 내에 들어있는지 등을 변수로서 사용할 수도 있다. 단순한 거리는 공원까지 어느 정도 떨어져 있는지에 대한 물리적 접근성(accessibility)의 정도를 나타내지만, ‘있는지 없는지’, 아니면 ‘몇 개가 있는지’는 ‘도보거리 내에서 휴식을 취할 수 있는 공원으로부터 서비스를 받을 수 있는지 없는지’를 표현하기 때문에 추후 모형 분석에서 다양한 활용이 가능하다. 


그 외에도 데이터를 가공하는 여러 가지 방법들이 있겠으나 일단은 이 정도라도 알고 가도록 하자.



매거진의 이전글 재미있는 논문 이야기 (18)
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari