재미있는 논문 이야기 (20)

데이터 분석

by tstory

Oct 31. 2017

데이터 분석 실전(3탄)

구축된 데이터셋에 대해 알아가는 과정을 통해 데이터 분석에 눈을 뜨게 된다.

수집된 데이터가 가공과 다듬음을 통해 분석에 적합한 Data Set으로 거듭났다면, 모델링에 앞서 기초적인 테스트가 필요하다. 우선 만들어진 데이터셋이 어떤 놈인가를 파악해야 한다.

“누구냐 넌?”

Tip 19. 기초통계 분석을 통해 최종 결과물에 대해 많은 것을 미리 알 수 있다.

평균적인 값이 얼마인지, 최소값과 최대값이 얼마인지 등 기초 통계량을 살펴봄으로써 수집되고 구축된 데이터셋의 기초적인 특성을 파악할 수가 있다. 부가적으로 평균치를 심하게 벗어나는 잘못된 값이 있는지를 파악할 수도 있으며, 가장 중요하게는 분석하고자 하는 대상에 대한 기본적인 특성을 파악할 수 있다.

예를 들어, 지역을 구분하여 강남구, 서초구, 송파구 등 강남 3구에 창조적인 직종에 근무하는 사람이 전체 인구의 몇 % 인지를 알 수 있을 것이고, 지하철 역세권별로 반경 500미터 내에 카페, 레스토랑, 병원이 몇 개가 있는지를 알 수 있을 것이다. 이러한 수치는 분석하고자 하는 이슈와 대상에 따라 중요한 의미를 가질 수 있으며, 통계모형 구축에 앞서 많은 것을 알려준다. 강남 3구의 환경이 창조계급들이 선호하는 환경이나 시설을 풍성하게 갖추고 있을 가능성을 미루어 짐작할 수 있고, 역세권별로 주민들이 필요로 하는 서비스를 받을 수 있는 가능성이 다르다는 것을 먼저 파악해볼 수 있다.

8.2 부동산 대책과 관련하여 아파트 가격이 물가상승률을 차감하더라도 실제로 오른 건지, 아니면 실제로는 내린 건지를 알 수가 있으며, 시계열을 1년 단위, 3년 단위, 10년 단위로 봤을 때 아파트 가격과 전세 가격이 어떻게 변화되었는지를 간단히 살펴볼 수도 있다. 이러한 시계열에 따른 가격 변화를 기간별로 끊어서 살펴봄으로써 현재 시장의 아파트 가격에 거품이 끼었는지, 아니면, 단순히 경기순환 사이클에 따른 일시적 상승인지를 실제 모형 분석에 앞서 예측해볼 수 있다.

전수조사는 사실상 어렵다는 점에서 구축한 데이터셋은 모집단의 샘플에 해당하고, 우리는 샘플의 특성을 통해 모집단의 특성을 파악할 수 있다.

기술통계와 더불어 ‘빈도수’는 상당히 중요한 의미를 가진다. 단순한 빈도수가 의미를 가지는 경우는 거의 없고, 대부분 특정한 계층, 지역, 샘플의 특성을 크로스체킹(cross checking) 할 때 의미를 가진다.

예를 들어, 설문조사에서 특정 직업군을 가진 사람들이 자신들의 삶에서 중요한 시설로서 항상 커피를 즐길 수 있는 카페가 도보거리에 있는 환경을 가장 중요하게 생각한다는 빈도수가 많아지면, 그 특정 계층과 커피숍 간에는 의미 있는 인과관계가 있다는 것을 통계모형 분석에 앞서 미리 짐작해볼 수 있다.

심장병을 발생시킬 수 있는 유전자를 가지고 있는 실험용 쥐의 경우, 지방이 많은 음식을 섭취하는 빈도수가 많다면, 해당 유전자가 지방에 대한 섭취 욕구를 증가시킨다는 것으로 예측해볼 수 있을 것이다.

병원에 암환자가 입원을 해서 특정한 치료약을 투여했을 때 대조군과 비교하여 5년 이상 생존하는 빈도수가 많아진다면, 해당 치료제가 특정 암에 효과가 있을 것이라는 예상이 가능하다.

이와 같이, 기초통계에 대한 분석은 최종적인 모델링에 앞서 많은 것을 이미 보여주게 된다. 단, 여기서 유의할 점은, 기초통계에서 예측한대로 모델링 결과가 나오지 않는 경우도 많다는 것이다. 예를 들어, 분명히 기초통계에서는 “A가 B에게 영향을 줄 것이다”라고 미루어 짐작을 했지만, 모델링에서는 영향이 거의 없거나 심하면 반대의 결과를 보여주기도 한다. 여기에 대해서는 모델링 파트에서 좀 더 자세히 얘기해보도록 하자.

keyword

tstory

알고 보면 별거 아닌 논문의 기술 저자

사회문화분석가

팔로워 97

매거진의 이전글재미있는 논문 이야기 (19)재미있는 논문 이야기 (21)매거진의 다음글