데이터 분석
데이터 분석 실전(1탄)
사람들이 상식적으로 생각하는 90~99%의 일반적 결과가 도출되어야 신뢰성 있는 자료이다!
데이터 분석에서 가장 중요한 부분은 믿을 수 있는 자료를 수집하는 것이다.
통계자료든 설문조사자료든 아니면 실험실이나 현장에서 측정한 자료이든 간에, 모델링을 하는 과정에서 일반 사람들이 생각하는 수준의 결과가 90~99% 나오고 1~10%의 새로운 결과가 나올 수 있는, 신뢰성을 가질 수 있는 자료를 만드는 일이 선행되어야 한다.
여기서 1~10%의 새로운 결과라는 것은 사람들이 생각하는 범위를 벗어난 차별적인 결과인데, 이러한 새로운 결과는 일반적으로 사람들이 생각하고 있는 90~99%의 결과가 만들어진 토대 위에서 신빙성을 가지게 된다. 만약 모델링을 해서 30%, 50% 등의 결과가 지금까지 사람들이 생각하지도 못한 결과가 도출된다면 그건 신뢰성을 갖춘 DB라고 볼 수 없다. 심하게 말하면 쓰레기니까 휴지통에 던져버려라!
예전에 모 대학 대학원생들을 대상으로 강의를 하면서 학생들을 그룹으로 나눠서 논문 쓰는 방법을 연습시키고 직접 논문 작성을 해서 저널에 투고까지 할 수 있도록 지도를 했는데, 이때 한 그룹은 설문조사를 통해 자료를 수집해 와서 그 자료를 받아서 필자가 분석을 도와주기 위해 통계분석을 했다. 그런데, 아무리 해도 일반적인 상식에서 나올 수 있는 결과들이 안 나오는 것이었다. “참! 이상하네? 하면서 다른 그룹의 논문들을 지도하고 있었는데, 며칠이 지난 후 연구실로 한 학생이 찾아와서는, “교수님... 제가 사실은 설문지 응답의 30% 정도는 사람들에게 직접 물어봐서 만든 것이 아니라... 시간이 없어 제가 작성을 했습니다... 죄송합니다”라고 자백을 해왔다.
조작이 이루어져 신뢰성이 없는 데이터를 가지고는 어떠한 경우라도 믿을 수 있는 결과가 나올 수 없다는 것을 보여주는 사례이다. 30%가 아니라 10%만을 조작하더라도 안정적인 분석을 하기 어렵다는 것을 독자들은 이해해야 할 것이다.
우선 통계자료를 DB로 구축하기 위한 방법으로는 첫째, 직접 실험을 통해 분석을 위한 자료를 만드는 것이다.
예를 들어, 최근 계란에 살충제 성분이 나와서 검출된 살충제 성분이 인체에 미치는 영향을 분석하고자 한다면, 직접 양계장들을 방문해 계란을 수거한 후 잔존 살충제 검출량을 파악하고 인체에 미치는 영향을 분석하기 위한 실험이 실행되어야 한다. 예를 들어, 실험용 쥐를 활용한 테스트나 인체조직의 반응 변화 테스트 등을 통해 분석을 위한 자료를 구축하는 것이다.
둘째, 각 분야의 전문적 데이터를 모아 놓은 구석구석의 장소를 찾아서 자료를 수집하고 분석에 맞도록 가공하는 것이다. 통계청, 기상청, 보건당국, 국세청, 보험사, 상공회의소, 인터넷 포털 등, 자료는 사방에 널려 있다. 데이터가 어디에 있는지 잘 찾는다면 그만큼 논문을 잘 쓸 가능성은 더 커지게 된다. 이것은 필요한 자료를 구하고자 하는 끊임없는 검색과 검색자료를 필요한 형태로 정리하는 반복적인 연습 등 지속적인 노력에 따라 남들보다 좋은 자료를 수집할 수 있는 기회가 증가하게 될 것이다. 모든 데이터를 직접 실험을 통해서 만드는 것은 시간과 노력, 그리고 비용상의 문제로 인해 효율적이지 않다는 것은 독자들도 충분히 이해할 수 있을 것이다. 예를 들어, 토네이도를 측정하기 위해 매번 ‘폭풍의 눈’ 안으로 돌진한다면 그 연구자의 생사조차도 보장할 수 없지 않을까?
최근 사회현상을 다각적으로 분석하는 것이 가능한 빅데이터의 출현은 논문을 쓰는 사람들에게는 또 다른 기회를 제공하고 있다. 물론 빅데이터는 자료의 특성에 맞는 분석방법이 필요하기는 하다.
물론, 아주 간단한 테이블 하나로도 논문을 쓰는 것이 가능하다. 예전에 정부가 공급하는 국민임대주택의 입지 특성에 대해서 연구한 적이 있는데, 당시 관공서에서 받은 한 장의 표 안에는 총가구수, 최저 주거기준 미달 가구수, 국민임대주택 공급량, 면적, 보증금, 임대료 등이 경기도 31개 시군별 수치로 기록되어 있었다. 다시 말해, 31개의 대상 지역에 6개의 변수만이 기록된 표를 가지고 총 가구 수에서 최저 주거기준 미달 가구수, 최저 주거기준 미달가구 수에 대한 국민임대주택 공급량 등을 계산하고, 시군 중심점(centroid)에서 지역 중심지 및 광역 중심지까지의 거리를 측정해 변수를 11개로 증가시켰다. 그러고 나서 요인분석을 통해 국민임대주택 공급에 있어 입지적 특성이 다른 지역들의 그룹을 고유치(eigenvalue)를 통해 분류해서 구분하고 이를 해석한 논문이 투고 후 간단한 수정만을 거치고 국내 메이저 저널에 실린 바 있다. 데이터의 양이 중요한 것이 아니라는 것을 보여주는 사례이다.
마지막으로, 설문조사를 통해 특정 현상에 대해 사람들이 생각하는 바를 담아서 DB를 구축하는 방법이 있다.
설문조사를 통해 자료를 수집하는 것에 있어 가장 중요한 부분은 “사람들이 어떻게 하면 작성된 설문에 어려움을 느끼지 않고 실험가가 원하는 응답을 할 수 있게 이끌어낼 수 있는가?” 하는 문제이다. 설문을 보자마자 너무 빽빽하게 질문이 담겨 있고 깨알 같은 글씨로 채워져 있다면 아무리 좋은 설문 사례품을 주더라도 대부분 도망갈 것이고, 어떤 사람은 화를 내기까지 할 것이다.
일단 무조건 쉬워 보여야 하고, 많은 여백이 느껴져서 “아! 쉬워 보인다”하는 느낌을 가지게 만들어야 한다. 조사지역에 방문하는 사람이건 사는 사람이건 모두 자신이 세상에서 가장 바쁘다는 것을 이해해야 하고 그 사람의 소중한 시간과 노력을 사기 위해서는 당사자가 스트레스를 받지 않고 쉽게 생각할 수 있도록 상대방의 입장에서 설문지를 작성해야 할 것이다.
또 하나의 중요한 문제는 내가 분석하고자 하는 목적을 명확히 하고 추후 모델링에서 종속변수가 되는 항목을 다른 항목들과 잘 엮어질 수 있도록 설계하는 일이다. 설문 응답을 받아놨는데 내가 분석하고자 하는 목적변수가 다른 항목들과의 연관성을 찾을 수 없다면 참 암담한 일일 것이다. 예를 들어, ‘삶의 질’에 대해 분석하고자 하는데, “어떠한 경우에 삶의 질이 높아지는 가요?”, “평균적으로 어떠한 경우에 삶의 질이 가장 높아지는 가요? 또는 낮아지는가요?” 등 연구를 하고자 하는 대상과 다른 설문들과의 관계성을 설정하지 않으면 모델링에 있어 좋은 결과를 기대하기는 어려울 것이다.
그리고 조사하는 응답자의 거주지와 직장의 위치 등 공간적 분포, 소득, 가구구성, 교육수준 등의 사회⋅경제 변수들은 분석에 있어 가장 기초가 되는 부분으로 반드시 확보되어야 하는 자료이다. 예를 들어, ‘삶의 질’ 분석을 하는데 사람의 특성에 따라 그 정도가 달라지는가는 가장 중요할 수 있는 부분이기 때문이다.
그 외, 자료를 수집하는 방법은 더 다양할 수 있지만, 일단은 상기 세 가지 경우를 가지고 한번 깊게 음미해본다면 통계자료 수집에 어느 정도 자신감이 생길 수 있을 것이다.