데이터 분석
Episode 9 (데이터 분석)
다들 힘들구나...
“아~~!”
영수형의 탄식소리가 난다. 어제 아침부터 하룻밤 꼴딱 새고 점심시간이 다된 지금까지 컴퓨터에 붙어버린 사람처럼 꿈쩍도 안 하더니...
슬그머니 다가가 “형~ 뭐가 잘 안돼요?”
“프로젝트에서 분석할 DB를 만드는데 해도 해도 끝도 없다...”
“DB가 그냥 DB지 뭘 만들어요?”
영수형은 한심한 듯 쳐다보면서 “자료가 그냥 사용할 수 있는 자료면, 자료만 구하면 다 논문 쓰겠네?” “이 한심한 놈아!” 하면서 자리를 박차고 나가버린다.
따라 나가보니 강의실 옆 베란다에서 뽀얗게 담배연기가 피어오른다.
“형~기분 풀어...” 하면서 나도 담배에 불을 붙여 한숨 깊게 빨아들인다.
“아니다... 네가 뭔 잘못이겠냐.” “아직 데이터를 한 번도 안 다뤄본 놈이 모르는 게 당연하지”
데이터를 다룬다는건...
“데이터는 있는 그대로 쓸 수 있는 경우는 거의 없어”
“당초에 값이 일반적인 범위에 벗어난 수치가 들어가서 다른 값들의 평균값을 과대 추정하게 만들 수도 있고, 줄이 밀려서 데이터가 잘못 기입될 수도 있고, 데이터를 입력할 때 잘못된 것이 있을 수 있어”
“이러한 잘못된 값들을 그대로 쓰면 분석 결과가 제대로 나오겠냐?”
“거기다가 더 중요한 부분은 수집된 자료를 가공해서 새로운 변수들을 만들어내야 하는데, 이 과정이 아주 죽을 맛이야” “나중에 통계모형 돌릴 때, 변수를 다양한 형식으로 만들어놔야 결과치가 안 나올 때 빠져나갈 구멍들이 생기거든...”
“나는 그래도 교수님 프로젝트에서 데이터를 계속 다뤄와서 그렇지, 다른 대학원생들은 단순히 통계 배워서 모형 만든다는데 나는 신뢰가 안가”
“그나마 나는 행운인 거지...”
“앗! 뜨거워”
영수형의 얘기를 듣다가 담뱃재가 손등에 떨어져서 화들짝 놀랬다.
항상 한 잔이 한 잔으로 끝나지 않는...
"야! 시원한 생맥주나 한잔 하러 가자”
“대낮부터 한잔 하면서 머리나 식혀야겠다.
영수형의 뒤를 따라 군말 없이 학교 앞 맥주집으로 향했다.
결국, 그날 밤 12시가 다돼서야 집에 기어들어갔다...
논문을 쓰는 데 있어 가장 중요한 것 중의 하나는 자료의 분석이다. 앞에서 주제 잘 잡고 선행연구검토는 다 됐는데, 내가 주장하는 것에 대한 자료를 수집하고 분석을 못한다면 논문을 작성하는데 어려움에 부딪히게 될 것이다.
물론 계량적인 분석이 아니라 사례나 토론이 주가 되는 경우라면 별개지만, 대부분의 논문을 쓰는 사람은 데이터 분석과정을 피해갈 수 없다.
데이터 분석에 있어 가장 중요한 부분은 통계 모델링이 아니라 자료를 수집하고 분석에 적합하게 DB를 구축하는 일이다.
DB를 구축한다 함은 일반적으로 ▷ 자료의 수집(설문, 통계자료 수집 및 변환) ▷ 변수의 교정(outlier 등 제거) 또는 생성(유사한 의미를 가지지만 새로운 형태로 변환 or 전혀 새로운 변수의 생성) ▷ 기초통계(빈도분석, 평균값 등 측정) 분석을 통한 자료 점검 및 Model작성을 위한 자료의 재구축 ▷ Modeling을 하는 과정에서 추가적으로 필요한 변수의 생성 또는 수정
실제로 통계모형을 돌리는 과정까지도 데이터를 다듬고 변수를 추가하고 또 다듬고 하는 과정을 거쳐야 한다.
따라서 운 좋게도 교수님 프로젝트에서 데이터를 만질 수 있는 기회가 생긴다면 무조건 자원해서 경험해라. 데이터를 다듬느라 고생하는 선배가 있다면 자원해서 도움을 주도록 해보자. 길이 보일 것이다.