데이터 분석
Episode 10 (데이터 분석)
덥다! 더워!
“햐~ 덥다.”
그럭저럭 한 학기를 보내고 여름방학이지만 이제 세 학기밖에 안 남았다는 불안감에 오늘도 학교 교문을 지나 가파른 언덕길을 땀을 흘리면서 올라갔다.
우리나라 날씨가 점점 아열대 기후처럼 되어가서 습도도 높고 햇볕도 뜨거워 점점 여름 나기가 힘들어진다. 부모님도 하루하루 연세가 들어가시는데 해가 갈수록 여름 나기가 힘들다고 말씀하신다.
“빨리 졸업하고 취직해서 여름에 부모님 피서비용이라도 드려야 될 텐데...”
올 초에 졸업한 친구 놈들은 자기들은 취직해서 월급 받는다고 동기들끼리 모여 사이판에 놀러 가자고 했지만, 나는 시간도 돈도 없어... 바쁘다는 핑계로 못 간다고 얘기하고 내 몫까지 잘 갔다 오라고 쿨한 척했다.
그러나 머리 속에서는 남태평양의 푸른 바다와 그 속에서 선탠을 하며 누워 있는 비키니 차림의 미녀들이 눈앞에 어른거린다.
(연구실에서)
등록금 비싸게 받았으면 방학 때 연구실 에어컨이라도 틀어줘야지!
방학이라고 학교도 전기를 아낀다고 에어컨을 제한적으로 틀어주니 땀이 났다 식었다 한다. 아예 안 틀어주는 날도 많다. 교수님 방들은 개별난방이라 아무 때나 켜고 끌 수 있지만, 연구실은 중앙난방으로 조절을 하니 매 학기 비싼 등록금을 내는 학생들은 뭔가 손해 보는 기분이다.
지난 학기에 자원해서 교수님의 논문 작성을 위한 DB를 구축하는 일에 참여하기로 했고, 영수 선배의 보조로 여름방학 내내 고전하고 있다. 그래도 일하는 대가로 교수님께서 다음 학기 등록금에 보태주기로 하셔서 부모님 짐을 조금 덜어드렸다는 생각에 힘이 난다.
그 많은 통계프로그램 다 배워야 하나?
“잘 돼가냐?” 뒤에서 영수형이 내 어깨를 툭 치면서 물어본다.
“그냥~그럭저럭 이요”
“근데, 형! 궁금한 게 통계 프로그램이 정말 다양하게 많던데 이 프로그램들 다 배워야 해요?”
“STATA, R, SAS 등등 사람들이 이 프로그램 저 프로그램 얘기하는데 다 배워야만 할 것 같은 생각에 부담이 이만저만이 아닌데...”
“뭐~배우면 좋긴 하다만, 사실 기능은 크게 다르지는 않아.”
“예를 들어, SAS는 방대한 데이터를 다루면서 매크로 기능 등을 통해 순환적으로 계산하는 것을 직접 프로그래밍할 수 있다는 것이 조금 다르고, 다른 프로그램 등은 공간통계라든가, 추가적인 분석 기능 등이 조금씩 차이가 있거나, 좀 더 쉽고 눈에 보이게 분석이 가능한 정도가 다르고 지금 네가 하고 있는 SPSS 하고 크게 다르지도 않아.”
“보통 공간분석 프로그램 등은 ArcGIS, TransCAD 등을 포함해 많이 있어서 그것과 같이 연계해서 분석하면 큰 문제없고...”
“보통 C 프로그램이나, 포트란 등 컴퓨터 언어로 프로그래밍하는 것도 대부분 변수의 전환이나 순환적인 계산에 쓰는 거지, 통계식을 프로그래밍해서 써봤자 기존의 쉽게 사용할 수 있는 프로그램에서의 통계분석과 다르지 않고.”
“유행처럼 이 프로그램, 저 프로그램 등이 좋다고 선전하는데, 우리 교수님은 지금 학생들은 잘 알지도 못하는 ‘Fortran Program’과 ‘SAS’만으로 지금까지 거의 1백 편에 가까운 논문을 쓰셨고, 요즘은 SPSS도 기능이 많이 향상되어 학생들 가르치기 쉽다고 이것을 주로 쓰셔”
영수형의 친절한 설명에 통계프로그램에 대한 강박관념이 어느 정도 사라지는 것 같다.
“일단 하나라도 제대로 해야겠다!”
통계분석에 대해서는 정말로 많은 프로그램들이 있고, 또 만들어지고 있다. 그러나 통계에 임하는 우리의 자세는 “세상이 좋아져서 자꾸 쉬운 프로그램이 나오나 보다” 정도로 넘기고 지금 가지고 있고 배우고 있는 프로그램에 최대한 능숙해지는 것이다.
뭐~팁을 하나 더 주자면, 한 가지 프로그램에 익숙한 사람은 다른 프로그램도 쉽게 배울 수 있다는 거다.