입맛따라 상황따라 쓰는 강력한 프로그램들
통계학(統計學, 영어: statistics)은 수량적 비교를 기초로 하여, 많은 사실을 통계적으로 관찰하고 처리하는 방법을 연구하는 학문이다. 위키피디아에 따르면, 근대 과학으로서의 통계학은 19세기 중반 벨기에의 케틀레가 독일의 "국상학(國狀學, Staatenkunde, 넓은 의미의 국가학)"과 영국의 "정치 산술(Political Arithmetic, 정치 사회에 대한 수량적 연구 방법)"을 자연과학의 "확률 이론"과 결합하는 시도를 기원으로 본다고 기술 하고 있다.
통계학은 여러 현상(자연 현상이나 사회 현상)으로 인해 얻어진 다양한 자료들에 대해 분석하고 연구하는 학문이다. 태생적으로 수학과는 불가분의 관계일 수밖에 없는 학문으로, 통계를 공부하려면 어느 정도의 수학을 반드시 알아야 한다.
그러나 수학과 통계학은 엄연히 그 학문적 방향성이 다르다고 할 수 있는데, 수리적 관점을 중시하는 수리통계학은 확률분포의 성질, 충분성, 검정의 효용성에 대한 수리적 증명과 논리, 확률과정(stochastic process)의 수리적 성질에 방점이 찍혀 있는 것에 비해, 응용과학이나 사회과학을 기반으로 하는 통계학적인 견지에서는 통계적 모형에 대한 추정방법 개발과 구현, 분석 결과의 해석 등을 중시하는 경향이 있다
사실 통계학은 그 학문을 추구 하는 방향에 따라서 가장 다양한 단과대학에 포진한 학과이기도 하다. 자연과학대학에 통계학과가 있는 대학도 있고, 사회과학대학에, 상경대학에, 학교 규모에 따라서 공과대학에 위치한 경우도 있다. 그 학교의 학자들이 추구하는 방향성에 따라서 커리큘럼과 학풍에서 상당한 차이가 있다고 할 수 있다.
현대에 이르러서는 안 그래도 자료가 방대하게 쏟아져 나오는 시대적 변화에 따라서, 통계 분석 방법들이 많이 알려져 이를 실제로 적용하는 데에는 컴퓨터를 이용해야 하는 게 일반적인 경우가 되어 버렸다. 사실 통계학과 통계 패키지는 거의 모든 학문에서 사용된다고 할 수 있다. 어학이나, 사학, 철학에서의 경우도 연구 목적에 따라 계량적 연구를 하는 기법에 따라서 통계 소프트웨어를 사용하고 있으며, 심지어는 스포츠 경기 분석이나 예술 분야 (예컨대 세이버 메트릭스, 선수별 볼 점유율, 음원 유사성과 패턴 분석 )등 거의 전방위 범위에서 사용된다.
현대에 들어와 미래를 예측해 더 나은 결과물을 처방하고 분석할 수 있는 통계의 장점으로 인해서 수많은 데이터 가운데 의미 있는 데이터를 찾아냄으로써 더 나은 의사결정을 돕는 작업인 데이터 클리닝, 데이터 마이닝 등으로 학문이 발전함에 따라 다양한 데이터 과학자들의 역할이 중요해지고 있다. 현대 사회의 기업과 기관들은 주요 데이터에 대한 분석이 이뤄지는 하위 조직들을 가지고 있으며 시스템에서 나오는 각종 데이터를 분석해 기업의 핵심 영역에 가치를 더하는 조직으로 변모 중이다.
통계학은 이처럼 전산학, 프로그래밍 언어, 선형대수학, 해석학, 분포론, 수치해석, 확률론 등 여러 학문과 관련이 있을 뿐만 아니라 이러한 수리적 모델을 기반으로 하는 평가모형달이 개발되었는데. 회귀분석, 인자 분석 , 구조방정식, 요인 분석, 군집분석 등 과 같은 평가모형과 분류 모형들이 발전되고, 이들이 순수한 학문의 연구뿐만 아니라 정부의 정책평가, 미래의 수요예측, 다양한 위험인자의 사전 분석 에 이르는 등 아직도 계속 발전되어 가는 과정에 있다.
기 본적으로 통계분석 자체의 과정들은 어떤 계산을 하는 과정의 지속적인 연합이라고 볼 수도 있다. 따라서, 계산을 할 수 있도록 하는 Software가 있으면 기본적으로 통계분석도 가능하다. 예를 들어 전자계산기나 Python, C++, Fortran 등 명령어 소프트웨어로도 충분히 다양한 통계분석이 가능하다고 볼 수 있겠다.
그러나 전자계산기나 Python, C++, Fortran 등은 통계분석을 위한 Software가 아닌 단순 계산이나 다양한 일반 프로그래밍을 위한 Software이므로, 고급 통계프로그램을 수행하고, 오차 없는 안정된 분석을 하기 위해서는 자체적으로 많은 명령어를 연구자가 직접 핸들링해서 생성해야 하며, 데이터를 수동적으로 연구자가 직접 다시 코딩하거나 모델링을 해야 한다는 불편함이 있다.
때문에 통계분석에 특화된 Software가 등장하였고 최근 분석방법의 발달에 따라서 지속적으로 분석 소프트웨어가 업그레이드 되고있다. 대표적인 예를 들어, SPSS, Stata, AMOS, LIMDEP, Ms-Excel, SAS, R, GAUSS, MATLAB, Mini-TAB, E-views 등과 같은 통계분석용 Software가 바로 그들이다.
이러한 통계분석 Software에서는 고급 분석의 가장 기본적인 단계라고 할 수 있는 회귀분석 등을 수행할 때 간단하게 분석할 수 있도록 하는 어떤 모듈(module)이나 Function이 자체적으로 내장되어있는 데 이러한 모듈이나 Function을 사용하면 전자계산기나 Python 등으로 회귀분석을 위해 일일이 계산할 필요 없이 간단하게 처리할 수 있는 것이다. 즉, 연구를 진행하기 위해서는 기본적으로 응용이 가능한 통계 소프트웨어를 하나 이상 정도는 다룰 수 있는 것이 좋다.
통계분석을 위한 Software는 프로그래머가 사전에 구현된 분석 공식만을 수행할 수 있는 Canned software와 연구자가 직접적으로 명령어를 입력해서 통계모델을 디자인할 있는 Liberal Software로 구분해서 생각할 수 있는 데 SPSS, Stata(일부 연구자가 목적에 맞게 수정 변형이 가능), LIMDEP, AMOS와 같은 프로그램이 대표적인 Canned software라고 볼 수 있다.
반면, Ms-Excel, R, SAS, MATLAB, GAUSS와 같은 Software는 상당히 자유도가 높게 분석모형을 연구자가 구축할 수 있기 때문에 Liberal software라고 볼 수 있기 때문에 전자계산기나 Python, C++, Fortran등과 같은 Language기반의 소프트웨어 같이 General 한 명령어 수행이 가능하다. 즉 프로그래머가 구현해놓지 않은 다양한 분석을 연구자가 직접 디자인할 수 있다고 할 수 있다.
일반적으로 전자의 프로그램(대표적으로 SPSS) 들은 아주 단순한 프로그램과 사전에 구축해 놓은 방대한 명령어가 내재되어 있기 때문에 사용자 입장에서 빠른 학습이 가능하다는 장점이 있다. 또한 일반적으로 수리적 계산 방법이 중요한 것이 아니라 사전에 통계학자들과 수학자들이 오류 없이 구축한 연구모형들을 그대로 활용할 수 있기 때문에 매우 안정적인 연구결과를 산출할 수 있다는 장점이 있다. 대부분의 사회과학들은 수리적 모형이 중요한 것이 아니라, 연구자의 연구의도와 해석과 통찰력을 더 중시하므로 전자의 프로그램만을 학습하는 것이 효율적이라고도 볼 수 있다.
반면, 후자의 프로그램들(R이나 SAS)은 명령어를 직접 입력해서 디자인할 수 있기 때문에 자유로운 연구와 수정이 가능하다는 측면에서 연구의 제한이 없다는 장점이 있다. 최근에는 그 명령어 입력한 방법이 아주 쉽게 메뉴얼화 됨으로써 학습하기도 쉽기 때문에 R프로그램이 통계학과를 중심으로 큰 인기를 끌고 있다.
그렇다면 이제부터 각종 통계 프로그램들의 특징에 대해서 간단하게 살펴보도록 하자.
SAS (Statistical Analysis System) - 기업체에서 주로 쓰는 대표적 프로그램이다. 큰 규모의 자료를 편리하게 다룰 수 있으나 각종 통계 분석 결과를 왜곡해서 보여준다는 비판을 받기도 한다. 또한 큰 규모의 자료를 분석할 수 있는 만큼 소프트웨어 자체의 로열티가 매우 비싸다는 단점이 있다. 다만 한번 익혀둘 경우 거의 무적의 분석능력을 자랑하는 강력한 프로그램이다. SAS의 경우는 만든 회사에서 숙련도에 따라서 자격증을 부여하고 있는데 최고 난이도의 자격증의 경우 한국에서 누적 합격자가 2,3명 정도인 매우 고난도의 자격증이다 (응시료와 준비과정을 통합하면 비용만 3~400만 원이 넘어간다는 것은 함정). 한번 취득하면 나름대로 어마어마한 경쟁력을 가진 자격증이라고 할 수 있겠다.
R (프로그래밍 언어) - 무료 공개 통계 프로그래밍 환경이다. S 언어에 바탕을 두고 개발되었으며, 학술적 목적으로 널리 사용된다. 새로 개발된 분석 방법들이 확장 패키지를 통해 공개되고 있다. 최근에는 그 자유도가 높고 다양한 프로그램이 응용된다는 측면에서 통계학과에서 가장 인기 있는 프로그램으로 변모하였다. R은 소프트웨어 프로그램들 중 유일하게 관련된 프로그램 학술지가 있을 정도로 학문적 연구와 토론이 활발하게 이루어지고 있다.
SPSS (Statistical Package for the Social Sciences) - 사회과학도들의 가장 가까운 통계파트너라고 평가받는다. 1975년, 미국 시카고대학에서 개발한 통계 처리용 패키지 프로그램으로 이후에 기능이 보완된 SPSS-X가 개발되었으며, 1995년 윈도우 버전이 출시되어 꾸준한 소프트웨어 업그레이드를 해오고 있는 패키지이다. 다양한 통계분석을 할 수 있고 가장 쉽게 배울 수 있고, 사용자 친화적 환경으로 인해서 사회과학, 의학 등 전 분야에서 다양하게 쓰이는 프로그램이나 계산 속도가 느려 큰 규모의 자료를 다루기에는 적합하지 않은 프로그램이다. 하지만 표본이 작은 리서치를 대상으로 연구를 진행할 경우 가장 쉽고 빠르게 분석할 수 있다는 장점이 있다. 한국에서는 사회조사 분석사라는 통계 관련 국가 자격증을 응시할 경우 대부분 SPSS로 응시를 하고 있는 현실이다.
MINITAB - 학교와 기업에서 품질관리와 통계학 교육용으로 많이 사용되는 프로그램이다. 직관성이 뛰어나고 배우기가 매우 쉽다.
MATLAB: 각종 공학 계산과 공업용 통계를 사용할 때 효과적인 프로그램으로, 결과 디자인과 그래프를 다양하게 제공함으로써, 분석의 직관성을 가지고 있다는 장점이 있다.
통계학의 발전에 따라서 경로 분석, 회귀 분석, 요인 분석이 합성되어 발전된 통계 방법인 구조방정식 모델링이 사회학을 중심으로 각광을 받아왔는데, 이 구조방적식 분석 방법의 큰 특징은 직접적으로 측정할 수 없는 잠재 변수(Latent variable)를 분석에 포함시켜서 강력한 추론과 인과관계를 파악할 수 있도록 연구모형을 디자인할 수 있다는 것이 그 큰 특징이다. 따라서 사회과학 분야에서 주로 활용되고 크게 반향을 일으켰던 방법론이었으나, 최근에는 자연과학 분야와 데이터 마이닝 분야에서도 응용하려는 움직임이 나타나고 있다.
구조방정식을 소프트웨어로 초반에 구현한 프로그램들은 LISREL, EQS 등으로서 전통적으로 활용되고 있어왔으나, 국내에서는 사회과학자들의 상당수가 대부분 SPSS를 활용하고 있으며, SPSS 데이터를 기반으로 친화성 및 경로모형을 직접 그릴 수 있다는 장점을 가진 GUI 툴인 AMOS가 현재는 가장 널리 사용되고 있어왔다.
현 시점에서는 Mplus라는 프로그램이 현존하는 구조방정식 소프트웨어에서 가장 오차가 적고, 잔차나 외생/내생 변수 등에 대해서 통제하면서 분석 및 적용함에 따라 가장 강력한 기능을 보유했다고 평가 받는다.
이 외에도 최근에는 무료 통계분석 소프트웨어인 R의 응용 패키지인 'SEM'과 'Lavaan'을 사용하여 구조방정식분석을 할 수 있게 되었다.
지금까지 통계학의 간단한 발전과정과 소프트웨어 프로그램들에 대해서 개략적으로 소개를 마쳤다. 어떤 프로그램을 쓰는 것이 정답이냐는 중요하지 않다. 개별 연구자가 본인의 목적에 따라서 사용 가능한 프로그램을 분석하는 것이 옳을 것이다.
필자는 학문적 특성상 SPSS를 학부 때 활용하였고, 대학원에서는 각종 계량경제 모델과 시계열 모형분석을 쉽게 분석해내고 응용 및 활용 할 수 있는 STATA를 배워서 사용하고 있다. SAS와 R도 기본적인 분석은 가능하지만 아직 미진한 것은 사실이다.
무엇보다 통계 패키지 프로그램은 꾸준하게 연습하고 사용해야 본인의 것이 된다는 사실은 변함이 없다.
앞으로 데이터 분석과 통계를 다루는 과정에서 SPSS와 STATA를 활용해서 통계분석을 하는 방법과 결과 해석하는 방법에 대해서 연재할 생각이다. 부족한 부분이 있다면 언제든지 지도해주시면 많은 도움이 될것 같다.