brunch

You can make anything
by writing

C.S.Lewis

by 라인하트 Jun 13. 2021

Jamovi 의 이해 : 2. 추리 통계

   자모비(Jamovi)는 SPSS의 공개 오픈 소프트웨어 버전입니다. 자모비 소프트웨어는 아래 사이트에서 다운로드할 수 있습니다. 


   

이 글은 SPSS에서 사용법을 위주로 설명하여 배경 지식을 설명하지 못했습니다. 자모비를 설명할 때는 배경 지식을 위주로 설명합니다.  


1. 추리 통계 (Interential Statistics)


      추리 통계는 데이터에서 추론하고 예측하는 통계기법입니다. 


1.1 용어 정리 


 모집단(Population)

   모집단은 통계 실험의 모든 대상입니다. 예를 들면, 대한민국 남성의 키를 조사할 때 모집단은 대한민국의 모든 남성의 키 데이터입니다. 


모수 (Parameter)

   모수는 모집단의 특성을 나타내는 수치입니다. 모수는 모집단의 평균을 나타내는 모평균, 모집단의 분산을 나타내는 모분산, 모집단의 표준 편차를 나타내는 모표준편차 등입니다. 연구자가 알고 싶은 것은 모집단의 데이터가 아니라 모집단의 특성을 설명하는 모수입니다. 예를 들면, 대한민국 남성의 키를 조사할 때 연구자가 알고 싶은 것은 모든 데이터가 아니라 모평균 또는 모표준편차입니다. 


모집단 분포 (Population Distribution)

   모집단은 데이터 집단으로 어떤 분포를 이룹니다. 모집단 분포는 모집단을 구성하는 데이터가 이루는 확률 분포입니다. 


표본 (Sample)

   대한민국 남성의 키를 조사할 때 모집단은 대한민국 모든 남성의 키 데이터를 확보해야 합니다. 하지만, 경제적 공간적 시간적 제약으로 전수조사는 불가능합니다. 따라서, 표본을 추출하여 모집단을 추정합니다.


통계량(Statistics)

   모수가 모집단 분포 특성을 설명한 것처럼 통계량은 확률 표본의 특성을 설명합니다. 통계량은 표본 평균 표본 분산, 표분 표준편차 등입니다. 


확률 표본 (Random Sample)

   표본은 어떤 의도 없이 객관적이고 무작위로 추출해야 합니다. 확률 표본은 동일 분포와 독립 분포를 따릅니다. 동일 분포는 확률 표본과 동일한 모집단에서 추출한다는 의미이고, 독립 분포는 표본과 표본이 서로 영향을 미치지 않고 같은 확률로 추출한다는 의미입니다.  


확률 변수 (Random Variable)

    변수는 변하는 값이고, 확률 변수는 무작위 실험을 반복할 때 특정 확률로 발생하는 결과를 수치로 표현한 변수입니다. 예를 들면, 동전 던지기로 앞면이 나올 확률이 0.5일 때 시도할 때마다 앞면 또는 뒷면이 나옵니다. 앞면은 1 뒤면 0으로 실수 값을 부여하고, 동전 던지기에서 확률 변수 x는 시도할 때마다 0과 1의 값을 나타냅니다.   


확률 분포 (Random Distribution)

   확률 분포는 확률 변수의 모든 값과 대응하는 확률들의 분포입니다. 예를 들면, 동전 던지기로 앞면이 나오는 확률 변수에 따른 확률 분포를 그릴 수 있습니다. 예를 들면, 동던 던지기를 시도할 때마다 앞면이 나올 확률을 계산할 수 있고 시도횟수가 증가하면서 확률 분포를 그릴 수 있습니다. 


확률 함수

   확률 변수에 의해 정의된 실수를 확률에 대응시키는 함수입니다. 예를 들면, 동전 던지기에서 0과 1로 대응된 시키는 확률 함수입니다.  확률 변수와 확률 함수 간에 다음의 관계가 있습니다.


1.2 모수와 통계량의 관계

   모집단은 변하지 않기 때문에 모수도 변하지 않습니다. 반면에 표본은 추출방법에 따라 달라지기 때문에 통계량은 달라집니다. 연구자들은 이론적으로 모수는 측정할 수 없기 때문에 통계량으로 모수를 추정합니다. 측정할 때마다 달라지는 통계량으로 어떻게 모수를 추정할 수 있을까요?



   통계량이 확률 변수이고 확률 변수의 확률 분포가 정규 분포를 따른다고 가정합니다. 특정 확률 변수와 확률 함수를 안다면 특정 사건이 발생할 확률을 예측할 수 있습니다. 모수와 통계량의 관계를 안다면 모수에 대한 통계적 추정을 할 수 있습니다. 통계량이 확률 변수이고 통계량의 확률 함수 또는 표본 분포를 안다면, 모수를 추정할 수 있습니다. 


1.3 표집 분포   


   모집단에서 표본을 추출하고 표본 통계량으로 모수를 추정합니다. 표본 평균이 모평균과 같고 표본 분산이 모분산과 같을 확률은 매우 희박합니다. 표본을 추출할 때마다 표본 평균을 측정한다면 표본 평균은 계속달라집니다. 표본 평균의 값들이 이루는 분포를 표집 분포 (Sampling Distribution)이라고 합니다. 


   표집분포는 무한한 표본 평균의 값들이 이루는 분포로 이론 분포 (Theotetical Distribution) 이라고도 하고 추리 통계의 근거가 됩니다. 표집 분포는 중심 극한 정리와 연결됩니다. 



1.4 중심 극한 정리(Central Limit Theory)

   중심 극한 정리는 모집단의 모수와 표본의 통계량에 관계를 수학적으로 설명하는 것이고  다음과 같이 표현할 수 있습니다. 

 

    "모집단이 평균 μ(뮤)이고 표준편차 σ(시그마)인 분포를 이룰 때, 모집단으로 부터 추출된 표본의 크기 n이 충분히 크다면 표본 평균을 이루는 분포는 평균이  μ이고 표준편차가  σ/√ n에 근접한다"


   모집단에서 표본을 추출할 때마다 표본이 달라지므로 표본 평균은 계속 달라집니다. 표본 평균의 값들이 이루는 분포를 표집 분포 (Sampling Distribution) 또는 표본 평균 분포이라고 합니다. 예를 들면,  모집단에서 30개의 표본 크기를 가진 표본을 100번 반복해서 추출할 때 100 개의 표본 평균이 나옵니다. 표집 분포 또는 표집 평균 분포는 100개의 표본 평균들이 이루는 분포입니다.


  결과적으로 표집 분포의 평균은 모집단 평균과 일치하고 표집 분포의 표준편차는 모집단의 표준편차를 표본의 수를 제곱근한 값으로 나눈 값과 같습니다. 표집 분포의 표준 편차를 표준 오차 (Standard Error of the Mean:SE) 입니다.  


    중심 극한 정리는 표본 수집에 대한 아주 중요한 이론적 근거입니다. 모집단이 어떤 분포를 가지고 있든 간에 표본의 크기가 충분히 크면 표본 평균 분포가 모집단의 모수를 기반으로 한 정규 분포를 이룹니다. 특정 사건이 일어날 확률을 계산할 수 있습니다. 중심 극한 정리는 표본 분포와 모집단 간의 관계를 증명하고, 표본의 통계량을 이용해 모집단의 모수를 추정할 수 있는 수학적 근거입니다. 


   중심 극한 정리는 최소 표본의 수가 30개 이상이면  통계량이 모집단의 모수와 같다고 판단합니다.



2. 가설 검증   


2.1 가설 개요

   가설(Hypothesis)은 변수들 간의 잠정적인 관계에 대한 진술 또는 진실이라고 생각되는 주장이라고 할 수 있습니다. 가설 검정 (Hypothesis Testing)은 관찰 대상에 대한 가설을 통계 기법으로 검정하는 것을 의미합니다. 과학에서 가설은 "태양이 지구를 돈다"라는 천동설이나 "지구가 태양을 돈다"라는 지동설과 같은 것이고, 실험이나 관찰로 가설을 검정합니다. 통계에서 가설은 "어떤 모집단에 대한 잠정적 주장"으로 일정한 형식을 따릅니다. 


   통계적 가설 검정에서 반드시 귀무가설과 대립 가설을 설정합니다. 어떤 가설을 채택할지 또는 기각할지를 결정하는 것은 확률에 따라 결정합니다. 두 가설의 의미는 다음과 같습니다. 


 귀무가설, 영가설(Null Hypothesis)

   귀무가설은 모집단의 특성에 대해 참이라고 제안하는 주장입니다.  모집단의 모수는 무엇과 같다 또는 모집단의 모수는 무엇과 차이가 없다입니다. 예를 들면, 대한민국 남성의 평균 키는 180cm라는 주장을 통계적으로 검정할 때, 귀무가설은 "대한민국 남성의 평균 키는 180cm와 같다" 또는 "대한민국 남성의 평균 키는 180cm와 차이가 없다"입니다. 귀무가설은 "~와 같다"로 끝납니다. 


대립가설, 대안가설 (Alternative Hypothesis)

   대립가설은 귀무가설이 거짓일 때 대안으로 참인 가설입니다. 따라서, 귀무가설이 기각될 때 채택되는 가설입니다. 예를 들면, "대한민국 남성의 평균 키는 180cm와 같다"라는 귀무가설에 대한 대립 가설은 "대한민국 남성의 평균 키는 180cm와 같지 않다"입니다.  또, 제약회사에서 "신약은 효과가 있다"라는 귀무가설에 대한 대립 가설은 "신약은 효과가 있지 않다"입니다. 대립 가설은 "~와 같지 않다"로 끝납니다. 



2.2 귀무가설의 유의성 검증 (Null Hyphothesis Significance Testing)

    귀무가설의 유의성 검증은 데이터를 바탕으로 설정한 귀무가설과 대립가설 중에 어느 것이 맞는 지를 판단하는 것입니다. 모집단으로부터 표본을 추출하고 통계량으로 귀무가설이 참인지 거짓인지를 판단합니다. 


   표본을 추출할 때마다 통계량의 차이가 발생하기 때문에 항상 오류의 가능성이 존재합니다. 따라서, 귀무가설이 참이라고 가정할 때 표본에서 얻은 통계치가 관측될 확률을 계산합니다. 이 관측될 확률을 p 값이라고 합니다. 통계적으로 검정을 할 때 오류를 최소화해야 합니다. 통계적 오류는 크게 1종 오류와 2종 오류가 있습니다.


1종 오류 (Type 1 Error)

   1종 오류는 귀무가설이 실제로 참이어서 채택해야 하지만, 표본의 오차로 인해 채택하지 않는 오류입니다. 유의 수준이라고 말하며 α(알파)로 표기합니다.


2종 오류 (Type 2 Error)

   2종 오류는 귀무가설이 거짓으로 채택하지 말아야 하지만, 표본의 오차로 인해 채택하는 오류입니다. β로 표기합니다. 


1종 오류와 2종 오류는 다음과 같이 정리할 수 있습니다. 


   신약 개발 사례로 정리합니다. 귀무가설은 "신약은 효과가 없다"입니다. 1종 오류는 실제로 신약이 효과가 없지만 효과가 있다고 판단하는 경우로 회사는 엄청난 손해를 볼 것입니다. 2종 오류는 실제로 신약이 효과가 있지만 효과가 없다고 판단하는 경우로 회사는 수익을 창출하지 못할 것입니다. 


   통계 가설 검정에서 1종 오류를 최소한으로 줄이기 위해 유의 수준을 설정합니다. 보통  1% 또는 5% 이내로 설정하고 귀무가설을 채택하거나 기각합니다. 예를 들면, 유의 수준 5%는 독립변수가 실제로 종속 변수에 효과가 없지만 검정 결과 효과가 있다고 잘못 결론 낼 수 있는 확률이 5% 미만이라는 뜻입니다. 즉, 유의 수준 5%는 표본에서 추출한 통계량이 우연히 나타날 확률이 5% 미만이라는 뜻입니다.



3. 가설 검정 순서 정리

   

   귀무가설과 대립가설, 1종 오류와 2종 오류, 유의 수준을 이해했습니다. 이제 가설을 검정하는 방법을 정리합니다. 


1단계 : 귀무가설을 설정합니다.

     귀무가설은 모집단의 특성에 대해 참이라고 제안하는 주장입니다. 기존에 인정받는 가설입니다.  예를 들어, 토의식 수업 그룹과 강의식 수업 그룹 간의 시험 성적 평균은 같을 것이다.


2 단계 : 대립 가설을 설정합니다. 

   대립 가설은 영가설이 참이 아닐 경우 받아들일 수 있는 대안 가설입니다. 예를 들어, 토의식 수업 그룹과 강의식 수업 그룹 간의 시험 성적 평균은 같지 않을 것이다.


3단계 : 유의 수준 α를 정합니다. (0.05 또는 0.01)

   귀무가설을 기각하거나 채택하기 위한 유의 수준은 보통 5% (0.05) 또는 1%(0.01)로 설정합니다. 또한, 양측 검정을 할지 단측 검정을 할지도 설정합니다. 양측 검정이 단측 검정보다 좀 더 엄밀하게 검정을 합니다. 



4단계 : 표본을 수집하고 검정 통계량을 계산하고 p값을 계산합니다.

   표본을 수집합니다. 학생들을 두 집단으로 나누고 강의식 수업과 토의식 수업을 진행합니다. 수업 이전의 성적과 수업 이후의 검정 통계량을 계산합니다. 검정 통계량은 수집한 데이터를 이용해서 계산한 확률 변수입니다. 


   검정 통계량을 통해 계산된 확률이 p값입니다. p 값은 표본 통계량이 나타날 확률입니다. 귀무가설이 참일 때 표본 분포에서 추출한 표본 검정 통계량이 나올 확률입니다. 통계 기법이 사용하는 확률 분포 함수에 따라 정규 분포, t 분포, F 분포, 카이제곱 분포 통계량을 사용하여 p값을 계산합니다. 




   

5단계 : p값이 α 보다 작으면 귀무가설을 기각하고, p값이 α보다 크면 귀무가설을 채택합니다. 

   p값이 유의 수준 0.05 또는 0.01보다 작으면 귀무가설을 기각하고 대립가설을 채택합니다. p값이 유의 수준보다 클 경우 귀무가설을 채택합니다. 

   


4. Z 검정


4.1 Z 검정 개요

   단일 표본 Z 검증은 기술 통계의 왜도와 첨도를 이용하여 표준 정규 분포를 따르는지를 추리할 수 있습니다.  Z 검증을 계산하는 식은 다음과 같습니다. 

4.2 z 검정 계산

   학생 30명의 수학과 영어 성적에 대한 정규 분포 여부를 확인하기 위해 Z 검정을 합니다. 


   변수 math의 왜도(Skewness)는 0.34 이고 표준오차는 0.42 입니다. 유의 수준 α 는 0.80 이므로  수학 점수는 정규 분포를 따른다는 영가설을 통계적으로 유의미하게 만족합니다.  평균이 0인 이유는 정규 분포는 평균이 0이 되도록 조정하기 때문입니다.  

   변수 english의 왜도(Skewness)는 0.15 이고 표준오차는 0.42 입니다. 유의 수준 α 는 0.35 이므로  수학 점수는 정규 분포를 따른다는 영가설을 통계적으로 유의미하게 만족합니다.  

   

매거진의 이전글 Jamovi 의 이해 : 1. 기술 통계
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari