brunch

You can make anything
by writing

C.S.Lewis

by 라인하트 Jun 12. 2021

Jamovi 의 이해 : 1. 기술 통계

   자모 비(Jamovi)는 SPSS의 공개 오픈 소프트웨어 버전입니다. 자모비 소프트웨어는 아래 사이트에서 다운로드할 수 있습니다. 


   이 글은 SPSS에서 사용법을 위주로 설명하여 배경 지식을 설명하지 못했습니다. 자모비를 설명할 때는 배경 지식을 위주로 설명합니다.  



1. 기술 통계 (Descriptive Statistics)

      기술 통계는 기술은 테크놀로지가 아니라 설명하거나 묘사한다는 뜻입니다. 기술 통계는 데이터를 묘사하고 설명하는 통계 기법입니다. 기술 통계는 데이터가 특정 값으로 모이는 거나 높은 빈도를 나타내는 것을 묘사하는 집중화 경향 (Centeral tendency)과 데이터가 뭉쳐 있거나 퍼져 있는 정도를 나타내는 산포도(Dispesion)을 살펴봅니다.  


1.1 집중화 경향


   데이터의 집중화 경향을 파악하는 통계적 방법을 설명합니다.  자모비에 입력한 데이터는 5개이고, 결과창에 다음과 같이 나타납니다. 



N (표본의 개수)

   데이터의 총 수를 나타냅니다. 


Missing (값이 없는 데이터)

    빈칸을 의미합니다. 5개의 데이터 모두 값을 가지고 있습니다. 


평균 (Mean)

   평균은 전체 데이터들의 중심값입니다. 전체 데이터의 합을 총 데이터의 수로 나누어준 값입니다.  각 데이터가 x이고, 데이터의 총 수가 n 일 때 평균은 다음과 같습니다. 

    예를 들면,  데이터가 1, 2, 3, 4, 5 일 때  평균은 3입니다. 

 

중앙값 (Median)

   중앙값 또는 중위값은 전체 데이터들을 크기 순서대로 나열할 때 중앙에 위치한 데이터입니다. 

   예를 들면, 데이터의 총 수가 홀수인 1, 2, 3, 4, 5 일 때  중앙값은 3이고,  데이터의 총 수가 짝수인 1,2,3,4,5,6, 일 때 중앙값은 3과 4의 평균인 3.5입니다. 


   아웃라이어 데이터가 있는 데이터셋의  전체 평균은 지나치게 큰 값이나 작은 값에 의해 영향을 받지만, 중앙값은 아웃라이어 데이터에 영향을 받지 않습니다. 예를 들면,  1,2,10 일 때 평균은 6.5이지만, 중앙값은 2입니다. 중앙값은 아웃라이어를 배제합니다. 


최빈값(Mode)

  최빈값은 가장 많은 빈도를 나타내는 값을 의미합니다. 

  예를 들면, 1, 2, 3, 4, 4, 2, 2,2 가 있을 때 최빈값은 2입니다. 데이터셋이 모두 다른 값을 가진다면 최빈값은 존재하지 않고, 첫 번째 데이터를 표시합니다. 

   데이터셋에서 평균이나 중앙값을 구할 수 없을 때 유용합니다. 


합계 (Sum)

   모든 값들을 합친 값입니다. 

   예를 들면, 데이터가 1, 2, 3, 4, 5 일 때  평균은 3입니다. 



1.2 산포도 (Dispersion) 분석

   산포도 집중화 경향 값을 기준으로 얼마나 퍼져 있는지를 파악하는 통계적 방법은 4 가지가 있습니다. 

  


분산 (Variance)

   분산은 각 데이터를 평균으로 뺀 값을 제곱하고 총 데이터의 수로 나눈 값입니다.  각 데이터를 평균으로 뺀 값은 편차입니다. 편차는 음수와 양수가 있으므로 모두 더하면 0입니다. 따라서, 편차를 제곱합니다.  

   예를 들면, 데이터가 1, 2, 3, 4, 5 일 때  분산은 2입니다. 

   그러나, 모집단이 아닌 표본 집단에 대해 분산을 구할 때 전체 개수 n에 대해 1을 뺍니다. 실제로 표본의 평균을 안다면 마지막 한 개의 데이터는 무조건 정해지기 때문입니다. 예를 들면, 3개의 표본 1,2,3 이 있고, 평균이 2입니다. 누군가 1과 2를 선택하면 평균 2를 맞추기 위해 나머지 데이터는 무조건 3입니다. 누군가 1과 3을 선택하면 평균 2를 맞추기 위해 나머지 데이터는 2입니다.  즉, n-1 까지 데이터는 무작위로 추출할 수 있지만, 마지막 데이터는 무작위 추출을 할 수 없기 때문입니다. 표본 분산은 전체 데이터의 총 수에서 1을 뺍니다. 표본 분산은 다음과 같습니다. 

    예를 들면, 데이터가 1, 2, 3, 4, 5 일 때  표본 분산은 2.5입니다. 


   모집단에 대해 모분산을 구하는 상황은 거의 없기 때문에 표본 분산을 사용합니다. 



표준편차 (Standard Deviation)

   편차 (Deviation)는 각 데이터와 평균 사이의 차이를 의미하고, 표준 편차는 편차를 제곱한 분산을 다시 원래의 값으로 돌리기 위해 분산에 대해 제곱근한 값입니다. 편차를 제곱한 분산이 넓이의 개념이라면 편차는 길이의 개념입니다. 

  예를 들면, 데이터가 1, 2, 3, 4, 5 일 때  모분산은 2 이고 모표준 편차는 1.414 입니다. 또한, 표본분산은 2.5이고, 표본표준편차는 1.581 입니다.  



   모집단에 대해 모분산을 구하는 상황은 거의 없기 때문에 표본 표준편차를 사용합니다. 



최소값(Minimum)

   전체 데이터 중에서 제일 작은 값입니다. 

   예를 들면, 데이터가 1, 2, 3, 4, 5 일 때  최소값은 1입니다.


최대값(Maximum)

   전체 데이터 중에서 제일 큰 값입니다. 

   예를 들면, 데이터가 1, 2, 3, 4, 5 일 때  최대값은 5입니다.


범위 (Range)

   전체 데이터의 최대값과 최소값을 뺸 값으로 두 점 사이의 거리를 구한 값입니다. 

   예를 들면, 데이터가 1, 2, 3, 4, 5 일 때  최대값은 5 이고 최소값은 1입니다. 범위는 4입니다. 


표준 오차 (Standard Error of the Mean)  

   모집단에서 표본을 추출할 때마다 표본이 달라지므로 표본 평균은 계속 달라집니다. 표본 평균의 값들이 이루는 분포를 표집 분포 (Sampling Distribution) 또는 표본 평균 분포이라고 합니다. 예를 들면,  모집단에서 30개의 표본 크기를 가진 표본을 100번 반복해서 추출할 때 100 개의 표본 평균이 나옵니다. 표집 분포 또는 표집 평균 분포는 100개의 표본 평균들이 이루는 분포입니다.


   중심 극한 정리에서  표본의 크기 n이 커질수록 표집 분포의 평균은 모집단의 평균  μ에 근접하고, 표집 분포의 표준편차는 σ/√ n에 근접합니다. 

   표집 분포의 표준 편차를 표준 오차라고 합니다. 

   예를 들면, 데이터가 1, 2, 3, 4, 5 일 때  표준 오차는 0.7071 입니다. 


사분위간 범위 (IQR)

   사분위(quartile)는 전체 데이터를 크기 순서로 나열한 후 4개의 그룹으로 동일한 개수로 나눈 것입니다. 사분위간 범위(Interquartile range)는 3 사분위수에서 1 사분위수를 뺀 값입니다. 

   박스 그래프에서 좀 더 쉽게 이해할 수 있습니다. 



1.3 정규 분포 (Normal Distribution) 분석


   정규 분포는 좌우 대칭의 종모양으로 생긴 그래프로 가우스 분포라고도 합니다. 놀랍게도 대한민국 남자의 키의 분포, 전국 수학능력 시험 점수 분포, 몸무게 분포, 혈압 분포와 같은 대다수의 자연 현상들은 정규 분포를 따릅니다. 정규분포를 따르지 않는다고 할 수 있는 경우는 매우 제한적입니다. 


   예를 들면, 동전을 던져서 앞면이 나올 확률을 계산합니다. 동전의 앞면이 나올 확률은 50% 또는 0.5입니다. 이항분포는 시행 회수는 10번에 확률은 0.5입니다. 따라서, 확률 p인 사건을 N번 시행한 것을 B(B,p)라고 표현합니다. 동전을 던져서 앞면이 나오는 횟수를 그래프로 그리면 정규 분포를 따릅니다. 처음 몇 번은 아니지만 횟수를 반복할수록 100번, 200번, 1,000번으로 늘려도 정규분포를 따릅니다. 


      정규 분포는 평균값에 가장 많은 데이터가 분포하고 평균과 멀리 떨어질수록 데이터가 적게 분포합니다.  정규 분포는 평균값을 중심으로 표준편차만큼 좌우 대칭의 형태를 가집니다. 표준편차가 클수록 옆으로 넓게 퍼지는 언덕 모양이고, 표준편차가 작을수록 뾰족한 종모양입니다.


   데이터가 정규 분포를 따를 때 서로 다른 집단의 정규 분포를 비교해합니다. A그룹의 키는 평균 170cm에 표준편차가 20 cm이고, B 그룹의 키는 평균 160cm에 표준편차가 30cm입니다. 두 그룹을 비교하기 위해 평균을 0으로 하고 표준 편차를 1로 하는 표준 정규 분포를 사용합니다. 데이터에서 평균을 빼고 표준편차로 나누어줍니다. 

   표준 정규 분포는 다음과 같이 표준 편차 1배에 68%의 데이터가 분포하고, 표준편차 2배에 96%의 데이터가 분포하고, 표준편차의 3배에 99%의 데이터가 분포합니다. 


   분포의 정도는 첨도와 왜도=로 설명합니다.  



왜도 (skewness) 

    왜도는 분포의 좌우 대칭 정도를 나타냅니다. 0을 기준으로 + 값은 왼쪽으로 치우친 정적 편포이고, - 값은 오른쪽으로 치우친 부적 편 포입니다. 


왜도 표준 오차 (Standard Error Skewness)

    왜도에 대한 표집 표본의 표준 편차입니다.  왜보와 왜도 표준 편차를 활용하여 정규 분포를 따르는지를 확인하는 Z 검정에 활용합니다. 


첨도 (Kurtosis)

   분포의 모양이 중앙값에 모여 있는 정도를 나타냅니다. 0을 기준으로 +값은 종모양이 뾰족한 정도를 나타냅니다. 


왜도 표준 오차 (Standard Error Kurtosis)

    첨도에 대한 표집 표본의 표준 편차입니다. 


Shapiro-Wilk 검증

   Shapiro-Wilk 검증은 연속형 데이터로 이루어진 변수가 정규 분포를 따르는 지를 검증합니다. 영가설은 변수는 정규분포를 따른다이고, 대립 가설은 변수는 정규 분포를 따르지 않는다입니다. 사피로-위키 검증에서 유의 확률 p값이 0.5 이하일 때 영가설을 기각하고 대립 가설을 채택합니다. 



2. 자모비 실습 

   자모비에서 기술 통계를 실습합니다.


2.1 데이터 입력

   자모비 데이터 화면에 10개의 숫자를 다음과 같이 입력합니다. 


   [ 1, 2, 3, 4, 5, 6, 6, 6,  , 7, 8]


2.2 기술 통계 집중화 경향 분석 

    "Analyses >> Exploration >> Desciptive"를 선택합니다. 


자모비의 결과창에 기술 통계의 집중화 경향을 확인합니다. 


   기술 통계의 집중화 경향 분석의 값을 설명합니다.

N : 데이터의 총 수

Missing : 값이 없는 데이터의 수

Mean : 평균

Median : 중앙값

Mode : 최빈값

Sum : 합계


2.3 기술 통계 산포도 분석

    "Analyses >> Exploration >> Desciptive"를 선택합니다. 


   자모비의 결과창에 기술 통계의 산포도를 확인합니다.   

   기술 통계의 집중화 경향 분석의 값을 설명합니다.


N : 데이터 총 수

Missing : 값이 없는 데이터의 수

Std. error mean : 평균의 표준 오차 

Standard deviation : 표준 오차 

Variance : 분산

Range : 범위

Minimum : 최소값

Maximu : 최대값


2.4 기술 통계 분포 분석

    "Analyses >> Exploration >> Desciptive"를 선택합니다. 



   자모비의 결과창에 기술 통계의 분포도와 정규 분포성을 확인합니다.   


Skewness : 왜도

Kurtosis : 첨도

Shaprto-Wilk : 사피로 윌키 검증


   샤피로-윌키 검증의 유의 확률 p값은 0.05보다 매우 크므로 영가설을 채택합니다. 변수는 정규 분포를 따릅니다. 




3. 기술 통계 그래프 


   자모비는 기술 통계 데이터를 그래프로 그립니다. 


3.1 히스토그램(Histogram)

   연속 변수를 막대그래프 또는 그래프로 그립니다. 수평축은 변수 A이고, 수직축은 같은 값의 개수를 나타냅니다.  막대 그래프와 연속 그래프입니다. 


3.2 박스 그래프 (Box Plots)

   박스 그래프는 데이터의 분포 정도를 요약해줍니다. 박스 안의 중앙선은 중앙값(Median) 5를 나타냅니다. 박스의 아래는 1 사분위이고, 박스의 위는 3 사분위입니다. 따라서, 박스의 크기가 사분편차 범위(IQR, Inter-Quartile Range) 값입니다. 

   박스 그래프로 첨도와 왜도를 알 수 있습니다. 정규분포를 따르면 박스의 중앙 근처에 중앙값이 위치하고, 오른쪽으로 치우친 부적편포일 때 박스의 위부분이 좁고, 왼쪽으로 치우친 정적 편모일 때 박스의 아래쪽이 좁습니다. 아래 그래프는 부적편포입니다. 



바이올린 그래프

   바이올린 그래프는 데이터의 분포 정도를 나타냅니다. 가장 뚱뚱한 값은 6입니다. 

ㅡ로

데이터 그래프는 데이터를 그래프로 그립니다. 검은색 작은 상자가 평균입니다. 


3.3 막대그래프 (Bar Plots)

데이터를 막대그래프로 그립니다. 히스토그램과 동일합니다. 서열 척도 또는 명명 척도에 효과적입니다. 


3.4 Q-Q Plots 

   Q-Q 그래프는 정규 분포 가정을 따르는 지를 보여줍니다. 대각선을 따라 데이터가 배치된다면 정규분포를 따른다고 할 수 있습니다. 아래 그래프는 대각선 주위에 데이터가 분포하고 정규분포를 따른다고 가정합니다.  


3.5 scattorplot 

    "Analyses >> Exploration >> scattorplot"을 선택합니다. 

  

     수평축은 변수 A를 할당하고, 수직축은 변수 B를 할당합니다. 11개의 학습 데이터를 표시합니다.  


   데이터에 적합한 직선을 그립니다. 


  데이터에 적합한 곡선을 그립니다. 


   표준 오차 (Standard Error)를 표시합니다. 회색 영역은  95% 신뢰구간을 표시합니다. 


매거진의 이전글 머신 러닝 강의 노트 : 16. 정규화 (하)
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari