설문 조사에서 하나의 답을 선택하는 경우와 복수의 답을 선택하는 경우가 있습니다. 각 질문에 대한 빈도 분석을 설명하고, 빈도분석을 이해하기 위한 정규분포를 다룹니다.
정규 분포는 좌우 대칭의 종모양으로 생긴 그래프로 가우스 분포라고도 합니다. 놀랍게도 대한민국 남자의 키의 분포, 전국 수학능력 시험 점수 분포, 몸무게 분포, 혈압 분포와 같은 대다수의 자연 현상들은 정규 분포를 따릅니다. 따라서, 논문에서 대부분의 연속된 값을 가지는 변수는 정규분포를 따른다고 가정합니다. 정규분포를 따른다는 것이 완전히 힘들 경우에 한 해서만 정규 분포 가능을 포기합니다. 정규 분포를 모르면 양적 연구를 시작할 수 없습니다.
정규분포를 알기 위해 이항분포부터 설명합니다. 동전을 던져서 앞면이 나올 확률을 생각해 봅시다. 동전의 앞면이 나올 확률은 50% 또는 0.5입니다. 이항분포는 시행 회수는 10번에 확률은 0.5입니다. 따라서, 확률 p인 사건을 N번 시행한 것을 B(B,p)라고 표현합니다. 동전을 던져서 앞면이 나오는 횟수를 그래프로 그리면 정규 분포를 따릅니다. 처음 몇 번은 아니지만 횟수를 반복할수록 100번, 200번, 1,000번으로 늘려도 정규분포를 따릅니다.
정규 분포는 평균값에 가장 많은 데이터가 분포하고 평균과 멀리 떨어질수록 데이터가 적게 분포합니다. 정규 분포는 평균값을 중심으로 표준편차 만큼 좌우 대칭의 형태를 가집니다. 표준편차가 클수록 옆으로 넓게 퍼지는 언덕 모양이고, 표준편차가 작을수록 뾰족한 종모양입니다.
데이터가 정규 분포를 따를 때 서로 다른 집단의 정규 분포를 비교해합니다. A그룹의 키는 평균 170cm에 표준편차가 20 cm이고, B 그룹의 키는 평균 160cm에 표준편차가 30cm입니다. 두 그룹을 비교하기 위해 평균을 0으로 하고 표준 편차를 1로 하는 표준 정규 분포를 사용합니다. 데이터에서 평균을 빼고 표준편차로 나누어줍니다.
표준 정규 분포는 다음과 같이 표준 편차 1배에 68%의 데이터가 분포하고, 표준편차 2배에 96%의 데이터가 분포하고, 표준편아의 3배에 99%의 데이터가 분포합니다.
동전의 앞면이 나올 확률이 정규분포를 따른다고 할 때 시도횟수가 얼마나 되어야 할까? 확률 분포의 종류에 상관없이 시도회수가 많을수록 정규분포를 따른다는 것은 알고 있습니다. 중심 극한 정리는 시도회수가 30을 넘으면 표본은 정규 분포를 따른다는 것입니다.
SPSS에서 빈도 분석을 수행합니다.
1) 메뉴바에서 "분석 >> 기술 통계량 >> 빈도분석"을 선택합니다.
- 기술 통계 (Descriptive Statistics)와 추리 통계 (Interential Statistics)
기술 통계는 기술은 테크놀로지가 아니라 설명하거나 묘사한다는 뜻입니다. 기술 통계는 데이터를 묘사하고 설명하는 통계 기법입니다. 기술 통계는 주로 데이터가 특정 값으로 모이는 거나 높은 빈도를 나타내는 것을 묘사하는 집중화 경향 (Centeral tendency)를 살펴보는 것과 데이터가 뭉쳐 있거나 퍼져 있는 정도를 나타내는 분산(Variation)을 살펴봅니다. 예를 들어, 서울의 평균 소득은 1,000만 원이라고 가정할 때, 소득 규모가 넓게 퍼져 있다면, 소득 편자가 크고 소득 분배가 제대로 되지 않은 것입니다.
추리 통계는 데이터를 기반으로 무엇인가를 추론하고 예측하는 통계 기법입니다.
2) 빈도 계산 창에서 모든 변수를 변수 칸으로 이동시키고, "통계량"을 선택하고 모든 옵션을 선택합니다.
- 백분위값(Percentie Values)
사분위수 : 데이터를 값을 기준으로 나열했을 때, 25%, 50%, 75%에 해당하는 값으로 표시
백분위수 : 직접 지정한 백분위의 범위 (1 ~100)를 지정한 값으로 표시
- 중심 경향 (Central Tendency)
중심화 경향은 데이터가 중심으로 모이는 경향을 살펴보는 것입니다. 중심으로 나타낼 수 있는 것들은 평균(Mean), 중앙값 (Median), 최빈값(Mode), 합계(Sum) 있습니다.
평균값 : 데이터를 개수로 나눈 값
중앙값 : 데이터의 값을 기준으로 줄을 세울 때 가장 중앙에 위치하는 값
학생이 10명이라면 점수별로 1등에서 10등까지 줄을 세우고 5등의 성적이 중앙값
최빈값 : 데이터 중에 빈도가 가장 많은 데이터
명목 데이터의 값으로 대표적인 사례는 투표
- 산포도 (Dispersion)
표준편차 (Standard Deviation) : 데이터와 평균과의 차이
분산 (Variance) : 표준편차의 제곱
범위(Range) : 최소값과 최대값의 차이
SE 평균 : Standard Error 평균의 표준오차, 표본이 모집단에서 얼마나 떨어져 있는 지
- 분포
왜도 (skewness) : 분포의 좌우 대칭 정도
정적편포 : 0을 기준으로 + 값을 가지며 왼쪽으로 치우침
부적편포 : 0을 기준으로 -값을 가지며 오른쪾으로 치우침
첨도 (kurtosis) : 분포의 모양이 중앙값에 모여 있는 정도
0을 기준으로 + 값을 가지면 뽀족한 모양
3) 빈도 계산 창에서 "차트"를 선택하고 히스토그램옵션을 선택합니다.
결과에서 주로 보는 지표는 평균, 표준 쳔차, 왜도와 첨도입니다. 지표를 보기 위해서는 문수백 저자의 구조 방정식 모델링의 이해와 적용 (2009, 학지사) 책의 내용을 참조할 필요가 있습니다.
":정규 분포 여부룰 확인한 결과, 왜도(skewness)의 절대값이 3.0이하여야 하고, 첨도(kurtosis)는 8.0이하여야 한다"
위의 결과는 그 기준을 적용하였을 때, 왜도의 절대값은 0.122~ 0.502 범위로 나타났으며, 첨도의 절대값은 0.378 ~ 1.883의 범위로 나타나 정규 분포 가정을 충족하는 것으로 판단합니다.
다음의 데이터를 이용하여 테스트합니다.
데이터를 분석하는 통계는 크게 두 가지 형태가 있습니다. 복수 응답은 질문에 대한 답을 두 개이상 선택하는 경우입니다. 예를 들면 다음과 같은 질문 형태입니다.
질문1, 귀하가 구매한 자동차의 형태를 모두 표시 하시오
(1) 세단 (2) SUV (3)미니밴 (4) CUV
질문2. 귀하가 선호하는 자동차의 형태를 1순위와 2순위에 각각 쓰시오
1순위 ( ) 2순위 ( )
(1) 세단 (2) SUV (3)미니밴 (4) CUV
1) 메뉴바에서 "분석 >> 다중반응 >> 변수군 정의"를 선택합니다.
2) 질문1과 같은 형태의 질문에 대한 변수 설정 (이분형)
다증 반응 변수군 정의 창에서 자동차의 형태에 대한 4개의 변수를 선택하고, 새로운 변수명을 구매형태라고 선언한 후 "추가" 버튼을 누릅니다.
3) 질문 2와 같은 형태의 질문에 대한 변수 설정 (범주형)
다중 반응 변수군 정의 창에서 1순위와 2순위를 서냍ㄱ하고, 새로운 병수명을 선호형태라고 선언한 후 "추가" 버튼을 누릅니다.
4) 메뉴바에서 "분석 >> 다증반응 >> 빈도분석"을 선택합니다.
5) 다중응답 변수인 구매형태와 선호형태를 "표작성 응답군"으로 이동 시킨 후 "확인"을 누릅니다.
다중 응답 변수 구매형태에 대한 4 가지 자동차 구매 형태를 선택한 것을 백분율로 표시합니다. 다중 응답 변수 선호형태에 대한 4 가지 자동차 구매 형태를 선택한 것을 백분율로 표시합니다.
테스트 예제
참고자료
https://bookdown.org/mathemedicine/Stat_book/normal-distribution.html