기초통계 시리즈 2
안녕하세요, 브래드입니다.
오늘은 Sapientia a Dei님이 무료로 출간하신 t-test에 관한 내용을 복습할 겸 요약 정리하고자 합니다.
좀 더 세부적인 내용은 해당 도서 내용을 참고해 주세요.
https://who4u78.github.io/book1/chapter2.html
1. t-test의 목적은 두 집단이 같은지 다른지 비교하기 위한 것이다.
→ 두 개의 집단을 비교하기 위해 통계적인 측정값인 '평균'을 사용
→ 평균값은 데이터의 중심을 대표하는 대푯값이므로 두 집단이 같은지 다른지 비교 가능
2. 모집단이란 우리가 연구하려는 대상 전체를 말한다.
3. 모집단의 경우에는 대문자 N을 사용하고, 샘플(=표본)의 경우 소문자 n을 사용한다.
4. 우리가 논문을 쓰거나 보고서를 쓸 때, 통계적인 부분을 기술할 경우 데이터의 사이즈를 영문으로 표현할 때는 소문자 n을 사용하는 것이 맞다.
(=모집단 데이터를 만나기란 사실상 어려우므로)
5. ex) A대학 평균 키: 178.5cm, B대학 평균 키: 179.9cm
→ A대학 남학생 평균키(178.5cm)와 B대학 남학생 평균키(179.9cm)가 우연히 같은 확률은 얼마나 될까? or A대학과 B대학의 남학생 평균키 차이인 1.4cm가 우연히 발생했을 확률은 얼마나 될까?
→ 두 대학 남학생의 평균키의 차이는 1.4cm인데, 해당 값은 그저 차이이므로 이 값만 가지고 큰지 혹은 작은지 판단 불가능
→ 따라서, 판단에 도움이 될만한 숫자인 표준편차(혹은 분산)가 필요함
→ 두 대학의 평균키의 차이인 1.4cm는 다른 의미로 보자면 두 집단의 수많은 데이터들 사이의 평균적인 거리가 1.4cm라는 의미. 즉, 두 집단의 평균값의 차이도 일종의 편차인 것입니다. 여기서 이제 우리가 데이터를 통해 표준편차 s를 얻었다고 가정해 보자.
→ [평균과 표준편차를 활용한 의사결정 플로우]
1) 두 집단 A와 B의 데이터 사이의 평균적인 거리는 1.4cm
2) 두 집단 A와 B의 데이터들의 표준편차는 Scm
3) 만약 이 1.4cm가 표준편차 Scm보다 현저히 작다면, 우리는 이 1.4cm의 차이에 큰 의미를 둘 수 없을 것이므로 이 1.4cm의 차이는 우연히 발생했다고 결론 내릴 것이다.
4) 그러나 만약 이 1.4cm가 표준편차 Scm보다 현저히 크다면, 우리는 이 1.4cm의 차이에 큰 의미를 둘 수 있을 것이므로 이 1.4cm의 차이는 우연히 발생하지 않았으며 무언가 이 차이에는 원인 혹은 이유가 있을 것이라고 결론 내릴 수 있을 것이다.
6. 기본적으로 z-test와 t-test의 차이는 분석하는 데이터가 모집단일 경우에는 z-test를 하는 것이고, 분석하는 데이터가 표본일 경우에는 t-test를 한다.
→ 모집단에는 z-test 그리고 표본에는 t-test
7. 정규분포는 종 모양으로 평균값을 중심으로 좌우가 대칭인 곡선이다.
→ 평균과 표준편차만 있으면 정규분포 규정 가능
8. 정규분포의 아래 면적이 확률이다.
= 이 면적이 우리가 구할 p값
*p값: 우리가 어떤 사건이 우연히 일어날 확률의 확률값
**면적의 총합은 1(확률의 총합은 1이므로)
9. 표준 정규분포란 평균이 “0” (zero)이고 표준편차가 “1”인 정규분포를 표준 정규분포이다.
10. ex) 금년 A 대학교는 신입생 1000명을 대상으로 영어 실력 고사를 시행하였는데, 시험 결과 영어점수의 분포가 정규분포에 근사하였다. 영어시험 결과 평균점수는 82점이었고 표준편차는 5점이었다. 이때, 82점부터 90점까지의 점수를 받은 학생 수는 몇 명일까?
→ 우리는 정규분포 내 해당 값의 면적 부분을 적분하지 못하므로, 정규분포 곡선을 표준 정규분포곡선으로 변환해야 한다.
→ 표준화 공식을 적용해야 한다.
→ 표준화 공식을 적용하여 z값을 구한 후 표준 정규분포표(z-table) 내 값을 확인하여 확률을 구한다.
11. t-test를 진행하기 전, 양측검정과 단측검정에 대해 알아야 한다.
12. 양측검정 혹은 단측검정의 사용은 연구자의 논리에 따라 다르다.
→ 방향성이 없다면 즉 클 수도 있고 작을 수도 있다면 양측검정이 적용되어야 하고, 방향성이 분명하다면 즉 어떤 이유나 논리로 인해 크거나 작다는 한쪽을 명확히 할 수 있다면 단측검정이 되는 것이다.
13. [t-test 프로세스]
1) 두 그룹의 평균값의 차이는 우리의 핵심 관심사
2) 두 그룹의 평균값의 차이를 분자에 둔다
3) 그러나 이 값만으로는 충분히 큰지 작은지 알 수 없다
4) 그래서 비교대상인 표준편차를 가져와 분모에 넣고 나누어 비율을 만든다
5) 표준편차는 의미 없는 무작위의(random) 편차이다
6) 그러므로, 평균값의 차이가 표준편차보다 작거나 비슷하다면 이 평균값의 차이는 우연히 발생했다고 판단한다
7) 반대로 평균값의 차이가 표준편차보다 충분히 크다면 이 평균값의 차이는 우연히 발생하지 않았다고 보고 무엇인가 원인 혹은 이유가 있다고 추정한다
14. [t-test 예시의 해석과 결론]
1) A대학 남학생의 평균키는 178.5cm, B대학 남학생의 평균키는 179.9cm이다.
2) 표준편차 s는 7.05cm이고, 샘플 사이즈 n은 101명이다.
3) t값의 공식을 이용해 구한 t값은 1.996이다.
4) t-table에서 양측검정 (two-tails)의 유의 수준 a = 0.05와 df(자유도) = 101 - 1 = 100을 이용해 찾은 c.v은 1.984이다.
5) 우리의 t값이 c.v. 보다 크므로 p값은 5% (0.05) 보다 작아 유의하다.
6) 그러므로 우리는 귀무가설을 기각하고 대립가설을 채택하기로 한다.
7) 이는 두 대학의 평균키 차이 1.4cm가 우연히 발생하지 않았으며, 여기에는 무언가 이유 혹은 원인이 있다고 추정할 수 있다.
15. t-test에는 크게 세 가지 종류가 있다. 공식을 외울 필요는 없으나, t-test의 종류별 특징을 파악하여 어떤 상황에서 어떤 목적으로 활용할 것인지를 알아야 한다.
1) Two-sample t-test(=independent t-test)
2) One-sample t-test
3) Paired t-test
16. [통계 프로그램 예시]
1) SAS
2) SPSS
3) STATA
4) R
5) jamovi