분산분석(ANOVA) 파헤치기

기초통계 시리즈 3

by 브래드

Jun 30. 2023

안녕하세요, 브래드입니다.

오늘은 Sapientia a Dei님이 무료로 출간하신 분산분석에 관한 내용을 복습할 겸 요약 정리하고자 합니다.

좀 더 세부적인 내용은 해당 도서 내용을 참고해 주세요.

https://who4u78.github.io/book1/chapter3.html

통알못을 위한 기초통계 1 - 3 분산분석 (ANOVA)

https://who4u78.github.io/book1/chapter3.html

�통알못을 위한 기초 통계 3: 분산분석(ANOVA)

1. ANOVA라는 단어는 Analysis of Variance의 약자이다.

2. 세 개의 대학의 남학생의 평균키가 같은 지 다른 지 알고 싶다면 t-test를 두 번 하면 되는가?

→ 정답은 NO

→ t-test를 여러번 진행하는 Multiple t-test를 시행하면 1종 오류 발생

→ 따라서 분산분석을 진행해야함(=세 개 이상의 집단의 평균값이 같은지 다른지)

3. 분산분석에 사용되는 변수의 특징?

- 종속변수: 연속형 변수 (Continuous variable)만 가능함

- 독립변수: 이산형(Discrete variable) 혹은 범주형 변수(Categorical variable)만 가능함

4. ANOVA를 위한 데이터 코딩

- 데이터 분석에서 코딩이란 말은 데이터를 입력하는 것을 의미

- 코딩이 완료된 엑셀 화면에서 한 개의 행(row)는 관찰값(observation)을 의미

ex) 만약 100명의 사람들에게서 설문 응답을 받아 이를 제대로 코딩했다면 100개의 행(row)을 갖게 되는 것

- 엑셀에 코딩된 화면에서 한 개의 열(column)은 한 개의 변수를 의미

- 한 개의 변수는 한 개의 열(column)에 입력되어야 함

5. ANOVA는 F-value(F값)이다.

- z-test, t-test와 마찬가지로 F-test에서는 먼저 F-value(=두 분산의 비율=Between Variance와 Within Variance의 비율)를 구할 것이고 이것을 F-distribution에 기반하여 F-table에서 우리가 원하는 p-value와 관련한 정보를 얻어낸다.