독학으로 논문쓰는 안내서
정규분포 그래프 아래 면적의 합이 1, 즉 100%라는 이해를 얻었으므로 이제 다음 단계로 넘어가도록 하자. 이번에는 통계에 관한 기본용어를 알아볼 시간이다. 우리가 통계 전문가가 될 것은 아니므로 가설검정에 필요한 개념만 이해하고 넘어가도록 하자.
평균, 분산, 표준편차 이 세가지 개념만 설명하도록 하겠다.
아주 입체적으로 이해하기 위해 이번에도 그림을(?) 이용하기로 한다.
자, 먼저 평균을 살펴보자. 윗 줄의 1, 5, 9의 평균은 몇인가? 대충 봐도 5이다.(일부러 간격을 띄어놓았으니 알기 쉬울 것이다) 그러면, 그 아랫 줄 3, 5, 7의 평균은 몇인가? 대충 봐도 똑같이 5이다.
윗줄 평균 : (1+5+9)/3 = 5
아랫줄 평균 : (3+5+7)/3 = 5
그러면 윗 줄과 아랫 줄은 평균이 같으므로 비슷한 성격의 값들일까? 딱 봐도 윗 줄은 숫자 간의 간격이 더 넓은데 평균만 비교해서는 값이 같으므로 비교가 어려운 부분이 생긴다.
바로 이러한 부분을 개선하기 위해 분산이라는 개념이 필요해진다. 아주 쉽게 이해해서 그냥 분산되어 있는 정도 라고 생각하면 쉽다. 평균과 달리 값들 간에 분산되어 있는 정도를 보기 쉽게 해주는 개념이다. 그래서 특정 값이 평균과 얼마나 차이나는지를 구하고, 이것을 제곱해서 이들의 합이 0이 되는 상황을 피한다.
예를 들어 설명해 보겠다. 윗줄인 1, 5, 9의 분산은
1의 경우, 1-5=-4,
5의 경우 5-5=0,
9의 경우 9-5=4 이므로
합치면 0이 되어 버리는 현상이 발생한다. 이러한 상황을 피하면서도 분산되어 있는 정도를 보는 가장 무식하면서도 쉬운 방법은 그냥 제곱을 해서 - 값을 없애준 뒤 더해서 평균을 내는 것이다. 그게 분산이고 이해할 건 그게 전부다. (제곱 표기가 어려운 관계로 그림으로 넣었다)
마지막으로 표준편차만 이해하면 된다. 이것 역시 쉽다. 분산이라는 값은 인위적으로 제곱을 해서 부풀렸으니 원래 보다 부풀려져 있다. 그러면? 루트 씌워서 다시 제곱을 풀면 된다. 그래서 위의 분산값에 루트(제곱근)를 씌운 것이 표준편차이다. 보통 표준화되었다 라고 하는 말이 약간 그런 의미를 지닌다고 보면 된다. 편차라는 말은 어차피 분산과도 비슷한 용어이기도 하고(그림 크기 조정이 안되는 점은 양해하기로 하자).
자 이것을 가지고 정리하면 아래 그림과 같이 비교가 된다. 윗줄과 아랫줄은 평균은 같지만, 분산과 표준편차는 윗줄이 크므로 윗줄에 있는 값들이 더 분산되어 있다는 것을 숫자만 보고 딱 알 수가 있다. 이것을 그래프로 그린다면 아래 숫자 위에 표기된 것처럼 핑크색 그래프가 평균 5를 중심으로 조금 더 넓게 퍼진 그래프이고, 아랫 줄은 흰 색 그래프처럼 조금 더 뾰족한 그래프 모양이 된다.
좋은게 좋은 것이라고 쉽게 이해하도록 합시다.