(2) 대푯값, 사분위수, 상자그림
안녕하세요, 브래드입니다.
도서「통계가 빨라지는 수학력」두 번째 편으로,
지난 시간에 이어서 중요 개념들을 살펴보겠습니다.
무수히 많은 데이터 내에서 데이터의 경향 혹은 특징을 파악할 수 있게 해주는 값이 바로 대푯값입니다.
대푯값 중에는 평균이 대표적으로 존재하며, 중앙값과 최빈값도 대푯값으로 활용됩니다.
중앙값은 데이터 개수가 짝수일 때와 홀수일 때 다르게 계산됩니다.
계산의 과정 및 결과는 다음과 같습니다.
1) 데이터의 개수가 홀수인 경우
: 중앙값 = 정가운데의 값
2) 데이터의 개수가 짝수인 경우
: 중앙값 = 중앙에 있는 2개 값의 평균
위와 같이 짝수일 때, 그리고 홀수일 때
상이하게 중앙값을 계산하여 구할 수 있습니다.
일반적으로 데이터 내에서 이상치가 존재하는 경우엔 평균으로 데이터를 평가하기 어렵습니다.
이상치로 인해 해당 데이터의 평균이 큰 값 또는 작은 값을 갖기 쉬워지기 때문입니다.
따라서 데이터가 이상치를 갖는 경우엔 평균보다 중앙값을 사용하여 데이터를 대표하는 것이 좋습니다.
최빈값은 도수가 가장 많은 데이터의 값을 말하며,
쉽게 풀이하면 데이터 개수가 가장 많은 값을 말합니다.
사분위수는 데이터를 크기순으로 배열했을 때 4 등분하는 3개의 수치를 말합니다.
작은 것부터 제1사분위수, 제2사분위수, 제3사분위수라고 부릅니다.
또한, 제2사분위수는 위 이미지에서 알 수 있듯이 중앙값과 일치합니다.
사분위수를 구하는 방법은 다음과 같습니다.
1) 데이터의 최솟값과 최댓값을 구합니다.
2) 데이터의 중앙값을 구합니다(=제2사분위수)
3) 중앙값 아래쪽 절반의 중앙값을 구합니다(=제1사분위수)
4) 중앙값 위쪽 절반의 중앙값을 구합니다(=제3사분위수)
이와 같이 데이터 분포 상태를 조사하기 위한 최솟값, 최댓값 그리고 3개의 사분위수를 합쳐서 5수요약이라고 일컫습니다.
앞서 학습한 5수요약으로 데이터 분포 상태를 나타내는 그래프를 상자그림이라고 합니다.
각 구획에는 모든 데이터의 약 25%씩이 포함되어 있습니다.
다만, 각각의 길이가 일률적이지 않다면 데이터 분포 상태가 치우침이 있다고 판단할 수 있습니다.
위와 같은 상자그림이 있다고 가정해 보겠습니다.
10점부터 100점이 존재할 때 해당 상자그림으로 다음과 같은 인사이트를 얻을 수 있습니다.
1) 절반의 학생이 30점 후반~80점 후반대의 성적을 거두었습니다.
2) 성적이 하위 25%인 학생은 점수가 들쭉날쭉합니다.
3) 성적이 하위 25~50%인 학생의 점수는 좁은 범위에 집중되어 있습니다.
4) 성적이 상위 25%인 학생은 점수가 좁은 범위에 집중되어 있습니다.
오늘은 도서「통계가 빨라지는 수학력」 도서 두 번째 시간으로 대푯값, 사분위수, 상자그림의 개념 및 활용에 대해 알아보았습니다.
특히, 상자그림은 데이터 파악 시 유용하게 활용할 수 있으므로,
기본적인 개념을 숙달한다면 실무에 분명 도움이 되리라 생각합니다.