(1) 평균, 나눗셈, 비율, 여러 그래프 및 히스토그램 개념
안녕하세요, 브래드입니다.
오늘은 「통계가 빨라지는 수학력」이란 도서를 함께 살펴보고자 합니다.
해당 도서를 읽고, 과거에 배웠던 중요한 수학 및 통계 개념들을 리마인드 할 수 있었으며, 이를 통해 분석 작업에 탄력을 받을 것이라 생각합니다.
기존에 알지 못했던 혹은 헷갈렸었던 개념들을 이번 글에서 남겨보고자 합니다.
평균의 정의는 다음과 같습니다.
n개의 데이터가 있다고 가정했을 때, 해당 데이터들의 합계를 개수 n으로 나눈 것을 평균이라고 합니다.
이때, 평균을 x위에 바를 붙여서 표현하기도 합니다.
평균은 이상치에 큰 영향을 받기 때문에 평균으로는 알 수 없는 특징도 있습니다.
이에, 데이터의 특징을 파악하기 위하여 중앙값이나 최빈값 등을 사용하기도 합니다.
나눗셈은 크게 등분제와 포함제로 나뉩니다.
A를 n등분하면 1개당(1명당) p개인 경우는 [등분제]이며, A룰 n씩으로 나누면 p개가 되는 A는 n기 p개 분인 경우는 [포함제]입니다.
위와 같이 나눗셈을 등분제와 포함제로 분류를 진행한 이유는 비율이란 개념 때문입니다.
비율의 정의는 다음과 같습니다.
비교하는 양을 기준으로 삼은 양으로 나누면 비율 값을 구할 수 있습니다.
이때, 같은 단위끼리의 비율은 기준(전체)에 대한 비교하는 양(부분)의 비율을 나타내며 포함제의 비율이라고 할 수 있습니다.
반대로 다른 단위끼리의 비율은 기준(단위량)에 대한 수치의 대소를 나타내며 등분제의 비율이라고 할 수 있습니다.
그래프는 크게 다음과 같은 종류를 가집니다.(물론 이외에도 굉장히 많은 그래프가 존재합니다.)
먼저, 막대그래프는 양의 대소를 비교하는 데 적합합니다.
꺾은선그래프는 변호를 나타내는 데 적합하며, 특히 시기별 데이터를 확인할 경우 꺾은선그래프가 유용하게 활용될 수 있습니다.
원그래프는 각각의 항목이 차지하는 비율을 시각적으로 쉽게 구분할 수 있도록 도와줍니다.
띠그래프는 연도나 조건에 의해 같은 항목의 비율이 어떻게 변화했는지를 비교할 수 있으며, 한 가지 주의해야 할 점은 그래프를 해석할 때 비율이 감소 혹은 증가만으로는 절대수의 증감을 파악할 수 없습니다.
데이터의 종류는 크게 위와 같이 나타낼 수 있습니다.
먼저, 1차적으로 데이터는 질적 데이터와 양적 데이터로 구분됩니다.
질적 데이터는 '카테고리컬 데이터'라도고 불리며 혈액형, 선호하는 음식, 응원하는 팀 등 헤아릴 수 없는 변량(질적 변량)으로 이루어진 것을 말합니다.
반면에, 양적 데이터는 숫자를 더하거나 혹은 빼는 것에 의미가 있는 변량(양적 변량)으로 이루어져 있습니다.
이때, 양적 데이터는 다시금 이산형 데이터와 연속형 데이터로 분류할 수 있습니다.
이산형 데이터는 쉽게 생각하면 2개 사이에 다른 값이 없는 것을 말합니다. 단편적인 예로 주사위는 1과 2 사이에 1.5라는 눈이 없으므로 이산형 데이터로 생각할 수 있습니다.
연속형 데이터의 대표적인 에시로는 키이며, 키는 아무리 세분화시켜도 중간값이 존재하므로 연속형 데이터라고 생각할 수 있습니다.
도수분포표는 각 계급마다 도수, 상대도수, 누적상대도수 등을 정리하면 표입니다. 도수분포표에 사용되는 개념들을 간단하게 정리하면 다음과 같습니다.
계급: 데이터를 몇 개의 동등한 폭으로 나눈 구간
계급값: 각 계급의 중앙값
도수: 각각의 계급에 들어가는 데이터의 수
상대도수: 도수의 합계에 대한 각 계급 도수의 비율
누적상대도수: 그 계급 이하의 상대도수의 합계
위와 같이 가격 자료가 내림차순으로 나열된 데이터가 존재한다고 가정해 봅시다.
해당 자료에서 도수분포표를 활용하기 위해선 먼저 계급의 폭을 정해야 합니다.
단, 계급의 폭이 너무 좁으면 표가 복잡해지고 반대로 너무 넓으면 데이터의 경향을 알기 힘드므로 주의가 필요합니다.
추가로, 계급의 폭을 정할 때는 다음과 같은 JIS 규격이 존재합니다.
- 계급의 폭은 1, 2, 5, 10, 20, 50 등에서 자르기 좋은 값을 선택합니다.
- 계급 수가 5~20의 범위 내에 있게 합니다.
- 계급의 종류가 너무 많거나 거누 적거나 하지 않게 합니다.
가격 자료 예시 데이터에서 R(범위)를 구하기 위하여 먼저, 최댓값에서 최솟값을 빼면 R = 98944 - 1217 = 97727입니다.
97727 / 1 = 97727
97727 / 2 = 48863
97727 / 5 = 19545
97727 / 10 = 9772
97727 / 20 = 4886
계급의 폭을 정하기 위해 1~20으로 숫자를 나누었는데, 아무래도 가격 데이터가 큰 탓에 결과를 제대로 도출하지 못하고 있습니다.
따라서 조금 더 큰 숫자들로 나누어보도록 합니다.
97727 / 1000 = 97.27
97727 / 2000 = 48.86
97727 / 5000 = 19.54
97727 / 10000 = 9.77
97727 / 20000 = 4.88
위와 같이 계산을 진행해 보니, 몫이 5~20이 되는 것은 5000과 10000으로 나누었을 때입니다. 두 구간 중에서 계급의 폭이 큰 10000을 선택하는 것이 가장 적합함을 파악할 수 있습니다.
위 결과를 바탕으로 엑셀을 통해 도수분포표를 작성한 모습입니다.
계급값, 계급을 구한 후 FREQUENCY 함수를 통해 도수를 구하고, 상대도수와 누적상대도수를 구해준 모습입니다.
여기서 상대도수의 식은 다음과 같습니다.
상대도수 = 주목하고 있는 계급의 도수 / 도수의 합계
즉, 위 결과에서 10000 이상~20000 미만인 경우의 상대도수는 9/71로 약 0.13 임을 알 수 있습니다.
앞서 진행했던 것처럼, 도수분포표로 데이터를 정리하여 확인할 수도 있지만, 조금 더 직관적인 시각화가 필요할 경우 다음과 같이 히스토그램을 활용할 수 있습니다.
엑셀의 데이터분석 - 히스토그램을 통해 나타낼 수 있으며, 간격너비를 0으로 하여 진행할 수 있도록 합니다.
히스토그램을 그릴 때는 최초와 최후 계급의 이웃은 합 계급 분만큼 띄우는 것이 좋으며, 일반적으로 세로막대의 간격을 띄우지 않습니다.
오늘은 「통계가 빨라지는 수학력」 도서 첫 시간으로 평균, 나눗셈 등 기본적이지만 매우 중요한 개념들을 함께 공부해 보았습니다.
다음 시간에도 이어서 해당 도서 내 중요한 개념들을 알아보겠습니다.
브래드였습니다.
감사합니다.