brunch

평균과 일상생활 1

상황에 따라 사용하는 평균이 달라요...

by 김응석

많은 양의 데이터를 효율적을 활용할 수 있는 방법이 무엇일까?

수집한 데이터를 대표할 수 있는 한 개의 요약값으로 정리하는 것을 생각할 수 있다. 이렇게 요약한 값들을 "통계량(Statistics)"라고 한다. 평균, 표준편차, 분산, 중위수, 변동 계수 등등 목적에 따라 많은 종류의 통계량이 있다. 이 중에서 우리가 일상생활에 거의 습관적으로 사용하는 것이 "평균"이 아닐까 싶다. 시험 성적, 키, 몸무게 등등 평균을 활용해서 전체에 대한 크고 작음을 판단하고 있다.

하지만, 일상생활에 만나는 상황별로 사용하는 평균이 다르다.


1. 산술(Arithmetic) 평균 : 습관적으로 사용하는 "합의 평균"

가장 익숙하게 사용하는 산술평균은 가장 널리 사용되는 평균이다. 수집한 모든 데이터 값의 합을 데이터의 개수로 나눈 값으로써, 우리가 일상생활에서 "평균"이라고 부르는 것은 대부분 산술평균을 의미한다. 산술평균은 연령, 혈압, 가중치, 온도, 속도 등 연속형 데이터에 주로 사용한다. 계산이 간단하고 직관적이며, 통계학적 이론 전개에 가장 기본이 되는 개념이라는 장점이 있지만, 수집한 데이터가 상대적으로 대칭적이거나 정규 분포를 따라야 하고, 수집한 데이터 중에서 평균 계산에 왜곡이나 큰 영향을 줄 수 있는 이상치가 없어야 하는 등 사용을 위한 전제 조건을 만족해야 하는 단점이 있다.

산술평균.jpg


2. 기하(Geometric) 평균 : "곱의 평균"으로 비율을 확인

1억 원을 투자하여 첫 해에 2천만 원, 두 번째 해에 5천만 원의 이익을 얻었다면, 연평균 수익률을 얼마가 될까?

기하평균1.png

여기서 생각해야 할 것은 3년 차 금액은 두 개 수익률을 곱해야 하는 것이다.

- 180,000,000원 = 100,000,000원 X 1.2 X 1.5

산술평균을 활용할 수 있는 "합"이 아니라 "곱"의 상황이다. 이럴 경우 사용하는 것이 "기하 평균"이다.

산술평균으로 계산하면 연평균 이익률을 35%가 된다. 하지만, 산술평균은 "복리 효과"를 반영할 수 없는 단점이 있다. 따라서, 곱으로 표현되는 상황에서는 (1.2 X 1.5)^1/2로 계산할 수 있는 기하 평균을 사용한다.

- 기하 평균 = 약 1.34 = (1.2 X 1.5)^1/2

산술평균과 기하평균으로 금액을 계산하면 산출평균이 곱의 상황에서는 실제값보다 더 큰 결과가 나오는 것을 확인할 수 있다.

- 산술평균(1.35) 활용 : 100,000,000원 X 1.35 X 1.35 = 182,250,000원 (실제보다 2,250,000 차이 발생)

- 기하평균(약 1.34) 활용 : 100,000,000원 X 1.34164 X 1.34164 = 180,000,000원 (실제값과 일치함)


3. 조화(Harmonic) 평균 : '가중치'를 고려한 역수의 평균

화창한 날씨에 자전거를 60km 탔다. 처음 30km 구간은 시속 10km로 달리고, 나머지 30km는 시속 30km로 달렸다면 평균 시속은 얼마가 될까?

조화평균.png


합의 상황, 곱의 상황도 아닌 "가중치"의 상황을 발견할 수 있다. 이 상황에서는 "시간"이 가충치 역할을 하고 있다. 동일한 거리를 달렸음에도 천천히 달린 구간에서는 3시간이 걸렸고, 빨리 달린 구간에서는 1시간이 걸렸다. 이런 상황에서 사용하는 것이 바로 조화평균이다.

산술평균을 계산하면 시속 20km((10 + 30)/2)가 된다. 전체 달린 거리가 60km인데 산술평균시속 20km를 사용할 경우 걸린 시간은 3시간이 된다. 하지만 실제 걸린 시간은 4시간이기 때문에 실제 결과와 차이가 발생한다.

조화 평균은 역수의 평균이다. 이 상황에서 가중치인 속도의 역수를 취함으로써 오래 걸린 구간의 비중을 더 크게 할 수 있기 때문에서 역수를 사용한다.

- 조화평균의 역수 = (1/10 + 1/30) / 2 = (0.1 + 0.33333)/2의 역수 = 15km

- 60km / 15km = 4시간 --> 실제 상황과 맞음

실제 많이 달렸던 3시간 구간은 0.1, 적게 달렸던 1시간 구간은 0.3333을 고려하기 때문에 오래 걸린 시간에 비중을 크게 하여 가중치를 부여했음을 알 수 있다.

* 조화평균은 조화평균의 역수를 구한 다음 조화평균을 구한다. *




세 가지 평균은 일상생활에서 활용 목적과 데이터 간의 결합하는 방식을 확인한 다음 명확하게 구분하여 사용해야 한다.

산술평균: 데이터가 합산적으로 결합될 때, 즉 각 값의 절대적인 크기가 중요할 때 사용한다. 일반적인
측정값의 중심을 나타내며, 데이터가 대칭적이고 이상치가 없을 때 가장 적합하다.

기하평균: 데이터가 곱셈적으로 결합될 때, 즉 비율, 성장률, 수익률 등 복리 효과를 반영해야 할 때 사용
한다. 시간 경과에 따른 누적 변화율을 정확히 표현할 때 적합하다.

조화평균: 데이터가 가중치에 대한 역수 관계를 가질 때, 즉 속도, 시간당 비율, 밀도, 생산성 등 효율성
측정에 사용한다. 고정된 '일'에 대한 '시간'이나 '비용' 등에 대한 평균을 계산할 때 유용하다.


keyword
작가의 이전글Normal 분포의 활용 3