통계 기본 함수

딸바보 잡부

Apr 18. 2016

필자는 이력서의 테마가 'CRM전산'이지만, 실제 살아가는 행태는 월급쟁이이므로 회사가 시키는 이것저것을 하면서 삽니다. 본 문서 (분석이란 걸 위한 통계 완전 기초)는 추후 후배가 생기면 생각을 공유하기 위해 작성하고 있습니다. 후배가 생겨서 급하게 문서를 만드는 것보다 낫다고 생각하기에 미리미리 천천히 준비하는 차원입니다.

갈 길은 멀지만, 천천히 시작해 보겠습니다.

분석이란 걸 위한 통계 완전 기초

Chapter 1. 통계 기본 함수

* 기초 통계량을 구하는 경우 그 통계량을 구하는 기준(dimension)을 관심 깊게 그리고 그 이유에 대해 살펴봐야 합니다.

Chapter 2. 표준화/정규화

~~Chapter 3. 데이터 전처리~~

~~Chapter 4. 클러스터링, 장바구니~~

~~Chapter 5. 의사결정나무(Decision Tree), 회귀분석(Regression), 신경망분석(Neural Network)~~

~~Chapter 6. 모형평가, WoE~~

01. 합계 (Sum)

- 다음 사전: 한데 합하여 계산함

- 합계는 기본적으로 어떤 대상의 볼륨(Volumne, 크기/양 등 풍성한 정도)을 보기 위해 사용합니다. 즉, 어떤 대상의 규모를 보기 위함입니다.

일상생활에서 매우 자연스럽게 사용하기 때문에 합계를 보는 목적에 대해 잊을 가능성이 있습니다.

예를 들어 회사의 매출액을 볼 때 우리는 하나하나의 매출을 보는 것이 아닌 월 혹은 분기 기준으로 합계가 일어난 매출 합계금액을 보고 그 회사의 매출 규모를 파악합니다.

Sum 은 규모를 볼 때 사용합니다.

02. 개수 (Count)

- 다음 사전: 낱개로 셀 때의 물건의 수효

- 개수는 기준을 만족하는 대상이 출현한 횟수를 이야기합니다. 즉, 개수가 많다는 이야기는 출현한 횟수가 빈번하다는 것입니다. (합계와 비교할 때 합계는 면적, 개수는 점의 개수(?)를 보는 방식입니다.)

출현한 횟수에 부가적인 기준을 추가하면 개수 자체로도 훌륭한 통계량이 됩니다.

Count는 빈도를 볼 때 사용합니다.

03. 평균 (Average, means)

- 합계를 개수로 나눈 것으로 익히 알고 있는 것이지만, 쓰기에 따라 상당히 훌륭한 효과를 가집니다.

보통의 경우 평균은 어떤 데이터의 경향, 일반적인 성질 등을 나타내거나 파악하기 위해 사용합니다.

- 어떤 값이 방향성을 가지면 더욱 위력을 발휘합니다.

예를 들어 "이 특성은 평균에 수렴하는데, 현재 평균 대비 x% 높으므로 며칠 이내로 떨어질 가능성이 높다."라는 식입니다.
- 데이터의 일반적인 상태라 가정할 수 있기 때문에 평균을 기준으로 하여 특별한 값이 이탈했을 때 이상 징후로 판단할 수도 있습니다.

- 최대값과 최소값은 일반적으로 발생하지 않는 경우가 많기 때문에 상/하위 10%의 데이터를 버린 후 평균을 구할 수도 있으며, 이 경우 절사 평균이라 합니다.

평균은 일반적인 상태/성질을 파악하기 위해 사용합니다.

03.1. 이동평균

- 일반적인 평균을 약간 응용하여 구하는 방식인 이동평균은 데이터 처리는 다소 불편하지만, 추세를 보는 데 있어 유용하게 사용할 수 있습니다.

예를 들어 3개월 평균 매출에 대해 볼 때, 이동평균으로 값을 구하여 다음 달 매출을 추정해 볼 수 있습니다.

이동평균을 통해 추세에 따른 다음 값을 유추해 볼 수 있습니다.

03.2. 조화 평균

- 주어진 값들의 역수의 산술평균의 역수입니다.

- 평균적인 변화율을 구할 때에 사용합니다.

03.3. 기하평균

- https://ko.wikipedia.org/wiki/기하_평균

- 곱셈으로 계산하는 값에서의 평균을 계산하고자 할 때 산술 평균이 아닌 기하 평균을 사용합니다.

- 예를 들어 어떤 값이 처음에 1000이고, 첫 해에 10% 증가하고, 그다음 해에 20% 증가하고, 그다음 해에 15% 감소했다고 할 때 결과 값은 처음의 값 1000에 1.1, 1.2, 0.85의 기하평균을 세 번 곱한 값이 됩니다. 1.1, 1.2, 0.85의 기하평균 (1.1 × 1.2 × 0.85)1/3 = 1.0391...이므로, 3년 동안 평균 3.91%씩 증가한 셈입니다. 즉, 1000 × 1.1 × 1.2 × 0.85 = 1000 × (1.0391)3 입니다.

04. 분산 (Variance)

- 평균에서 떨어진 거리의 제곱의 평균과 같습니다. 즉 편차의 제곱의 평균으로 표현할 수 있습니다.

- 분포를 가늠하는 여러 가지 수치 가운데 분산을 사용하는 이유 중에 하나로는 독립된 두 확률변수의 합의 분산은 각각의 분산의 합과 같다는 성질이 있습니다.

- 변동성의 척도로 값이 클수록 자료의 변동성이 심합니다.

예를 들어 어떤 주가의 분산이 클수록 주가가 자주 오르락내리락하는 모양을 가집니다.

분산은 평균에서 멀어진 정도를 볼 때 사용합니다.

05. 표준 편차 (Standard deviation)

- 분산의 음이 아닌 제곱근으로 정의됩니다.

- 분산으로 보면 값이 너무 커서(^^) 표준편차로 변동성을 보는 경우가 있습니다.

06. 로그(Log)

- 일반적인 통계 값은 아니지만, 은근히 자주 사용되며 주로 스케일 조정 또는 방향성 제거 등에 쓰입니다.

- 예를 들어, 파이 차트로 데이터를 보는 경우 데이터의 값이 1,10,100,1000 같이 10의 배수 또는 어떤 값의 배수로 발생하는 경우 Log를 적용하여 데이터를 보면 가시성이 더 높은 상태로 확인할 수 있습니다.

07. 정렬 (Sort)

- 통계량은 아니지만 필요한 통계량 중 아래에 기술하는 값들은 Sort가 선행되어야 합니다.

- 현재, 필자는 대용량 혹은 분산처리로 정렬하는 방법을 찾지는 못했습니다.

어떤 구조도 sort에 대해 병렬로 처리를 할 수는 없으므로 sort가 자주 발생하는 경우 병렬 architecture보다 사양이 좋은 서버를 사용하는 것이 유리합니다.

08. 최대값과 최소값 (Maximum / Minimum)

- 기준에 의해 데이터를 정렬 후 가장 큰 값과 가장 작은 값을 의미합니다.

09. 중앙값 (Median)

- 주어진 기준에 따라 데이터를 정렬한 후 전체 값의 목록에서 n/2번째 값, 전체 자료의 개수가 짝수이면 중앙을 두고 마주한 두 값의 평균입니다. 즉, 기준에 의해 정렬한 후 중간 지점에 위치한 값입니다.

- 평균(average) 값의 경우 순서가 아닌 양에 의존하기 때문에 지나치게 크거나 작은 값이 있으면 평균이 그 값에 따라 변동됩니다. 이 경우 데이터의 일반적인 특성을 파악하는데 오해를 할 소지가 있습니다.

예를 들어 평균 연봉과 연봉 중앙값은 임원들의 급여로 인해 전혀 다른 값으로 나올 수 있습니다.

중앙 값은 데이터의 중간 위치를 알려고 할 때 사용합니다.

10. 범위 (Range)

- 최대값과 최소값의 차이 (Maximum - Minimum)로 데이터의 상하한선을 알기 위해 구합니다.

11. 분위수 (Quartile)

- 주어진 기준에 따라 데이터를 정렬한 후 전체 영역을 4 등분하여 최대값부터, 1Q/2Q(median)/3Q로 표기합니다.

- 데이터의 대략적인 형태를 확인할 수 있습니다.

12. Percentile

- 주어진 기준에 따라 데이터를 정렬한 후 1% 단위로 분할한 값입니다.

- 전체적인 데이터의 분포를 확인할 때 사용하며, 필요한 경우 100 분할이 아닌 1000 분할을 하여, 데이터의 분포를 확인합니다.

13. 상관계수 (Correlation Coefficient)

- 두 항목 사이의 연관성을 수치화한 것입니다.

- 1.0 ~ -1.0 의 범위를 가지며, 값이 0으로 나오는 경우 "두 항목 사이에는 상관관계가 없다"고 표현합니다.

- 온라인 등에서 예시를 찾아보면 키와 몸무게 이야기가 가장 많이 나옵니다.

키와 몸무게 이야기로는 별다른 감흥이 없겠지만, 이처럼 하나가 증가할 때 다른 하나가 일정하게 증가 또는 감소하면 추정이 가능해집니다. 따라서, 상관관계가 있다/없다는 두 항목이 동시에 발생하지 않을 때 하나의 항목 값만 가지고 다른 항목 값을 예측할 때 도움이 됩니다.