brunch

You can make anything
by writing

C.S.Lewis

by Raphael Lee Apr 18. 2016

통계 기본 함수

딸바보 잡부

 필자는 이력서의 테마가 'CRM전산'이지만, 실제 살아가는 행태는 월급쟁이이므로 회사가 시키는 이것저것을 하면서 삽니다. 본 문서 (분석이란 걸 위한 통계 완전 기초)는 추후 후배가 생기면 생각을 공유하기 위해 작성하고 있습니다. 후배가 생겨서 급하게 문서를 만드는 것보다 낫다고 생각하기에 미리미리 천천히 준비하는 차원입니다.

 갈 길은 멀지만, 천천히 시작해 보겠습니다.


분석이란 걸 위한 통계 완전 기초

Chapter 1. 통계 기본 함수

 * 기초 통계량을 구하는 경우 그 통계량을 구하는 기준(dimension)을 관심 깊게 그리고 그 이유에 대해 살펴봐야 합니다.

Chapter 2. 표준화/정규화

Chapter 3. 데이터 전처리

Chapter 4. 클러스터링, 장바구니

Chapter 5. 의사결정나무(Decision Tree), 회귀분석(Regression), 신경망분석(Neural Network)

Chapter 6. 모형평가, WoE


01. 합계 (Sum)

  - 다음 사전: 한데 합하여 계산함

  - 합계는 기본적으로 어떤 대상의 볼륨(Volumne, 크기/양 등 풍성한 정도)을 보기 위해 사용합니다. 즉, 어떤 대상의 규모를 보기 위함입니다.

   일상생활에서 매우 자연스럽게 사용하기 때문에 합계를 보는 목적에 대해 잊을 가능성이 있습니다.

   예를 들어 회사의 매출액을 볼 때 우리는 하나하나의 매출을 보는 것이 아닌 월 혹은 분기 기준으로 합계가 일어난 매출 합계금액을 보고 그 회사의 매출 규모를 파악합니다.

Sum 은 규모를 볼 때 사용합니다.


02. 개수 (Count)

  - 다음 사전: 낱개로 셀 때의 물건의 수효

  - 개수는 기준을 만족하는 대상이 출현한 횟수를 이야기합니다. 즉, 개수가 많다는 이야기는 출현한 횟수가 빈번하다는 것입니다. (합계와 비교할 때 합계는 면적, 개수는 점의 개수(?)를 보는 방식입니다.)

  출현한 횟수에 부가적인 기준을 추가하면 개수 자체로도 훌륭한 통계량이 됩니다.

Count는 빈도를 볼 때 사용합니다.


03. 평균 (Average, means)

  - 합계를 개수로 나눈 것으로 익히 알고 있는 것이지만, 쓰기에 따라 상당히 훌륭한 효과를 가집니다.

   보통의 경우 평균은 어떤 데이터의 경향, 일반적인 성질 등을 나타내거나 파악하기 위해 사용합니다.

  - 어떤 값이 방향성을 가지면 더욱 위력을 발휘합니다.

   예를 들어 "이 특성은 평균에 수렴하는데, 현재 평균 대비 x% 높으므로 며칠 이내로 떨어질 가능성이 높다."라는 식입니다.
  - 데이터의 일반적인 상태라 가정할 수 있기 때문에 평균을 기준으로 하여 특별한 값이 이탈했을 때 이상 징후로 판단할 수도 있습니다.

  - 최대값과 최소값은 일반적으로 발생하지 않는 경우가 많기 때문에 상/하위 10%의 데이터를 버린 후 평균을 구할 수도 있으며, 이 경우 절사 평균이라 합니다.

평균은 일반적인 상태/성질을 파악하기 위해 사용합니다.

  03.1. 이동평균

    - 일반적인 평균을 약간 응용하여 구하는 방식인 이동평균은 데이터 처리는 다소 불편하지만, 추세를 보는 데 있어 유용하게 사용할 수 있습니다.

     예를 들어 3개월 평균 매출에 대해 볼 때, 이동평균으로 값을 구하여 다음 달 매출을 추정해 볼 수 있습니다.

이동평균을 통해 추세에 따른 다음 값을 유추해 볼 수 있습니다.

  03.2. 조화 평균

    - 주어진 값들의 역수의 산술평균의 역수입니다.

    - 평균적인 변화율을 구할 때에 사용합니다.

  03.3. 기하평균

     - https://ko.wikipedia.org/wiki/기하_평균

    - 곱셈으로 계산하는 값에서의 평균을 계산하고자 할 때 산술 평균이 아닌 기하 평균을 사용합니다.

    - 예를 들어 어떤 값이 처음에 1000이고, 첫 해에 10% 증가하고, 그다음 해에 20% 증가하고, 그다음 해에 15% 감소했다고 할 때 결과 값은 처음의 값 1000에 1.1, 1.2, 0.85의 기하평균을 세 번 곱한 값이 됩니다.  1.1, 1.2, 0.85의 기하평균 (1.1 × 1.2 × 0.85)1/3 = 1.0391...이므로, 3년 동안 평균 3.91%씩 증가한 셈입니다. 즉, 1000 × 1.1 × 1.2 × 0.85 = 1000 × (1.0391)3 입니다.


04. 분산 (Variance)

  - 평균에서 떨어진 거리의 제곱의 평균과 같습니다. 즉 편차의 제곱의 평균으로 표현할 수 있습니다.

  - 분포를 가늠하는 여러 가지 수치 가운데 분산을 사용하는 이유 중에 하나로는 독립된 두 확률변수의 합의 분산은 각각의 분산의 합과 같다는 성질이 있습니다.

  - 변동성의 척도로 값이 클수록 자료의 변동성이 심합니다.

   예를 들어 어떤 주가의 분산이 클수록 주가가 자주 오르락내리락하는 모양을 가집니다.

분산은 평균에서 멀어진 정도를 볼 때 사용합니다.


05. 표준 편차 (Standard deviation)

  - 분산의 음이 아닌 제곱근으로 정의됩니다.

  - 분산으로 보면 값이 너무 커서(^^) 표준편차로 변동성을 보는 경우가 있습니다.


06. 로그(Log)

  - 일반적인 통계 값은 아니지만, 은근히 자주 사용되며 주로 스케일 조정 또는 방향성 제거 등에 쓰입니다.

  - 예를 들어, 파이 차트로 데이터를 보는 경우 데이터의 값이 1,10,100,1000 같이 10의 배수 또는 어떤 값의 배수로 발생하는 경우 Log를 적용하여 데이터를 보면 가시성이 더 높은 상태로 확인할 수 있습니다.


07. 정렬 (Sort)

  - 통계량은 아니지만 필요한 통계량 중 아래에 기술하는 값들은 Sort가 선행되어야 합니다.

  - 현재, 필자는 대용량 혹은 분산처리로 정렬하는 방법을 찾지는 못했습니다.

   어떤 구조도 sort에 대해 병렬로 처리를 할 수는 없으므로 sort가 자주 발생하는 경우 병렬 architecture보다 사양이 좋은 서버를 사용하는 것이 유리합니다.

08. 최대값과 최소값 (Maximum / Minimum)

  - 기준에 의해 데이터를 정렬 후 가장 큰 값과 가장 작은 값을 의미합니다.


09. 중앙값 (Median)

  - 주어진 기준에 따라 데이터를 정렬한 후 전체 값의 목록에서 n/2번째 값, 전체 자료의 개수가 짝수이면 중앙을 두고 마주한 두 값의 평균입니다. 즉, 기준에 의해 정렬한 후 중간 지점에 위치한 값입니다.

  - 평균(average) 값의 경우 순서가 아닌 양에 의존하기 때문에 지나치게 크거나 작은 값이 있으면 평균이 그 값에 따라 변동됩니다. 이 경우 데이터의 일반적인 특성을 파악하는데 오해를 할 소지가 있습니다.

  예를 들어 평균 연봉과 연봉 중앙값은 임원들의 급여로 인해 전혀 다른 값으로 나올 수 있습니다.

중앙 값은 데이터의 중간 위치를 알려고 할 때 사용합니다.


10. 범위 (Range)

  - 최대값과 최소값의 차이 (Maximum - Minimum)로 데이터의 상하한선을 알기 위해 구합니다.


11. 분위수 (Quartile)

  - 주어진 기준에 따라 데이터를 정렬한 후 전체 영역을 4 등분하여 최대값부터, 1Q/2Q(median)/3Q로 표기합니다.

  - 데이터의 대략적인 형태를 확인할 수 있습니다.


12. Percentile

  - 주어진 기준에 따라 데이터를 정렬한 후 1% 단위로 분할한 값입니다.

  - 전체적인 데이터의 분포를 확인할 때 사용하며, 필요한 경우 100 분할이 아닌 1000 분할을 하여, 데이터의 분포를 확인합니다.


13. 상관계수 (Correlation Coefficient)

  - 두 항목 사이의 연관성을 수치화한 것입니다.

  - 1.0 ~ -1.0 의 범위를 가지며, 값이 0으로 나오는 경우 "두 항목 사이에는 상관관계가 없다"고 표현합니다.

  - 온라인 등에서 예시를 찾아보면 키와 몸무게 이야기가 가장 많이 나옵니다.

  키와 몸무게 이야기로는 별다른 감흥이 없겠지만, 이처럼 하나가 증가할 때 다른 하나가 일정하게 증가 또는 감소하면 추정이 가능해집니다. 따라서, 상관관계가 있다/없다는 두 항목이 동시에 발생하지 않을 때 하나의 항목 값만 가지고 다른 항목 값을 예측할 때 도움이 됩니다.

  예를 들어 고객수와 매출액이 상관관계를 가지면, 매출액을 올리고 싶으면 고객수를 늘리면 됩니다.


14. 미분 

  - https://ko.wikipedia.org/wiki/미분 

  - 미분(微分)은 함수의 순간 변화율을 구하는 계산 과정입니다.

  - 옵션 가격 결정 등에 대해 계산할 때 사용됩니다.

  - X 축을 시간으로 설정하는 경우, 시간에 따른 변화에 대해 살펴볼 때 사용합니다. (특히, 가속)

데이터의 기울기를 나타냅니다.


15. 적분

  - 이런저런 설명, 수식이 많지만 가장 간략하게 이야기해서 적분은 면적을 구합니다.

적분은 면적입니다. ^^;


매거진의 이전글 분석이란 걸 위한 통계 완전 기초
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari