brunch

매거진 초보자를 위한 통계 기초

라이킷 22 댓글 4

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by Raphael Lee Apr 19. 2016

표준화 및 정규화 (그리고 시간)

딸바보 잡부

분석이란 걸 위한 통계 완전 기초

Chapter 1. 통계 기본 함수

Chapter 2. 표준화/정규화

* 통계 분석에 유용하지만 극악의 난이도를 부여하는 시간(time)에 대해서 부가적으로 약간 이야기하겠습니다.

~~Chapter 3. 데이터 전처리~~

~~Chapter 4. 클러스터링, 장바구니~~

~~Chapter 5. 의사결정나무(Decision Tree), 회귀분석(Regression), 신경망분석(Neural Network)~~

~~Chapter 6. 모형평가, WoE~~

00. 시간 (Time)

- 통계 분석 뿐만 아니라 대부분의 일들에서 시간 개념이 들어가면 상상하기에 매우 복잡해 집니다.

남자들은 군대로 회피하기도 하죠.^^

- 또한 통계에서 본격적으로 이야기하는 시계열(Time series)까지는 아니더라도, 데이터에 시간의 개념이 들어가면 정지해있던 데이터에 방향성이 부여되면서 데이터가 볼만해지기 시작합니다.

- 시간의 분석 단위는 상황에 따라 다르지만, 시/분/초 보다는 일/주/월/분기/반기/년 단위가 자주 쓰입니다.

일반 데이터와 시간이 결합되면 다음과 같이 됩니다.

- 매출 + 시간(월) = 월별 매출 추이

- 주식가격 + 시간(일) = 일별 주식 시세

- 평균 + 시간(월) = 월별 이동 평균

- 고객 등급 + 시간(월) = 월별 고객등급 변동 추이

어떤 데이터를 보면 거기에 시간의 흐름에 따른 변화를 상상/관찰하는 습관을 가지는 것을 권장합니다.

01. 표준화 (Standardization)

- 수식: (요소값 - 평균) / 표준편차

- 평균을 기준으로 얼마나 떨어져 있는지를 나타내는 값으로, 이 방법을 적용하려는 때는 2개 이상의 대상이 단위가 다를 때 대상 데이터를 같은 기준으로 볼 수 있게 합니다.

예를 들어, 삼성전자와 현대차의 주식시세에 대해 동일 기간에 대해 표준화를 수행하면 두 종목이 어떤 특징을 가지고 움직이는 지 관찰하는데 도움이 됩니다.

또 다른 예시로 몸무게와 키에 대해 표준화를 수행한 후 데이터를 보았을 때 몸무게는 음수, 키는 양수 값이 나온다면 그 사람은 평균보다 키가 크고 몸이 마른 편이라 볼 수 있습니다.

- 또한 이 방법은 데이터를 다소 평평하게 하는(로그보다는 덜하지만 데이터의 진폭을 줄이는) 특성을 가집니다. 이 방법을 적용하면 간극이 줄어드는 효과가 발생하여 고객별 매출금액과 같이 간극이 큰 데이터의 간극을 줄이는 결과를 얻게 됩니다. 그 결과 분석 대상 고객군을 정하는 데 (약간의) 편의성을 제공하게 됩니다.