딸바보 잡부
* 통계 분석에 유용하지만 극악의 난이도를 부여하는 시간(time)에 대해서 부가적으로 약간 이야기하겠습니다.
Chapter 3. 데이터 전처리
Chapter 4. 클러스터링, 장바구니
Chapter 5. 의사결정나무(Decision Tree), 회귀분석(Regression), 신경망분석(Neural Network)
Chapter 6. 모형평가, WoE
- 통계 분석 뿐만 아니라 대부분의 일들에서 시간 개념이 들어가면 상상하기에 매우 복잡해 집니다.
남자들은 군대로 회피하기도 하죠.^^
- 또한 통계에서 본격적으로 이야기하는 시계열(Time series)까지는 아니더라도, 데이터에 시간의 개념이 들어가면 정지해있던 데이터에 방향성이 부여되면서 데이터가 볼만해지기 시작합니다.
- 시간의 분석 단위는 상황에 따라 다르지만, 시/분/초 보다는 일/주/월/분기/반기/년 단위가 자주 쓰입니다.
일반 데이터와 시간이 결합되면 다음과 같이 됩니다.
- 매출 + 시간(월) = 월별 매출 추이
- 주식가격 + 시간(일) = 일별 주식 시세
- 평균 + 시간(월) = 월별 이동 평균
- 고객 등급 + 시간(월) = 월별 고객등급 변동 추이
어떤 데이터를 보면 거기에 시간의 흐름에 따른 변화를 상상/관찰하는 습관을 가지는 것을 권장합니다.
- 수식: (요소값 - 평균) / 표준편차
- 평균을 기준으로 얼마나 떨어져 있는지를 나타내는 값으로, 이 방법을 적용하려는 때는 2개 이상의 대상이 단위가 다를 때 대상 데이터를 같은 기준으로 볼 수 있게 합니다.
예를 들어, 삼성전자와 현대차의 주식시세에 대해 동일 기간에 대해 표준화를 수행하면 두 종목이 어떤 특징을 가지고 움직이는 지 관찰하는데 도움이 됩니다.
또 다른 예시로 몸무게와 키에 대해 표준화를 수행한 후 데이터를 보았을 때 몸무게는 음수, 키는 양수 값이 나온다면 그 사람은 평균보다 키가 크고 몸이 마른 편이라 볼 수 있습니다.
- 또한 이 방법은 데이터를 다소 평평하게 하는(로그보다는 덜하지만 데이터의 진폭을 줄이는) 특성을 가집니다. 이 방법을 적용하면 간극이 줄어드는 효과가 발생하여 고객별 매출금액과 같이 간극이 큰 데이터의 간극을 줄이는 결과를 얻게 됩니다. 그 결과 분석 대상 고객군을 정하는 데 (약간의) 편의성을 제공하게 됩니다.
- 수식: (요소값 - 최소값) / (최대값 - 최소값)
- 정규화는 전체 구간을 0~100으로 설정하여 데이터를 관찰하는 방법입니다.
이 방법은 데이터 군 내에서 특정 데이터가 가지는 위치를 볼 때 사용합니다.
시세와 같이 주기를 띄는 데이터의 경우 과거 대비 현재 데이터의 위치를 파악하기에 용이합니다.
정규화/표준화는 데이터를 보는 유일한 값은 아니지만, 데이터를 볼 때 중간단계 가공 방법 혹은 대략적으로 형태를 볼 때 유용하게 쓰이며 수식 또한 어렵지 않습니다.
여기까지 우선 데이터를 살펴보기 위한 기본적인 함수/방법을 마치고, 다음 단원에선 데이터 전처리에 대해 기록하도록 하겠습니다. 데이터 전처리는 정해져 있는 것이 아니라서 경험 위주의 기술이며, 생각을 더듬어가며 기록해야 하기에 약간의 시일이 소요될 듯 합니다.