brunch

You can make anything
by writing

C.S.Lewis

by 마경근 Feb 17. 2020

시계열 데이터_1

Part2. 공공데이터 시각화 및 탐색

데이터 분석의 주요한 목적중 하나는 패턴의 발견이다. 이 패턴은 다양한 관점(시간, 공간, 사람 등)에서 발견할 수 있는데, '시간'은 패턴 발견을 위한 가장 중요한 관점중 하나이다.


1. 시간의 개념

시간은 낮과 밤 또는 계절의 변화를 나타내는, 인간에게 가장 큰 영향을 끼치는 현상 중 하나이다. 시간은 과거와 현재를 거쳐 미래를 향하여 연속적으로 움직이는 존재와 사건의 무한한 진행의 축이 된다.



2. 시간의 표현

시간에 따른 현상을 이해하기 위한 다양한 시간 표현 방법이 있다.

시점 : 시간의 연속선 상에서 특정 사건을 정확히 식별할 수 있는 순간

시점

기간 :  시점을 확장하여 나타내는 일정한 시간 간격으로, 시작과 끝 또는 시작과 지속 시간으로 표현 가능

기간

선형적 시간 : 과거와 현재를 거쳐 미래를 향하여 일직선으로 움직이는 시간의 흐름

선형적 시간

순환적 시간 : 계절, 요일, 학기처럼 주기적으로 반복되는 시간의 흐름


순환적 시간


4번째 차원 : 시간은 세가지의 공간 차원과 함께 4번째 차원으로 인식됨


3. 시계열 데이터

시계열 데이터(time series data)는 연도별, 월별, 일별 또는 시간별 등 시간의 경과에 따라 순서대로 관측되는 데이터이다.

시계열 데이터는 종단 데이터(longtitudal data)라고도 하는데, 상대적 개념인 횡단 데이터(cross-sectional data)는 특정 시점에 여러 곳에서 수집한 데이터를 뜻한다.

일반적으로 시계열 데이터는 날짜와 시간 열을 포함한 데이터프레임(테이블) 형태다.

매 시간 단위로 기록된 미세먼지 측정 데이터 ⇒ 시점 표현

2개의 시점으로 기간을 산출할 수 있는 따릉이 자전거 데이터 ⇒ 기간 표현

시계열 데이터에서 날짜와 시간 열은 순위형이면서 이산형다.



4. 시계열 분해

시계열 데이터는 추세변동, 계절변동 등 하위 성분으로 나뉘어질 수 있다.

계절성분 : 계절을 주기로 순환하며 발생하는 변동요인으로 순환주기가 짧으며 계절에 따라 영향을 받으므로 1 년을 주기로 발생

추세 성분 :  장기적인 변화 추세로 지속적으로 증가 또는 감소하거나 혹은 일정한 상태를 유지하려는 성향이 있으므로 직선이나 부드러운 곡선의 연장선으로 표시됨

불규칙 성분 :  규칙성이 없이 우연적으로 발생하는 변동으로 추세변동, 계절변동 요인을 조정한 후에 나타나며 불규칙변동이 많이 존재하는 시계열자료에서는 신뢰성 있는 예측 어려움



5. 시계열 모형

시계열 모형은 시계열 데이터를 이용하여 현상 분석과 미래 예측을 위하여 사용하는 모형이다. 시간의 흐름은 미래상황을 예측하기 위한 설명변수이고, 과거로부터 미래까지 지속될 것이라는 가정을 기반으로 한다.

자기상관(Autocorrelation, AR) 모형 : 이전의 값이 이후의 값에 영향을 미치는 경향을 반영,  예) 이전에 값이 크면 이후에는 낮은 값이 나온다거나 하는 상황

이동평균(Moving Average, MA) 모형 :  시간이 지날수록 어떤 평균값이 지속적으로 증가하거나 감소하는 경향을 반영,  예) 봄에서 여름이 될 수록 가정의 전기 수요량은 증가

ARMA(Autoregressive Moving Average) 모형 :  AR모형과 MA모형의 결합 모형

ARIMA(Autoregressive Integrated Moving Average) 모형 : ARMA 모형에 과거의 데이터가 지니고 있던 추세까지 반영

아래는 따릉이 대여건수 데이터(2015.6월~2018.12월)를 기반으로 이동평균(MA) 모형을 이용하여 95% 신뢰도로 향후 6개월의 대여건수를 예측한 결과이다.


작가의 이전글 데이터의 대푯값과 분포_2
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari