건축이건 요리건 만족할만한 결과물을 만들어 내려면 재료의 본질을 제대로 이해하여야 한다.
1. 개체와 속성
개체(Entity)는 우리가 현실세계에서 접하는 사람, 사물, 사건, 상태 등을 칭하는 의미 단위이다.
개체는 다양한 속성을 가질 수 있다.
예컨대, 직장인은 성(性), 나이, 직업, 소득 등의 속성을 가질 수 있으며, 날씨는 온도, 습도, 풍속, 미세먼지 등의 속성을 가질 수 있다.
개체와 속성
2. 공간과 시간은 현실세계를 이해하는 프레임
우리가 분석하고자 하는 현실 세계는 개체(사람, 사물) 또는 개체간의 관계가 기본이 된다. 그리고 그 개체는 공간과 시간이라는 관념의 프레임 안에서 포착된다.
따라서 공간과 시간은 현실세계에서 개체를 파악하기 위한 분석의 관점이 된다.
개체는 공간과 시간에서 존재한다 공간과 시간에 대해 인지하는 것은 특별한 훈련이 없어도 가능하다. 그래서 칸트는 시간과 공간을 인간이 선험적으로 갖는 인지구조라고 보았다. 우주가 시공간으로 구성되어 있어서가 아니라, 우리가 그 틀로 세상을 본다는 것이다. - 세상을 보는 시공간의 틀…모든 ‘것’은 ‘물리’로 통한다
3. 데이터는 현실 세계를 기록한다
데이터 테이블의 '사업장명' 열은 약국이라는 개체를 나타내고, '도로명전체주소'와 'X', 'Y' 열은 개체가 속한 공간을 나타낸다. 아울러 '인허가일자'는 개체의 상태를 표시하는 시간을 나타낸다.
약국 인허가 데이터 아래 데이터 테이블은 서울시에서 운영하는 공공자전거(따릉이)의 대여/반납 데이터이다.
'자전거ID' 열은 자전거 개체를 의미하고 대여/반납일시는 시간을, 대여/반납장소는 공간을 나타낸다.
공공자전거 대여/반납 데이터 위의 사례에서 보았듯이, 많은 공공데이터는 개체를 중심으로 공간과 시간을 기록하면서 우리가 관심을 갖는 현실세계를 나타낸다.
4. 데이터는 관측값과 변수로 이루어진다
데이터 분석에서 주로 사용하는 정형 데이터는 테이블(데이터프레임라고도 한다) 형태로 존재한다.
정형데이터와 비정형데이터의 비교 테이블 형태의 정형 데이터는 행(Row)과 열(Column)의 매트릭스로 구성된다.
여기서 각 행은 개체의 특정 상태를 나타내는 관측값(observation)이 되고, 각 열은 개체의 속성과 시간, 공간을 나타내는 변수(variable)가 된다.
개체의 상태에 따라 변수의 값은 변화한다. 따라서 관측값을 나타내는 행과 변수를 나타내는 열이 만나는 교차지점은 값(value)이 된다.
아래 미세먼지 데이터를 예를 들어 설명하면, 측정일시, 측정소코드, 미세먼지 등 각각의 열은 변수이고, 각각의 행은 관측값이다. 그리고 행과 열이 만나는 각각의 값(18-1-2 23:00, 27, 296)은 값이다.
정형데이터의 구성
5. 데이터 변수의 4가지 유형
데이터 변수는 우선 범주형과 집계형으로 구분할 수 있다.
범주형(categorical) : 개체의 상태를 일정한 기준으로 구분하기 위하여 사용. 숫자 또는 문자 형태이다.
집계형(numerical) : 개체의 상태를 정량적으로 표현하기 위하여 사용. 숫자 형태이고 연산이 가능하다.
범주형과 집계형은 다시 4개의 세부 유형으로 구분할 수 있다.
명목형(nominal) : 단순히 개체의 상태를 분류하기 위하여 사용하며 각 값 사이에 서열이 존재하지 않는다. 예) 혈액형(A, B, AB, O)
순서형(ordinal) : 개체의 상태를 분류하며, 각 값 사이에 일정한 간격의 순서나 서열이 존재한다. 예) 성적(수, 우, 미, 양, 가)
이산형(discrete) : 개체의 특정 상태를 정량적으로 나타내기 위하여 사용한디. 소숫점으로 나누어질 수 었는 정수의 형태이다. 예) 특정 가정의 자녀 수(2명, 3명)
연속형(continuous) : 개체의 특정 상태를 정량적으로 나타내되, 무한히 반복되는 실수의 형태이다. 예) 2020년 평균 남성의 키(175.456987........)
※ 이산형과 연속형, 그리고 숫자 형태의 순위형과 이산형은 구별이 안되는 경우가 있다.
데이터 변수 유형
앞서 예를 들었던 미세먼지 데이터의 각 변수 유형은 아래와 같다.
측정일시 : 순위형(개체의 상태를 시간 단위로 구분하기 위하여 사용하며, 전후 관계가 있음)
측정소코드 : 명목형(측정된 장소를 구분하기 위하여 사용하는 코드로 순서나 서열의 관계없음)
미세먼지, 초미세먼지, 풍속, 습도 : 이산형 또는 연속형(개체의 상태를 정량적으로 나타냄)
풍향 : 명목형(바람이 불어오는 방향을 각도로 나타낸 값으로, 순서나 서열이 없음)
6. 데이터 변수 유형은 쓰임새를 결정한다
데이터 분석 과정에서 변수 유형을 잘 이해해야 하는 이유는, 유형에 따라 분석 방법이 달라지기 때문이다.
데이터 변수에 따른 시각화 방법은 다음과 같이 달라진다.
명목형 : 막대 차트, 바이올린 차트, 스캐터 플롯
순서형 : 막대 차트, 누적 막대 차트
이산형 : 막대그래프(숫자가 적을 경우), 선그래프(숫자가 많을 경우), 바이올린 차트, 스캐터 플롯
연속형 : 히스토그램, KDE, 바이올린 차트, 스캐터 플롯
출처 : https://www.kaggle.com/residentmario/univariate-plotting-with-pandas 출처 : https://www.kaggle.com/residentmario/bivariate-plotting-with-pandas 출처 : https://www.kaggle.com/residentmario/plotting-with-seaborn
데이터 변수 유형별로 대표값(중심 경향, central tendency)을 정하는 방법도 달라진다.
명목형 : 최빈값(mode)
순서형 : 중위값(median)
치우친(skewed, 왜도가 큰) 이산형 또는 연속형 : 중위값(median)
치우치지 않은( not skewed, 왜도가 작은) 이산형 또는 연속형 : 평균(mean)