brunch

You can make anything
by writing

C.S.Lewis

by HEARTCOUNT팀 Sep 11. 2021

기본적인 데이터 종류 이해하기

data type

데이터의 기본 유형 

- Nominal, Ordinal, Interval, Ratio





안녕하세요, 하트카운트팀입니다. 오늘은 주요 데이터의 기본 유형 4타입에 대해 공부해보려고 합니다.


많은 분들이 간과하실 수 있지만, 데이터의 유형과 유형의 성격을 정확히 이해하는 것은 최초 데이터 수집 시 어떤 유형으로 데이터를 수집하는 게 적절할지 결정하는 일에서부터 이후 분석이나 시각화 과정에서 데이터 유형에 따라 할 수 있는/없는 일들이 결정되므로 매우 중요하다고 할 수 있습니다.



1. 명목 자료 nominal data


- nominal data는 nominal(이름과 관련한)이란 수식어에서 알 수 있듯이 여러 categories(예, 청팀, 백팀, 홍팀)들 중 하나의 이름에 데이터를 분류할 수 있을 때 사용됩니다.
- nominal data는 순서를 매길 수 없고 그냥 개수를 세는 것만 가능합니다.
- 평균을 계산하는 것이 의미 없고 (백팀과 홍팀의 평균은 연분홍팀?) percent로는 표현해도 됩니다. 
(청팀: 33%, 백팀 33%, 홍팀 34%)
- 특별히, nominal data가 두 개의 범주 중 하나에 속하는 경우 (남자 vs. 여자) dichotomous data(이분 자료)라고 부릅니다.
- nominal data를 categorical data (범주형 자료)라 부르기도 합니다.



2. 순서 자료 ordinal data


- 데이터가 속하는 category들에 순서가 있는 경우 ordinal data라고 합니다. (순서가 있는 명목 자료)
예를 들면 청팀이 이길 가능성에 대해 survey를 하는 경우 그 답변을 “5. 매우 높다. 4. 높다. 3. 중립, 2. 낮다. 1. 매우 낮다."로 디자인할 수 있습니다.
- nominal data와 마찬가지로 counting을 하고 percent로 표현해도 무방합니다. (매우 높다: 33%, 높다: 19%…)
- 단, 평균(위 예에서 청팀 이길 확률에 대한 답변 평균이 3.8)에 대해서는 신중해야 합니다. ordinal data에 대해 평균을 계산해서는 안 된다는 사람들이 있는데 이건 매우 높다에 5를, 높다에 4를 할당한 것처럼 그 각각의 (임의의) 숫자에 엄정한 수학적/과학적 의미가 있는 것이 아니기 때문이죠. (하지만, 사실 범주에 할당된 수와 순서별로 정렬된 범주에 할당된 수들의 차이값이 말이 되고 납득이 되는 경우 못 할 것도 없습니다. 신중하게 결정하는 것이 중요할 것 같습니다.)



3. 구간 자료 interval data


- 시간을 ratio data(아래 참고)라고 보는 사람이 있는데 기본적으로 하루 중 특정 시점을 나타내는 시간은 interval data입니다.
- 데이터의 연속된 측정 구간 사이의 간격이 동일한 경우 interval data라고 부릅니다. (11:00와 11:05의 차이는 15:55과 16:00의 차이와 동일; 왜냐면, 매 분은 60초이니깐)
- interval data는 numeric value를 가지므로 다양한 연산을 수행해도 됩니다.
- 단, 절대적 원점(zero point)이 없습니다. 무슨 말이냐면 00:00이라는 자료의 값이 측정한 시간의 값이 없다는 게 아니라 그냥 자정에 시간을 측정했다는 뜻입니다.



4. 비율 자료 ratio data


- 현재 시각이 13:30인데 내가 시계를 보고 13:00부터 계산해서 “30분” 기다렸네 할 때 “30분"이 ratio data입니다. 이해가 되시나요?
- ratio data의 경우 interval data와 다르게 절대적 원점(meaningful zero point)이 존재하며 interval data에서 00:00이라는 값은 (기다린 시간이) “빵”초 라는 뜻입니다.
- 나이, 돈, 몸무게 이런게 주로 ratio data로 다루어 집니다.



5. 이산형 discrete vs. 연속형 continuous


- interval이나 ratio 자료는 이산형(discrete)이나 연속형(continuous) 둘 중의 하나의 속성을 갖게 됩니다.
- 측정값이 정수로 딱딱 떨어지는 경우 이산형이고 연속된 무수히 많은 값 중 하나를 가질 수 있는 경우 연속형이 됩니다. 
- 연속형 데이터는 실제 표현될 때 적당히 반올림 되어 표현됩니다.(몸무게: 72.5 kg) 현실에서 측정/이해하고자 하는 변수는 종종 하나 이상의 data type에 속하게 되며 변수의 data type은 어떤 측정(수집) 방법을 택하느냐에 따라 결정됩니다. 
- 나이를 예로 들자면 나이(본질적으로 ratio data)는 ratio data로 수집될 수도 있지만 ordinal data로 수집될 수도 있습니다. (나이가 속한 그룹을 선택하는 방식으로 데이터를 수집한 경우, 21~25, 26~30, 31~35) 
- 반면, nominal이나 ordinal data를 - 둘 다 category 유형 데이터 - interval이나 ratio data로 수집할 수는 없습니다. (청팀, 백팀, 홍팀으로 분류되는 데이터를 interval/ratio data로 수집할 수 없음) 
- 보다 보편적으로 이야기하자면 데이터 측정은 주어진 데이터의 본질적 속성보다 더 성기고/낮은 수준으로 내려갈 (interval/ratio를 nominal/ordinal로 측정) 수 는 있어도 보다 더 정교한/높은 수준으로 올라갈 (nominal/ordinal을 interval/ratio로 측정) 수는 없습니다.

위에 이야기한 "내려갈 수는 있어도 올라갈 수 없다"는 법칙은 비단 데이터 수집뿐만 아니라 분석이나 시각화에도 적용됩니다. (예를 들어 ratio 유형으로 수집할 수 있는 데이터를 ordinal 유형으로 수집하게 되면 나중에 평균을 계산한다든지 기타 보다 정교한 분석을 수행하기 어렵고 표현할 수 있는 방식 역시 나이 그룹별 히스토그램 정도로 제한되게 되는..)


(그림 인용: http://www.mymarketresearchmethods.com/types-of-data-nominal-ordinal-interval-ratio/)




실무자를 위한 데이터 자동 분석 솔루션, 하트카운트 사용해보기
여기를 클릭해주세요.


하트카운트 뉴스레터 구독하기는 여기를 클릭해주세요.

하트카운트 도입, 견적 및 구축 문의는 여기를 클릭해주세요.
(협업 문의는 support@idk2.co.kr로 부탁드립니다.)

하트카운트 데모 비디오는 여기를 클릭해주세요.

여기를 클릭하여 데이터 분석/시각화 커뮤니티 '데이터 히어로'에 참여하세요.





브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari