데이터'를' 말하다(2)
'데이터'(표기는 '데이타'가 맞다고도 하지만, 더 많이 쓰이는 표기로)가 일상용어가 된 것은 길게 잡아야 20여 년쯤 되지 않았을까 싶다. 글쓰기 플랫폼에서도 '데이터'라는 토픽이 생길 정도로, 이제 우리의 삶과 밀접한 용어와 요소가 된 것 같다. 그런데 '데이터'가 뭣인지 명확히 설명 가능할까?
"DATA, 데이터란 무엇일까?"
"제대로 Data를 이해하고, '데이터, 데이터'하고 말하는 것일까?"
이와 같은 질문을 딱 10년 전에 기업의 최고정보책임자, 소위 CIO라는 노련한 IT종사자들에게도 던진 적이 있었다. 컴퓨팅 '자료'의 최소 단위, 결정을 위한 근거의 초기 '자료', 주장을 뒷 받침하는 과학적 예시 '자료' 등등, 다양한 형태로 이해하고 정의하고 있었다. 그 속의 공통점은 "자료"였다.
자료 (資料)
1. 연구나 조사 따위의 바탕이 되는 재료.
2. 만들거나 이루는 데 바탕이 되는 물자나 재료.
그럼 데이터 분석과 데이터 활용은 종이 시대의 자료의 분석과 활용과 같은 것일까? 다르다면 무엇이 다를까?
Oxford 사전은 데이터에 대해 다음과 같이 정의하고 있다: (더 어려워진다 ^^)
"Data are known facts or things used as basis for inference or reckoning."
"데이터는 추측이나 예측을 위한 기반으로 활용되는 알려진 사실 또는 알려진 것이다."
'DATA'라는 말은 '자료'라는 의미보단 조금 더 파편적이다. 더 잘게 쪼갠 단위로 여기어지면서 반대로 포괄적인 전체를 말하기도 한다. 이것이 Digital시대에서 컴퓨팅 기술과 만나면서 복잡 다양해졌다.
data의 "dat"은 "주다(give)"라는 뜻의 라틴어 동사 do(dare-dedi-datum)의 3인칭 단수 현재 능동태 직설법 형태다. "주다(give)"라는 뜻의 라틴어 동사 do(dare-dedi-datum)의 수동태 완료분사 형태인 datum은 영어 단어 data(데이터)의 어원이기도 하다. 즉, Data의 어원에서 보는 뜻은 "주고받는 것"이라는 뜻이 중심 잡고 있다. 달리 보자면 '주고받을 가치'가 있는 정보의 최소 단위부터, 그 총합까지 아우를 수 있는 용어가 된다. 광범위하고 손에 잡히지 않아 어렵지만, 분명한 것은 "줄 수 있어야" 참된 데이터로 가치부여가 된다. 주머니에 있는 것이 아니고 주는 것이어야 한다. 그래서 '데이터'엔 '보안'이 필수적인 짝꿍으로 따라다니는 것이다.
"데이터"하면 전문 종사자나 유관자가 아니면 복잡한 난수표 같은 수열과 문자열이 끊임없이 변환되는 장면을 떠올리게 된다. 영화 <매트릭스>의 한 장면이라 생각하면서 말이다. 솔직히 나조차 아직 그 기시감이 먼저 든다. 정확히는 모르겠지만 컴퓨팅 기술의 근간인 디지털 신호로 나타나는 '자료'의 모습이 '데이터'로 흔히 인지된다. 데이터의 모습은 이렇게 실제 할까? 답은 일부는 맞고 대 부분읃 틀린 이야기라고 하고 싶다.
데이터는 흔히 데이터 집합과 데이터 개체로 인지된다. (데이터 집합(data set): 데이터 개체(data object)들의 집합) 이런 데이터들의 개체의 특성과 집합의 속성, 그리고 사용자 관점 등에 따라 그 분류와 종류가 무척이나 다양하다. 그야말로 분화(segmentation)되고 파편화(fragmentation)되어 있어, 분류로만 한 학기의 강의가 모자랄 지경이다..
※ 참고로 데이터 개체(data object)는 레코드(record), 점(point), 벡터(vecotr), 패턴(pattern), 사례(case), 사건(event), 샘플(sample), 관찰(observation), 개체(entity) 등으로 불리기도 한다.
데이터 개체는 여러 개의 속성(attribute)으로 기술되는데, 속성이란 데이터 개체들 사이의 차이를 규정할 수 있는 특성이나 특징을 의미한다. 예를 들어 사람을 기술할 때 눈동자의 색, 피부색, 키, 몸무게와 같은 속성을 사용할 수 있듯이 말이다. (이러한 속성은 데이터 사이언스에서 변수(variable), 특성(characteristic), 필드(field), 특징(feature), 차원(dimesion) 등으로 불리기도 한다.)
데이터의 형태는 이러한 속성에 의해서도 구분될 수 있는데, 크게 질적자료(Qualitative or Categorical)와 양적자료(Quantitative or Numeric)로 구분할 수 있으며, 각각은 아래와 같다.
(1) 질적자료(정성적 자료, Qualitative, Categorical)
: 범주 또는 순서 형태의 속성을 가지는 자료
a. 범주형(명목, nominal) 자료: 사람의 피부색, 성별
b. 순서(서수, ordinal) 자료: 제품의 품질, 등급, 순위
(2) 양적자료(정량적 자료, Quantitative or Numeric)
: 관측된 값이 수치 형태의 속성을 가지는 자료
a. 범위형(interval) 자료: 화씨, 섭씨와 같이 수치 간에 차이가 의미를 가지는 자료.
b. 비율(ratio) 자료: 무게와 같이 수치의 차이뿐만 아니라 비율 또한 의미를 가지는 자료
※ 참고로 수치 형태의 자료는 이산형(discrete) 자료와 연속형(continuous) 자료로 구분될 수 있으며, 이산형의 특별한 경우로 논리 소자의 참/거짓 개념의 0과 1로만 이루어진 이진데이터도 있다.
이와 별도로 데이터 과학 영역에서는 형식으로 구분하기도 한다. 형식에 따라 구분되는 데이터 종류는 정형데이터와 비정형데이터가 있다. (범주형(categorical), 명사형(nominal), 순서형(ordinal), 수치형(numerical), 이산형(discrete), 연속형(continuous) 등등)
A. 정형데이터(structured data)는 미리 정의된 형식이 있는 데이터를 의미한다. 따라서 정형데이터는 스프레드시트(구글 시트, 엑셀)에서 형식을 지정하여 사용할 수 있다.
B. 비정형데이터(unstructured data)는 미리 정의된 형식이 없는 데이터를 말한다. 비정형데이터는 일반적으로 텍스트 중심으로 되어 있으나 '날짜에 따른 사건일지'와 같이 숫자 데이터도 포함될 수 있다.
또한, 척도로도 구분이 된다. 척도에 따라 구분되는 데이터 종류는 양적데이터와 질적데이터가 있다.
C. 질적데이터에서 명목척도는 남자, 여자와 같은 질적 정의를 “남자=1”, “여자=2”처럼 수치화 시킨 것이다. 질적데이터에서 순서척도는 “일인당 국민소득이 높은 나라 순위”처럼 순서를 수치화한 것이다.
D. 양적데이터에서 간격척도는 “온도”와 “시각”처럼 간격을 수치화한 것이다. 양적데이터에서 비례척도는 “비만도”처럼 기준에 대한 비례를 수치로 표현한다.
속성에 따라 구분되는 데이터 종류는 연속형 데이터(continuous data)와 범주형 데이터(Categorical data)가 있다.
E. 연속형 데이터는 키, 몸무게, 시간, 혈압, 경제성장률과 같이 연속적인 수치로 표현된 데이터다. 정확한 값이 있는데 어떻게 연속형 데이터로 명명할 수 있는가 하고 의문을 가질 수 있다. 연속형 데이터는 아날로그라고 할 수 있다. 즉, 유한개의 숫자로는 표현이 안되고 무한한 숫자로 표현해야 하는 데이터를 의미한다. 따라서 연속형 데이터는 구간(계급, bin, bucket)을 두어 범주형 데이터로 바꾸어 사용한다. 연속형 데이터를 측정한 값은 엄밀히 말하면 범주형 데이터로 바뀐 것이다.
F. 범주형 데이터는 “나이”, “시험점수” 등과 같이 명확한 자릿수를 가지는 수치로 표현된 데이터다. 범주형 데이터는 디지털이라고 할 수 있다. 즉 유한개의 숫자로 표현할 수 있다.
범주형 데이터는 명사형 데이터와 순서형 데이터로 다시 분류할 수 있으며, 명사형 데이터는 해당 범주에 있어 분명한 순서를 정할 수 없는 이름으로 분류가 가능한 데이터다. 예를 들어, '주택'이라는 범주는 다시 '소유형' 및 '렌털형'으로 분류할 수 있는데, '소유형' 및 '렌털형'이 바로 명사형 데이터 분류다. 순서형 데이터는 순서를 명확히 정의할 수 있는 데이터 분류이며 예를 들어 '키', '나이', '몸무게' 등을 기준으로 분류하는 것이다. '나이'를 기준으로 '영아', '유아', '어린이', '청소년', '청년', '장년', '노인' 등으로 데이터를 분류하는 것으로 생각하면 된다.
참고로 수집에 따른 데이터 종류도 있습니다.
G. 원시데이터는 처음 수집한 데이터다.
H. 가공데이터는 1개 또는 다수개의 원시데이터에서 선택과 분리를 한 데이터다. 그리고 원시데이터나 가공데이터를 가지고 연산하여 나온 데이터도 가공데이터로 볼 수 있다. (원시데이터들에서 많은 가공데이터가 만들어질 수 있다.
데이터 과학의 분류로 보는 실생활에서의 접할 수 있는 데이터들을 분류해 보는 것도 재미? 있는 일이 될 수 있다.
- 이메일: 비구조형, 범주형
- 디지털 이미지: 비구조형, 범주형
- 주식 시장 로그: 구조형, 연속형
- 금 값 변화: 구조형, 연속형
- 신용 승인 기록: 구조형, 범주형
- 소셜 미디어 친구 및 관계: 비구조형, 범주형
- 트위터 트렌드 토픽: 비구조형, 범주형
- 판매 기록: 구조형, 연속형
마지막으로, 정보통신산업(IT)의 데이터 분류체계(출처; 정보화사회실천연합)에서는 데이터 유형에 따른 “데이터 유형 분류체계”와 데이터의 저장 구조에 따른 “데이터 구조 분류체계”로 정의한다.
- 데이터 유형 분류체계는 생산 주체에 따라 “프로세스가 생성”, “기계가 생성”, “사람이 생성”으로 분류하며, 자료출처에 의하여 “업무정보”,“생체정보”,“사물인터넷정보”,“지식정보”,“웹/SNS정보” 등으로 분류 유형 그룹을 정의하여 “메타데이터, 기준데이터, 거래데이터 등”외 10개의 데이터 유형으로 분류하여 데이터 유형 분류체계를 정의한다.
- 데이터 구조 분류체계는 콘텐츠 형식에 따라 “정형”,“반정형”,“비정형”으로 분류되며, 저장유형에 따라 “RDBMS”,“No-SQL”,“비구조”로 분류할 수 있으며, 이를 세분화하면 “관계구조, 키-값 구조, 칼럼패밀리구조 등”의 6개 데이터 구조로 분류하여 데이터 구조분류체계를 정의한다.
1. 유형에 따른 분류
데이터를 분류하는 데 있어 빅데이터의 유형에 따른 분류는 IBM과 UNECE(유엔유럽경제위원회)가 분류한 ‘자료출처’ 및 ‘자료유형’ 기준 참조하여 다음과 같이 정의할 수 있다.
데이터는 생산주체에 따라 프로세스에 의해서 생성되는 프로세스 생성, 각종 기기에 의하여 생산되는 기계 생산 및 사람에 의하여 생산되는 사람생성으로 구분할 수 있다. 생산주체에 따라 자료가 생성되는 출처에 따라 다음과 같이 데이터 유형 분류군을 세분화할 수 있다.
앞서 분류된 데이터 유형분류체계에 의하여 메타데이터, 기준데이터, 로그데이터, 거래데이터, 분석데이터, GIS(공간) 데이터, 문서데이터, 미디어데이터, 센서데이터, 활동데이터 등 10개의 데이터 유형으로 분류할 수 있다.
2. 구조에 따른 분류
데이터의 데이터 저장구조에 따른 분류는 콘텐츠 형식에 따라 “정형”,“반정형”,“비정형”으로 분류되며, 저장유형에 따라 “RDBMS”,“No-SQL”,“비구조”로 분류할 수 있으며, 이를 세분화하면 “관계구조, 키-값 구조, 칼럼패밀리구조 등”의 6개 데이터 구조로 분류하여 데이터 구조분류체계로 정의할 수 있다.
데이터 종류, 유형별 구분만 간단하게(?) 하였는데도 참 머리가 아파올 것 같다. 그렇다면 모두 인지하는 위키백과 같은 정의(definition)를 잘 난 체하며 거들먹거렸을까? 그것은 두 가지의 문제점과 고민에서 시작되었다.
(1) "데이터 저널리즘"의 문제와 한계
(2) "데이터 기술혁신"이 부재한 "디지털 트랜스포메이션"의 대한민국 현실과 파생문제
이 두 가지 문제의 발제를 이야기하려다 보니, 문제제기의 주체와 소재가 되는 '데이터'라는 것을 제대로 이해할 필요가 있어 보였다. 쉽게 실생활에서 유통되는 "데이터"라는 용어, 그리고 그 근본이 되는 "디지털"이란 용어부터 되짚어 보아야 할 것 같았다. 생각보다 흔한 말이지만, 쉽고 간단하게 설명하기엔 그 속안이 매우 복잡하기만 하다.
IT에서 이야기하는 컴퓨팅은 인간의 인지 개념을 반영하고 있다. 특히 데이터를 주고받는 것 그것들을 처리하고 연산하고 산출하는 프로세스와 보관방법이 인간의 뇌인지 활동과 닮아 있다. 인간의 실제를 "기억"이라 하듯 정보관리 영역에선 "기록"이라고 한다. 그 기억의 아날로그를 단편과 절편, 파편으로 저장하고 기록하는 것의 단위를 "데이터"라고 할 수 있다. 그래서 "데이터"의 이해는 지금 21세기 4차 혁명 시대에서는 '일상'이 되고 있는지도 모른다.
지난 '디지털'에 대한 이야기에서 언급했듯이, 디지털은 아날로그의 실제를 '순간포착'한 단서에 지나지 않는다. 그래서, 데이터의 주고받음의 괴정은 매우 중요하다. 그 주고받음 속에서 그 단서는 오염되거나 왜곡된다면 실제 했던 "사실"과 "진실"이 오염되고 왜곡되기 마련이다. 그 오염과 왜곡의 행위를 에둘러 "의도"라고 말하며, 스스로 합리화하는 미디어와 산업계를 많이 목격하게 되었다. 그러나, 그 "의도"가 결국 "분식(粉飾)"이 되고 "조작"이 되기 십상이다.
그래서 데이터를 이해하기 위해서 "어디에서(누구에게서) 와서 어디로(누구에게) 가는가?"라는 탐색은 매우 중요한 문제가 되었다. 다음번엔 그 이야기를 풀어 볼까 한다.
* 그럼 실생활에서 이런 데이터는 어떤 형태로 가장 많이 주고받을까?
* 언론이나 미디어의 '여론조사', '통계지표"' '소셜트렌드'는 물론 정부 시책이나 기업의 의사결정의 근간이 되는 스프레드 시트 안의 '트랜젝션 수치데이터' 등이 이 세상에 유통되는 데이터의 소수의견에 불과하고, 심지어 오염, 왜곡되기도 쉽다면 어떤가?
* 그런 데이터들은 어떤 경로와 장치를 통해 가공이 될까? 그 안에서 '의도'는 얼마나 중요하고 위험할까?