Part1. 공공데이터 분석의 개념
흔히 숫자와 문자만을 데이터로 생각하기 쉽다. 하지만 데이터의 범위는 매우 넓어서 그림과 영상을 모두 포함한다.
단, 그림과 영상 등 비정형데이터를 분석하려면(즉, 컴퓨터로 처리하려면) 숫자 형태로 변환하여야 한다.
아래 그림은, 손으로 쓴 숫자 이미지를(아래 그림 왼쪽의 숫자들) 컴퓨터가 처리할 수 있도록 변환하는 과정을 보여준다(이미지를 픽샐로 나누고, 픽셀별 농도에 따라 값을 부여한다)
위의 사례(2017년 인구 현황, 동물 사냥 동굴벽화, 귀여운 고양이움짤)에서 볼 수 있듯이, 데이터는 사회현상이나 사람들의 행동을 관찰하여 기록한 기호이다.
이번에는 공공기관에서 제공하는 공공데이터의 사례를 살펴본다.
아래의 표는 전국의 약국 현황을 기록한 데이터중 일부이다. 어떤 사람이 특정 장소에 약국을 개설하여 운영하고 있는 사실을 나타내고 있다.
아래의 표는 서울시에서 운영중인 공공자전거(따릉이)의 대여 및 반납 내역을 기록한 데이터중 일부이다. 누군가가 특정 장소에서 공공자전거를 대여하여 특정 장소에 반납한 사실을 나타내고 있다.
위의 사례에서 볼 수 있듯이, 대부분의 공공 데이터는 사회 현상이나 사람들의 행동을 관찰하여 기록한 기호로 구성되어 있다.
위의 약국 현황 데이터를, 컬럼(열)을 기준으로 분석해 보면(나누고 쪼개보면), 다음과 같은 속성들로 구성되어 있음을 발견할 수 있다.
- 개체 : 사업장명, 영업상태
- 시간 : 인허가일자
- 공간 : 주소, X/Y 좌표
공공자전거의 대여 및 반납 내역 데이터에서도 동일한 속성을 발견할 수 있다.
- 개체 : 자전거 ID
- 시간 : 대여일시, 반납일시
- 공간 : 대여장소, 반납장소
우리가 자주 활용하는 공공데이터를 살펴보면, 대부분의 데이터는 시간, 공간, 개체의 3가지 속성을 가지고 있다는 사실을 발견할 수 있다.
개체 : 사람 또는 사물 그 자체, 사람 또는 사물의 행위 등. 예) 사업장명, 자전거ID
공간 : 개체가 속한 지리적 장소 또는 범위. 예) 주소, 위/경도, 행정구역
시간 : 개체가 존재 또는 행동하는 시점이나 기간. 예) 인허가일, 대여기간
대부분의 공공데이터는 시간과 공간, 개체 속성을 기록한다.
데이터와 정보의 관계
데이터가 사회현상이나 사람들의 행동을 기록한 기호라면, '정보'는 축적된 데이터에 맥락을 더하여 가치를 높인 기호이다.
예를 들어, 치킨가게을 운영하면서 치킨 판매량을 날짜별로 기록했다면(5월1일 10마리, 5월2일 12마리 등) 그 기록은 데이터이다. 그 데이터를 요일별로 집계를 했더니 주말에는 평일보다 2배를 팔았다면 이건 정보가 된다.
데이터와 빅데이터의 차이점
빅데이터가 유행하면서 빅데이터의 실체에 대한 갑론을박이 꽤 있었다. 개인적으로 굉장히 큰 데이터도 다룰 수 있는 기술 환경이 되었다는 사실에 빅데이터의 의미를 부여하고 싶다.
'큰 데이터'는 상대적인 개념이다. 컴퓨터 기술이 발전하고 가격이 하락함에 따라 그 기준은 달라진다. 현재 PC에서 데이터를 다루는 일반적인 소프트웨어가 '엑셀'이며, 엑셀에서 로딩이 가능한 크기가 약 1백만행이라는 사실에 기초해서, 나는 1백만행 이상의 데이터를 빅데이터라고 부른다.