공공기관에서 제공하는 데이터중 가장 쓸모있다고 생각하는 알짜 데이터를 골라서 활용 방법을 공유한다.
데이터 활용을 설명하기 위하여 Python, QGIS, PowerBI 등 상황에 적합한 도구를 사용한다. 하지만, 공유하고자 하는 핵심은 분석 도구가 아닌 공공 데이터의 이해와 활용이다.
알짜 데이터의 선택 기준은 아래와 같다(순전히 저자의 주관적 기준이다)
가치성 : 데이터는 유의미한 분석 소스로 사용만할만 가치를 가져야 한다(단순 집계성 데이터 배제)
신뢰성 : 데이터의 생성 과정을 논리적으로 이해할 수 있어야 하며 흠결이 없어야 한다.
완전성 : 데이터를 이루는 속성과 값은 누락과 중복이 없어야 한다.
지속성 : 데이터는 일정 주기에 따라 지속적으로 갱신되어야 한다(1회성 데이터 배제)
1. 전출입신고의 이해
보통의 가정에서, '이사'는 자주 있는 일이 아니다.
그림 출처 : https://news.joins.com/article/5957285 기존에 익숙했던 거주지를 옮기는 일은 매우 번거롭고 비용도 들고 때로는 새로운 주거환경이 두렵기도 하다.
그럼에도 주택, 직장, 학교 문제 등의 이유로 이사는 불가피한 일이다.
2019년 한해동안 전국에서 9,429,320명이 거주지를 변경하였으니(9,429,320명이 전입신고를 하였다), 대한민국 국민의 17%이상이 이사를 경험했다는 계산이다(2019년 12월 기준, 우리나라에는 51,849,861명이 살고 있었다)
이사를 한 가구의 특징과 목적, 시기, 장소를 분석한다면 사회의 현상을 일부라도 엿볼 수 있는 기회가 될 것이다.
전입신고는 "하나의 세대에 속하는 자의 전원 또는 그 일부가 거주지를 이동한 때에는 신고의무자가 새로운 거주지에 전입한 날부터 14일 이내에 주소지변경 및 등록을 위한 전입사실을 새로운 거주지 관할기관에게 신고"하는 제도이다.
아래의 이미지는 실제 전입신고에 사용하는 서식으로, 왼쪽은 세대 전부가 이동할 때, 오른쪽은 세대의 일부가 이동할 때 사용한다. 서식에는 전출지와 전입지 그리고 전입사유를 기재하도록 되어 있다.
2. 전입신고 데이터
통계청은 전입신고서에서 관련 데이터를 생성하여 마이크로데이터통합서비스 사이트(https://mdis.kostat.go.kr)에서 제공하고 있다.
주민등록전입신고→동·읍·면→중앙주민전송망센터→행정안전부 행정정보중계시스템→통계청
데이터의 목적은 인구 이동 상황을 주기적으로 파악하여 인구정책 및 지역간 균형개발을 위한 기초자료로 활용하기 위함이다.
2.1. 데이터 개요
데이터 공개 범위(기간) : 2001년부터 현재까지
데이터 공개 범위(공간) : 대한민국의 모든 시도
대상 범위 : 전입신고를 한 모든 세대주 및 세대원(2019년 기준 5,925,543건, 9,429,320명)
데이터 기록 단위(시간) : 일(日)
데이터 기록 단위(공간) : 읍면동(서울의 경우 행정동)
업데이트 주기 : 매년(매년 1년치를 모아서 공개)
이동사항의 미신고, 지연신고, 허위신고 등으로 사실상의 이동과 차이가 있을 수 있음
2.2. 데이터 파일 구분
통계청은 전입신고 데이터를 3개의 파일로 구분하여 제공하고 있다.
2.2.1. 세대관련 연간자료 : 세대(가족) 중심으로 인구 이동 상황 기록
전입지와 전출지(동읍면), 전입일, 전입사유, 세대주 나이와 성별, 전입 인구(성별)를 17개 컬럼으로 기록
세대주의 연령과 성별만 기록
2.2.2. 인구관련 연간자료 : 개인 중심으로 인구 이동 상황 기록
전입지와 전출지(동읍면), 전입일, 전입사유, 개인별 나이와 성별을 41개 컬럼으로 기록
2.2.3. 인구이동-섬머리 : 인구이동 상황을 집계
전입지와 전출지(구시군), 전입월, 전입사유, 성별/연령별(5세 단위) 집계 상황을 43개 컬럼으로 기록
2.3. 데이터 다운로드
전입신고 데이터는 마이크로데이터통합서비스 사이트(https://mdis.kostat.go.kr)에서 회원 가입 후 다운로드 할 수 있다. 다운로드 경로는 자료이용 > 다운로드 서비스 이다.
'인구 > 국내인구이동통계'를 선택하면, 원하는 데이터와 연도를 선택할 수 있다.
데이터에서 원하는 항목만을 선택하여 다운로드할 수 있다.
3. 데이터의 이해
3.1. 세대관련 연간자료
2019년 세대관련 연간자료 데이터 테이블은 5,925,544행으로. 파일 크기는 315MByte이다.
데이터 테이블의 17개 컬럼을 5개의 분야로 분류해서 설명한다(색상으로 구분하였다)
① 위치 관련 컬럼
왼쪽의 붉은색 컬럼(1, 2, 3컬럼)은 전입 지역을 표시하는 행정구역 코드이고, 오른쪽의 붉은색 컬럼(7, 8 9컬럼)은 전출 지역을 표시하는 행정구역 코드이다.
첫번째 컬럼의 2자리는 '시도', 두번째 컬럼의 3자리는 '시군구', 세번째 컬럼의 5자리는 '동읍면'을 표시한다.
3개의 컬럼이 더해지면 대한민국에서 '동읍면' 단위의 행정구역을 식별할 수 있다. 예를 들자면, 아래와 같다.
11 : 서울특별시
11110 : 서울특별시 종로구
1111051500 : 서울특별시 종로구 청운효자동
전체 행정구역 코드는 마이크로데이터통합서비스 사이트(https://mdis.kostat.go.kr)에서 '인구이동통계 코드집' 파일을 다운로드하여 확인할 수 있다.
② 날짜 관련 컬럼
노란색 컬럼(4, 5, 6컬럼)은 전입신고 날짜를 연, 월, 일을 구분하는 값이다.
③ 전입 사유 컬럼
초록색 컬럼(10번째 컬럼)은 전입사유를 구분하는 코드이다.
1 : 직업
2 : 가족
3 : 주택
4 : 교육
5 : 주거환경
6 : 자연환경
9 : 기타
④ 세대주 관련 컬럼
세대주 관계 : 세대주 여부를 구분하는 코드이다.
1 : 세대주 - 전입지에서 세대주가 됨을 의미
공백 : 세대원 - 전입지에서 다른 세대의 세대원이 됨을 의미
세대주 만나이 : 세대주의 만나이를 표시하는 값이다.
세대주 성별 : 세대주의 성별을 구분하는 코드이다.
1, 3, 9 : 남자
0, 2, 4 : 여자
세대관련 : 세대 구성 인원을 구분하느 코드이다.
1 : 2인 이상 세대
2 : 1인 세대
⑤ 인원 관련 컬럼
이동 총인구, 이동 남인구, 이동 여인구 : 전입 인원을 표시하는 값이다.
3.2. 인구관련 연간자료
2019년 인구관련 연간자료 데이터 테이블은 5,925,554행으로. 파일 크기는 490MByte이다.
데이터 테이블의 41개 컬럼을 5개의 분야로 분류해서 설명한다(색상으로 구분하였다)
① 위치 관련 컬럼 : 세대관련 연간자료 데이터 테이블 참조
② 날짜 관련 컬럼 : 세대관련 연간자료 데이터 테이블 참조
③ 전입 사유 컬럼 : 세대관련 연간자료 데이터 테이블 참조
④ 전입 인구 관련 컬럼 : 세대주 여부, 남여 구분, 연령 등 개인별 인적사항 표시
전입자 관계 1 : 세대주
전입자 관계 2~9 : 세대원
전입자 성별 1, 3, 9 : 남자
전입자 성별 0, 2, 4 : 여자
전입자1의 관계가 '1'이면, 전입지에서 세대주가 됨을 의미한다(전출지에서의 세대주 여부는 알 수 없다). 같은 행에 있는 전입자들은 모두 세대원이 된다.
전입자1의 관계가 '1'이 아니라면, 같은 행에 있는 모든 사람들은 전입지의 기존 세대로 편입됨을 의미한다.
1행에 최대 10명이 기록되며, 10명이 넘을 경우 일련번호로 표시한다.
⑤ 일련번호 컬럼
일련번호는 전입년월 단위로 부여됨에 따라 월단위 전입신고 건수를 표시(2014.1월 전입신고자료도 1,2,3,4로 시작하며 2014.2월 자료도 1,2,3,4로 시작). 동일한 전입신고 연월에서의 동일한 번호는 전입신고 한 건에 세대원이 10명을 초과할 경우를 의미(고아원, 요양원 등 시설 이전시)
4. 데이터로 무엇을 알 수 있을까?
4.1. 인구 증가 지역과 감소 지역
우리나라는 도시와 지방간 인구격차가 지속작으로 커지는 문제를 갖고 있다
이 데이터를 분석하면 시도 단위는 물론 시군구와 읍면동 수준까지 성별, 연령별, 가족 형태별 인구의 증감 파악이 가능하다.
4.2. 인구 특성별 선호 지역
20대와 60대의 거주 선호지역은 같지 않을 것이며, 아울러 혼자 사는 1인세대와 자녀를 둔 3인 이상 세대의 거주 선호 지역 또한 다를 것이다.
이러한 인구 특성별로 세밀한 선호 지역 분석이 가능하다.
4.3. 거주지 이전 사유별 선호지역
보통 사람들에게 거주지 이전은 중대한 문제이다. 그럼에도 어떤사람은 주택문제, 어떤 가족은 교육문제로 이사를 하게 된다.
주택문제, 교육문제, 또는 교육문제 등 이사를 하게되는 사유별로 선호지역을 파악할 수 있다. 아울러 장기간 데이터로 시계열분석을 하면, 우리나라 사람들이 어떤 문제를 주요한 가치로 여기는지도 짐작할 수도 있다.
4.4. 가족 구성 형태
전입신고 데이터에는 거주지를 이동한 가족들의 세밀한 인구 정보가 담겨있다.
'인구관련 연간자료' 데이터의 '전입자 관계' 컬럼은 가족 구성원들의 관계를 나타낸다.
예컨대 '2'는 세대주와 부부 관계, '3'은 세대주의 비속(자식) 관계, '4'는 세대주의 존속(부모) 관계이다.
2019년 기준 전입신고를 한 인구가 17%에 달하며, 전국에 걸쳐서 주로 가족 단위로 이사를 하였다는 사실을 고려하면, 이 데이터를 통하여 우리나라의 지역별, 시기별 가족 구성형태를 파악할 수 있을 것으로 기대한다.