Part3. 알짜 공공데이터 활용 02 - 인허가 데이터
공공기관에서 제공하는 데이터중 가장 쓸모있다고 생각하는 알짜 데이터를 골라서 활용 방법을 공유한다.
데이터 활용을 설명하기 위하여 Python, QGIS, PowerBI 등 상황에 적합한 도구를 사용한다. 하지만, 공유하고자 하는 핵심은 분석 도구가 아닌 데이터의 활용이다.
알짜 데이터의 선택 기준은 아래와 같다(순전히 저자의 주관적 기준이다)
가치성 : 데이터는 유의미한 분석 소스로 사용만할만 가치를 가져야 한다(단순 집계성 데이터 배제)
신뢰성 : 데이터의 생성 과정을 논리적으로 이해할 수 있어야 하며 흠결이 없어야 한다.
완전성 : 데이터를 이루는 속성과 값은 누락과 중복이 없어야 한다.
지속성 : 데이터는 일정 주기에 따라 지속적으로 갱신되어야 한다(1회성 데이터 배제)
거리를 나서면 음식점, 커피숍, PC방, 노래방, 당구장, 미용실, 약국, 여행사 등 수많은 간판이 널려 있다. 2018년 기준 우리나라의 자영업자 비중은 25.1%로 OECD 평균보다 10% 높다고 한다(통계가 집계된 OECD 회원국 가운데 그리스(33.5%), 터키(32.0%), 멕시코(31.6%), 칠레(27.1%)에 이어 다섯번째로 자영업자가 많다)
대부분의 자영업은 행정 관청의 인허가가 있어야 받아야 영업이 가능하다. 인허가 제도는 아래의 설명을 참고하도록 한다.
인허가(認許可) 제도는 특정 영업 · 사업 · 업무 그 밖의 행위를 함에 있어서 행정관청의 일정한 행위(허가 · 인가 · 면허 등)나 행정관청에 대한 일정한 행위 (등록 · 신고 · 등)를 요건으로 하는 것으로, 그러한 목적을 위하여 국민의 사회 · 경제생활상의 자유 또는 권리를 제한하거나 의무를 부과하는 규제 제도이다.
인허가는 허가 또는 인가 등을 받거나 등록 또는 신고를 하지 아니하고서는 일정한 영업 · 사업 · 업무 그 밖의 행위를 처음부터 합법적으로 할 수 없게 된다는 점에서 사전적(事前的)인 규제방식으로 분류되며, 일정한 영업 · 사업 · 업무 그 밖의 행위를 처음부터 자유롭게 허용하되 법 위반행위가 발생한 때에만 이를 단속하거나 처벌을 통하여 사후에 규제하는 사후적(事後的)인 규제방식과 구별된다. 인허가 제도 상세 설명 링크
예컨대, 미용실을 운영하려면 아래 그림 왼쪽 서식으로 영업신고를 하여야 하고, 행정 관청은 오른쪽 서식을 기본으로 신고사항을 관리한다. 인허가 데이터는 이러한 신고서와 관리대장을 기반으로 한다.
이번에 소개하는 공공 데이터는 지방행정 인허가 데이터이다(이하 '인허가 데이터'라고 하겠다). 이 데이터는 인허가 제도에 의하여 업주가 행정관청에 신고한 내용을 데이터화 한 것이다.
이 데이터에는 업소의 위치와 규모, 영업과 폐업 시기 등이 담겨있기 때문에 업종별로 상세한 현황 파악이 가능하다. 유동인구(생활인구) 데이터와 매출 데이터까지 결합한다면, 신규창업을 위한 상권 분석은 물론 기존 업소의 경쟁력 제고에도 유용할 것이리라 생각한다.
아래 그림은 서울에서 운영중인 카페의 현황과 생활인구 데이터를 같이 분석한 결과이다.
인허가 데이터는 행정안전부 산하 한국지역정보개발원에서 운영하는 '지방행정 인허가 데이터 개방시스템'에 의하여 매일 자동으로 수집되고 일반에게 공개된다.(http://localdata.kr/)
17개 시도, 228개 시군구의 식품 · 문화 · 의료 · 물류 등 191종의 인허가 데이터가 대상이 된다. 2018년 기준 750만 업종 · 업소의 데이터가 포함된다고 한다. 대상 업종은 아래 표와 같다.
191개 업종중 업소가 많은 업종은 일반음식점, 통신판매업 순이다(파일의 크기로 추측) 2020년 4월 기준 영업중인 일반음식점은 659,926 개소이며, 폐업한 곳은 1,203,987 개소이다.
인허가 데이터는 지방행정 인허가 데이터 개방시스템(http://localdata.kr/)에서 받을 수 있다. 업종(191개)별 또는 지역(서울, 경기도 등 시도)별로 받을 수 있으며, 전체 데이터는 최초 인허가 생성일부터 당일 기준 전월까지 가능하고, 해당 월의 변동분은 opeAPI를 통해 받을 수 있다.
예컨대, 2020년 5월 15일에 미용 업종 인허가 데이터를 받으려고 한다면, 2020년 4월까지의 미용 업종 전체 데이터를 다운로드하고, 5월1일부터 5월13일까지의 데이터는 openAPI를 통하여 받을 수 있다.
7개 카테고리, 36개 그룹, 191개의 업종이 포함된다
업종별 최초 인허가일부터 해당일의 2일전까지 포함된다. 아래 그림은 서울 지역에 신고한 카페의 인허가 신고일을 이용하여 연도별 카페의 창업 및 폐업 건수를 시각화한 결과이다.
대한민국의 모든 지역(17개 시도, 228개 시군구)이 포함된다. 아래 그림은 미용업으로 신고한 업소의 전국적 분포이다.
업종별로 업소의 수는 물론이려니와 속성(컬럼)의 형태도 상이하다. 미용업 데이터를 중심으로 데이터 구조에 대하여 설명한다.
엑셀 파일로 데이터를 다운로드 받을 경우, 하나의 탭당 300,000행의 데이터가 기록되어 있다. 아래 화면에서 미용업 데이터는 300,000행이 넘기 때문에 2개의 탭으로 구성되어 있다.
2020년 4월 기준, 페업된 곳을 포함하여 신고된 미용업소의 수(행)는 336,119개이고, 속성(컬럼)의 수는 50개이다.
일부 속성은 누락된 값이 많다. 예를 들어, '여성종사자수' 속성 값의 경우 89,619건으로 26.6%에 불과하다.
누락값이 많거나 직관적으로 이해가 가능한 속성은 제외히고, 분석에 필요할 것으로 예상되는 속성에 대하여 알아본다.
3.개방서비스ID : 191개의 업종별로 부여된 고유 코드이다. 미용업은 05_18_01_P 이다.
4.개방자치단체코드 : 인허가 신고를 접수한 기초자치단체(시군구)의 고유 코드이다. 예를 들어, 서울시 종로구는 3000000이다. 전체 코드는 첨부된 파일을 확인하도록 한다.
5.관리번호 : 자치단체코드와 인허가 연도 그리고 일련번호로 구성되어 있다. 각 행(업소)을 고유하게 식별할 수 있는 PK(Primary Key)의 역할을 한다.
6.인허가 일자 : 인허가 신고 일자이다.
8.영업상태구분코드 / 9.영업상태명 : 업종별로 다르다. 미용업에서 '01'은 '영업/정상'이고, '03'은 '폐업'이다.
10.상세영업상태코드 / 11.상세영업상태명 : 업종별로 다르다. 미용업에서 '01'은 '영업'이고, '02'는 '폐업'이다.
12.폐업일자 : 폐업 신고
17.소재지 면적 : 업소의 영업 면적으로 제곱미터 단위이다.
19.소재지전체주소 : 인허가 데이터는 소재지 기준이 아닌 신고지역 기준이다. 따라서 소재지주소와 신고지가 다를 수 있다.
23.최종수정시점 : 행정관청에서 신규 생성 또는 마지막으로 수정한 시점이다.
24.데이터갱신구분 : 'I'는 신규 생성, 'U'는 수정된 데이터임을 의미한다.
25.데이터 갱신일자 : 인허가데이터개방시스템에 갱신된 일자이다. 기본적으로 '23.최종수정시점'의 2일 후가 된다.
27.좌표정보(X) / 28.좌표정보(Y) : 업소가 위치한 위치 정보이다. 좌표 정보를 자세히 알아본다.
관리자는 좌표계가 EPSG:2097라고 하지만, 실제 지도에 EPSG:2097좌표계를 적용하여 데이터를 매핑하면 일치하지 않는다(서쪽으로 약 260m 이격된 위치를 표시)
예를 들어, 중구 을지로 16번지 백남빌딩에 위치한 업소가 서쪽으로 260m 떨어진 덕수궁 안으로 표시되는 현상이 발생한다.
여러번 테스트해 본 결과, 좌표게는 보정된 중부원점(EPSG:5174)를 선택해야 맞는 것으로 보인다. 이렇게 하면, 비로소 주소 상 위치와 좌표의 위치가 일치한다.
인허가 데이터의 구체적인 활용 방법은 다음 글('자영업 김사장님의 경쟁력 업그레이드 비법_2')에서 다루기로 한다.