코딩 교육에 대한 관심이 뜨거워지면서, 가장 먼저 반응하는 곳이 바로 사교육 시장인데요, 사교육 시장에서 코딩에 대한 열기는 지난 2015년부터 지금까지 꾸준했습니다. 주변에도 코딩 학원이 하나둘씩 생기긴 했지만, 얼마나 많은 수의 코딩 학원이 있지 학생 또는 학부모가 쉽게 볼 수 있는데이터가 부족했습니다. 이번 글에서는 두셀코에서 직접 공공 데이터를 분석하여 서울시 코딩 학원과 코딩 교습소 수를 알아보겠습니다.추후에 타 지역의 데이터도 분석할 예정입니다.
들어가기 앞서, 여기서 분석한 데이터는 공공 데이터로 공개된 학원 및 교습소 데이터를 기반으로 하였기 때문에, 실제 학원 수와 차이가 있을 수 있는 점은 먼저 말씀드립니다. 이렇게 오픈되어 있는 데이터에 대한 분석도 인터넷에 공개되어 있는 것이 없었기 때문에 데이터를 빠르게 분석해서 공개하는 것에 초점을 두었고, 추후에 더 좋은 데이터 소스들을 찾아 점점 정확도를 높여가도록 하겠습니다 :)
공공데이터를 보기 전에 먼저 Google Trends에서 구글 검색량을 통한 사람들의 관심도를 알 수 있는데요, 아래와 같이 코딩에 대한 관심도가 꾸준히 증가하는 것을 볼 수 있습니다. 두셀코에서는 추가적으로 분기 기준으로 이동평균선을 구하여 트렌드를 보려고 했고, 오렌지 색으로 나타난 선이 분기 단위로 구한 트렌드로 볼 수 있습니다.
Google Trends 관심도: 구글 검색량으로 본 2015 ~ 2020 사이 대한민국 코딩 학원에 대한 관심도
이제 공공 데이터를 기반으로 분석한 서울시 코딩 학원 및 교습소 현황을 볼까요? 일단 데이터는 공공 데이터 중 가장 최신인 2020년 4월 30일 공개된 '서울의 학원 및 교습소 현황'을 활용했습니다. 이 데이터는 코딩 학원에 대한 데이터가 있는 것이 아니라 전체 학원과 교습소의 데이터이기 때문에 영어, 수학, 음악 등 다양한 과목의 데이터도 포함이 되어있었습니다. 그렇기 때문에 몇 가지 필터를 통해서 코딩 학원을 필터링했습니다.
필터링한 것은 교과 과목 중 '코딩','프로그래밍', '컴퓨터', '로봇', '스크래치' 등 코딩 관련 키워드를 포함한 학원들을 필터링하고, 학원 종류는 '평생직업교육학원'인 학원은 제외했습니다. '평생직업교육학원'은 직업 교육과 관련된 학원이기 때문에, 일반인이 아닌 학생들을 위한 코딩 학원의 범주에 포함되지 않는다 하여 제외하였습니다. 또한, 일부 데이터는 '컴퓨터'라는 키워드를 가지고 있지만, '컴퓨터 미사용'과 같은 키워드들이 있으면 제외하였습니다. 마지막으로, 중복된 학원 이름들이 있었기 때문에 이들의 중복을 제거하였습니다. 여기서 분석한 데이터들의 총 개수는 약 27만 개였습니다.
엑셀 데이터를 가져왔으니 이를 지역별로 색칠할 수 있는 지도 데이터가 필요했는데요, 구글링을 통해서 서울 지역 지도의 HTML 파일을 다운로드하였습니다. 그리고 이 HTML 파일을 수정하여 색깔을 입혔습니다. 데이터를 어떻게 분석했는지에 대한 자세한 소스코드는 글의 말미에 나온 링크를 참고해주세요 :)
첫 번째 그림은 서울시 각 구 별 코딩 학원 수를 나타낸 이미지입니다. 가장 진한 파란색이 코딩 학원 수의 상위 10%를 의미하고, 가장 연한 파란색은 60% ~ 100%를 의미합니다.
서울시 코딩 학원 수에 따른 지도
두 번째 그림은 서울시 각 구 별 코딩 교습소 수를 나타낸 이미지입니다. 이 그림도 역시 가장 진한 파란색이 코딩 학원 수의 상위 10%를 의미하고, 가장 연한 파란색은 60% ~ 100%를 의미합니다.
서울시 코딩 교습소 수에 따른 지도
마지막 그림은 서울시 각 구 별 코딩 학원과 코딩 교습소 수를 합친 데이터에 기반한 이미지입니다.
서울시 코딩 학원과 코딩 교습소 수에 따른 지도
자세한 소스 코드가 궁금하시면 '원본 소스 코드'를, 원본 엑셀 데이터는 '원본 데이터'를, 어느 지역에 어떤 학원과 교습소가 있고, 그 지역에는 몇 개의 코딩 학원과 교습소가 있는지 확인하시려면 '결과 데이터'를 보시면 됩니다.
공공 데이터를 활용해서 코딩 학원에 대한 데이터를 처음 분석해봤는데요, 추가적으로 더 좋은 데이터들을 찾게 되면 분석을 해보도록 하겠습니다 :)