공공데이터 자료를 활용한 선생님의 데이터 분석
" 선생님~~! 선생님도 ♧지역에서 근무하고 저도 ♧지역에서 근무하잖아요. 그런데 왜! 우리학교는 과밀학급이 많아서 학생들이 교실내 공간을 많이 확보하지 못해서 어학실도, 특별실도 부족할까요? 학교가 생기기 전 미리 학급이 더 필요한 지역을 알아보고, 대비하는 방법이 있을까요? "
나도 교사로 근무하면서 같은 지역(같은 구)임에도 불구하고 학급당 학생수가 10명대 중반에서 부터 30명대 후반까지 무려 20명 가량 차이나는 경우도 종종 봐왔다. 학생들이 많이 사는 곳에 당연히 학급수가 부족할테지만, 뭔가 데이터를 통해서 학생들이 많이 몰리는 곳은 어떤 특징을 가지고 있는 지역이며, 그런 지역은 어떤 특징을 발견할 수 있는지 궁금해졌다. (순전히 궁금증!! ㅋㅋ)
특히 요새 부동산이 핫한 이슈여서 그런지, 공공데이터를 통해서 학생들이 많은 지역의 인구구조 그래프를 그려보고 특징을 찾아보는 일은 매우 재미있을 것이다! 라는 생각이 들었다.
나는 작년 말쯤 선생님들끼리 모여서 데이터 공부를 하려고 자발적으로 모인 모임에 가입했었다. 이 모임은 줌을 통해서 종종 만나고 모든 공부가 스스로 하는 셀프 스터디이면서 서로 격려해주는 모임이었다. 다른 선생님들이 하신 멋진 프로젝트를 보고 감명을 받았다. 나도 교육과정과도 연관되고 학교 교육현장에 조금이나마 의미가 있는 주제를 정해서 스스로 탐구해봤다!
그래서 다음과 같은 질문을 가지고 데이터 분석을 시작하였다.
이런 질문을 가지고 원자료 데이터가 될만한 데이터를 찾아보았다.
공공데이터 포털에 교육부 통합제공 초중등학교 현황 데이터가 나와있었다.
이 데이터를 다운 받으니, 이런 엑셀파일이 있었다. 전국의 시도교육청/지역교육청/지역(구별로 되어있음)/학교명/학년당 학급수/ 학급당 학생수가 나온 파일이었다. 이 원자료를 파이썬에서 동작 가능하도록 csv파일로 변형하였다.
파이썬 pandas 를 통해 공공데이터 자료에 있는 모든 학교 이름은 제외하고, 지역과 학급당 학생수를 표로 정리해보니 간단한 표로 정리되었다! ^^ 데이터 분석 언어는 나에게 아직 쉬운건 아니라, 모르는 부분은 '모두의 데이터 분석 with 파이썬'책과 모임내 선생님께 질문을 드리면서 코드를 작성해보았다.
결과 값은 중간을 생략하고 출력되었다. 우리나라는 총 6265개의 초등학교가 있구나! 그리고 이 학교들의 학급당 학생수를 구해보았다. 그 후 같은 지역의 학교끼리 묶고 싶어서 다시 코드를 작성해서 평균을 계산하는 코드를 넣고, 파이썬 결과값 출력을 눌러보았더니! 총 251개의 지역에 학급당 학생수가 계산되었다.
평균 학생수가 한자리인곳도 많구나!
전국 평균 학급당 학생수는 17.7086...명!! ^^ 여러분의 학급에는 몇명의 학생들이 있나요? 전국 평균보다 많은지 적은가요?
그러면 이번에는 학급당 학생수가 많은 지역이 어디인지 살펴보고, 이들의 특징을 살펴보고 싶다는 생각이 들었다! 그러면 학급당 학생수가 많은 상위 지역을 추출해보려고 한다.
지역별로 학급당 학생수가 많은 상위 10개 지역을 출력해서 살펴보았다.
수지구, 영통구, 분당구, 서초구, 장안구, 일산서구, 일산동구, 동안구, 과천시, 상록구 가 검색이 되었다.
지역 명을 보고 공통점이 뭔지 궁금해졌다. 어딘가 모르게 익숙한 지역명들이 검색되었는데 아마 학군지로 유명한 곳들이라 그럴 거라 생각이 들었다. 그 다음 궁금점!
내가 활용할 수 있는건 공공데이터가 가장 정확하고, 많은 정보여서 공공데이터를 통해서 분석할 만한 점이 있는지 고민하게 되었다. 그렇게 생각해서 뽑아 낸것이 각 도시의 인구구조 그래프! 이다.
그래서 이 10개 지역의 인구구조 그래프도 그려보게 되었다!
인구구조 그래프는 다음장에~^^