julia와 VegaLite패키지를 활용한 코로나 전후 비교분석
코로나 전후 자영업자 소득 추이를 분석 및 시각화한 코드와 데이터를 공개한다. 원 글 “코로나 시기에도 자영업자 평균소득은 계속 늘었다. 어떻게 그럴 수 있었을까?”를 쓰기 위해 진행한 데이터 수집 및 코딩 작업에 대한 기록이다.
우선 사용할 패키지와 분석 대상 데이터를 가져와 데이터프레임화한다. 여기서 읽는 파일은 통계청 가계동향조사 2019~2021년 마이크로데이터를 longform 데이터프레임으로 구축한 것이다.
데이터와 코드는 깃허브에 올려두었다. julia 언어로 코딩해서 .jl파일이 코드 파일이다. csv파일과 같이 다운로드 받아, 본인의 저장 위치에 맞게 경로를 재설정해준 뒤 읽어서 그대로 코드를 실행하면 된다.
분석 결과가 뜻밖이어서 여러 모로 검증했으나 결과는 같았다. 기본적 해석을 원 글에 해두었으나, 다양한 분석이 필요할 것 같다.
재난지원금과 손실보상금 등의 정책 수립을 목표한 바대로 진행하려면 데이터를 잘 뜯어보고 상황을 명징하게 파악해야 한다. 있는 그대로 현실을 인정하고 정책을 수립하지 않으면, 나중에 엉뚱한 결과가 나올 수 있다.
관심있는 분들에게 조금이나마 도움이 될 수 있으면 좋겠다는 마음에서, 그리고 코멘트를 받으면 좋겠다는 마음에서 사용한 데이터와 코드를 공개한다.
언어는 julia를 사용했는데, 큰 규모의 데이터 처리 속도가 빨라 적합했던 것 같다. 또 시각화는 VegaLite 패키지를 사용했는데, Grammar of Graphics를 사용하는 패키지라서 진입장벽은 있지만 일단 진입하면 이해는 쉬운 패키지이다. 무엇보다 그래프가 아름답다.
다만 데이터가공 과정은 시간이 좀 걸렸다. julia는 정교하고 빠르지만 변수의 유형 등 신경써야 할 대목이 좀 있고 아직 익숙하지 않기도 하다. 파이프연산을 통해 데이터프레임을 가공하는 데는 아직 r이 더 익숙하고 간편한 것 같다.