brunch

You can make anything
by writing

C.S.Lewis

by 이원재 Apr 10. 2022

[데이터분석] 자영업자 소득 추이 시각화 코드 공개

julia와 VegaLite패키지를 활용한 코로나 전후 비교분석

자료: 가계동향조사 마이크로데이터(DOI 10.23333/P.101006.001)

코로나 전후 자영업자 소득 추이를 분석 및 시각화한 코드와 데이터를 공개한다. 원 글 “코로나 시기에도 자영업자 평균소득은 계속 늘었다. 어떻게 그럴 수 있었을까?”를 쓰기 위해 진행한 데이터 수집 및 코딩 작업에 대한 기록이다.

우선 사용할 패키지와 분석 대상 데이터를 가져와 데이터프레임화한다. 여기서 읽는 파일은 통계청 가계동향조사 2019~2021년 마이크로데이터를 longform 데이터프레임으로 구축한 것이다.

데이터와 코드는 깃허브에 올려두었다. julia 언어로 코딩해서 .jl파일이 코드 파일이다. csv파일과 같이 다운로드 받아, 본인의 저장 위치에 맞게 경로를 재설정해준 뒤 읽어서 그대로 코드를 실행하면 된다.

분석 결과가 뜻밖이어서 여러 모로 검증했으나 결과는 같았다. 기본적 해석을 원 글에 해두었으나, 다양한 분석이 필요할 것 같다.

재난지원금과 손실보상금 등의 정책 수립을 목표한 바대로 진행하려면 데이터를 잘 뜯어보고 상황을 명징하게 파악해야 한다. 있는 그대로 현실을 인정하고 정책을 수립하지 않으면, 나중에 엉뚱한 결과가 나올 수 있다.

관심있는 분들에게 조금이나마 도움이 될 수 있으면 좋겠다는 마음에서, 그리고 코멘트를 받으면 좋겠다는 마음에서 사용한 데이터와 코드를 공개한다.

언어는 julia를 사용했는데, 큰 규모의 데이터 처리 속도가 빨라 적합했던 것 같다. 또 시각화는 VegaLite 패키지를 사용했는데, Grammar of Graphics를 사용하는 패키지라서 진입장벽은 있지만 일단 진입하면 이해는 쉬운 패키지이다. 무엇보다 그래프가 아름답다.

다만 데이터가공 과정은 시간이 좀 걸렸다. julia는 정교하고 빠르지만 변수의 유형 등 신경써야 할 대목이 좀 있고 아직 익숙하지 않기도 하다. 파이프연산을 통해 데이터프레임을 가공하는 데는 아직 r이 더 익숙하고 간편한 것 같다.


https://github.com/freeordie/small_biz_income_visualization_using_julia_vegalite/blob/main/220409%20julia_smallbiz_income_after_corona_public.jl


작가의 이전글 김사장님은 김라이더님으로 안전하게 변신할 수 있을까
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari