brunch

You can make anything
by writing

C.S.Lewis

by 스토너 Apr 26. 2021

데이터와 일상 - 대파 공공 데이터 시각화해보자

2020 VS 2021 비교 분석 시각화


* 2021년 1~3월 대파 데이터 건수 오류로 시각화 내용을 수정합니다.



대파의 2020년과 2021년의 거래량과 거래가격을 데이터 시각화해보자!



바로 전시간에는 대파 데이터를 전처리하는 과정을 소개하였습니다.


이번에는 데이터를 시각화해보는 시간이기 때문에 한눈에 와닿는 느낌으로 이해가 쉽게 되었으면 하는 바람입니다.


맨 첫시간에 앞서 분석할 가설 명제를 아래처럼 정의하였습니다. 



검정 가설


작년 여름 장마기간과 올 겨울 한파(x) 로 인해 대파 생산량이 약 10% 줄어 들었다고(y) 알려져 있다.



그렇다면 실제로 과연 그런지 데이터들을 자세히 살펴보겠습니다.


2020년과 2021년 1~3월 데이터를 불러와서 각 연도와 월별로 대파 총 거래량을 살펴보도록 하겠습니다.




2021년 1~3월 대파 거래량은 작년대비 평균 23.3% 감소하였다



실제로 데이터를 분석 시 2020년과 2021년 1~3월 간 도매시장 대파 전체 거래량이 줄어든 것으로 확인하였습니다. 그렇다면 생산량은 얼마만큼 감소 되었을까요?


2020년 1월 대파 총 거래량은 9,114,615 단(또는 묶음 1단 : 거래 규격 단위 12kg),  2021년은 7,197,294단으로 21.1%가 줄어들었습니다. 

2020년 2월은 8,712,647단, 2021년 2월엔 6,149,395단을 기록하여 29.42% 감소하였습니다. 

3월은 3월 15일까지로 1,2월에 비해 누적 거래량은 줄어들었으나 2020년 3월은 3,872,972단, 2021년 3월은 3,300,430단으로 역시 작년보다는 24.8% 감소하였습니다.


공공데이터의 대파 거래량은 전국 산지별 입수한 대파를 각 중도매인 상회 법인이 소상인, 음식점 사장님 등 실수요자에게 판매된 데이터를 기입한 것입니다.




2020-2021 1~3월 전국 산지별 대파 출하량


그렇다면 전국 산지 별 대파 출하량을 살펴보도록 하겠습니다. 

전라남도 진도군과 신안군이 2020년과 2021년을 통틀어 압도적으로 많은 출하량을 보이고 있네요.


그렇다면 어떤 출하지에서 생산량이 특히 줄어들었을까요? 전남 지역 출하량을 확대해보겠습니다.

육안으로는 얼핏 비슷하게 보이지만, 전남 신안군은 2020년 2월, 3월 거래량은 2021년에 오히려 상승하였고 1월 출하량만이 약 10% 줄어들었습니다.


전남 진도군의 출하량은 1, 3월은 각 10% 이상 2월은 약 25%가 감소하였습니다.


전남 진도군의 대파 출하량이 특히 더 줄어들었다 

앞서 대파의 생산량 감소의 원인을 날씨를 주요 요인으로 뽑았는데 이를 통해 날씨와 생산량과의 상관관계를 분석해볼 수 있겠습니다.





여기서 잠깐 거래가격의 데이터 퍼져 있는 정도(분산)를 Boxplot 시각화를 통해 살펴보겠습니다.

오른쪽 2번이 2021년 3월 거래가격 데이터입니다.


2021년 3월 거래가격 최대가는 1단에 7만원에 육박하고 있습니다. 전년이 1만원도 안되었던 걸 보면 엄청난 가격 상승입니다. 이는 2월의 가격상승과 비교해봤을 때 더 큰 차이를 나타냅니다.


2020년 3월 VS 2021년 3월 거래가격

빨간 점은 MinMax 범위를 벗어나는 이상치를 뜻한다




2월의 거래가격을 비교로 해봣을 때 


 MinMax 범위는 2021년 2월이 3월보다 좀 더 좁습니다. 이상치 정도는 2월이 더 많아 보입니다. 






전남 지역 외 출하량을 살펴볼까요?


경기도 구리시, 부산광역시, 청주시 등이 그다음으로 대파 생산량이 많습니다. 육안으로 보았을 때 2020년 2월에 비해 2021년 2월이 현저히 출하량이 떨어지는 것을 알 수 있습니다. 2월의 생산량 감소로 2021년 3월 대파 가격이 특히 올랐던 것을 알 수가 있겠네요.



너무 많은 출하지로 인해 얼핏 군포시로 보이지만 경기도 구리시이다.




그렇다면 대파 품종별 거래량은 어떨까요?


품종별 대파는 일반, 수입, 깐대파, 중파, 기타로 분류되어 있습니다. 그러면 대파 품종별 거래량을 살펴보도록 하겠습니다.


각 연도별 거래량은 차이가 있지만 수입은 거의 없고 일반 대파가 거래된 걸로 알 수 있습니다. 국내에서 생산되는 대파의 거래량이 감소하면서 가격이 상승한 것을 알 수 있습니다.




2020~2021년 대파 평균 거래가격 비교


이번엔 각 연월별 평균 거래가격을 비교해보도록 하겠습니다. 등급별로 분류했을 때 올해 한파로 인해 '하'품의 대파 물량이 시장에 유입되었다고 하였습니다. 하품이란 여러 등급 중 '4등, 5등, 등외' 정도로 볼 수 있는데요, 단순 평균 거래가 비교가 아닌 등급 별 평균 거래가를 살펴볼까요 


각 거래가는 12kg 단위(k는 1,000)

보통, 상, 특 등급의 가격이 비싼 것보다 등급을 막론하고 4등, 5등, 등외 등급의 거래가가 더 높았습니다. 오히려 '하'품의 가격이 높은데 왜 그런걸까요? 가장 평균 거래가가 높았던 2021년 2월의 등급별 거래량 비율을 파이차트로 그려보았습니다.



'특' 등급의 거래량이 75.2%로 다수 차지하였고 4,5등급의 거래량은 매우 미비했습니다. 거래량이 거의 없지만 높은 금액에 낙찰된 걸로 보입니다. 이에 비하면 특, 상등급의 대파 거래량은 88.3%로 다수 차지하고 있어 상대적으로 단가가 내려간 걸로 보이네요. 


(이렇듯 실제 데이터를 보았을 때 생각했던 결과와 다르게 나오는 경우가 있어 당혹스러운 경우를 많이 마주합니다.)





그렇다면 2020년 1~3월 가장 많은 거래량을 기록한 도매시장은?



올해 가장 많은 거래량을 기록한 시장은 서울 강서도매시장이 1순위 서울 가락도매시장이 2위 입니다. 그 다음 대구, 구리, 부산, 인천으로 수도권의 대파 수요가 매우 높았습니다.


기존의 가설을 검정려고 했지만 대파 거래량 증가와 전남지역 생산량 감소로 인해 가격이 상승했다는 귀무가설이 채택이 되었네요. 여기서 날씨 요인과 코로나 확진자 수 변수를 더해 수요량 상승으로 인한 가격 상승 요인 또한 비교해서 분석할 수 있겠네요 ^^






이처럼 데이터 시각화는 눈에 보이기 때문에 복잡한 전처리 과정에 비해 훨씬 직관적으로 데이터를 이해할 수 있습니다.


하지만 역시 시각화를 위해 데이터를 전처리 하는 중간 과정은 길고 복잡하며 지루합니다. 인사이트를 발견하면 그 동안의 힘든 과정은 잊게 되지만요. 다시한번 느끼지만 데이터 분석의 9할은 프로그래밍과 전처리라고 볼 수 있겠습니다. ㅎㅎ 


토이 프로젝트로 짬짬이 남는 시간에 진행하였다고는 하지만 시간이 다소 걸렸기에 분석 스킬을 좀 더 쌓아야겠다고 느꼈네요.


여기서 분석을 심화하거나 다른 외부 feature(날씨, 코로나 등) 을 추가하여 분석할 시 또 다른 결과가 나올 수도 있겠습니다.


(혹시 대파 및 농수산물 데이터를 분석하다가 다른 결과가 도출되거나 그 외 데이터를 발견 기존 데이터를 수정해야 할 시 넌지시 말씀 주시면 참고하도록 하겠습니다.) 

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari