brunch

You can make anything
by writing

C.S.Lewis

by 스토너 May 10. 2021

데이터와 일상 - 대파의 거래가격이 상승한 원인은?

날씨 요인 추가하여 상관관계 분석해보자


지난번엔 대파데이터는 전년 1~3월 데이터와 비교하여 전처리, 시각화해보았습니다.


그 결과 2020년에 비해 2021년 각 연월별 총 대파 거래량이 줄면서 2021년 3월 대파의 평균 거래가격이 상승했다는 느낌적인 너낌(?)을 알 수 있었는데요,




시각화로 확인하는 것에서 끝나는 것이 아니라 과연 정말로 두 요인 간에 관련성이 있는지 확인해봐야 합니다.

대파의 총 거래량과 평균 거래가격, 두 요인 간에 상관관계가 있는지 통계적으로 분석해보도록 하겠습니다.





총거래량과 평균 거래가격의 상관관계를 분석해보자!



상관관계 분석(Correlation Analysis)은 통계학에서 두 변수 간에 어떤 선형적 관계를 갖고 있는지 분석하는 방법으로 상관관계의 정도를 파악하는 피어슨 상관계수(Pearson correlation coefficient)가 두 변수 간의 관련성을 알아보기 위해 사용됩니다.


 다만 이는 두 변수 간의 관련성 정도를 나타낼 뿐 두 변수가 서로 어떻게 영향을 끼쳤는지 인과관계를 설명할 수는 없습니다. 이러한 인과관계는 회귀분석을 통해 알아볼 수 있습니다.


피어슨 상관계수는 두 변수 x, y가 함께 또는 각각 변하는 정도를 나타내므로 각 x와 y에 해당하는 변수를 정해야 합니다.


참고로 피어슨 상관계수는 1과 가까울수록 양의 상관관계이며 -1에 가까울수록 음의 상관관계를 보입니다. 양과 음 둘 다 비례와 반비례의 차이이지 강한 상관관계를 보여준다고 생각하면 됩니다.


앞서 각 연월별 대파의 총 거래량평균 거래가격과 관련성이 있다고 가설을 세웠습니다. 그렇다면 총거래량과 평균 거래가격 변수를 별도로 파생데이터로 추가하여 두 요인을 분석해야 할 것입니다.


같은 데이터를 넣어도 가공전처리 없이 넣는다면 본인이 분석하고자 하는 변수와 전혀 다른 변수로 봐도 무방할 겁니다.


2020년 1~3월과 2021년 1~3월의 총거래량과 평균 거래가격 파생변수를 만들어 상관관계를 분석해보도록 하겠습니다.


2020-2021 대파의 총 거래량과 평균 거래가격


피어슨 상관계수를 구하는 식은 파이썬 판다스 라이브러리의 corr메소드를 실행해주면 간단히 결과를 얻을 수 있습니다.




피어슨의 상관계수는 일반적으로,


  값이 -1.0 ~ -0.7 이면, 강한 음적 상관관계

  값이 -0.7 ~ -0.3 이면, 뚜렷한 음적 상관관계

  값이 -0.3 ~ -0.1 이면, 약한 음적 상관관계

  값이 -0.1 ~ +0.1 이면, 없다고 할 수 있는 상관관계

  값이 +0.1 ~ +0.3 이면, 약한 양적 상관관계

  값이 +0.3 ~ +0.7 이면, 뚜렷한 양적 상관관계

  값이 +0.7 ~ +1.0 이면, 강한 양적 상관관계


로 해석됩니다.



총거래량과 평균 거래가격 두 요인의 상관관계는 -0.44로 뚜렷한 음적 상관관계를 보입니다. 즉 총 거래량이 증가할수록 평균 거래가격이 내려가며, 총 거래량이 감소할수록 평균거래가격이 올라갑니다.


올 3월 대파 가격이 급작스럽게 상승한 요인으로  대파의 총 거래량이 감소할수록 평균 거래가격이 상승했다는 것을 알 수 있습니다.






전라남도 진도군의 겨울 한파, 정말 거래가격과 관련 있을까?



그렇다면 대파 출하량 국내 1위 생산지인 '전라남도 진도군'의 데이터만을 가지고 날씨 관련 변수를 추가하여 상관관계를 분석해보도록 하겠습니다. 약 3만 2천건으로 추렸습니다. 총 17만건에서 3만2천여건이라니 확실히 최대 출하지라고 해도 과언이 아닐 것 같습니다.


 



날씨 데이터는 기상청의 매일 날씨 변화를 관측하는 종관기상관측(ASOS) 데이터의 전라남도 진도군 지역의 연도와 월별로 평균기온, 평균최저기온, 최저기온 데이터를 참고 했습니다.


일조량 및 강수량을 제외하였고,

2020년 11월과 2021년 11월의 평균기온이 같아 12월, 1월, 2월 월별 데이터를 추가하였습니다.


즉 당월이 아닌 바로 전달의 평균기온이라고 보시면 됩니다. 대파가 출하된 당월보다 아닌 전월에 불어닥친 한파가 바로 다음달 생산에 영향을 끼쳤다고 보았기 때문입니다.



전라남도 진도군 대파 데이터



히트맵으로 각 변수 별로 피어슨 상관계수를 그려보았습니다.

 

정말 놀랍게도 평균기온과 총거래량보다 '평균최저기온'과 '평균거래가격'이 -0.71로 가장 강한 음적 상관관계가 있음을 알 수 있었습니다.


즉, 평균 최저기온이 낮을 수록 대파의 평균 거래가격 높다는 상관관계를 도출할 수 있었습니다. (인과관계가 아닙니다)


피어슨 상관계수를 검정하는 p-value 값을 구하였습니다. 0.1 이상으로 0.05보다 크기 때문에 상관계수의 신뢰성이 낮은 것으로 나옵니다.



상관계수는 강한 상관관계를 보이고 p-value값이 반대로 나오는 모순적인 모습을 보일 때는 대부분 data 표본 수가 작거나 이상값이 존재할 때인데 확실히 표본 데이터 수가 적기 때문이라고 볼 수 있겠습니다.


1~12월이나 주차 별로 구하여 데이터 수를 늘린다면 p-value값이 상관계수를 신뢰할 수 있게 나올 것입니다.






파이썬 pandas와 scipy라이브러리를 통해 전라남도 진도군 대파 데이터의 두 변수간 상관관계를 분석해보았습니다.


강하게 관련이 있다고 확신한 변수들로만 추려서 분석했기 때문에 기대했던 결과를 얻었지만

동시에 생각지 못한 변수들이 상관관계를 보여 더욱 재미있었던 분석 시간이었습니다.


다음에는 좀 더 여러 요인들을 추가하여 분석해보는 것도 괜찮을 것 같네요.


전라남도 진도군과 경락일자 기준 한달전 평균최저기온 변수를 이용해 대파 평균 도매 가격을 예측해보는 모델을 만들어보는 것도 재미있을 겁니다.


jupyter notebook을 이용해 파이썬으로 지금껏 분석해왔지만 R통계툴이 익숙하신 분들은 R로도 훨씬 간단하게 분석하실 수 있을겁니다.  전 파이썬이 좀 더 편하지만요 ㅎㅎ




작가의 이전글 데이터와 일상 - 대파 공공 데이터 전처리 과정
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari