국민독서실태조사 분석과 인사이트

MySQL과 Excel 데이터 분석을 활용하여

by 오지웅

세줄요약

통계청 '국민독서실태조사' 2017, 2019, 2021년 자료 사용

도서 구매량과 가장 높은 상관관계를 가진 변수를 가정하고, 가설을 통해 검증

가장 상관관계가 높은 변수는 '독서량'과 '최종학력'으로 전 지역구 중 가장 어울리는 지역은 서울, 세종, 인천, 경기, 제주 등


분석 의도와 과정 등을 함께 적었으니, 이와 관련되지 않은 분석 결과만 확인하시려면 빨강 글씨 만 참조하세요.



MySQL에서 JOIN 을 통해 테이블을 만들고, 이를 excel을 통한 회귀분석으로 독립변수와 종속변수 사이의 연관성을 알아볼 것이다.
사용한 데이터는 통계청에서 다운로드한 2017, 2019, 2021년에 '성인 국내독서실태조사' 설문 결과이다.


데이터 추출 과정

2017, 2019, 2021년의 국내독서실태조사(성인)을 csv 파일로 저장하여 MySQL로 호출

데이터중복을 절약하기위해 코드표로 작성된 설문결과표와 코드를 호출하는 코드별 항목 테이블을 join으로 결합

결합된 테이블을 excel로 불러와 데이터 분석 실시





통계청에서 제공하는 자료를 사용해 실제 도서 구매량으로 이어지는 가장 상관계수가 높은 지표가 무엇인지 알아볼 것이다. 몇 가지 가설을 세워 검증하고, 가설을 통해 검증한 지표 중 가장 도서 구매량과 상관관계가 유의미한 지표를 확인하고, 리서칭을 통해 2023 시장을 전망해 볼 것이다.


가설 1. 가구 소득이 높을수록 도서 구매량(종이)이 많을 것이다
가설 2. 독서량이 높을수록 도서 구매량이 많을 것이다.
가설 3. 공공도서관 이용 경험이 있으면 도서 구매량이 많을 것이다.
가설 4. 최종학력이 높을수록 도서 구매량이 많을 것이다.


화면 캡처 2023-01-23 183729.jpg
화면 캡처 2023-01-23 183201.jpg
통계청에서 다운로드한 국민독서실태조사 csv 파일과 '가구월평균소득'항목 코드값

csv파일을 다운받아 MySQL workbench로 호출하여 JOIN을 통해 원하는 데이터 컬럼만을 호출했다.

가구소득과 도서구매량을 비교하기위하여

화면 캡처 2023-01-23 214719.jpg
화면 캡처 2023-01-23 223900.jpg

'가구월평균소득'에 해당하는 코드값을 새로운 테이블을 만들어 id코드를 부여하고,

SELECT column1,...,new_table.name AS '가구월평균소득'
FROM book
JOIN new_table
ON book.가구월평균소득 = new_table.code;

코드를통해 원하는 컬럼들을 추출하고 2017년, 2019년, 2021년 데이터를 각각 csv파일로 export 하여 excel로 불러온 후 유효한 데이터 (NULL값이 없는 데이터)를 수집하여 데이터 분석 작업을 하였다.

그 후 엑셀로 차트를 표현해 대략적인 추세를 알아보았다.



가설 1. 월평균 가구소득이 높으면 도서 구입량이 높을 것이다.
화면 캡처 2023-01-24 020746.jpg

가구월평균소득이 높아질수록 전체적으론 종이책, 전자책 등 도서를 구입하는 건수와 구입비용은 상승하는 편으로 보이나, 가구 소득이 600~699만원인 경우 비용과 권수가 하락하는 등 정확한 상관관계를 파악하기 어려웠다.


따라서 회귀분석을 통해 정확한 상관관계를 파악하였다. 또한 유의미한 계산을 위해 응답률이 적어 null값이 많은 전자책을 제외한 종이책을 우선으로 계산하였다.

화면 캡처 2023-01-24 020922.jpg 도서구입권수, 도서구입비용 다중X와 가정소득의 상관관계

유의한 F값은 0.05 미만이긴 하지만, 상관계수가 9.45%로 상당히 낮고, 구입권수는 P-값이 높아 신뢰성이 낮다.

화면 캡처 2023-01-24 021203.jpg 도서구입비용과 가정소득의 상관관계

연간 구입비용은 P-값이 낮아 도서 구입비용만으로 회귀분석을 실시했으나, 역시 상관계수가 9%로 유의미한 결과를 보이지 못했다.

즉, 가정월평균소득과 도서구매량은 유의미한 상관관계에 있지 않다는 것이다.


다음으로 도서 구매량과 연관이있어보이는 데이터로는 독서량을 꼽았다. 책을 많이 읽는 사람이 책을 많이 산다는건 당연한 이야기라고 생각이 들지만, 소득과 도서 구매경향이 일치하지 않았던 것처럼 신선한 충격을 가져다 줄 수 있을거라고 생각했다.


종이책 연간 독서량과 종이책 연간 구매비용은 다른 테이블을 참조하지 않고 하나의 테이블에 전부 들어있기때문에, 2017, 2019, 2021년의 각각의 컬럼에 있는 데이터를 하나의 컬럼으로 합쳐주면 된다.

SELECT ~~ FROM 2017
UNION ALL
SELECT ~~ FROM 2019
UNION ALL
SELECT ~~ FROM 2021

를 사용하여 각 년도의 모든 데이터를 2개의 컬럼(종이책연간독서량, 종이책연간구입비)로 합쳐주었다.

화면 캡처 2023-01-24 022939.jpg

그 후 엑셀로 옮겨 피벗테이블을 통한 차트와 회귀분석을 진행하였다.

2021 데이터는 다른 년도와 다르게 단위가 만 원으로 되어있어, EXCEL에서

=IF(셀<1000,셀*10000,셀)을 통해 1000보다 작은 값은 전부 10000을 곱하여 서식을 통일해주었다.


가설 2.독서량이 높으면 도서 구매량이 높을 것이다.

놀랍게도 결과는 가설과 일치하지 않았다. 종이책 독서량이 높다고 무조건 도서 구매량이 높다고 할 수 없었던 것이다. 추세선은 우상향하는 모습을 보여주지만 기울기가 매우 낮고, 분산 데이터는 추세선과 일치하지 않는다. 회귀분석 결과도 마찬가지다.

화면 캡처 2023-01-24 024033.jpg

회귀분석 결과도 상관계수는 25%로 낮은 편이었고, F 와 P-값은 낮아 분석자체의 의미는 있지만 표준오차도 19.8로 매우 높았다. 허나 사회과학 회귀분석 모델에선 0.2~0.4 사이의 계수값을 상관성이 있다고 보기 때문에 유의미한 결과로 나타났다.

독서량과 도서 구매량 사이에는 사회과학적으로 유의미한 상관관계가 나타난 것이다.





가설 3. 공공도서관 이용률이 높으면 도서 구입비가 높을 것이다.
화면 캡처 2023-01-24 174432.jpg

역시 상관계수도 2.6%로 낮고, F와 P-값이 높아 분석이 유의미하지 못했다.




예측했던 가설들이 전부 무너지고, 독서 실태조사 데이터를 통해 유의미한 상관계수가 있는 변수를 예측하는 작업은 더욱 어려워졌다. 하지만 필자 본인도 종이책 구매가 1년에 5건정도 있을 정도로 매우 낮지만, 대부분이 대학교 학업에 필요해서 구매했다는 사실을 떠올렸다. 학업에 이용하려 도서를 구매했던 경험을 토대삼아 최종 학력과 도서 구매량을 분석해 보았다.

가설 4. 최종학력이 높으면 도서 구입비가 높을 것이다.
화면 캡처 2023-01-24 174247.jpg
화면 캡처 2023-01-24 175411.jpg

그래프는 학력이 높아질수록 평균 연간 도서구입비가 상승하는 예측과 비슷한 모양을 보였으나, 실제 회귀분석 결과는 높은 상관계수를 보여주진 못했다. 약 16.7%의 상관관계를 보여주었다.

즉 최종학력과 도서 구입비는 완전한 상관관계에 있다고 보기 어렵다는 것이었다.



결론


통계청에서 제공하는 국내독서실태조사(성인) 2017~2021 년의 자료로는 종이책 도서 구입량과 확신할만큼의 상관관계를 가진 가설을 검증하지 못하였다. 하지만, 분석한 변수 중 '연간 독서량'과 '최종 학력'이 높은 지역은 어느정도 우상향하는 추세선을 보여주었다.


따라서 지역구분 별 '연간 독서량'과 '최종 학력' 순위의 평균을 구해 그가 높은 지역이 신규 종이 도서 판매처를 만드는 것이, 이 분석을 통한 가장 많은 고객을 유도할 수 있는 방법일 것이다.


SELECT 와 UNION ALL 을 활용해 각 연도별 csv파일에서 필요한 항목을 합쳐 추출하고, 엑셀에 지역코드 별 지역명 표를 불러와 VLOOKUP을 통해 행 레이블에 해당하는 지역명 이름을 불러왔다.

화면 캡처 2023-01-24 181517.jpg

즉 신규 종이 도서 판매처는 서울, 세정, 인천, 경기 등 표에 해당하는 순위의 상위권에 해당하는 지역에 진출하는 것이 더 높은 판매량을 기록할 것이다.

keyword