brunch

You can make anything
by writing

C.S.Lewis

by SSEN May 12. 2021

데이터 글쓰기+시각화로 돈을 벌어보았습니다.

쏘프라이즈참여기&이제 시작합니다

동기.

저는 작년부터 '데이터 시각화를 공부 중이다'라는 표현을 자주 써왔습니다. 공부는 '부지런함'과 '성실함'의 상징이기도 하지만 한편으론 실전 전의 핑계로도 쓰기 좋은 말이죠.

있는 그래프를 읽는 데에는 점점 익숙해지지만 목적지에 대한 고민은 계속 쌓여갔습니다. 기획과 스토리가 빠진 상태에서의 데이터 시각화는 그래프 그리기 연습 이상을 하기가 어렵거든요. 어떤 내용을 강조해야 할지, 어떤 내용들이 보여야 할지 등을 따로 찾아서 연습하고 콘텐츠를 만드는 건 웬만한 동기 부여 없이는 힘든 일입니다. 작년에 참여한 공모전도 데이터 콘텐츠 하나를 온전히 만드는 경험을 위한 것이었습니다. 비슷하지만 꾸준히 참여할 만한 프로젝트가 없을까 하던 차에, 오늘의 주인공인 쏘프라이즈를 알게 되었습니다.

https://soprize.so/

-특정한 주제에 대해 데이터를 기반으로 하여 의견을 쓰고 선정된 답변은 상금 100만 원을 받습니다. 

-모든 답변에 댓글을 달 수 있으며 이를 통해 토론이나 의견을 좀 더 발전시킬 수 있습니다.

-질문들이 꾸준히 채워집니다! 시즌별로 4-5가지의 질문들이 제시되며 이 질문들은 평소에 많이 접하지만 데이터를 기반으로 보려면 조금씩은 더 생각해야 하는 주제들입니다.


몇 주 동안 사이트만 들락날락하며 고민했습니다. 이걸 과연 할 수 있을까. 감히 나 따위가 여기다 손을 얹어도 될까..

제가 이렇게 시시콜콜한 이야기까지 쓰는 이유는, 많은 사람들이 그렇게 생각하고 있을 거기 때문입니다. 

이 브런치에 들리는 분들도, 제가 앞으로 데이터 시각화 관련 강의를 하게 될 때 만나게 될 분들도(언젠간 만나지 않을까요?) 말이죠. 저도 같은 마음으로 고민하다 이번이 아니면 못할 것 같더라고요. 그래서 질문부터 하나 선정하고, 관련 자료들을 읽기 시작했습니다.


남녀공학, 정말 성적에 안 좋은 영향을 줄까요? https://soprize.so/question/21


솔직히 말씀드리면, 전 이런 주장이 있는 줄도 몰랐습니다. 그런데 그 주장을 실은 기사들도 정확한 데이터나 결과를 기반하는 것 없이 개인 인터뷰로 시작해서 다른 비교군 없이 결론만 내린 것들이 대부분이더군요. 똑같이 개인 경험으로 주장하기엔 쏘프라이즈에서 원할 것 같지 않아서 다룰 수 있는 데이터들이 무엇일지 살펴봤습니다.


다룰 수 있는 데이터 찾기

이번 작업에서 중요한 건 지치지 않는 것이었습니다. 그러기 위해선 데이터만 다루다가 끝내는 일이 없어야 했어요. 그리고 본업과 같이 병행하려다 보니 데이터를 정리하는 시간을 오래 잡을 수가 없었습니다. 그럼 어느 정도 정리된 데이터가 필요한 데, 이렇게 인기가 많은 주제(한국에서 고등학생의 수능성적이 차지하는 위상은 상당히 높습니다)는 관련 정부기관에서 다루는 경우가 많습니다. 교육부의 매해 수능성적 발표와 분석이 그런 면에서 도움이 많이 되었죠. 그리고 이런 자료의 맹점이 수치 표현만 하는 표와 그래프에서 끝나는 경우가 많기 때문에 표를 가지고 그래프를 다른 방식으로 그려봐도 할 말이 많아지게 되더라고요. 


그래프 그리기는 부담 없이

데이터가 단순화되면 그래프 그리기는 부담 없이 할 수 있습니다. 대신 그래프의 종류에 대해서는 생각을 해봐야 합니다. 저는 각 과목별 등급 비율을 비교해야 하기 때문에 비율별 누적 막대그래프를 우선 그렸습니다.(파이 그래프는 그래프 별 각 비율을 비교하기 어려워서 우선으로 선택하지는 않습니다.) 이번 답변에 사용된 그래프는 모두 파워포인트로 그렸습니다. 간혹 시각화를 부담스러워하시는 분이 계시는데, 저는 오피스 프로그램으로 다 그리는 편이라 이 방법을 추천하고 싶어요. 

낯선 그래프 끼워넣기

자, 여기에서 한번 더 쓰겠습니다. '저는 데이터 시각화를 공부중'이기 때문에 다른 스타일의 그래프도 하나씩 넣어보고 싶었습니다. 앞선 남녀공학/단성학교의 비교와 함께 성적에 영향을 줄만한 다른 요소를 찾아봐야겠죠? 교육부 자료에서는 학교 유형 외에도 학교 운영 주체(공립과 사립)에 따라 성적을 비교한 자료도 보이더군요. 누적 막대그래프로 유형별과 같이 등급 비교를 한 다음 어떤 요소가 영향이 컸을지 비교해 보고 싶었습니다. 여기에 산포도를 응용한 그래프를 삽입했죠.

(과목별 1,2등급 비율 합 최고치)-(과목별 1,2등급 비율 합 최저치) =파란색 점
(과목별 8,9등급 비율합 최고치)-(과목별 8,9등급 비율합 최고치)=녹색 점


이렇게 정의해서 일직선상에 놓아보았습니다. 유형별 차이에서는 녹색점, 즉 8,9등급의 비율 차이가 좀 더 오른쪽에 놓입니다. 즉 하위 그룹에서 비율 차이가 컸다는 얘기죠.


주체별 차이를 봤습니다. 이번에는 파란색 점이 훨씬 오른쪽에 높입니다. 비율 차이가 많은 곳은 8.3퍼센트까지 차이가 납니다. 과목별 차이가 중요하지 않다고 생각해서 자세한 범례는 생략했는데요, 그래서 이해가 어렵다는 피드백도 있었습니다. 참고로 비슷한 그래프는 제가 이전 말로피에 어워즈 리뷰에서 다룬 적이 있습니다.

https://brunch.co.kr/@gkicarus/88


이런 과정들을 거쳐서 저는 약 일주일 만에 포스팅 하나를 만들어냅니다. 정확히는 하루에 2-3시간씩 썼던 것 같습니다. 적절한 시간과 일정 비율은 앞으로 써보면서 조정해야 할 것 같아요. 자세한 답변 내용은 아래에서 확인하실 수 있습니다.

https://soprize.so/answer/251


그리고 운 좋게도, 이 답변이 선정까지 돼버렸습니다ㅋㅋㅋㅋ

사실 떨어져도 작업 과정들은 모두 브런치에 올리고 앞으로도 반복할 예정이었는데 결과까지 좋아서 얼떨떨합니다. 그리고 상금을 기다리며 다음 작업도 고민하고 있습니다.(반복 수상도 가능하다고 합니다)

답변이 선정되면 이메일 뉴스레터로 이렇게 잘 만들어주신다


데이터에 관련된 책과 자료들을 보면서도 결국은 데이터를 직접 만져보고 나름의 의견을 만들어야 한다는 결론에 도달하게 되는데, 그 과정에 좋은 동기부여가 될 만한 놀이터가 생겨서 상당히 반가운 마음입니다. 

그리고 이런 기분들을 좀 더 많은 분들과 느껴보고 싶어서 글을 올려봅니다. 


부족한 부분이나 더 생각할 부분에 대한 피드백도 받아서 좋았어요. 데이터를 본격적으로 보는 분들의 코멘트도 실상에서 얻기는 쉽지 않기 때문에 데이터 시각화나 인사이트를 얻는 훈련이 필요한 분들에게도 좋은 기회가 될 거라 생각합니다. 같이 해요 여러분:) 덧붙여서 이런 기회를 만들고 운영하느라 고생하고 계실 운영진 분들께도 감사를 전합니다. 감사합니다!




데이터 출처

교육부, '2020학년도 수능 성적 분석 결과 발표'

https://moe.go.kr/boardCnts/view.do?boardID=294&boardSeq=83098&lev=0&searchType=S&statusYN=W&page=1&s=moe&m=020402&opType=N


매거진의 이전글 책 리뷰. 데이터 리터러시
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari