brunch

You can make anything
by writing

C.S.Lewis

by 강원양 Nov 16. 2017

<데이터로 보는 여성> 제작기

 대한민국 절반의 이야기

우리나라 절반의 인구를 차지하는 여성은 사회 속 어떤 모습으로 살아가고 있을까요? 뉴스젤리는 이 궁금증을 해결하기 위해 데이터 시각화 콘텐츠 <대한민국 절반의 이야기 - 데이터로 보는 여성>를 제작 및 발행하였습니다.


이번 포스팅에서는 <대한민국 절반의 이야기 - 데이터로 보는 여성>(이하 '<데이터로 보는 여성>') 콘텐츠 제작기를 공유하며 제작 과정에 숨겨진 뒷이야기와 제작 의도를 바탕으로 콘텐츠를 읽는 방법에 대해서 이야기하고자 합니다.




시작은 궁금증과 함께 - 우리 사회 여성은 어떤 모습으로 살아가고 있을까?



이번 콘텐츠의 주제는 '여성'으로 최근 해외 데이터 시각화 콘텐츠의 주제로 종종 등장하고 있는 것 중 하나이기도 합니다. 지난 포스팅에서 사례로 언급한 콘텐츠 <Flowing data>의 'Most Female and Male Occupations Since 1950'는 여성과 남성의 직업별 분포를 시각화한 것이고, <The Pudding>의 'Analyzing the Gender Representation of 34,476 Comic Book Characters'는 만화책 속 등장하는 여성 캐릭터에 대한 분석 결과를 시각화하였습니다. '여성'을 이번 콘텐츠의 주제로 선정하게 된 배경은 해외의 사례 속 여성이 아닌 우리 사회 속 여성의 모습에 대한 궁금증을 갖게 된 것에 있습니다.


우리 사회의 여성은 어떤 모습으로 살아가고 있을까요? 구체적인 콘텐츠 제작은 주제와 관련한 궁금증이 무엇인지를 떠올리는 것으로부터 시작됩니다. 예를 들어 이런 질문들을 떠올려 볼 수 있습니다. '올해 태어난 아기 중 여자아이는 몇 명이나 될까?', '중·고등학교에서 여학생과 남학생은 어떤 특이한 차이를 보이진 않을까?', '여성은 어떻게 사회생활을 하고 있을까?', '노년기의 여성은 어떻게 살고 있을까?' 등입니다. 이와 같이 여러 질문을 떠올리는 동시에 사람들은 주제와 관련해 어떤 이야기를 하고 있는지, 사회에서는 어떤 이슈가 논의되고 있는지 알아보기 위해 뉴스 기사 검색, 관련 보고서 등의 자료를 탐색합니다. 이 과정은 콘텐츠 기획을 위한 배경 자료를 수집하고 아이디어를 도출해 내는 단계입니다.


콘텐츠의 핵심은 데이터 - 여성의 모습을 볼 수 있는 데이터는 무엇이 있을까?


데이터 시각화 콘텐츠의 핵심은 단연 데이터입니다. 어떤 데이터가 있는지, 활용 가능한지 등에 따라서 콘텐츠 기획의 전체 콘셉트가 바로 결정되고 일사천리로 제작되는 경우가 있을 만큼 데이터는 중요합니다. 앞서 잠깐 언급했던 해외 사례의 경우를 다시 이야기해보면, 직업별 성별 비중 데이터, 만화책 속 여성 캐릭터 분석 결과 데이터가 콘텐츠의 핵심이 되었고 이를 중심으로 이야기가 전개되는 임팩트 강한 콘텐츠였습니다. 그렇다면 우리의 경우는 어땠을까요? 사실상 위 사례와 같은 매력적(?)이고 흥미로운 데이터를 확보하기 어려웠고, 대신 공공데이터로 개방된 데이터 중 여성의 모습을 볼 수 있는 자료를 수집해야 했습니다.

보고서 일부 장표 - (좌)2016 한국의 성인지 통계/ (우) 2016 통계로 보는 여성의 삶

콘텐츠 기획의 바탕이자 데이터 활용에 도움이 되어준 2가지 자료가 있습니다. 통계청·여성가족부가 작성한 <통계로 보는 여성의 삶>과 한국 여성정책 연구원에서 발행한 <2016 한국의 성인지 통계> 보고서입니다. 이 자료에는 한국 사회의 여성의 일면을 보여주는 분야(인구, 가족, 보육, 교육, 경제활동, 보건, 복지, 안전 등)별 데이터를 기반으로 작성되었습니다. 따라서 비교적 쉽게 여성과 관련된 어떤 공공데이터가 있는지를 알 수 있었고, 각각의 보고서를 탐색하면서 데이터 기반의 스토리를 구상하였습니다.

데이터 지표별 정보 정리 스프레드시트 문서 캡쳐 이미지

경우에 따라 유용한 소스로 활용 가능하다고 판단한 데이터는 스프레드시트 문서 내 목록을 작성하여 정리하였습니다. 지표명, 데이터 출처, 데이터 수집 가능 기간, 유의미한 인사이트 등을 항목으로 하였습니다. 콘텐츠 기획 시 일일이 데이터를 다시 시각화해보지 않고서도 인사이트를 바로 확인해 기획에 활용하기 위함입니다. 뿐만 아니라 이렇게 정리해 두면, 추후 데이터 시각화 자료를 제작할 때에 데이터 수집에 소요되는 시간을 줄일 수 있다는 장점도 있습니다.


본론은 지금부터 - 무엇을, 어떻게 이야기할 것인가?


'데이터로 보는 여성' 콘텐츠는 크게 3가지 궁금증에 대한 답을 찾는 과정을 이야기로 풀어내었습니다. 

1) 여성의 사회 진출이 확대되고 있다고 하는데, 사회생활을 하는 여성의 실상은 어떤 모습일까?
2) 여성이 사회생활에 어려움을 겪고 있다면, 그것은 무엇일까?
3) 최근 이슈가 된 여혐 등 여성에 대한 사회적 편견을 데이터로 볼 수 있을까?


3가지 궁금증은 콘텐츠 기획 구성의 틀이 되었고, 해당 궁금증을 살펴볼 수 있는 데이터를 구성별로 정리하였습니다. 이후에는 본격적인 데이터를 활용한 작업이 진행됩니다. 앞서 기획의 배경 자료로 활용한 보고서는 모두 PDF 형태의 파일이었으므로 데이터 시각화 자료 제작을 위해서는 원본 데이터를 수집하는 과정이 필요합니다. 필요한 데이터를 수집하기 위해 통계청의 국가통계포털E-나라지표 등 공공데이터 개방 채널에 접속하여 해당 데이터 지표를 찾고 데이터를 수집합니다.

통계청에서 데이터 검색 및 수집 예

사실 데이터 시각화 콘텐츠 제작자의 입장에서는 이 과정이 가장 지루하고 힘든 단계라고 할 수 있습니다. 보고서에서 본 데이터 지표를 일일이 공공데이터 개방 사이트에서 찾아야 하고, 수집한 데이터도 데이터 시각화에 적합한 형태(하나의 열에는 하나의 의미 정보만 포함한 raw 데이터 형태)로 정제해야 합니다. 지루하지만 또 정신을 바짝 차려야 하는데, 간혹 단순한 일이라 생각하고 작업을 하다 보면 엉뚱한 데이터를 수집하거나 나중에 시각화 단계에서 데이터에 이상치가 포함되었음을 발견하게 되는 경우가 있기 때문입니다. 그러니... 힘들어도 나중에 번거로운 일이 없기 위해서는 집중을 해야 합니다. 

(좌) 성인지 통계의 '전공과 직업의 일치도' 데이터/ (우) 통계청 제공 '사회조사' 카테고리의 리스트 - '전공과 직업의 일치도' 데이터 항목 없음

런데 여기서 한 가지! 아무리 제작자가 정신을 바짝 차려도 해결되지 않은 문제가 있으니, 그것은 바로 '공공데이터 개방' 자체에 있습니다. 대표적인 예로 이번 콘텐츠에 활용된 '전공과 직업의 일치도(성/연령·교육정도·혼인상태별)' 데이터는 참고한 보고서 내에 통계청의 '사회조사'를 출처로 표기되어 있으나 통계청 국가통계포털 사이트의 '사회조사' 카테고리를 아무리 뒤져보아도 해당 지표를 찾을 수 없었습니다. 구글링 중 우연히 '한국 여성정책연구원'의 '성인지 통계시스템' 링크로 제공된 데이터를 발견하였는데, 해당 자료는 통계청의 '사회조사' 원자료를 따로 분석한 결과였습니다. 즉, 동일한 조사 결과를 통계로 제공함에 있어서 각 채널별로 제공하는 데이터 지표에 차이가 있어 하나의 채널에서 데이터가 종합적으로 관리되지 못하고 있음을 알 수 있습니다. (더불어 '성인지 통계' 사이트를 보니 국가 주요 지표에 대한 성별 데이터를 종합하여 제공하고 있어... 만약 이를 먼저 알았다면, 굳이 통계청 안에서 성별 데이터 지표를 찾기 위해 오랫동안 헤매지 않았을 텐데... 하는 안타까움이 밀려왔습니다. 통계청이든 공공데이터 포털이든 각 공공기관이 개별적으로 갖고 있는 통계포털 사이트 정보를 한 페이지 내 리스트로 정리해서 제공해주면 좋겠다는 생각도 들었습니다.)


보기 좋은 데이터를 위해 - 하고 싶은 이야기를 정확히 전달하기 위한 시각화 방법은 무엇일까?


이번 콘텐츠는 데이터 시각화 솔루션 태블로(tableau)를 활용해 제작되었습니다. 태블로는 사용자의 자유도가 매우 높은 데이터 시각화 솔루션입니다. 데이터 시각화 원리에 대한 이해를 갖고 있다면 시각화 자료를 제작하는 사람이 원하는 대로 마음껏 만들 수 있다는 것이 장점인 동시에 선택지가 많아 오히려 복잡하게 느껴질 수 있다는 것이 단점이기도 합니다. 이 솔루션을 활용해 만든 대시보드 중 몇 가지를 사례로 들어 콘텐츠 읽는 방법을 알아보겠습니다.

<데이터로 보는 여성> 콘텐츠 中

위 대시보드는 남녀가 사회 첫 관문인 취업을 넘어서기까지 얼마만큼의 기간을 소요하는지 데이터로 보기 위해 제작한 것입니다. 10여 년간의 변화를 데이터로 보여주기 위해 2017년 데이터 수치와 2007년 데이터 수치의 차이를 파생변수로 만들어 시각화하였습니다. 가로 막대가 길수록 차이가 크다는 것을 의미합니다. 차트 위 막대에 마우스 오버를 하면 레이블로 수치를 볼 수 있도록 인터랙션 요소를 추가하였습니다. 성별 컬러의 경우 '여성'의 경우에만 빨간색을 부여하고 나머지는 회색 계열로 하였습니다. 이는 '여성'을 중심으로 한 콘텐츠임을 강조하기 위한 효과로 다른 시각화 자료에서도 '여성'에 대한 데이터는 빨간색 계열로 표현하고자 하였습니다. 

<데이터로 보는 여성> 콘텐츠 中

콘텐츠 중반에 '처음이나 지금이나, 그대로?'라는 큰 타이틀로 제공되는 두 개의 시각화 대시보드는 '첫 일자리의 여성의 근로 환경이 이후에는 나아질까?'에 대한 궁금증을 데이터로 풀어보고자 하였습니다. 이를 위해 통계청의 경제활동인구조사 중 '청년층 부가조사'의 결과 자료로 제공되는 '첫 일자리' 관련 성별 데이터 지표를 기준으로 동일한 의미 데이터 지표를 '성인 전체' 기준으로 볼 수 있는지 파악하였습니다. 이러한 콘셉트에 따라 추가적인 데이터 수집 및 정제 과정을 진행하였습니다.

<데이터로 보는 여성> 콘텐츠 中

후반부의 시각화 대시보드는 여성의 '생각/인식'과 '현실'을 데이터로 비교해보고자 하는 콘셉트에 따라 제작하였습니다. 시각화 유형은 시계열 정보를 갖고 있을 경우 라인 그래프를 활용하였고, 시계열 데이터는 아니더라도 '연령'과 같이 항목 간 일련의 순서를 갖고 있는 경우 라인 그래프를 활용하였습니다. 또한 각 장표별 인터랙션 요소로 특정 시점 위에 마우스 오버를 할 경우 시계열 정보를 갖고 있는 다른 차트에서도 동일한 시점이 하이라이트 되도록 액션을 부여하였습니다.

<데이터로 보는 여성> 콘텐츠 中

네이버 데이터랩의 키워드별 검색량 데이터를 시각화 한 ''혼자 살기'에 대한 관심 누가 더 많을까?' 장표는 각 연령대별 데이터를 스몰 멀티플즈 형태로 제작하였으며, 차트 영역의 상단 부분에는 회색으로 음영 처리를 하였습니다. 이는 분기별 검색량의 최댓값이 300 임을 고려해 절반 이상의 수치를 기록에 대한 남녀의 분포를 쉽게 파악하도록 하기 위함입니다. 예를 들어 20대, 30대 '여자 혼자 살기' 라인을 보면 전체 기간 내 모든 수치가 150 이상 영역에 포함되어 있음을 바로 알 수 있습니다. 이 밖에도 콘텐츠에 포함된 각 시각화 자료에는 깨알 같은 인터랙션과 시각적 이해를 돕기 위한 요소들이 포함되어 있으니 '어떤 요소가 있는지?' 찾아보면, 데이터 시각화 관점에서 재미있게 콘텐츠를 읽는 방법이 되리라 생각합니다.




지금까지 데이터 시각화 콘텐츠 <대한민국 절반의 이야기 - 데이터로 보는 여성>의 제작 과정과 콘텐츠에 대해 이야기하였습니다. 사실 '여성'이라는 주제는 매우 큰 범위이기 때문에 여성의 모든 면을 데이터로 본 것이라고 할 수는 없습니다. (한 번에 다 본다는 것 자체가 욕심이자 불가능한 범위가 아닐까 하는 생각이 듭니다.) 그럼에도 불구하고 우리 사회 속 여성이 어떤 모습으로 살아가고 있는지 그 일면을 데이터로 확인해보고, 해당 주제에 대해 생각해보는 기회가 되길 바라는 개인적인 마음을 가져 봅니다. 데이터를 통해 발견한 인사이트를 기사로 풀어낸 콘텐츠는 링크를 통해 알 수 있습니다.


* 이 글의 원문 출처는 뉴스젤리 블로그 '[데이터 시각화] <대한민국 절반의 이야기 - 데이터로 보는 여성> 제작기'입니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari