brunch

You can make anything
by writing

C.S.Lewis

by 김 현규 Aug 03. 2018

뉴스로 보는 여자와 남자의 차이

뉴스데이터를 통해 보는 남자와여자의 차이

- Photo by rawpixel.com from Pexels


- 데이터를 찾으며

남성의 여성의 차이를 내가 찾을 수 있는 데이터로 어떻게 알아 볼 수 있을까? 이 질문에 답을 하기위해 이런 저런 생각을 했습니다. 가장 먼저 고려한 것은 데이터에서 남성과 여성을 뚜렷하게 구분하고 있어야한다는 점입니다. 사회 안에서는 사실 두 가지의 성별만 존재 하는 것은 아니지 않습니까? 중성, 간성 등등 성별이라는 이름아래에 많은 개념이 있습니다. 사실 데이터로서 성별을 본다면, 소수의 성이, 가장 많은 두 개의 성에 비해 많지 않아서 모델링 하기도 힘들겠고, 그러한 다양성을 모두 고려해서 분석 해보기에는 성에 관해, 제가 모르는 것이 너무 많습니다. 따라서 첫번째 고려한 점의 의미는 나 이외의 어떤 것이 성을 정의 했고, 그 정의는 생물학적인, 가장 널리 퍼져있는 성개념인 남성과 여성 둘을 나누고 있는 데이터를 찾고 싶다는 것입니다. 제 생각을 표현하기위해서 쓴 글이긴 하지만 너무 거창해진것 같습니다. 그래도 이 글이 웹에 올려지는 이상 혹시 누군가의 마음에 작은 거부감이라도 생길까봐. 제가 이 주제에 대한 공부를 시작한 마음에 대해 써봤습니다. 

 

 처음엔 남성 과 여성의 사진을 통해 분류기를 만들어서, 둘 사이의 특징적인 모양이나 선 같은 걸 알아보고 싶었는데, 사실 평범한 사람들의 사진을 개인이 가져다 쓰는 것은 불법이죠... 그 다음으로는 페이스북, 인스타그램에 있는 댓글을 가져와서, 각 성별 마다, 어떤 말투, 단어를 사용하는 가를 분석 해보려고도 했는데, 인스타그램에서는 사용자가 여자인지 남자인지 프로필 사진에 본인 얼굴이 있지 않으면 알 수 없고, 페이스북 같은 경우 역시 공개 해놓은 사람들과 공개하지 않은 사람들에 따라서 라벨값이 잘 모이지 않았습니다. 하... 역시 데이터를 구하는게 제일 어려운 것 같습니다. 


 그러다, 네이버 뉴스에서는 댓글이 100개가 넘는 기사에 대해서는 성비와 연령 정보를 제공하고 있단 걸 발견 했습니다. 하지만 기쁨도 잠시... 기사를 많이 열어 봤는데요. 

2018-07-31 중앙일보 기사 중

네이버는 이런 이미지를 통해서 성비를 알려주고 있습니다. 하지만 이 그림에서 보여주는 성비가 제가 본 기사 중에는 그나마 가장 성비의 차이가 심하지 않은 기사였습니다. 결국 여성 분들이 더 댓글을 많이 단 기사를 찾지 못했고, 저 percentage라도 활용해볼까 했지만, 결과가 건전하지 못할 것이라는 판단이었습니다. 여담으로 제가 기사를 많이 열어서 눈으로 본 결과 네이버에 달리는 댓글의 수준이... 참 처참한 방식으로 댓글을 달고 있더라구요. 평소에 댓글 같은거엔 관심이 없어서, 인터넷에 있는 댓글은 전부 이런 건가... 싶기도 하고, 충격아닌 충격을 받았습니다. 


    그래도, 다행히 다음(Daum) 뉴스는 따로 연령별 선호 기사를 제공하면서 각 성별에 대한 정보도 같이 제공 했습니다. 그래서 이번 주는 이 데이터를 가져와서 다음에서 분류한 남성과 여성이 각각 관심있어하는 단어들을 알아보기로 했습니다. 

다음 뉴스의 연령별 인기 뉴스 코너

- 데이터수집 

데이터는 2017년 7월 29일 부터 2018년 7월28일까지의 기사의 타이틀과 본문을 수집 했습니다. 

- 전처리 & 모델링

작년 한해 동안 많은 일이 있었는지 새로운 신조어가 많더라구요. 블러체인 관련 된 단어라던지, 이슈가 된 연예인의 이름이라던지. 그런 명사는 사실 기존의 Tokenizer(텍스트를 분석하기 위해서 문장을 쪼개주는 역할을 행)로는 그런 중요한 단어들이 잘 처리가 되지 않았습니다. 이를 위해서 지인의 조언을 받아, 아래의 간단한 조건으로 명사를 나누어 봤습니다. 

- 명사(Noun)으로 분류된 토큰들이 띄어쓰기 없이 문서 내에서 3회 이상 사용되었다면 합성명사로 간주

- 띄어쓰기 없이 사용되는 명사의 개수는 2~3개의 범위로 설정

- 합성명사에 조사가 들어가는 것을 최대한 방지하기 위해 마지막 토큰이 조사에 포함되지 않는 것만 추출

 사실 명사가 중요한 상황에서 문장 속에서 명사를 확률적으로 추출하는 패키지인 Soynlp의 tokenizer (Extractor + Tokenizer)를 사용해보기도 했지만, 그냥 간단하게 명사를 처리 했을때, 분류 성능이 더 나았습니다. 

 이렇게 처리한 단어들을 Tfidfvectorize(단어의 숫자를세어 하나의 다항분포데이터로 나타내는 것, Tfidf는 모든 문서에 많이 나오는 단어의 경우 분류할 때 필요가 없다고 판단하여, 단어의 빈도수에  그 단어가 들어 있는 문서의 수에 반비례하는 수를 곱해주어 그 단어의 가중치를 줄여줍니다.) 하여 NaiveBayse 모형을 만들었습니다.

 지금 까지의 결과로는 분류의 성능이 0.73(Accuracy)으로 그리 좋지는 않습니다. 전처리에 좀더 신경을 쓰면 더 나은 결과를 얻을 수 있을 것입니다. 그럼에도, 성별 간의 많이 나온 단어들을 Wordcloud로 나타내어 보니여자들과 남자들의 차이가 많이 보입니다.


- 남자, 여자, 많이 찾은 단어들 

 지난 한해 동안 각 성별이 선호하는 기사의 키워드입니다. 

 아래의 키워드 만으로도 구분을 하시겠나요? 

오른쪽 남성 / 왼쪽 여성

 여성의 경우 산모, 유치원, 어린이집, 보육등 육아에 관련된 단어들이 많이 보이네요. 저도 작년에 어린이집 보육교사가 어린이를 학대했다는 기사를 읽고 많이 화가 났던 기억이 있습니다. 세균, 멜라니아, 치과 같은 건강에 관련된 단어들도 많이 보입니다. 시어머니, 시댁 같이 결혼한 여성들이 관심을 가질 법한 단어들이 많이 보이네요. 제가 분석을 할 때, 연령을 따로 고려하지 않았는데, 다음 뉴스를 많이 읽는 연령층도 어느정도 유추해볼 수 있겠다는 생각이 듭니다. 제가 마케팅 대회에서 깔창 생리대 문제를 다룬 적이 있어서 생리대라는 키워드에도 관심이 가네요. 또 작년에 생리대에서 유해한 물질이 검출되어서 이슈가 된 적이 있었죠? 


 남성의 경우에는 역시 비트코인 이 단연 눈에 띄네요. 비트코인 투자가 정말 관심을 많이 받았었습니다. 비트코인으로 돈을 많이 번 형님들이 생각납니다. 지금은 관심이 사그러들었지만, 저는 비트코인의 기반인 블록체인에 관심을 가지고 공부를 하고 있습니다. 작년 선거 때문에 대통령 선거에 출마 했던 분들, 여론 조사, 지지율, 공천 같은 정치관련 단어들이 다수 눈에 보입니다. 안보와 국방에 관련된 잠수함, 탄도미사일, 전투기 등의 단어도 많이 있구요. 아이폰, 갤럭시의 전자기기에도 역시 남성들은 관심있게 본 모양입니다. 


 간단하게 분석 해봤는데도, 우리가 어느정도 성별을 구별할 수 있게끔 단어들이 구성되어 있습니다. 의도는 아니였지만, 스스로 지난 한해를 돌이켜보는 시간을 가지기도 했습니다. 


- 한 주를 마치며,


이번 주는 선호하는 뉴스의 키워드를 통해서 남성과 여성의 차이를 엿봤습니다. 결과는 뭐 당연한 결과라고 생각 할 수 있겠습니다만, 분석하는 과정에서는 나름대로 재미가 있었습니다. 

 다음 주 역시 남성과 여성의 차이를 분석을 할까 했지만, 아직까지 아이디어가 없습니다. 그래서 다른 주제로 글을 쓸지도 모르겠습니다. 


 이렇게 글을 쓰고 보니, 너무 간단한 분석아닌가 걱정이 되기도 합니다. 저는 데이터 분석 공부를 시작하고 매 번 어려운 데이터 어려운 과제들을 해야한다는 압박감이 있었습니다. 그래서 그런지 데이터를 볼 때는 한장 몸에 힘을 주고 보게 되었는데 그게 저한테 좋은 영향을 주지는 않았던 것 같다는 생각을 했습니다. 제가 처음 데이터를 만지면서 이것저것 시도 해볼 때 참 즐거웠다는 생각이 들어서, 이렇게 한 주, 한 주, 그때마다 생각나거나, 이슈가 되는 것들을 일반인이 얻을 수 있는 데이터를 사용해 분석하기로 했습니다. 저는 지금까지 완벽하거나 훌륭할 것 같지 않으면 시도조차 안해보는 사람이었습니다. 하지만 처음엔 이렇게 좀 초라하고 엉성하더라도 도전하고 시도하면서 점점 스스로를 발전 시켜가는 사람들을 주변에서 보고, 또 지금 엄청 대단한 사람도 초보자 였을 적이 있었다는 걸 알고 나니, 저도 어떻게든 해보고 싶다는 생각이 들었습니다. 요즘은 데이터를 통해서 뭔가를 알게 되었을 때, 제일 기분이 좋으니까요. 지금은 부족하고 초라하지만, 더욱 노력해서 더 나은 컨텐츠를 만들겠습니다. 읽어주셔서 감사합니다!

 

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari