트위터로 보는 데이터 시각화
익명의 장
이름과 프로필을 마음대로 변경할 수 있는 SNS에서 사실상 공인과 인플루언서, 브랜드를 제외하고는 대부분 실명을 쓰지 않을 것입니다. 이 말은 곧 새로운 닉네임으로 활동하면서 나이, 성별 등도 새롭게 설정하여 '제2의 자신'을 만들 수 있다는 것입니다. 예를 들어 일명 '덕질'을 하는 계정이라면 프로필을 자신이 좋아하는 캐릭터나 인물의 사진으로 해놓을 것이고 닉네임이나 말투 또한 중성적이라 성별을 예측할 수 없습니다.
이러한 경우는 특히 트위터에서 종종 일어납니다. 아무래도 일상 공유를 하는 페이스북이나 인스타그램과는 조금 다르게 트위터는 일상 공유도 하면서 자신의 취향을 찾고 덕질을 하는 경우가 많기 때문인데요. 당장 제 주변만 하더라도 자신이 트위터를 하지만 계정을 알려주지는 못한다는 지인들이 많습니다. 자신이 뭘 좋아하는지, 어떤 생각을 가지고 있는지 밝히고 싶지 않기 때문에 이러한 경우가 나타나는 건데 악용을 하는 사람이 있어서 문제로 꼽을 수 있습니다.
그렇다면 과연 사람들은 트위터 프로필에서 상대방 성별이 무엇인지, 신뢰도가 어느 정도로 판단되는지 알 수 있을까요?
알아보기 전 이번 글에서 할 데이터 시각화를 먼저 알아야 한다.
데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정이다. 데이터를 간결하게 표현하고 강조하기 위한다는 점에서 데이터 시각화는 중요하다.
특히 PM에 있어서 이러한 데이터 시각화는 이해관계자들을 설득해야 할 때나 논의할 상황이 올 때 보여줄 수 있는 좋은 데이터 자료이다. 이렇게 데이터 시각화는 타인에게 데이터를 보여줄 때도 중요하고 개인적으로 정리할 때도 중요하다.
특히 관심 있는 서비스의 데이터를 찾아 데이터 시각화할 수 있다는 점에서 좋다. 그렇다면 트위터라는 서비스에서 알아보고 싶은 점을 찾아 데이터 시각화해보자.
Kaggle은 데이터 관련된 직무자들끼리 모여 서로의 인사이트와 분석능력을 보여주는 포럼 형식이 주를 이루는 사이트이다. Kaggle에서 실제로 트위터 유저 성별 분류라는 데이터 파일을 확인했고 3개의 가설을 도출할 수 있었다. 데이터 파일 이름과 같이 주로 '성별'을 볼 수 있었고 성별에 따른 신뢰도를 알 수 있었다. 이에 따라 세 가지 가설을 세울 수 있다.
1. 트위터 유저의 과반수 이상은 트윗과 프로필로 성별을 예측할 수 있다.
2. 트위터 유저의 과반수 이상은 성별이 여자일 것이다.
3. 트위터 유저의 과반수 이상은 다른 유저 프로필에 대한 신뢰도가 높을 것이다.
이 세 가설을 세우고 직접 데이터를 확인하고 시각화해보자.
트위터 유저의 과반수 이상은 프로필로 성별을 예측할 수 없다.
앞서 얘기했듯이 트위터에서는 이름과 프로필을 마음대로 변경할 수 있다. 그렇다면 이 프로필은 실제 자신이 아니라 자기가 만든 또 하나의 캐릭터 소개라고 할 수 있는데 이 프로필만으로 성별을 예측할 수 있을까? 개인적으로는 프로필로는 성별을 예측할 수 없다고 추측했다.
Kaggle에 따르면 여성이 33%, 남성이 31%, 기타가 36%이다. 이때 기타는 남성인지 여성인지 예측이 불가능한 유저들의 비율이라고 할 수 있다. 그렇다면 남성과 여성을 합친 64%가 프로필로 예측한 성별의 결과라는 것이다.
트위터 유저의 과반수 이상은 프로필로 성별을 예측할 수 있다.
트위터 유저의 과반수 이상은 성별이 여자일 것이다.
앞서 말한 '덕질'을 많이 하는 사람은 주로 여자라고 생각하기에 덕질 커뮤니티라고 할 수 있는 트위터 유저의 과반수 이상이 여자일 것이라고 추측해봤다.
하지만 데이터를 확인해보면 여성 유저는 43.6%이지만 남성 유저가 56.4%로 더 많다는 것을 알 수 있다. 즉, 전 세계적으로 남성이 여성보다 트위터를 더 많이 사용한다는 것이다.
트위터 유저의 과반수 이상은 성별이 남자이다.
트위터 유저의 과반수 이상은 다른 유저 프로필에 대한 신뢰도가 높을 것이다.
트위터에서 상대방을 파악하기엔 프로필만 한 것이 없다. 물론 리트윗 하는 트윗의 내용, 팔로우하는 계정, 트윗하는 내용이나 말투로 판단할 수야 있지만 허울뿐이다. 상대방이 어떤 장르의 내용을 좋아하는지, 비속어를 하는지 안 하는지 등 자세한 걸 자기소개에 써놨다면 프로필이야 말로 상대방을 판단하기 좋은 방법이지 않을까 추측했다. 그렇기에 트위터 유저의 과반수 이상이 다른 유저 프로필에 대한 신뢰도가 높을 것이라고 추측했다.
Kaggle에 따르면 조사한 19,519명 중 신뢰도를 0에서 1로 잡는다면 신뢰도가 0인 사람이 2명, 0.6%대인 사람이 390명이다. 0.9%대인 사람도 2명인데 놀라운 건 신뢰도가 1, 즉 높은 신뢰도를 보이는 사람이 19,125명이다. 대부분의 유저들이 다른 유저 프로필에 대한 신뢰도가 높다는 결론이다.
트위터 유저의 과반수 이상은 다른 유저 프로필에 대한 신뢰도가 높다.
1. 트위터 유저의 과반수 이상은 트윗과 프로필로 성별을 예측할 수 있다. (거짓)
2. 트위터 유저의 과반수 이상은 성별이 여자일 것이다. (거짓)
3. 트위터 유저의 과반수 이상은 다른 유저 프로필에 대한 신뢰도가 높을 것이다. (참)
출처 및 자료
kaggle (https://www.kaggle.com/datasets/barkhaverma/twitter-user-data)
Omnicore (https://www.omnicoreagency.com/twitter-statistics/)
Satista (https://www.statista.com/statistics/828092/distribution-of-users-on-twitter-worldwide-gender/)