brunch

You can make anything
by writing

C.S.Lewis

by yangpa May 31. 2018

데이터 과학적으로 접근하는 남녀차별

2017년 3월 13일

어제 일 생각해보니까 결국 확률의 문제였다 싶어서.     

어느 집단의 특성이 있다면 그것을 바탕으로 예측 모델을 만들 수 있다. 남자가 평균적으로 키가 크다라는 말은 맞다. 하지만 이걸 가지고 개개인 예측 모델 만드는 건 구리다. 이 사람 남자다. 이 사람의 키는? 여자라면 그 사람의 키는? 만약 그 사람이 20세 이하라면, 성별보다는 나이가 훨씬 더 좋은 예측 변수다. 남자 돌쟁이와 열 살 여자아이의 키를 예측할 때 나이는 빼고 성별 가지고 하는 건 코미디일 테니까. 나이 20세 이후에도 예측 변수를 두 개만 뽑을 수 있다면 발 사이즈, 청바지 기장 사이즈가 성별보다는 훨 유용하리라 생각된다. 

'이공계에 관심이 있다'는? 한 사람을 랜덤으로 골랐다. 이 사람이 이공계 쪽인지 아닌지를 판단하는데 질문을 세 가지 할 수 있다고 하자. '남자냐 여자냐'를 묻는 것은 비효율적이다. '대학 전공이 뭐냐', '관심사가 뭐냐'가 훨씬 더 확실하다. 아님 그냥 '이공계에 관심이 있냐' 물어보면 제일 확실하고 (...). 이것 역시 샘플을 어디서 뽑았냐에 따라서 엄청나게 달라진다. 공대 앞에서 샘플 뽑았으면 성별 물어보는 건 완벽 쓸데없다. '여기 학생이냐 아니냐.'가 훨씬 더 정확하다. 한예종 앞에서 한 명 뽑았으면 '여기 학생이냐'는 그리 도움 안 되겠다.

     

요즘 남자는 이렇다 여자는 저렇다 하는 거 보면, '한국 남자 평균 키가 172인데 네 키가 168이라니, 너는 한국 남자가 아니다!!'는 논리 보는 것 같다. 평균 키가 172이고, 남자 키 185나 160는 아무래도 172 전후보다 덜 흔하겠으나 그렇다고 해서 그 사람들이 한국 남자 아닌 건 아니잖소. 한국사람 한 사람을 데리고 와서 '이 사람 키가 얼마냐' 할 때, 남자라면 약간 높게 잡고 여자라면 조금 낮게 잡겠으나 그 사람 실제 키가 여자로 180이라면 그냥 그런 거다. 뭘 아니라고 우겨 우기긴. '아냐 그럴 리가 없어. 여자 평균키는 163이야! 어떻게 여자가 180이야!' -> 그래도 그녀의 키는 여전히 180. 힐 신으면 187.     


여자가 게임 좋아한다? 본인이 좋아한다면 그냥 믿자. 여자가 수학 잘 할 리가? 평균적으로도 여학생이 더 잘 한다. 남자들이 좀 더 위험한 일을 한다? 평균적으로는 진실일지 몰라도 우리 집 아들은 무지막지 엄청나게 조심스럽다 (...). 여자는 덜 폭력적이다? 우리 둘째 딸내미를 소개시켜 주고 싶다. 그리고 이런 말까지는 안 하려고 했는데, 여자들이 요리와 살림 잘하고 더 잘 치운다? 우리 집 견학시켜주고 싶소이다.     


결론. 

실제 평균도 그리 다르지 않고 편차도 큰 아이큐, 성실성, 취향, 성향 등등 수백만 가지는 개개인 레벨에서는 아무 의미가 없다. 예측 모델에 성별 쓰지 마세요. 그거 정확도 엄청 낮고 구려요. 최고 좋은 방법은 '직접 물어본다/확인한다'입니다.

매거진의 이전글 어제 만두 양이 아팠다
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari