빅데이터의 한계 / 왜 아직 인간을 필요로 하는가

2017년 9월 3일

by yangpa

어떤 이력서를 자동으로 골라내면 전화 인터뷰에 드는 시간을 최소화할 수 있을까 고민한다고 하자. 지난 데이터를 쭉 넣고, 어떤 이력서가 제일 고용될 확률이 높은가를 분석해서 그걸로 기계학습 모델을 만들었다.

이런 모델은 '판단 기준'을 잘 안 잡아주면 엄청난 인종차별 학벌주의 성차별주의 기계가 되기 쉽다. 100명의 이력서 중에 하나만 성공한다고 할 때, 어떤 특성이 최고 성공률이 높느냐만 정하면 아마도 고학력의 백인 남자 이력서를 뽑는 게 제일 성공률이 높을 거거든. 한국 사람은 비자로 곧잘 걸리니까 그냥 알고리듬 단계에서 걸러지기 쉬울 것이다. 출생지가 미국인 사람만 골라내면 15%의 지원자가 떨어져 나가고, 그 중 리로케이션 안 줘도 되는, 가까운 지역에 사는 사람 가산점 주고, 실제 면접 성공한 사람들과 프로필 제일 비슷한 이들에게 가산점 주었더니 '미국 본토 출신 캘리포니아 출신 스탠포드 졸업 후 비슷한 회사에서 일한 백인 남자'가 탑 20명 나온다. 너무 남자만 뽑으면 안 좋으니까 여성에게 가산점을 좀 줬더니 남자 15명 여자 5명이라고 하자. 여기서 웬만큼 튜닝해도 한국 출신 유학생한테는 차례 안 온다.

바로 여기에서 성차별 없다고 하는 이들의 주장이 무너진다. 저 알고리듬은 아무런 잘못이 없다. 편견이 없다. 그저 지난 데이터를 참고로 해서 제일 붙을만한 이력서를 골라냈을 뿐이다. "미국 회사들도 다 자본주의 바탕으로 이익을 최우선시 하는데, 한국 사람이 능력 있고 월급도 덜 받아도 된다면 왜 안 뽑겠나요?" 라고 말하면? 수요보다 공급이 더 많을 때는 우선순위에 안 들면 곧바로 잘리기 때문이다.


학벌주의가 그렇다. 일부러 '서울대만 뽑겠다' 이런 건 아닐 거다. 그저 후배면 이미 만나본 적 있을 수도 있고, 주변에서 추천했을 수도 있고, 그럴 경우 고용 위험이 훨씬 나아지니까 선택하는 거겠지. 이미 들어온 이력서를 뭐 다 자세히 보려면 시간 투자가 어마어마하니까 대강 '추리는' 과정에서, 지방 지원자는 이사 오고 뭐 어쩌고 해서 번거롭다면 미리 떨어뜨릴 수도 있고, 여자 지원자는 출산하고 뭐 어쩌고 할 거니까 우선순위를 좀 낮추고, 그런 식으로 개인적인 알고리듬이 다 있다. 그러니까 여자라서 떨어뜨리는 게 아니라, 남자라서 조금 더 가산점을 받고, 서울 출신이라 조금 또 받고, 학연 있으면 좀 많이 받고, 현재 멤버가 그럭저럭 잘 사는 집 자제분들이라면 또 비슷한 사람이 친근감 느껴지고 그런 거지. 그나마 사람이 관여하는 프로세스니까 학벌주의라고 이름이 붙고, 그런 성향을 없애려고 노력을 하지만 이것이 알고리듬화 된다면?

대선후보를 알고리듬으로 골라보자. 한국의 이전 대통령 당선자나 후보자를 바탕으로 선발한다면 아마도 80% 경남 출신 남자일 것이다. 성공 (=> 당선) 케이스가 경남 남자가 압도적으로 많으니까. 알고리듬은 옳고 그른가 하는 도덕 판단은 하지 않는다. 지난 기록에서 무엇이 성공했는가를 학습하고, 그를 바탕으로 해서 성공 확률이 최고 높은 선택을 한다. 미혼모나 노인에게 높은 보험료를 적용하고, 유색인종의 이력서를 떨어뜨린다. 우리가 지금까지 만들어온 견고한 차별의 벽을 더 단단히 만든다.

빅데이터, 기계학습의 시대라고 하지만 아직 인간의 방향 제시가 필요한 이유다.



keyword
매거진의 이전글IT 인터뷰와 자료구조. 큐와 스택