brunch

매거진 AI for Good

You can make anything
by writing

C.S.Lewis

by 제인 리 Dec 28. 2021

의사에서 남자를 빼고 여자를 더하면 간호사?

머신러닝 비지도 학습이 갖고 있는 데이터 편향에 대해

지난 1월 인공지능 챗봇 ‘이루다’의 성희롱, 혐오발언, 개인정보 활용은 한국 사회에 편향된 기계 학습이라는 인공지능을 둘러싼 문제를 제기했다. 인간이 지금까지 쌓아온 데이터는 그 데이터를 만들어낸 사람이 가지고 있는 편향, 즉 선입견에 기반한다.


머신러닝에서 자연어 분석 임베딩 방법론 중에 하나인 Word2vec은 2013년 구글에서 Tomas Mikolov가 이끄는 팀을 통해 오픈 소스로 세상에 공유되었고 많은 개발자들이 사용하고 있는 알고리즘이다. word2vec은 자연어 처리에서 단어를 벡터 값으로 바꾸어 수학 연산을 할 수 있게 해 줌으로써 유사한 단어를 제안해 주는 기능을 갖고 있다. 예를 들어 중국 + 강이라고 입력하면 양쯔라는 대답이 나오고, 파리 - 프랑스 + 이탈리아라고 하면 로마라는 아웃풋이 산출된다. 왕 - 남자 + 여자라고 하면 여왕이라는 단어가 나온다. 


하지만 이 알고리즘에는 치명적인 단점이 있는데, 사람이 개입하지 않은 채 얻어진 데이터 만으로 연산을 하다 보면 매우 편향된 결과를 도출한다는 것이다. Brian Christian은 그의 책 The Alignment Problem에서 몇 가지 편향된 데이터 결과를 보여주었는데, 이를테면 알고리즘을 통해 의사 - 남성 + 여성을 하게 되면, 우리의 상식으로는 다시 의사가 나와야 하지만 이 알고리즘을 통해서는 nurse 즉 간호사라는 값이 나온다. 또한, 가게 주인 - 남성 + 여성이라고 값을 입력하면 주부라는 답이 나오고, 컴퓨터 프로그래머 - 남성 + 여성이라고 입력하면 homemaker 즉, 역시나 주부라는 답이 나오는 것을 알 수 있다. Word2Vec은 비단 성별과 관련된 값에만 편향된 결과를 내는 게 아닌 인종과 관련 되어서도 비슷한 문제점을 갖고 있다. 


Word2vec 알고리즘 이외에도 미국에서는 범죄자의 위험도를 평가하기 위해 다양한 머신러닝 알고리즘이 활용된다. 2016년 데이터 저널리스트인 Julia Angwin은 그러한 알고리즘의 정확도를 조사했는데 매우 놀랄만한 결과를 얻었다. 미국 전역에서 광범위하게 이용되고 있는 미래 범죄 예측 알고리즘이 심각하게 편향되어 있는 것을 발견한 것이다. 이를테면, 비슷한 종류의 범죄를 같은 빈도로 저지른 각기 다른 두 사람의 위험도중 한 명은 10점 만점에 3점, 한 명은 9점을 얻었는데 높은 점수를 얻은 사람이 흑인이었던 것이다. 조사를 하면 할수록 알고리즘 자체가 특정 인종에게 엄청난 편향을 갖고 있다는 것을 확인했다. 미국 역대 판사들의 판결을 학습했던 결과에 따라 나온 결과 값이기에 그동안 판사들이 얼마나 인종적 편향을 갖고 있는지를 보여주는 예라고도 볼 수 있다. 


Word2vec과 같은 비지도학습 기반의 머신러닝 알고리즘에서 기계는 단순하게 주어진 엄청난 양의 데이터 덩어리를 이해하고 패턴, 규칙, 표현 그리고 시각화하는 유용한 방법을 찾도록만 지시받는다. 이때, 그 결과 값은 매우 편향된 결과를 낼 수 있다. 머신러닝 알고리즘을 활용한 다양한 결과들은 점점 더 우리 삶에 깊숙하게 들어오고 있다. 하지만 인간이 올바른 생각이 개입되지 않은 채 오로지 데이터 값으로만 학습하고 그것을 다시 수많은 삶에 적용하는 일은, 또 다른 편향, 선입견을 나을 수 있고 나아가 한 사람의 삶을 공정하지 못한 방식으로 망쳐버릴 수도 있다는 사실이 끔찍할 뿐이다. 


이런 문제들을 해결하기 위해서 업계에서는 최근 탈편향 Debias 알고리즘을 개발하기 위한 시도를 하고 있다. 빈부 편향, 인종 편향, 성별 편향 등 다양한 영역에서 일어나는 편향을 미리 인지하고 기계 학습 전에 데이터에서 해당 편향 데이터를 미리 제거하는 방식이다. 구글의 What-if tool, 시카고 대학교의 Aequitas, IBM의 AIF 360, 마이크로소프트의 Fairlearn 등이 대표적인 탈편향 알고리즘을 제공하는 서비스이다. 


그럼에도 불구하고, 데이터 편향은 아주 오랜 시간에 걸쳐 해결되어야 할 문제이다. 데이터라는 게 하루아침에 만들어진 게 아닌, 수십 년 수 백 년에 걸쳐 인간의 생각을 바탕으로 만들어진 게 아닌가. ‘공정’이라는 가치만 하더라도, 우리 바로 윗세대와 우리의 생각이 다르듯이, 인간이 믿는 것 자체가 역사적으로 끊임없이 수정과 발전을 거듭해 온 것이기 때문이다. 단지, 기계학습을 제공하고 있는 많은 서비스 등은 이러한 데이터 편향성에 대해서 늘 심사숙고해 서비스를 대중에 제공해야 할 의무는 있어 보인다.  


매거진의 이전글 데이터는 왜?를 설명할 수 없다.
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari