chatGPT를 위한 NLP 기초 : 워드 임베딩
2016년 처음으로 AI 선정 미인대회가 열렸다. 수상 결과는 편향성 논란에 휩싸였다. 100여 개의 국가에서 6000명 이상의 사람들이 지원을 했지만 44명의 수상자 대부분이 백인이었고 아시아인은 소수 그리고 흑인은 단 한 명뿐이었다. 즉, 유색 인종이 수상에서 불이익을 받은 것이다.
이뿐만 아니라 "대량 살상 수학 무기"라는 책에서 빅데이터와 AI의 편향적인 문제를 자세하게 다루고 있으므로 편향에 대해서 깊게 공부하고 싶으신 분은 이 책을 참고하면 좋을 것 같다.
이러한 편향성 문제를 해결하기 위해 논문들이 나오고 있고, 편향성을 측정하는 방법도 제시되었다. 오늘은 그중 대표적인 방법인 Word Embedding Association Test에 대해서 알아보도록 하겠다.
WEAT는 워드 임베딩에 내포된 편향성을 정량적으로 측정한 방법이다. WEAT는 target과 attribute라는 단어 셋을 가지고 있다. 이 단어 셋은 특정 단어의 개념을 잘 대표하는 단어들을 여러 개 고른 것이다.
위 그림은 WEAT score를 계산하기 위한 식이며 두 벡터의 유사도를 측정하기 위해 두 벡터 사이의 cosine 값을 이용하여 두 벡터의 유사도를 측정하는 cosine similarity를 이용한다. cosine similarity는 -1에서 1의 값을 가질 수 있다. 1의 값은 두 벡터의 방향이 똑같을 때, -1은 두 벡터의 방향이 반대일 때, 0은 두 벡터가 직교할 때를 뜻한다.
다음은 개별 단어 w가 개념축 A-B에 대해서 가지는 편향성을 계산하는 식이다. 이는 target에 있는 단어 w가 두 attribute 셋 A, B에 속한 단어들과의 유사도의 평균값이 얼마나 차이가 나는지 측정하는 식이다.
결론적으로 정리해 보면 WEAT score의 최종 값은 X, Y에 속하는 모든 단어가 가지는 편향성 값의 표준편차로 정규화를 한 값이다. 그리고 편향성의 정도가 뚜렷하게 차이가 날수록 절댓값은 커지게 된다. 절댓값을 취하기 이전에 코드로 구현할 때는 X, Y의 결괏값이 양수이면 개념 A에 가까운 편향, 음수이면 개념 B에 가까운 편향이 되도록 구현한다.
참고자료
- WEAT 논문 원본 : https://arxiv.org/pdf/1608.07187.pdf
- 구글 : https://developers.googleblog.com/2018/04/text-embedding-models-contain-bias.html