2018년 12월 10일 (월)-구글 AI 리서치 블로그
지난 몇 년 동안 Google Translate는 엔드 투 엔드 신경망 기반 시스템으로 전환하여 번역 품질을 크게 개선했습니다. 동시에, 우리는 모델로부터의 번역이 성 편향과 같은 사회적 편향을 반영할 수 있음을 깨달았습니다. 특히 언어는 성별을 나타내는 방식이 많이 다르며, 번역하는 동안 모호성이 있는 경우 시스템은 사회적 비대칭적인 성을 반영하는 성별 선택을 선택하는 경향이 있어 편향된 번역이 발생합니다. 예를 들어, Google Translate는 역사적으로 터키어인 "He/She is a doctor"에 해당되는 것을 남성적인 형태로 번역했으며, 터키어는 "He/She is a nurse"에 해당하는 것을 여성적인 형태로 번역했습니다.
최근에 번역에서 성 편견을 줄이는 첫 단계를 밟았다고 발표했습니다. 이제 단일 단어 쿼리를 영어에서 네 가지 언어(프랑스어, 이탈리아어, 포르투갈어 및 스페인어)로 번역할 때와 터키어에서 영어로 구문과 문장을 번역할 때 여성 및 남성 번역을 모두 제공합니다.
단일 단어 쿼리에 대한 성별 번역을 지원하려면 성별 속성으로 기본 사전을 보강해야 합니다. 더 긴 쿼리(구문 및 문장)에 대한 성별 번역을 지원하는 것은 특히 어렵고 번역 프레임워크를 크게 변경하는 것과 관련이 있었습니다. 더 긴 쿼리를 위해 처음에는 터키어에서 영어로의 번역에 중점을 두었습니다. 우리는 터키어에서 중립적인 질의를 위해 영어로 남성적이고 여성적인 번역을 제공하는 문제를 해결하기 위해 3단계 접근 방식을 개발했습니다.
사람들을 가리키는 많은 터키어 문장은 성별에 중립적이지만 전부는 아닙니다. 터키어는 형태적으로 복잡하기 때문에 성별 관련 번역에 적합한 검색어를 찾는 것은 어려운 문제입니다. 즉, 사람에 대한 언급은 성별 중립 대명사(예 : O, Ona)로 명시적이거나 암시적으로 인코딩 될 수 있습니다. 예를 들어, "Biliyor mu?" 명백한 성별 중립 대명사가 없지만 "Does she know?" 또는 "Does he know?" 이러한 복잡성으로 인해 성별 중립 터키어 쿼리를 감지하기 위해 간단한 성별 중립 대명사 목록을 사용할 수 없으며 머신러닝 시스템이 필요합니다. 터키어 번역 쿼리의 약 10 %가 모호하며 여성 번역과 남성 번역 모두에 적합합니다.
이러한 쿼리를 감지하기 위해 최첨단 텍스트 분류 알고리즘(Cloud Natural Language API에 사용된 것과 동일)을 사용하여 터키어 쿼리가 성별에 중립적일 때 감지할 수 있는 시스템을 구축합니다. 이것은 번역을 얻기 전에 추가 단계를 도입하기 때문에 모델 복잡성과 지연 시간의 균형을 신중하게 조정해야 했습니다. 우리는 시스템이 인간이 평가한 수천 개의 터키 사례에 대해 훈련시켰는데, 여기서 평가자들은 주어진 사례가 성별 중립인지 아닌지를 판단하도록 요청받았습니다. 최종 분류 시스템은 성별 번역이 필요한 쿼리를 정확하게 감지할 수 있는 합성곱 신경망입니다.
다음으로, 요청 시 여성 및 남성 번역을 생성하기 위해 기본 Neural Machine Translation(NMT) 시스템을 개선했습니다. 성별이 요청되지 않으면 기본 번역을 생성하도록 모델을 훈련했습니다. 우리는 여기에는 다음이 포함됩니다.
우리의 병행 훈련 데이터를 식별하여 여성 단어가 있는 사람, 남성이 있는 사람, 그리고 단어가 없는 사람으로 나눕니다.
번역에 필요한 성별을 지정하기 위해 문장의 시작 부분에 추가 입력 토큰을 추가하는 것은 다국어 NMT 시스템을 구축하는 방법과 유사합니다.
<2MALE> O bir doktor → He is a doctor
<2FEMALE> O bir doktor → She is a doctor
여성적이고 남성적이고 기성적인 데이터 소스에 대한 강화된 NMT 모델을 교육하십시오. 우리는이 소스들에 대한 다양한 혼합 비율을 실험하여 모델이 세 가지 작업에서 똑같이 잘 수행되도록 했습니다.
사용자의 검색어가 성별 중립인 것으로 판단되면 번역 요청에 성별 접두사를 추가합니다. 이러한 요청에 대한 최종 NMT 모델은 99 %의 여성 및 남성 번역을 안정적으로 생성할 수 있습니다. 또한 시스템은 성별 접두사가 없는 쿼리의 번역 품질을 유지합니다.
마지막으로 성별 번역을 표시할지 여부를 결정하는 단계가 있습니다. 남성 번역을 생성하는 훈련 데이터는 여성 번역을 생성하는 훈련 데이터와 다르기 때문에 성별과 관련이 없는 두 번역 간에 차이가 있을 수 있습니다. 성별 번역이 품질이 낮은 것으로 판단되면 단일 기본 번역만 표시합니다. 성별 번역의 품질을 확인하기 위해 다음을 확인합니다.
요청한 여성 번역이 여성입니다.
요청한 남성 번역이 남성입니다.
여성 및 남성 번역이 성별 관련 변경을 제외하고 정확히 동일한 경우 번역 사이의 문구가 약간만 변경되어도 필터링됩니다.
[그림 2] 위 : 남성과 여성의 번역은 성별, 즉 “he”와 “his” 대 “she”와 “her”에 대해서만 다릅니다. 따라서 우리는 성별에 따른 번역을 보여줄 것입니다. 하단 : 남성과 여성의 번역은 성별, 즉 "he"와 "she"의 관점에서 정확하게 다릅니다. 그러나 “really”에서 “actually”로의 변화는 성별과 관련이 없습니다. 따라서 성별 별 번역을 필터링하고 기본 번역을 표시합니다.
이를 종합하면 입력 문장은 먼저 분류 기준을 거쳐 성별 번역에 적합한 지 여부를 감지합니다. 분류자가 “yes”라고 답하면 개선된 NMT 모델에 여성 요청, 남성 요청 및 성이 다른(ungendered) 요청이라는 세 가지 요청을 보냅니다. 마지막 단계에서는 세 가지 응답을 모두 고려하고 성별 번역을 표시할지 단일 기본 번역을 표시할지 결정합니다. 이 단계는 표시된 성별 번역의 품질을 최대화하기 위해 여전히 보수적입니다. 따라서 전체 재현율(recall)은 약 60 %에 불과합니다. 커버리지를 늘리고 향후 반복에서 더 복잡한 문장에 대한 지원을 추가할 계획입니다.
이것은 머신러닝 시스템에서 성 편견을 해결하기 위한 첫 번째 단계일 뿐이며 머신러닝의 공정성에 대한 Google의 약속을 되풀이합니다. 향후 성별 번역을 더 많은 언어로 확장하고 이진이 아닌 성별로 번역할 예정입니다.
이러한 노력은 Lindsey Boran, 최현정, Héctor Fernández Alcalde, Orhan Firat, Qin Gao, Rick을 포함하지만 이에 국한되지 않는 많은 사람들의 노력 덕분에 성공적이었습니다. Genter, Macduff Hughes, Tolga Kayadelen, James Kuczmarski, Tatiana Lando, Liu Liu, Michael Mandl, Nihal Meriç Atilla, Mengmeng Niu, Adnan Ozturel, Emily Pitler, Kathy Ray, John Richardson, Larissa Rinaldi, Alex Rudnick, Apu Shah, Jason Smith , Antonio Stella, Romina Stella, Jana Strnadova, Katrin Tomanek, Barak Turovsky, Dan Schwarz, Shilp Vaishnav, Clayton Watts, Kellie Webster, Colin Young, Pendar Yousefi, Candice Zhang 및 Min Zhao.
원본 제목: Google Translate에서 성별 번역 제공하기(Providing Gender-Specific Translations in Google Translate)
게시자 : Google Translate 수석 소프트웨어 엔지니어 Melvin Johnson
원본 링크: https://ai.googleblog.com/2018/12/providing-gender-specific-translations.html
A Neural Network for Machine Translation, at Production Scale 블로그(영문): https://ai.googleblog.com/2016/09/a-neural-network-for-machine.html
Reducing gender bias in Google Translate 블로그(영문) : https://blog.google/products/translate/reducing-gender-bias-google-translate/
Zero-Shot Translation with Google's Multilingual Neural Machine Translation System 블로그(영문): https://ai.googleblog.com/2016/11/zero-shot-translation-with-googles.html
이 블로그는 2018년 12월 10일(수), Google AI 리서치 블로그 기사를 영한 번역한 것입니다. 또한 이 번역 글은 정보 공유 목적으로만 작성했으므로 어떠한 상업용으로 사용할 수 없으며, 원본 저작물 모두 구글에게 저작권이 있음을 알려 드립니다. (First Draft Version)