brunch

You can make anything
by writing

C.S.Lewis

by 서진호 Jul 06. 2020

구글 번역에서 성편견을 줄이기 위한 확장 가능한 접근

2020년 4월 22일 (수)-구글 AI 리서치 블로그

언어 번역을 위한 머신러닝(ML) 모델은 훈련 데이터에 반영된 사회적 편향에 의해 왜곡될 수 있습니다. 그러한 예들 중 하나인 성편견은 종종 성별 언어와 그렇지 않은 언어를 번역할 때 더 분명해집니다. 예를 들어, Google Translate는 역사적으로 터키어인 "He/she is a doctor"를 남성형으로, 터키어와 비슷한 "He/she is a nurse"을 여성형으로 번역했습니다.


불공정한 편견을 만들거나 강화하지 않는 것이 중요하다는 점을 강조하는 Google의 AI 원칙들에 따라 2018 년 12월에 성별별 번역을 발표했습니다. Google Translate의 이 기능은 원어에서 성에 중립적인 검색어를 번역할 때 여성 및 남성 번역 모두에 대한 옵션을 제공합니다. 이 작업을 위해 성별 중립 쿼리 감지, 성별별 번역 생성 및 정확성 검사와 관련된 3단계 접근 방식을 개발했습니다. 우리는 이 접근 방식을 사용하여 터키어에서 영어로 구문과 문장을 성별에 따라 번역할 수 있게 되었으며, 이제는 Google Translate에서 가장 인기 있는 언어 쌍인 영어에서 스페인어로 번역할 때 이 접근 방식을 확장했습니다.

[그림 1]

[그림 1] 왼쪽 : 성별 중립적 영어 문구를 성별별 스페인어로 번역한 초기 사례. 이 경우 편향된 예만 제공됩니다. 오른쪽 : 새로운 번역은 여성 번역과 남성 번역 옵션을 모두 제공합니다.


그러나 이 방법이 더 많은 언어에 적용됨에 따라 확장에 문제가 있음이 분명해졌습니다. 특히, neural machine translation(NMT) 시스템을 사용하여 남성 및 여성 번역을 독립적으로 생성하는 것은 low Recall을 초래하여,  두 번역이 성 관련 현상을 제외하고는 정확히 동등하지 않는 경우가 많았기 때문에, 자격 있는 질의의 최대 40%에 대한 성특이 번역을 보여주지 못했습니다. 또한 각 소스 언어에 대한 성별 중립성을 감지하기 위한 classifier를 작성하는 것은 데이터를 많이 사용했습니다.


오늘날, 우리는 새로운 영어에서 스페인어로 된 성별 번역본의 출시와 함께 초기 번역을 다시 쓰거나 편집하여 젠더 편견을 해결하기 위해 극도로 다른 패러다임을 사용하는 개선된 접근법을 발표합니다. 이 접근법은 성별 중립성 검출기가 필요하지 않기 때문에 특히 성 중립 언어에서 영어로 번역할 때 더 확장 가능합니다. 이 방법을 사용하여 핀란드어, 헝가리어 및 페르시아어-영어를 포함하도록 성별별 번역을 확장했습니다. 또한 새로운 재작성 기반 방법을 사용하여 이전 터키어-영어 시스템을 교체했습니다.


재작성 기반 성별별 번역

재작성 기반 방법의 첫 번째 단계는 초기 번역을 생성하는 것입니다. 그런 다음 번역을 검토하여 성별 중립 소스 문구가 성별별 번역을 생성한 사례를 식별합니다. 이 경우 문장 수준의 재작성자를 적용하여 대체 성별 변환을 생성합니다. 마지막으로, 최초의 번역과 재작성된 번역이 모두 검토되어 성별의 차이가 유일한 지 확인합니다.

[그림 2] 위: 원래 접근 방식. 하단 : 새로운 재 작성 기반 접근 방식

Rewriter

rewriter를 빌드하는 데는 쌍으로 된 문구로 구성된 수백만 건의 훈련 예제를 생성하는 작업이 포함되었으며, 각각에는 남성 및 여성 번역이 모두 포함되어 있습니다. 이러한 데이터를 즉시 사용할 수 없었기 때문에 이 목적으로 새 데이터셋을 생성했습니다. 대규모 단일 언어 데이터셋부터 시작하여 성별 대명사를 남성에서 여성으로 또는 그 반대로 바꾸어 프로그래밍 방식으로 후보 rewriter을 생성했습니다. 상황에 따라 여러 유효한 후보자가 있을 수 있으므로 (예 : 여성 대명사 "her"는 "him" 또는 "his"로 매핑될 수 있고, 남성 대명사 "his"는 "her" 또는 "hers"로 매핑될 수 있음) 올바른 것을 선택하기 위한 메커니즘이 필요했습니다. 이 문제를 해결하기 위해 구문 분석기(syntactic parser) 또는 언어 모델(language model)을 사용할 수 있습니다. 구문 분석 모델에는 각 언어로 레이블이 지정된 데이터셋을 사용한 훈련이 필요하기 때문에 비주도 방식으로 학습할 수 있는 언어 모델보다 확장성이 떨어집니다. 따라서, 우리는 수백만 개의 영어 문장에 대해 훈련된 사내 언어 모델을 사용하여 최상의 후보를 선택합니다.


[그림 3] 이 테이블은 데이터 생성 프로세스를 보여줍니다. 입력부터 시작하여 후보를 생성한 다음 언어 모델을 사용하여 연결을 끊습니다.

위의 데이터 생성 프로세스는 남성 입력에서 여성 출력으로 또는 그 반대로 진행되는 훈련 데이터를 생성합니다. 우리는 이 두 방향의 데이터를 병합하고 단층 트랜스포머 기반 시퀀스-시퀀스 모델(transformer-based sequence-to-sequence)을 훈련시킵니다. 모델 견고성을 높이기 위해 훈련 데이터에 구두점 및 대소 문자 변형을 도입했습니다. 우리의 최종 모델은 요청된 남성적 또는 여성적 rewriter을 99% 안정적으로 생성할 수 있습니다.


평가

또한 새로운 번역 시스템과 기존 시스템 간의 상대적 편견 감소(bias reduction)를 측정하는 바이어스 감소라는 새로운 평가 방법을 고안했습니다. 여기서 "bias"는 소스에서 지정되지 않은 번역에서 성별을 선택하는 것으로 정의됩니다. 예를 들어, 현재 시스템이 시간의 90 %로 편견 되고 새로운 시스템이 시간의 45 %로 편견성을 가지게 되면, 이는 50 % 의 상대적 편견 감소를 초래합니다. 이 측정법을 사용하면 헝가리어, 핀란드어 및 페르시아어에서 영어로 번역할 때 새로운 접근 방식으로 바이어스가 ≥90 % 감소합니다. 기존 터키어-영어 시스템의 바이어스 감소는 새로운 접근 방식으로 60%에서 95%로 향상되었습니다. Google 시스템은 평균 정밀도 97 %로 성별별 번역을 실행합니다 (즉, 성별별 번역을 표시하기로 결정한 경우 시간의 97 %에 해당).

성별에 따른 번역 품질을 높이고 언어 쌍을 4개 더 늘려서 처음 출시 한 이후 크게 발전했습니다. Google 번역에서 성별 편견을 더욱 해결하기 위해 노력하고 있으며 이 작업을 문서 수준의 번역으로 확대할 계획입니다.


감사의 말 :

이러한 노력은 Anja Austermann, Jennifer Choi, Hossein Emami, Rick Genter, Megan Hancock, Mikio Hirabayashi 등 다음의 많은 사람들의 노력 덕분에 성공적으로 이루어졌습니다. , Macduff Hughes, Tolga Kayadelen, Mira Keskinen, Michelle Linch, Klaus Macherey, Gergely Morvay, Tetsuji Nakagawa, Thom Nelson, Mengmeng Niu, Jennimaria Palomaki, Alex Rudnick, Apu Shah, Jason Smith, Romina Stella, Vilmos Urban, Colin Young, Angie Whitnah, Pendar Yousefi, Tao Yu


원본 제목: Google 번역에서 성편견을 줄이기 위한 확장 가능한 접근 방식(A Scalable Approach to Reducing Gender Bias in Google Translate)
게시자 : Google Research 수석 소프트웨어 엔지니어 Melvin Johnson
원본 링크: https://ai.googleblog.com/2020/04/a-scalable-approach-to-reducing-gender.html
Providing Gender-Specific Translations in Google Translate 블로그(영문): https://ai.googleblog.com/2018/12/providing-gender-specific-translations.html
Defensive Publications Series 논문: https://www.tdcommons.org/dpubs_series/1577/
이 블로그는 2020년 4월 22일(수), Google AI 리서치 블로그 기사를 영한 번역한 것입니다. 또한 이 번역 글은 정보 공유 목적으로만 작성했으므로 어떠한 상업용으로 사용할 수 없으며, 원본 저작물 모두 구글에게 저작권이 있음을 알려 드립니다. (First Draft Version)
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari