안녕하세요, 카카오엔터프라이즈 AI Lab의 사만다입니다.
지난 월요일에 이어, 오늘도 EMNLP 2020에 게재된 논문 2편을 소개해보고자 합니다. 두 논문에서 공통으로 다루는 다국어 번역 모델 아키텍처부터 간단한 설명해보겠습니다.
※ (참고) 보다 명확하고 간결한 방식으로 대상을 지칭하기 위해 본문에서는 다국어 번역 모델을 MNMT로, 두 언어 간 번역 모델을 NMT라고 명명했습니다.
기존에는 n개 언어 간 번역을 위해 n*(n-1)개의 NMT를 따로 두었습니다(single MNT). 하지만 언어 수가 늘어나면 훈련해야 할 매개변수 수는 제곱(O(n2))으로 커지게 되죠. 이에 여러 방향의 번역에 언어별 인코더와 디코더를 두고 이를 공유하는 구조가 제안됐습니다(multi-way MNMT). 다만, 근래에는 근래에는 여러 방향의 번역을 하나의 인코더와 디코더로만 대응하는 1-1 MNMT 구조에 관한 연구가 주로 이뤄지고 있습니다. 전체 매개변수 수 대비 더 나은 성능을 내기 때문입니다.
'Revisiting modularized multilingual NMT to meet industrial demands' 논문은 1-1 MNMT가 지닌 한계를 인식, 좀 더 실용적인 번역 모델을 새롭게 탐색하는 과정에서 multi-way MNMT의 가치를 재발견했습니다. AI Lab은 LSTM 대신 Transfomer로 인코더와 디코더를 구현한 버전을 M2NMT라 명명하고 실험을 진행했습니다.
AI Lab AI기술실 류성원 연구원을 만나 다국어 번역을 위한 다양한 아키텍처와 1-1 MNMT의 한계, 실험을 통해 확인한 M2NMT 성능에 대한 이야기를 들어봤습니다.
한편 AI Lab은 1-1 MNMT를 이용한 제로샷 방향의 번역에서, 어떤 언어로 번역할지를 안내하는 메타 토큰(token) 값에 상관없이 항상 영어 문장이 생성되려는 경향이 발견됨에 주목했습니다. 'Sparse and Decorrelated Representations for Stable Zero-shot NMT' 논문은 인코더 정규화를 위해 SLNI(Sparse coding through Local Neural Inhibition)이라는 기법을 적용하면, 감독학습 방향의 성능을 그대로 유지하면서, 여러 훈련 조건 변화에도 안정적인 제로샷 성능을 확보할 수 있음을 보였습니다.
손보경 연구원과는 제로샷 번역에서 1-1 MNMT의 한계와 SLNI 기법이 무엇인지, SLNI를 이용했을 때 제로샷-감독학습 번역에서의 성능 변화에 관한 이야기를 나눴습니다.
현재 컨택스트팀에서는 목적 지향적 대화(Task-oriented)뿐만 아니라, 다국어 번역, OCR, 텍스트 요약 등 다양한 응용 분야에 필요한 기계 학습 모델 연구/개발을 함께할 분을 찾고 있습니다. 관심 있으시다면 아래 인재 영입 페이지를 참고해 주세요. 감사합니다. :)
+논문 저술에 참여한 양기창, 배재경님도 수고하셨습니다. :)
�머신 러닝 응용 분야 전문가 영입 https://bit.ly/KEPCareer_DRapplication