[NLP 논문 리뷰]3 다국어 워드 임베딩

Using Lexical Definitions

Mar 9. 2023

Learning Bilingual Word Embeddings Using Lexical Definitions

Weijia Shi, Muhao Chen, Yingtao Tian, Kai-Wei Chang. Proceedings of the 4th Workshop on Representation Learning for NLP (RepL4NLP-2019). 2019.

https://aclanthology.org/W19-4316

지난 글에서는 Image-Text data를 사용한 multilingual word embedding 관련 논문을 리뷰했는데, 이번에는 단어 사전을 사용한 bilingual word embedding 관련 논문을 리뷰해보고자 한다. Image-Text data가 어떻게 word-aligned/sentence aligned data를 대체할 수 있는지는 아래 글을 참고하기 바란다.

[NLP 논문 리뷰]2 다국어 워드 임베딩

Using Image-Text Data | 다국어 워드 임베딩(Multilingual Word Embedding)이란, 두 개 이상의 언어를 한 개의 임베딩 스페이스에 위치시키는 작업이다. Multilingual Word Embedding을 위해서 필요한 데이터는 여러 언

https://brunch.co.kr/@jean/8

이전 글에서 다뤘던 Singhal의 2019년 논문 "Learning Multilingual Word Embeddings Using Image-Text Data"에서도 밝혔듯, multilingual word embedding을 위해 필요한 데이터는 현존하는 양도 적고, 새로 생성하기에는 많은 비용이 든다. 이에 동일한 의미를 지니는 두 언어 쌍 데이터를 대체하기 위한 여러 가지 시도가 이루어졌다. Shi et al.의 2019년 논문 "Learning Bilingual Word Embeddings Using Lexical Definitions"에서는 단어 사전에서 각 단어들의 정의를 활용(BilLex)한다.

본 논문의 기본 아이디어는 다음과 같다.

동일한 의미를 가지는 단어 쌍끼리는 사전적인 정의도 높은 유사도를 지닐 것이다.

이를 바탕으로 총 세 종류의 단어 쌍(word pair)을 생성했다.

먼저 (a) Bilingual strong pair를 보자. 영어 'car'과 프랑스어 'véhicule'는 의미적으로 대응되는 단어들이다. 그렇다면 'car'의 사전적 정의와 'véhicule'의 사전적 정의 또한 의미적으로 매우 높은 유사도를 지닐 것이기에 이를 bilingual word embedding을 위한 데이터로 사용할 수 있다.

(b) Directly induced pair는 (a) Bilingual strong pair보다 한 단계 간접적이다. 영어 'faith'는 프랑스어 'fidèle'와 의미적으로 대응되며, 영어 'belief'의 유의어다. 그렇다면 'belief'와 'fidèle' 또한 의미적으로 대응되며, 두 단어의 사전적 정의도 의미적으로 높은 유사도를 지닐 것이다. 따라서 두 단어의 정의를 데이터로 사용할 수 있다.

(c) Indirectly induced pair는 (b) Directly induced pair보다 한 단계 더 간접적이다. 영어 'capacity'는 프랑스어 'capacité'와 의미적으로 대응된다. 'ability'는 'capacity'의 유의어고, 'pouvoir'는 'capacité'의 유의어다. 그렇다면 'ability'와 'pouvoir'도 유의어라고 볼 수 있을 것이고, 두 단어의 사전적 정의를 학습 데이터로 사용할 수 있을 것이다.

사전적 정의를 쌍으로 활용한 BilLex 모델의 성능 평가를 위해 word translation task와 sentence translation retrieval task를 진행했다. 해당 모델과 기존 bilingual word embedding 모델들의 결과는 다음과 같다.

먼저 word translation task에서는 BilLex가 기존 모델들의 성능을 뛰어넘었다.

또한 sentence translation retrieval task에서도 마찬가지로 BilLex가 기존 모델들보다 우세한 성능을 보였다.

BilLex는 사전의 정의에 상당히 높은 수준의 언어적 지식이 담겨있다는 사실에서 출발한 모델이라고 하는데, SOTA 모델의 성능을 뛰어넘은 성공적인 모델이라고 할 수 있겠다.

keyword

Jean 소속 서울대학교 직업 연구자

개발하는 언어학자/창업가

구독자 3

작가의 이전글[NLP 논문 리뷰]2 다국어 워드 임베딩