2020년 2월 6일(목) 구글 AI 리서치 블로그
질문 응답 기술은 사람들에게 매일 도움을 줍니다. 예를 들어, "오징어 먹물을 먹어도 안전한가요?"와 같은 질문에 직면할 때 사용자는 음성 지원을 요청하거나 검색을 입력하여 답변을 받을 수 있습니다. 작년에 우리는 실제 사용자의 요구를 반영하는 도전 과제를 제공하기 위해 영어 커뮤니티 자연 질문들 데이터셋을 리서치 커뮤니티에 공개했습니다. 그러나 수천 개의 다른 언어가 있으며 많은 언어가 의미를 구성하기 위해 매우 다른 접근 방식을 사용합니다. 예를 들어, 영어가 단어 하나를 변경하여 하나의 객체("book")와 여러 개의 객체들("books")을 나타내지만, 아랍어는 또한 단수형( "كتاب", kitab) 또는 복수형( "كتب", kutub) 이외의 Two books( "كتابان", 키타반)가 있는지 여부를 나타내는 세 번째 형식입니다. 또한 일본어와 같은 일부 언어는 단어 사이에 공백을 사용하지 않습니다. 언어가 의미를 표현하는 여러 가지 방법을 이해할 수 있는 머신러닝 시스템을 만드는 것은 어려운 일이며, 그러한 시스템을 교육하려면 다양한 언어의 적용 사례가 필요합니다.
다국어 질문 답변에 대한 연구를 장려하기 위해 오늘 11가지 유형의 다양한 언어를 다루는 질문에 대한 답변인 TyDi QA를 발표합니다. "TyDi QA : 다양한 유형의 언어로 정보를 찾는 질문에 대한 벤치 마크(A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languagues"라는 논문에 설명되어 있는 우리의 언어자료는 다른 언어가 구조적으로 다른 방식으로 의미를 표현한다는 개념인 유형학적 다양성에서 영감을 받았습니다. 우리는 이 말뭉치에 대해 서로 유형이 다른 언어를 선택했기 때문에 이 데이터셋에서 잘 수행되는 모델이 세계의 많은 언어에서 일반화될 것으로 예상합니다.
유형적으로 다양한 언어 모음
TyDi QA에는 다양한 언어 현상 및 데이터 문제를 나타내는 11개 언어로 구성된 200,000개 이상의 질문과 대답이 포함되어 있습니다. 이러한 언어 중 많은 언어는 아랍어, 벵골어, 한국어, 러시아어, 텔루구어 및 태국어와 같은 비 라틴어 알파벳을 사용합니다. 다른 사람들은 아랍어, 핀란드어, 인도네시아어, 스와힐리어(Kiswahili), 러시아어를 포함하여 복잡한 방식으로 단어를 형성합니다. 일본어는 4개의 알파벳(“24 時間 での サーキット 周 回 数”에 4 가지 색상으로 표시됨)을 사용하는 반면 한글 자체는 구성이 매우 높습니다. 이러한 언어는 웹에서 사용 가능한 많은 데이터 (영어 및 아랍어)부터 매우 적은 것 (벵골어 및 스와힐리어)까지 다양합니다. 우리는 이러한 문제를 해결할 수 있는 시스템이 매우 많은 언어에서 성공할 것으로 기대합니다.
실제 데이터 생성
리서치 커뮤니티가 사용하는 많은 초기 QA 데이터셋은 먼저 사람들에게 단락을 표시 한 다음 단락을 읽음으로써 무엇이 대답할 수 있는지에 따라 질문을 작성하도록 요청함으로써 만들어졌습니다. 그러나 사람들이 각 질문을 작성하는 동안 답변을 볼 수 있었기 때문에 이 접근 방식은 종종 답변과 동일한 단어가 포함된 질문을 생성했습니다. 결과적으로 그러한 데이터에 대해 훈련된 머신 러닝 알고리즘은 단어 일치를 선호하며, 사용자의 요구를 충족시키는 데 필요한 미묘한 답변을 잊게 됩니다.
보다 자연스러운 데이터셋을 구성하기 위해 답변을 원했지만 아직 답을 모르는 사람들로부터 질문을 수집했습니다. 질문을 하기 위해, 우리는 사람들에게 모국어로 작성된 위키 백과의 흥미로운 구절을 보여 주었습니다. 우리는 그 구절에 의해 답변이 되지 않은 한, 질문에 대한 질문을 했고 실제로 답을 알고 싶었습니다. 이것은 길을 걸을 때 볼 수 있는 흥미로운 것들에 대한 궁금증이 어떻게 생길지 궁금합니다. 질문 작가들이 상상력을 발휘할 수 있도록 격려했습니다. 얼음에 관한 구절이 여름에 아이스 캔디에 대해 생각하게 합니까? 좋아요! 누가 막대를 꽂은 아이스캔디를 발명했는지 물어보세요! 특히 질문은 번역되지 않고 각 언어로 직접 작성되었으므로 많은 질문은 영어-우선 언어 자료에서 볼 수 있는 질문과 다릅니다. 벵골어의 한 질문은 “সফেদা ফল খেতে কেমন?”입니다. (사포딜라(sapodilla)의 맛은 어떻습니까?). 아마도 그것은 미국보다 인도에서 훨씬 더 많이 자라기 때문일 것입니다.
이러한 각 질문에 대해 Google은 해당 언어로 가장 일치하는 Wikipedia 기사를 Google 검색하여 해당 기사 내에서 답변을 찾아 강조하도록 요청했습니다. 우리는 질문 작성자가 세계 언어에서 놀라운 언어 현상과 함께 답변을 얻지 못했을 때 질문과 답변 사이에 흥미로운 차이점이 있을 것으로 예상했지만 상황이 훨씬 더 복잡하다는 것을 찾았습니다.
예를 들어, 핀란드어에는 요일과 주라는 단어가 질문과 답변에서 매우 다르게 표현되는 흥미진진한 예가 있습니다. 전체 위키피디아 기사에서 이 답변 문장을 성공적으로 선택하려면 시스템에서 핀란드어 viikonpäivät, seitsenpäiväinen 및 viikko의 관계를 인식할 수 있어야 합니다.
리서치 커뮤니티로서 함께 발전하기
이 데이터셋이 전 세계 사용자에게 보다 유용한 질문 응답 시스템을 만들 수 있는 방식으로 리서치 커뮤니티가 혁신을 이끌어 낼 수 있기를 바랍니다. 커뮤니티의 진행 상황을 추적하기 위해 참가자들이 머신러닝 시스템의 품질을 평가할 수 있는 리더보드를 구축했으며 데이터를 사용하는 질문 응답 시스템을 오픈 소싱하고 있습니다. 챌린지 웹 사이트를 방문하여 리더보드를 보고 자세히 알아보십시오.
감사의 말
이 데이터셋은 알파벳순으로 Dan Garrette, Euneun Choi, Jennimaria Palomaki, Michael Collins, Tom Kwiatkowski 및 Vitaly Nikolaev를 포함하여 많은 Google 직원들로 구성된 팀의 결과입니다. 위의 핀란드어 광택은 Jennimaria Palomaki입니다.
게시자 : Jonathan Clark, Google Research 연구 과학자
원본 링크: https://ai.googleblog.com/2020/02/tydi-qa-multilingual-question-answering.html
논문 링크: TyDi QA : 다양한 유형의 언어로 정보를 찾는 질문에 대한 벤치 마크(A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languagues
Google Research Datasets - tydiqa: https://github.com/google-research-datasets/tydiqa
이 블로그는 2020년 2월 6일(목), Google AI Research Blog 기사를 영어에서 우리나라 말로 번역한 것입니다. 또한 이 번역 글은 정보 공유 목적으로만 작성했으므로 어떠한 상업용으로 사용할 수 없으며, 원본 저작물 모두 구글에게 저작권이 있음을 알려 드립니다. (First Draft Version)