brunch

You can make anything
by writing

C.S.Lewis

by 서진호 May 07. 2020

COVID-19 과학 문헌을 탐구하는 NLU 기반 도구

2020년 5월 4일 (월) - 구글 AI 리서치 블로그

COVID-19 전염병으로 인해 전 세계의 과학자들과 연구원들은 질병을 이해하고 싸우기 위해 엄청난 양의 새로운 연구를 발표하고 있습니다. 연구의 양은 매우 고무적이지만, 과학자들과 연구원들은 새로운 논문들의 출간에 빠른 속도를 따라가기가 어려울 수 있습니다. 전통적인 검색 엔진은 "미국에 몇 개의 COVID-19 사례가 있습니까?"와 같은 일반적인 COVID-19 질문에 대한 실시간 정보를 찾는 데 유용한 리소스가 될 수 있지만 리서치 기반 질의에 대한 의미를 이해하는 데 어려움을 겪을 수 있습니다. 또한 기존의 키워드 기반 접근 방식을 사용하여 기존 COVID-19 과학 문헌들을 검색하면 복잡한 쿼리에 대한 관련 근거들을 찾기가 어려울 수 있습니다.


이 문제를 해결하기 위해 COVID-19 오픈 리서치 데이터셋(CORD-19) 위에 시맨틱 검색 인터페이스인 COVID-19 Research Explorer를 시작했습니다. 우리는 과학자들 및  연구원들이 COVID-19 관련 질문에 대한 답변이나 증거를 위한 기사를 효율적으로 연구하는 데 돕는 도구를 설계했습니다.


사용자가 초기 질문을 하면 도구는 (전통적인 검색과 같이) 일련의 논문의 결과를 보여 줄  뿐만 아니라 질문에 대한 답변이 될 수 있는 논문의 단편들을 강조 표시합니다. 사용자는 단편들을 검토하고 해당 논문들이 더 읽을 가치가 있는지 여부를 신속하게 결정할 수 있습니다. 사용자가 초기 논문 및 단편집에 만족하는 경우 후속 질문을 제기하는 기능을 추가하여 검색된 기사의 원래 세트에 대한 새 질의로 작동합니다. 아래의 애니메이션을 보고 질의 및 해당 후속 질문의 예를 보십시오. 우리는 이러한 특징들이 과학적 가설에 대한 지식 탐구와 효율적인 증거 수집을 촉진하기를 희망합니다.


시맨틱 검색

도구를 사용하는 핵심 기술은 시맨틱 검색입니다. 시맨틱 검색은 질의와 문서 간의 용어 겹침을 캡처할 뿐만 아니라 구문의 의미가 사용자의 실제 질의 의도와 관련이 있는지 여부를 실제로 이해하는 데 있습니다.


“ACE2 표현식을 규제하는 것은 무엇입니까?(What regulates ACE2 expression?”라는 질의를 고려하십시오. 이것은 간단한 질문처럼 보이지만 특정 문구는 여전히 텍스트 일치에만 의존하는 검색 엔진을 혼란스럽게 할 수 있습니다. 예를 들어, "규제하다(regulate)"는 다수의 생물학적 과정을 지칭할 수 있습니다. 기존의 정보 검색(IR) 시스템은 이러한 혼동을 완화하기 위해 질의 확장과 같은 기술을 사용하지만 시맨틱 검색 모델은 이러한 관계를 암시적으로 학습하는 것을 목표로 합니다.


단어 순서도 중요합니다. ACE2(angiotensin coverting enzyme-2) 자체는 특정 생물학적 과정을 조절하지만 실제로 ACE2를 조절하는 것이 무엇인지 묻고 있습니다. 용어만 일치하면 “ACE2를 규제하는 것이 무엇입니까?” 과 “ACE 2가 규제하는 것이 무엇입니까?”을 구분하지 않습니다. 기존의 IR 시스템은 n-gram 용어 일치와 같은 트릭을 사용하지만 시맨틱 검색 방법은 핵심에서 단어 순서와 의미를 모델링하기 위해 노력합니다.


우리가 사용하는 시맨틱 검색 기술은 최근 Google Search의 검색 품질을 향상시키기 위해 배포된 BERT에 의해 구동됩니다. COVID-19 Research Explorer의 경우 생물 의학 문헌이 Google.com에 제출된 질의 종류와는 매우 다른 언어를 사용한다는 과제에 직면했습니다. BERT 모델을 훈련하기 위해 질의 예제, 관련된 문서들과 단편들과 같은 지도 학습이 필요했습니다. 우리는 미세 조정을 위해 BioASQ에서 생산한 우수한 자원에 의존했지만 이러한 사람이 만든 데이터셋은 작은 경향이 있습니다. 뉴럴 시맨틱 검색 모델에는 많은 양의 훈련 데이터가 필요합니다. 인간이 생성한 작은 데이터셋을 보강하기 위해, 질의 생성의 발전으로 생물 의학 분야에서 대규모의 합성 질문과 관련 문서들을 구축했습니다.


특히, 우리는 많은 양의 일반적인 도메인 질문-답변 쌍을 사용하여 encoder-decoder 모델(아래 그림의 a 부분)을 훈련했습니다. 이러한 종류의 뉴럴 구조는 하나의 텍스트 (예 : 영어 문장)를 인코딩하고 다른 텍스트(예 : 프랑스어 문장)를 생성하는 머신 번역과 같은 작업에 사용됩니다. 여기에서 우리는 이 구절에 대한 답변 구절에서 질문 (또는 질의)으로 번역하도록 모델을 훈련했습니다. 다음으로 컬렉션의 모든 문서(이 경우 CORD-19)에서 구절을 가져와서 해당 질의를 생성했습니다 (파트 b). 그런 다음 이러한 합성 질의 한 단락 쌍(synthetic query-passage pairs)을 신경 검색 모델 (파트 c)을 훈련시키는 지도 학습으로 사용했습니다.


[그림 1] 종합적 질의(Synthetic Query) 생성

그러나 뉴럴 모델이 키워드 기반 모델보다 성능이 떨어지는 예가 있음을 발견했습니다. 이것은 대부분의 인공 지능과 심리 언어학에서 잘 알려진 memorization-generation continuum 때문입니다. tf-idf(term frequency-inverse document frequency)와 같은 키워드 기반 모델은 기본적으로 기억에 남습니다. 쿼리에서 용어를 암기하고 해당 용어가 포함된 문서를 찾습니다. 반면에 신경 검색 모델은 개념과 의미에 대한 일반화를 배우고 이를 바탕으로 일치시키려고 합니다. 때로는 정밀도가 중요할 때 과도하게 일반화될 수 있습니다. 예를 들어,“ACE2 표현을 규제하는 것은 무엇입니까?”를 질의 하면 모델이 “규제”의 개념을 일반화하지만 약어 확장 이외의 ACE2는 일반화하지 않을 수 있습니다.


하이브리드 방식의 용어 및 뉴럴 검색 모델

시스템을 개선하기 위해 하이브리드 방식의 뉴럴 검색 모델을 구축했습니다. 중요한 기준은 용어 기반 모델과 뉴럴 모델을 vector space model로 캐스트 할 수 있다는 것입니다. 즉, 질의와 문서를 모두 인코딩한 다음 검색을 질의 벡터와 가장 유사한 k-nearest neighbor 검색이라고 부르는 문서 벡터를 찾는 것으로 간주할 수 있습니다. 이 작업을 대규모로 수행하려면 수많은 연구와 엔지니어링이 필요하지만 방법을 결합하는 간단한 메커니즘을 사용할 수 있습니다. 가장 간단한 방법은 벡터를 트레이드오프 파라미터와 결합하는 것입니다.

[그림 2] 하이브리드 방식의 용어 및 뉴럴 검색(Hybrid Term and Neural Retrieval)

위의 그림에서 파란색 상자는 용어 기반 벡터(term vector)이고 빨간색은 신경 벡터(neural vector)입니다. 이러한 벡터를 연결하여 문서를 나타냅니다. 쿼리에 대한 두 벡터도 연결하지만 정확한 용어 일치(exact term matches) 대 뉴럴 의미적 일치(neural semantic matches)의 상대적 중요성을 제어합니다. 이것은 가중치 파라미터 k를 통해 수행됩니다. 보다 복잡한 하이브리드 방식이 가능하지만, 이 간단한 하이브리드 모델이 생물 의학 문헌 검색 벤치마크에서 품질을 크게 향상시키는 것으로 나타났습니다.


가용성 및 커뮤니티 피드백

COVID-19 Research Explorer는 연구 커뮤니티에서 공개 알파로 자유롭게 사용할 수 있습니다. 앞으로 몇 달 동안 많은 유용성이 향상될 것이므로 자주 확인하시기 바랍니다. COVID-19 Research Explorer를 사용해보고, 사이트의 피드백 채널을 통해 의견을 보내주십시오.


감사의 말

이러한 노력은 John Alex, Waleed Ammar, Greg Billock, Yale Cong, Ali Elkahky, Daniel Francisco, Stephen을 포함하지만 이에 국한되지 않는 다음의 많은 사람들의 노력 덕분에 성공적이었습니다. Greco, Stefan Hosein, Johanna Katz, Gyorgy Kiss, Margarita Kopniczky, Ivan Korotkov, Dominic Leung, Daphne Luong, Ji Ma, Ryan Mcdonald, Matt Pearson-Beck, Biao She, Jonathan Sheffi, Kester Tong, Ben Wedin


원본 제목: COVID-19 과학 문헌을 탐구하는 NLU 기반 도구(An NLU-Powered Tool to Explore COVID-19 Scientific Literature)
게시자 : Keith Hall, Google Research 자연 언어 이해 연구 과학자
원본 링크: https://ai.googleblog.com/2020/05/an-nlu-powered-tool-to-explore-covid-19.html
CORD-19, COVID-19 Open Research Dataset: https://www.semanticscholar.org/cord19
COVID-19 Research Explorer: https://covid19-research-explorer.appspot.com
Open Sourcing BERT - State-of-the-Art Pre-training for Natural Language Processing: https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html
Understanding Encoder_Decoder Sequence to Sequence Model 블로그: https://towardsdatascience.com/understanding-encoder-decoder-sequence-to-sequence-model-679e04af4346
Comprehensive Guide to Approximate Nearest Neighbors Algorithms 블로그: https://towardsdatascience.com/comprehensive-guide-to-approximate-nearest-neighbors-algorithms-8b94f057d6b6
Exploring the Memorization-Generalization Continuum in Deep Learning 논문: https://arxiv.org/pdf/2002.03206.pdf
Zero-shot Neural Retrieval via Domain-targeted Synthetic Query Generation 논문: https://arxiv.org/pdf/2004.14503.pdf
이 블로그는 2020년 5월 4일(일), 구글 AI 리서치 블로그 글을 영한 번역한 것입니다. 또한 이 번역 글은 정보 공유 목적으로만 작성했으므로 어떠한 상업용으로 사용할 수 없으며, 원본 저작물 모두 구글에게 저작권이 있음을 알려 드립니다. 


매거진의 이전글 ICLR 2020에서 구글 리서치
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari