brunch

You can make anything
by writing

C.S.Lewis

by 허주부 Jan 02. 2019

네이버의 NLP

네이버 NLP 챌린지 워크샵 후기

Photo by Carolyn V on Unsplash



Naver NLP 챌린지 워크샵


네이버 NLP 챌린지 워크샵은 NLP 챌린지의 결과를 발표하고 시상하는 자리로, 네이버 NLP 소개, 전문가 초청 강연 - 멀티모달 대화시스템 등으로 구성되었습니다. NLP 챌린지는 2018년 11월 16일부터 12월 17일까지 약 한 달 동안 국내 NLP 연구 활성화를 위하여, 개체명 인식(NER)과 의미역 인식(SRL) 두 가지 주제로 진행되었고, 그 결과 NER은 7개 팀, SRL은 8개 팀이 베이스라인을 넘는 성과를 거뒀습니다. 워크샵에서 네이버 NLP의 현 위치와 지향점, 멀티모달 대화시스템의 실사례, NER / SRL 수상자의 성과를 직접 볼 수 있어, 앞으로 NLP 관련 진로를 고민할 수 있어 유익했습니다. 아래 내용은 강인호 네이버 NLP 리더의 강연 내용 요약본입니다. 



네이버의 NLP


워크샵은 강인호 리더의 네이버 NLP 소개로 시작했습니다. 네이버는 현재 일본과 한국 시장을 주 타겟으로 삼아 클로바(clova)라는 음성비서 플랫폼을 운영 중이며, 운영 과정에서 NLP 기술을 적극 활용한다고 했습니다. 5년 전까지만 해도, NLP의 목적은 검색어(query)의 동의어를 잘 뽑아내어, 잘 해석하는데 도움을 주는 것이었습니다. 그러나 알파고 이후 인공지능 붐이 일면서 NLP에 대한 관심이 증가하고, 인공지능과 NLP를 결합한 대화시스템(아이언맨의 자비스 같은) 구축에 대한 기대도 커지면서 NLP 팀에 대한 요구사항이 늘어났다고 합니다. 



네이버의 대화시스템


네이버 NLP 팀의 최근 2년은 Language Variation, 텍스트-보이스 차이라는 두 가지 이슈를 개선하는 시기였습니다. Language Variation는 사람마다 발화 방식이 다른 현상을 의미하며, 이로 인해 하나의 발화를 다양한 발화로 인식하는 문제를 야기합니다. 텍스트-보이스 차이는 검색시스템에서 텍스트는 벡스페이스 등 기능을 활용하여 수정 가능하지만, 대화시스템에서 보이스는 수정할 수 없다는 한계를 지칭합니다. 검색시스템처럼 패턴만으로는 모든 보이스 데이터를 관리하기 어려운 셈입니다.


네이버 NLP 팀은 두 가지 이슈를 해결하기 위해 적극적으로 기계학습을 활용했습니다. NLU 부분에서는, Intent(미리 정의한 의도 카테고리)와 Slot(고유명사, 이름, 날짜/숫자 등 DM에 필요한 유용한 정보)라는 항목을 설정하고, 두 항목을 조합하여 DM에 가능한 분석 후보 제공했습니다. DM 부분에서는 중의성 문제를 해결하기 위해 노력했습니다.



네이버 NLP 팀의 지향점


네이버 NLP 팀의 목표는 정말 어렵고 말이 안 되는 질의에도 답을 주는 것이라고 했습니다. NLP 팀은 목표 달성을 위해 지식인 DB를 활용하여 NLP를 시도했습니다. 약 2억 건의 지식인 데이터를 활용하여 질문 제목과 질문 본문이 유사하게 구성된 것으로 모델을 학습시켰습니다. 그 결과 동음이의어의 경우에도 맥락을 파악하여, 질의에 따라 적절한 해답을 제시할 수 있게 되었습니다. 

> AJUTV(src). 클로바 vs. 알렉사 vs. 카카오미니 https://www.youtube.com/watch?v=EBfOfylYfu0


또한, 오픈 도메인 Q & A에서 특정 도메인 Q & A로 방향을 선회했습니다. 영화명 Q & A가 대표적 사례입니다. NLP 팀은 네이버 영화 리뷰를 기반으로 영화명 Q & A 모델을 따로 구축했습니다. 그 결과 영화 대사만 가지고도 영화명을 맞출 수 있었습니다. 



단상


네이버 NLP 팀이 지식인 DB, 네이버영화 리뷰 DB를 활용하는 것을 보면서, 데이터 분석 혹은 모델링을 위해서는 무엇보다도 데이터 확보가 필수라는 것을 다시금 실감했습니다. 네이버는 지식인DB, 네이버 영화 리뷰 DB 등 데이터를 가지고 있었기 때문에 위 서비스를 할 수 있었기 때문입니다.


다만 NLP 등 기술단에서의 고민, 실험은 활발하게 이루어지는 반면, 서비스단(사용자경험 등)에서의 고민, 실험이 상대적으로 저평가받는 점은 아쉬웠습니다. 강인호 리더의 말대로, 이미 네이버 NLP의 기술력은 꽤 진일보한 지금, 클로바 사용률을 더욱 끌어올리기 위해서는 다른 관점에서의 접근이 필요해보였습니다.

매거진의 이전글 NMT와 대화형 챗봇
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari