대규모 말뭉치를 활용한 사전학습
안녕하세요. 카카오엔터프라이즈 AI Lab의 기술기획파트 소속인 이수경입니다. 일전에 이 그룹을 통해 카카오브레인의 소식을 많이 전달했는데요, 지난 4월부로 소속이 바뀌게 되어 앞으로는 카카오엔터프라이즈가 보유한 인공지능과 관련된 다양한 기술과 연구를 콘텐츠로 소개해 나갈 예정입니다. 많은 관심과 애정 부탁드립니다.
이번 실험을 진행한 양기창 개발자는 딥러닝 입문할 때부터 사전학습 기법에 관심이 있었다고 하는데, 애석하게도 학교에서는 이를 직접 시도하는 데에는 한계가 있었다고 합니다. 그러던 중 지난 2019년 7월 카카오 인턴십 프로그램을 통해 카카오로 합류하게 됐죠. 이를 알게 된 배재경 파트장이 카카오가 보유한 대규모 말뭉치를 활용해 사전학습된 번역 모델을 한번 만들어 보라는 제안을 함에 따라 이 연구가 진행됐습니다.
그 결과, 컨택스트파트가 새롭게 제안한 모델은 기존 카카오 i 번역 엔진에 사용된 모델과 비교했을 때 더 나은 성능을 냈습니다. 이번 글에서는 바로 이 사전학습된 번역 모델을 만드는 과정과 실험 결과에 대한 내용을 담아냈습니다. 재미있게 읽어주시면 감사하겠습니다. :)
그리고 카카오엔터프라이즈 AI기술팀 컨텍스트파트에서는 현재 다음 6가지 항목에서 딥러닝을 활용한 기계번역 연구를 함께 할 사람을 찾고 있습니다.
카카오가 보유한 대규모 데이터셋을 활용해 딥러닝 모델을 만들고 싶으신 분
기계번역 모델 평가 방식을 함께 고민하고 싶으신 분
번역 모델 최적화 및 모바일화에 관심이 많으신 분
번역 모델 경량화(distillation, quantization 등)에 관심이 있으신 분
법률, 특허 등 다양한 전문 분야의 콘텐츠를 기계 번역하는 데 관심이 많으신 분
한국어 스타일 변환(구어체↔문어체 또는 높임말↔예사말 등)에 관심이 있으신 분
관심이 있는 분은 인재 영입 페이지(https://bit.ly/2xQUuL0)를 참고해 주세요. 감사합니다. :)