지난 달 카카오브레인(박규병, 최요중, 함지연)이 작성한 논문인 'Jejueo Datasets for Machine Translation and Speech Synthesis’이 제주어를 전산학적으로 접근한 최초의 연구 성과를 인정받아 LREC 학회에 게재 승인됐다는 소식을 알린 바 있습니다. 소멸위기에 놓인 제주어에 대한 간략한 이야기와 더불어, 딥러닝을 활용해 라벨링 데이터셋 구축과 딥러닝 번역모델 및 딥러닝 음성합성 모델 개발 과정을 소개하는 블로그를 작성했습니다.
저도 제주어 번역 데이터셋과 음성 데이터셋 탐색 쪽에 새발의 피 수준의 서포트를 한 적이 있었죠. 그런데 아주 큰 도움이 되지는 못했어요. 딥러닝 모델을 훈련하는 데 적합한 데이터셋을 찾지 못했기 때문이에요ㅠ.ㅠ 제주어를 연구하는 쪽에서 나름대로 자료화에 많은 신경을 쓰고 있었습니다만, 번역 자료를 모두 PDF 형태로 관리하거나, 잡음이 많은 환경에서 녹음된 음성 데이터가 전부였죠. 결국에는 박 연구원님이 직접 딥러닝 모델에 적합한 형태로 번역 코퍼스를 가공하고, 여기서 제주어 문장을 일부 추출해 녹음 작업을 진행했습니다.
이제 막 첫걸음을 내딛었습니다. 제주어에 대한 지속적인 관심을 쏟는 계기가 되길 바라겠습니다. 다만, 후속 연구가 보다 활발하게 진행되기 위해서는 딥러닝 학습에 적합한 형태의 충분한 데이터셋 확보가 선결되어야 할 것으로 보입니다. 이는 어느 기업이 홀로 해결할 수 없는 문제라 보고 있습니다. 학계와의 협력 연구가 필요함은 물론, 지자체 지원 또한 필요한 이유죠 :)
논문은 영어로만 쓰여 있기 때문에 접근성이 다소 떨어질 수 있는데요, 한글로 작성된 블로그를 보시면 연구 내용을 이해하는 데 큰 무리는 없으실 거라 생각합니다. 감사합니다 :)