지난 11월 중순경, 카카오브레인과 카카오가 공동 개발한 딥러닝 기반 음성합성(TTS) 모델인 딥 보이스(Deep Voice)가 카카오 i의 뉴스 읽기 서비스에 탑재했습니다. 이를 위해 카카오브레인과 카카오는 올해 초 VoK(Voice of Kakao) TF팀을 조직해서 긴밀하게 협업해 왔어요!
이번 글을 쓸 땐 어디에 '주안'을 둬야할 지 많이 고민했습니다. 그 결과, 저는 기술을 연구하는 팀과 기술을 서비스하는 팀이 협업하는 과정에 집중해보기로 했어요. 인공지능을 활용해 새로운 가치 또는 더 나은 고객 경험을 제공하고 싶어하는 기업 또는 팀에게 도움이 될 수 있을 거라 판단했습니다. 그래서 어떤 의사결정을 거쳐서 해당 프로젝트가 진행됐고, TF팀은 어떻게 조직하게 됐는지, 서비스에 적용하기가 어려웠던 원인에 관한 이야기를 중점적으로 다뤄 봤습니다.
솔직히 말씀드리면, 딥 보이스는 100% 완벽하게 딥러닝으로만 동작하지는 않고, 기존의 방식인 음편 조합을 혼용하고 있다고 합니다. 상용 서비스에선 더 높은 정확도가 아니라 사용자가 충분히 만족할 만한 서비스를 제공하는 게 중요하기 때문입니다. 그래서 이런 부분도 본문에 솔직히 밝혔어요. 솔직한 컴은 언제나 중요하니까 :)
물론 지금보다 더 딥러닝 방식으로 동작하는 음성합성의 기술 고도화에 대한 노력은 쭈욱 지속할 예정입니다. 브레인 자체적으로도 딥러닝 기반 음성 기술을 지속해서 연구개발할 거고요.
자세한 이야기는 블로그를 통해 확인할 수 있습니다. :) 혹시 딥러닝으로 음성합성 모델은 어떻게 만드는 건지 궁금하나 싶은, 저처럼 딥러닝을 잘 모르는 사람들도 구경오셔도 좋아요. :) 저같은 사람도 마음으로 이해한 내용이니, 다른 분들은 더 수월하게 이해하실 수 있으실 거에요 :)