AI에 관한 강연이 무수히 쏟아지고 있다. 대부분 온라인 강연 형식으로 진행되기에 수준 높은 강연을 집에서 들을 수 있다는 장점이 있다. 이번에는 콘텐츠진흥원에서 진행한 'AI 기술과 콘텐츠의 미래'를 수강하였다. 이번 강좌를 통해 AI 음성 합성과 AI 영상 합성 기술의 트렌드를 읽어볼 수 있었다. 저작권상 모든 내용을 올릴 수는 없지만 인상 깊었던 부분을 위주로 실습과 함께 설명하고자 한다.
강연자 소개
음성 합성 기술을 통한 오디오 콘텐츠
네이버 크로버 더빙
HDTS와 NES 기술의 결합
특정 제품을 홍보할 의도는 아니지만 강연을 듣고 나서 굉장히 끌렸기에 한번 사용해보았던 프로그램이다. 현재 무료로 공개되어 있으며 누구나 쉽게 사용할 수 있는 프로그램이기에 언급해보려 한다. 자세한 사용 방식에 대해서는 다른 게시글에서 자세히 설명해보겠다.
음성합성기술은 말이 어렵지만 단어의 뜻을 보면 TTS(Text-To-Speech), 글자를 음성으로 바꿔주는 기술을 의미한다. 우리가 컴퓨터에 문자를 입력하면 이를 음성으로 변환하여 표현해준다.
쉽게 말하면 동영상에 더빙을 입히는 작업이 이전에는 우리가 직접 목소리를 입력해야 한다면, 이제는 크로버 더빙을 이용해서 문자만 입력하면 된다. 동영상을 만드는데 훨씬 편한 세상이 온 것이다. 그리고 이러한 모든 과정을 한시적으로 무료로 제공하니, 우리들도 꼭 이용해보자!
AI 뉴스 앵커를 들어본 적이 있는가? 사람의 목소리와 얼굴을 똑같이 합성하여 이제는 AI 뉴스 앵커를 만들어내었다. 뉴스 앵커의 영상을 AI 기술로 학습해 실제 뉴스 앵커와 똑같은 말투, 억양 등의 목소리뿐만 아니라 영상으로 말하는 얼굴, 표정 및 움직임까지 합성할 수 있다. 영상과 음성을 결합해 딥러닝 훈련 과정을 거쳐 실제 사람을 닮은 인공지능 영상으로 제작했다는 것이다.
인공지능 문재인 대통령 (AI얼굴 영상 합성)
이 기술을 활용한 서비스로 AI 뉴스 아나운서, AI 한류스타, AI 영어회화 등 사람의 얼굴로 대화하는 모든 분야에 쓰일 수 있다. 곧 AI와 얼굴을 보면서 얘기하는 영화 속 상상이 현실로 이루어질 것으로 예상된다.
콘텐츠 분야에서 AI의 활용 범위는 굉장히 빠르게 증가하고 있다. 또한 AI의 기술은 굉장한 속도로 발전하면서 이전에는 생각지 못했던 다양한 결과치를 만들어낸다. 하지만 우리는 아직 인공지능이 내놓은 결과를 해석하지 못한다. 즉, 그들이 왜 그러한 행동을 했는지 알지 못한다.
그렇다면 우리는 이들의 원리를 제대로 이해해서 좀 더 나은 인공지능적 환경을 제시해야 한다. 그 기간이 오래 걸리지만 우리가 앞으로 나아가야 할 방향임은 틀림없다.