누가 내게 뭐 래던 남들과는 달라 넌
홍대 가려면 어떻게 가야 해요? 뉴진스의 Hype Boy요 (Cause I know what you like boy (ah-ah))
요즘 내 플레이리스트에 뉴진스의 노래가 빠지는 일이 없다. 요즘도 아침에 출근하다 힘이 빠질 때 한 번씩 뉴진스의 뮤직비디오를 보면서 활력을 급속충전한다. 그래서 그런지 나의 유튜브 알고리즘이 브루노 마스가 부르는 Hype Boy까지 데려갔다. '브루노 마스도 대한민국의 뉴진스를 아는구나. 신기하네'하며 아무 생각 없이 누른 그 영상을 듣기 시작했다.
그런데 이게 무슨 일이야.. 브루노 마스가 한국어를 한다고? 바로 눈이 세모내진 나는 급하게 영상 출처를 찾아봤다. 그 계정의 이름은 WhoAmI AiCover였다. AI가 부른 거라고? 그러기엔 정말 브루노 마스 같았는데..
이게 된다고?라는 생각과 함께 이것저것 찾아보기 시작했다. 특정 가수의 목소리를 AI로 학습한 뒤 커버 영상 음원과 합성하는 것을 AI 커버라고 부른다는 것을 알았다. AI 음성 합성 기술을 통해 브루노 마스 목소리로 뉴진스의 Hype Boy 음원을 들을 수 있는 세상에 살고 있다니. 댓글도 음처리, 외국인스러운 한국 발음까지 브루노 마스가 부른 것만 같다고 놀라워하는 분위기였다. 이 외에도 가수의 독특한 음색을 그대로 재현하는 것도 모자라 호흡과 바이브레이션, 그리고 현실적인 음이탈까지 갖춘 AI 커버 영상들이 유튜브 등의 영상 플랫폼에 정말 많았다.
AI 음성 합성(AI Speech Synthesis)이란 AI 기술을 활용하여 컴퓨터가 인간의 음성과 비슷한 소리를 인공적으로 합성하는 것을 의미한다. AI 커버와 같이 타인의 음성을 학습시켜 기존의 음성을 대체하는 방식 외에도 조건 설정을 통해 특정 기준에 부합하는 새로운 음성을 출력하는 방식과 텍스트를 음성으로 출력하는 방식등 다양한 음성 합성 기술이 있다. AI 음성 합성 기술은 위와 같이 커버 영상 말고도 현재 다양한 분야에 활발하게 활용되고 있고, 그중에서도 특히 엔터테인먼트 분야에서 두각을 드러낸다.
작년 10월 밀리의 서재에서 공개된 <어서 오세요, 휴남동 서점입니다> AI 오디오 드라마에서는 드라마 출연진 19명 중 8명의 배역을 ‘AI 목소리’가 연기했다. 감정 더빙 기술을 통해 화자가 특정 감정을 표출하는 억양 등을 학습하여 다양한 감정을 문장에 합성했고, 이를 통해 해당 드라마에서는 배우가 5분 이내 30 문장만 녹음을 해두면 AI가 이를 학습해 수많은 문장으로 확장할 수 있었다고 한다. 지니뮤직 김정욱 뉴비즈본 부장은 "AI 목소리를 활용하면 제작비용을 절감하는 효과도 있지만, 셀럽의 목소리를 카메오로 출연시키고 다양한 배역을 다채로운 목소리로 재연할 수 있어 새로운 가치창출이 가능하다"라고 언급한 바 있다.
위 사례처럼 엔터테인먼트 분야에서는 애니메이션, 영화, 게임 등에서 캐릭터의 목소리를 만들거나 목소리를 변환하는 데 AI를 사용하여 다양한 캐릭터의 목소리를 자연스럽게 생성하거나 실제 배우의 목소리를 특정 캐릭터의 목소리로 변환하고 있다.
이외에도 AI 음성 합성 기술이 가져올 새로운 가치에는 어떠한 것이 있을까? 서비스 분야에서는 시각 장애인을 위한 보이스 오버 서비스나 영상의 자막을 읽어주는 데 AI를 활용하며, 청각 장애인들을 위해 주문 내용을 입력하면 본인의 목소리로 출력해 주는 서비스를 제공하고 있다. 상담 분야에서는 유저의 음성을 인식한 정보를 기반으로 답변을 제공할 때 음성 합성 기술을 사용하여 유저와 음성으로 대화를 진행함으로써 상담 만족도를 높이고 있다. 문화 분야에서는 과거의 유명 인물이나 역사적인 인물의 음성을 복원하거나 재현하는 데 활용하여 문화유산을 보존하고 있다.
그러나 여기까지 읽으면서 머릿속에 여러 개의 물음표가 떠올랐을지도 모른다. 타인의 목소리를 학습시키는 생성 AI 서비스가 음성권 침해로 이어지진 않을지, 유명인의 음성으로 AI 커버 영상을 올리는 등의 행위에서 저작권 관련 이슈가 발생하진 않을지 등에 대한 의문이 생긴다.
결론적으로는 AI를 학습시킨 기업은 저작권 침해가 인정될 수 있고, 공개적으로 AI 커버 영상 등의 콘텐츠를 올리는 경우 복제 전송에 대한 권리 침해, 그리고 공중 송신에 대한 권리 침해 문제까지 발생할 수 있다. 그럼 지금까지 올라온 AI 커버 영상, 전부 불법일까?
여기서 중요하게 판단해야 할 부분은 바로 “공정 이용에 해당하는가”이다. 공정 이용이란 저작권자의 허락 없이도 저작물을 이용할 수 있는 특수한 경우를 말한다. 예를 들어 학문이나 연구, 보도 등에 한해서 때에 따라 부분적으로 저작물을 이용할 수 있게 하는 것이 이에 해당한다. AI 음성 합성 기술의 경우 학습과정과 결과물 총 두 차례에 걸쳐 공정 이용 여부를 검토한 뒤 최종적으로 AI 콘텐츠가 저작권 침해를 했는지 결정한다. 학습하는 과정에서 타인의 저작물을 동의 없이 가져와 쓰게 되면 복제권 침해가 발생했다고 볼 수 있고 결과물을 공개한 행위가 작곡가와 가수 등의 저작권 침해로 이어질 수 있다. 그러나 완성된 콘텐츠가 수익을 창출할 목적 없이 원곡을 재해석한 부분이 인정된다면 넓은 의미에서 헌법에 보장된 표현의 자유로 보아 공정 이용으로 볼 가능성이 높다.
AI 음성 학습을 기술 발전이라는 측면에서 새로운 산업 경쟁력으로 볼 수 있기 때문에 더 폭넓게 용인해 주어야 한다는 의견 하에 요즘은 공정 이용 가능성을 폭넓게 인정해 저작권법 침해 기준을 다소 완화하고 있는 추세라고 한다. 가수들의 입장을 들어봐야 하지 않겠냐고요? 캐나다의 유명 가수 그라임스는 자신의 목소리를 AI를 활용해 노래를 커버하면 수익의 절반을 주겠다며 AI 커버를 긍정적으로 바라보기도 했다. 이처럼 이러한 AI 커버 현상을 긍정적으로 인식하는 가수가 많아지고 있다.
EU와 일본, 영국 등은 저작권법 침해 기준 완화를 위해 TDM 면책 규정을 도입하고 있다. TDM 면책 규정이란 컴퓨터가 인터넷에 공개된 정보들을 자동으로 학습하는 과정에서 저작권법에 저촉되는 책임을 면해주는 규정이다. 공정 이용과 비슷하긴 하나 AI의 저작물 이용 범위를 훨씬 더 넓혀주는 것이다. 우리나라도 지난 2021년 공정 이용의 모호한 규정 등을 개선하기 위해 새로운 TDM 면책 규정이 담긴 저작권법 전부 개정안을 제안한 바 있지만 현재 국회 상임위에 계류 중이다. 물론 개정안이 통과하더라도 완벽한 면책이 가능한 건 아니며 아직 다른 나라에 비해 저작물 활용 범위도 상당히 국한되어 있다.
얼마 전 내한한 브루노 마스 형님의 Hype Boy 한 곡이 나를 여기까지 데리고 왔다. 도대체 AI가 어디까지 나를 놀라게 할지 사실 이제 상상도 되지 않는다. 하지만 걱정보다는 기대가 되는 건 나뿐일까?