♪ Smoke in the sky / No peace found ♪
(the Velvet Sundown - Dust on the wind 中)
2025년 여름 스포티파이에 혜성처럼 등장한 4인조 밴드, 벨벳 선다운은 빠른 속도로 85만명의 청취자를 확보하며 성공적인 데뷔가도에 올랐다. 그런데 이 밴드 이상하다, 한창 홍보가 중요할 데뷔 초, 인터뷰 요청에도 감감무소식, 멤버들의 SNS 계정도 찾을 수 없다.
그럼 그렇지, 벨벳 선다운이라는 밴드는 애초에 존재하지 않았다. AI로 생성한 음악과 사진으로 음원을 발매, 봇을 동원해 청취자 수를 부풀린 것이었다.
AI는 빠르게 음악 시장을 잠식하고 있다. 25년 4월, 음원 플랫폼 Deezer는 자사 플랫폼에 업로드 된 음악의 18%가 인간 음악가가 아닌 SUNO, UDIO 등의 AI 서비스를 통해 만든 음악이라고 밝혔다. 60만명이 넘는 구독자를 확보한 모 유튜브 채널은 저작권으로부터 자유롭다는 캐치프라이즈 하에 AI가 만든 음악을 배포하고 있다. 이 채널의 최고 인기 영상은 조회수 800만회가 넘어갈 정도.
인간 고유의 영역으로 여겨지던 음악에 어떻게 AI가 발을 들일 수 있었을까? AI는 음악을 어떻게 이해하고 창작할까?
잠깐 LLM(대형언어모델)의 기본 원리를 아주 간단히 짚고 넘어가자. 전통적인 LLM은 문장을 토큰 단위로 분해, n차원 벡터로 변환한 후, 벡터들 간의 거리를 측정하여 서로 연관성 있는 문장을 찾아내는 방식으로 정확성을 높인다. 핵심은 데이터를 거리 계산이 가능한 형태로 가공한다는 것. 만약 소리도 이와 비슷하게 처리할 수 있다면, AI는 주어진 소리를 이해할 뿐 아니라 거리가 인접한 다른 소리와의 연관성을 포착, 결국 특정 소리 뒤에 이어질 소리를 스스로 추론해낼 수도 있을 것이다.
음악 검색 서비스 Shazam이 음악을 인식하는 방법도 이와 크게 다르지 않다. Shazam은 전체 음악을 주파수 데이터로 변환해 컴퓨터가 이해할 수 있는 형태로 만든다. 이렇게 하면 각 시간대에 고/중/저음역대에서 어떤 주파수의 진폭이 가장 큰지 파악할 수 있고, 이 주파수들을 해시값으로 변환, 주파수가 기록된 시간과 곡 제목을 함께 데이터베이스에 저장한다. 이후 사용자가 찾고자 하는 곡 역시 똑같은 방법으로 변환, 기존 데이터베이스에 저장된 해시값과 비교해 가장 유사한 해시를 가진 곡의 제목을 데이터베이스에서 꺼내 출력한다.
음악을 생성하는 과정은 이보다 좀 더 까다롭다. SUNO의 경우 Diffusion Model을 사용하는데, 한마디로 요약하자면 오디오에 점차 노이즈를 추가해 가는 과정을 학습시킨 모델에게 반대로 노이즈에서 점차 오디오를 발굴해가는 테스크를 수행하게 하는 것이다. 이 모델을 사용자가 원하는 대로 움직이게 하려면, 특정 텍스트와 연관이 깊은 오디오를 학습한 CLAP 모델이 필요하다. 예를 들어,
‘동물 소리를 만들어줘.’
라는 요청에 대해 CLAP 모델은 입력받은 텍스트와 연관이 깊은 오디오(ex. 고양이가 야옹하고 우는 소리)에 대한 정보를 Diffusion Model에 제공한다. Diffusion Model은 노이즈를 제거하는 과정에서
‘고양이 소리 만들려고 하니까 이 주파수의 노이즈를 더 없애도록.’
-친애하는 CLAP이
라는 정보를 반영해 노이즈 제거의 방향성을 설정한다.
AI가 생성한 음악을 접해본 적이 있는 사람들은 프롬프트를 음악으로 변환해주는 AI 서비스에 익숙할 것이다. 이런 연유로 ****AI가 인간의 창의성에 도전하기만 할 뿐, 음악가에게 전혀 도움이 되지 않는다고 생각하는 사람도 존재한다. 하지만 AI는 음악에서 단순히 ‘완성품을 제공’하는 역할 뿐 아니라, 음악 현장에서 ‘완성품을 제조하는 과정을 돕는’ 역할도 수행하고 있다는 점을 알아두자.
뮤직 프로덕션에서 AI와 가장 빠르게 결합하고 있는 분야 중 하나는 마스터링이다. 마스터링은 음악의 Loudness를 향상시키고 전반적인 사운드를 원하는 색깔로 유도하는 음원 발매 과정의 마지막 단계이다. 매우 정교한 작업이 요구돼 상업음반의 경우 숙련된 마스터링 기사가 작업을 수행하는 경우가 많지만, 최근 많은 플러그인 제작사 및 오디오 회사에서 초심자나 마스터링 지식이 부족한 사람들도 사용 가능한 AI 마스터링 플러그인을 출시하고 있다.
LANDR 사의 Mastering Plugin은 AI 음악 분석을 통해 해당 음악에 가장 적합한 마스터링 솔루션을 제공한다. LANDR 웹에서 마스터링 서비스를 이용할 경우 직접 레퍼런스 트랙을 학습시킬 수도 있다. 예컨대 “우리 밴드의 음악이 비틀즈처럼 들렸으면 좋겠어.”라는 요청을 할 수도 있다는 것.
LANDR는 프리랜서로 활동하는 프로듀서나 비트메이커를 target seg로 설정하고 이들의 니즈를 만족하기 위한 다양한 구독형 상품을 제공한다. 특히 위에서 설명한 AI 마스터링 플러그인과 더불어 음악 제작에 쓰이는 샘플팩, 가상악기, 그리고 유통 솔루션을 결합해 음악 제작의 ‘a to z’를 도와줄 수 있는 구독 플랜을 제공하는 것이 특징이다.
때로 음악을 듣다가 ‘이런 신스 사운드는 어떻게 만드는걸까?’라는 의문을 품어본 사람이 존재할 것이다. 이런 의문은 아직 사운드메이킹이 익숙치 않은 초보 음악가들을 좌절시키는 요인 중 하나인데, Micromusic은 이런 페인을 해결하기 위한 플러그인을 제공한다.
Replicate는 입력받은 오디오 샘플을 신스 가상악기의 프리셋으로 바꿔준다. 즉 AI에게 “이 사운드 어떻게 만들어?”라는 질문을 던지면, AI가 특정 가상악기(Serum, Vital)를 통해 해당 사운드를 편집 가능한 형태로 제작하는 과정을 수행한다. 이를 통해 원하는 사운드를 얻을 수 있을 뿐더러 해당 사운드를 편집해 새로운 사운드를 제작하는 등 사운드메이킹이 익숙치 않은 모두의 고민을 해결할 수 있는 서비스가 바로 Replicate이다.
SPLICE를 싫어하는 프로듀서는 있어도 모르는 프로듀서는 없다(아마도). 음악 제작에 필요한 샘플 및 여러 플러그인을 구독형 상품으로 제공하는 SPLICE는 Stack을 통해 빠르게 원하는 분위기의 음악을 제작할 수 있는 환경을 제공한다. 원하는 장르나 분위기를 선택하면 AI가 악기별로 해당 키워드에 적합하다고 판단한 루프들을 가져온 뒤 사용자에게 들려준다. 예를 들어 R&B를 선택하면, AI 기반 서칭 엔진을 통해 해당 장르에 적합한 드럼, 베이스, 건반 루프를 가져와 마치 하나의 완성된 곡처럼 들려주는 것이다. 각 루프가 마음에 들지 않으면 사용자는 새로고침 버튼을 눌러 해당 루프를 교체할 수 있다.
작업에 즉각적인 영감을 받고 싶은 작곡가는 Stack을 통해 자신이 만들고자 하는 사운드의 레퍼런스를 얻어갈 수 있으며 Stack을 통해 발견한 루프를 발전시켜 본인의 음악으로 구성할 수도 있다.
지금 즐겨 쓰는 스트리밍 앱을 켜서 인기 차트를 한 번 훑어보라. 장담컨대 방금 지나친 모든 곡들은 AI가 아닌 사람이 마스터한 곡이며, Stack을 통해 만들어지지 않았을 것이다. 이러한 AI 기반 음악 제작 솔루션은 뮤직 프로덕션 초심자의 입문장벽을 낮추고 음악 제작의 비용을 절약하는 기대효과가 존재한다. 그럼에도 여전히 비용 최소화가 중요한 상업음악의 주요 플레이어가 사람인 이유는, AI를 통한 비용절감 이상의 장점이 인간에게 남아있다는 반증일 것이다.
16년 경력의 한 엔지니어는 아직 AI가 포착해낼 수 없는 음악적 깊이, 감정이 존재한다고 언급한다. 많은 사람들이 벨벳 선다운의 진상을 일찍이 눈치챘듯이, AI가 미묘한 ‘AI스러움’을 이해하지 한, AI 기반 뮤직 프로덕션 툴을 제작하는 회사는 상업음악업계 종사자가 아닌 초심자나 인디 아티스트를 타겟으로 삼는 것에 그칠 것이다.
참고자료 출처
https://www.bbc.com/news/articles/cp8mjnn7eqno
https://www.toptal.com/algorithms/shazam-it-music-processing-fingerprinting-and-recognition
https://arxiv.org/abs/2301.12503
https://splice.com/sounds/create
https://mastering.resoundsound.com/ai-vs-human-mastering/
작성자 : ITS 29기 류지현