brunch

You can make anything
by writing

C.S.Lewis

by being cognitive May 27. 2024

AI와 음악꼰대

'24.5월


0. 지난 1년반 동안의 글을 통해서 드러났던 것처럼, AI 기술 발전을 보면서 크게 열광했던 사람 중에 하나가 저였는데요,


. 와, AI가 코딩도 다 해주네, 대박. (ChatGPT, Claude)

. 와, AI가 그림/영상도 다 만들어주네, 대박. (MidJourney, Sora)

...


그랬던 제가 최근 suno, udio, elevenlabs와 같은 음악생성 AI들의 빠른 발전에 대해서는,


. 뭬야...? AI가 음악을 만든다고...? 난 절대 AI가 생성한 음악 같은 건 듣고 싶지 않아. 우리가 열광하는 건 그 음원 자체가 아니라, 그 아티스트의 스토리이지. 저따위 영혼없는 기계음악에 사람들이 반응할 리가 없어, 그래서도 안되고!


...라는 불쾌한 감정이 즉각적으로 떠올랐고, 이 모순된 저의 반응을 보면서... 스스로 많이 놀랐습니다 -_-a


아무래도 음악에 대해서는 나름 애호가이면서도 연주자/생산자 입장에 종종 서왔던 저의 포지션이 있다보니... AI음악 같은 소리하네!라는 음악꼰대...적인 반응이 가장 먼저 튀어나왔던 저였습니다.


이런 제 안에서의 모순을 풀어보고 싶어서, 최근에 봤던 유투브 중심으로 생각을 글로 한번 정리해보고자 합니다.


1. 우선, Rick Beato라는 뮤지션/프로듀서/유투버는 상당히 대담한 예상을 합니다.

 https://www.youtube.com/watch?v=wgvHnp9sbGM

. 약 2년 후에는 Billboard 1위곡이 AI생성된 곡이 차지하게 되지 않을까? 라는 예상

  + Top 10 중에서 9곡은 AI생성곡이 되지 않을까?

. 그리고, 사람들은 AI 생성이건 사람이 만들었건 크게 신경 쓰지 않게 되지 않을까?


*저도 한번 더 생각해보니, 우리는 MIDI, Autotune 등 이미 Synthetic음악의 시대에 살고 있기 때문에, 기존 방식대로 음원 트랙을 쌓아올렸건, Diffusion모델로 생성했건, 사람들이 신경쓰지 않거나 혹은 음원만으로는 이제 구분할 수 없을 것 같습니다.


+최근에 udio나 elevenlabs의 잘 만들어진 곡들을 듣고 있으면, 설혹 그 뒤의 아티스트에 얽힌 스토리가 없을지라도, 저도 곧 제가 '즐겨듣는/좋아하는' 플레이리스트에 AI생성한 음악이 포함될 수도 있을 것 같습니다. (조만간 그런 일이 벌어질 것 같은데, 그럼 바로 업데이트드리겠습니다. @.@)


2. 그럼에도, 사람은 계속해서(+새로운 방식으로) 음악/예술활동을 할 것이다-라고 예측합니다.

  <- 일단, 연주라는 행위 자체가 너무 재미있기 때문.

  <- 또한, Drum Machine이 처음 나왔을 때에, 어느 순간 사람들은 드럼으로 Drum Machine 소리를 흉내내면서 필인을 하더라. AI와 사람도 서로 영향을 주고 받으면서 같이 발전해나갈 것.


3. 최신 음악생성AI 기술 : Diffusion/U-Net


참고로, 현재의 생성AI 알고리즘은 크게 (A)Transformer와 (B)Diffusion의 두 갈래로 진행되고 있습니다.


(* 잠깐 다른 얘기로, 3월 Andrej Karpathy 의 Ascent영상에서 보면, Andrej Karpathy도 초기에는 각 영역별로 상이한 알고리즘이 나타날 것으로 예상했다고 합니다. 그런데, 지금 Transformer와 Diffusion의 두 알고리즘으로 정리되어서 많이 놀랐다고 합니다. 그렇다면, "사뭇 이렇게 달라보이는 Transformer와 Diffusion이라는 두 알고리즘 사이에서도 '뭔가' 연결고리가 있지 않을까?"라는 생각까지도 해보고 있다고 합니다...!  https://youtu.be/c3b-JASoPi0  )


. LLM은 AutoRegression이라는 방식에서, 다음에 올 text를 예측/생성하는 Transformer 계열의 알고리즘이 사용된다면,

. 음악 생성은 악기의 톤 / 멜로디 / 템포, 리듬 / 볼륨의 변화 / EQ / Compressor / 장르 등의 요소가 들어간 오디오 파일을 예측/생성해내야 하는 작업으로, 이미지 생성과 동일하게 Diffusion 계열의 알고리즘이 사용되고 있습니다. (화이트노이즈에서 시작하여, 노이즈를 단계별로 제거하면서 원본 이미지/오디오를 생성해내는 작업).

그리고 그 코어에는 U-Net이라는 알고리즘이 적용되어있습니다. (인코더와 디코더의 모습이 U자로 시각화되어서 네이밍이 U-Net이 되었습니다.)

(원본 글 : https://towardsdatascience.com/audio-diffusion-generative-musics-secret-sauce-f625d0aca800)


* 이 음악생성AI 기술을 저는 "기존 스타일에 대한 초저비용 무제한 variation"이라고 해석해봅니다.

즉, AI는 화이트 노이즈로부터 시작해서 우리가 알고 있는 여러 스타일들을 초저비용으로 다양한 variation을 생성할 수 있게 되었는데요, 이는 '무한'하기도 하지만 'variation일 뿐'이기도 합니다.


==> 한편, 사람은 계속해서 "새로운 스타일"을 창조해나가기 때문에 위의 variation과는 다릅니다. 즉, AI와 사람은 계속해서 영향을 주고 받으면서 (드럼머신 소리를 흉내내는 드러머처럼) 새로운 협업을 이어나갈 것 같습니다.


4. AI로 누구나 쉽게 생성할 수 있게 되는 시대가 되면서 또다른 창의력 폭발/대중화의 시대가 오는 것은 좋은 일이지만, 나를 표현하는 일련의 과정으로서의 기존과 같은 연주 기반의 창작과정은 계속해서 존재할 수 있지 않을까...라는 약간의 미련 섞인 바람도 남겨보고,


+오히려 사람에 의한 연주 시장은 '유기농 음식'처럼 프리미엄화될 수 있다-라는 희망섞인 예측도 해봅니다.


...


최대한 열린 마음인 척 하면서... 글을 적었지만, 여전히 보수적인 입장인 것을 느낍니다... ^^;

또 OpenAI와 Google에서 큰 행사가 예정되어 있습니다. 새로운 큰 기술이 발표될 때마다 항상 설레임과 두려움이 교차하는데요...

앞으로 몇년은 더 눈을 크게 뜨고 사람을 위한 기술이 될 수 있도록 더 많은 고민과 대화를 나눠보도록 하겠습니다.

작가의 이전글 인간의 언어/지식을 넘어선 Language Model
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari