AI와 음악꼰대

'24.5월

May 27. 2024

0. 지난 1년반 동안의 글을 통해서 드러났던 것처럼, AI 기술 발전을 보면서 크게 열광했던 사람 중에 하나가 저였는데요,

. 와, AI가 코딩도 다 해주네, 대박. (ChatGPT, Claude)

. 와, AI가 그림/영상도 다 만들어주네, 대박. (MidJourney, Sora)

...

그랬던 제가 최근 suno, udio, elevenlabs와 같은 음악생성 AI들의 빠른 발전에 대해서는,

. 뭬야...? AI가 음악을 만든다고...? 난 절대 AI가 생성한 음악 같은 건 듣고 싶지 않아. 우리가 열광하는 건 그 음원 자체가 아니라, 그 아티스트의 스토리이지. 저따위 영혼없는 기계음악에 사람들이 반응할 리가 없어, 그래서도 안되고!

...라는 불쾌한 감정이 즉각적으로 떠올랐고, 이 모순된 저의 반응을 보면서... 스스로 많이 놀랐습니다 -_-a

아무래도 음악에 대해서는 나름 애호가이면서도 연주자/생산자 입장에 종종 서왔던 저의 포지션이 있다보니... AI음악 같은 소리하네!라는 음악꼰대...적인 반응이 가장 먼저 튀어나왔던 저였습니다.

이런 제 안에서의 모순을 풀어보고 싶어서, 최근에 봤던 유투브 중심으로 생각을 글로 한번 정리해보고자 합니다.

1. 우선, Rick Beato라는 뮤지션/프로듀서/유투버는 상당히 대담한 예상을 합니다.

https://www.youtube.com/watch?v=wgvHnp9sbGM

. 약 2년 후에는 Billboard 1위곡이 AI생성된 곡이 차지하게 되지 않을까? 라는 예상

+ Top 10 중에서 9곡은 AI생성곡이 되지 않을까?

. 그리고, 사람들은 AI 생성이건 사람이 만들었건 크게 신경 쓰지 않게 되지 않을까?

*저도 한번 더 생각해보니, 우리는 MIDI, Autotune 등 이미 Synthetic음악의 시대에 살고 있기 때문에, 기존 방식대로 음원 트랙을 쌓아올렸건, Diffusion모델로 생성했건, 사람들이 신경쓰지 않거나 혹은 음원만으로는 이제 구분할 수 없을 것 같습니다.

+최근에 udio나 elevenlabs의 잘 만들어진 곡들을 듣고 있으면, 설혹 그 뒤의 아티스트에 얽힌 스토리가 없을지라도, 저도 곧 제가 '즐겨듣는/좋아하는' 플레이리스트에 AI생성한 음악이 포함될 수도 있을 것 같습니다. (조만간 그런 일이 벌어질 것 같은데, 그럼 바로 업데이트드리겠습니다. @.@)

2. 그럼에도, 사람은 계속해서(+새로운 방식으로) 음악/예술활동을 할 것이다-라고 예측합니다.

<- 일단, 연주라는 행위 자체가 너무 재미있기 때문.

<- 또한, Drum Machine이 처음 나왔을 때에, 어느 순간 사람들은 드럼으로 Drum Machine 소리를 흉내내면서 필인을 하더라. AI와 사람도 서로 영향을 주고 받으면서 같이 발전해나갈 것.

3. 최신 음악생성AI 기술 : Diffusion/U-Net

참고로, 현재의 생성AI 알고리즘은 크게 (A)Transformer와 (B)Diffusion의 두 갈래로 진행되고 있습니다.

(* 잠깐 다른 얘기로, 3월 Andrej Karpathy 의 Ascent영상에서 보면, Andrej Karpathy도 초기에는 각 영역별로 상이한 알고리즘이 나타날 것으로 예상했다고 합니다. 그런데, 지금 Transformer와 Diffusion의 두 알고리즘으로 정리되어서 많이 놀랐다고 합니다. 그렇다면, "사뭇 이렇게 달라보이는 Transformer와 Diffusion이라는 두 알고리즘 사이에서도 '뭔가' 연결고리가 있지 않을까?"라는 생각까지도 해보고 있다고 합니다...! https://youtu.be/c3b-JASoPi0 )

. LLM은 AutoRegression이라는 방식에서, 다음에 올 text를 예측/생성하는 Transformer 계열의 알고리즘이 사용된다면,

. 음악 생성은 악기의 톤 / 멜로디 / 템포, 리듬 / 볼륨의 변화 / EQ / Compressor / 장르 등의 요소가 들어간 오디오 파일을 예측/생성해내야 하는 작업으로, 이미지 생성과 동일하게 Diffusion 계열의 알고리즘이 사용되고 있습니다. (화이트노이즈에서 시작하여, 노이즈를 단계별로 제거하면서 원본 이미지/오디오를 생성해내는 작업).

그리고 그 코어에는 U-Net이라는 알고리즘이 적용되어있습니다. (인코더와 디코더의 모습이 U자로 시각화되어서 네이밍이 U-Net이 되었습니다.)

(원본 글 : https://towardsdatascience.com/audio-diffusion-generative-musics-secret-sauce-f625d0aca800)

* 이 음악생성AI 기술을 저는 "기존 스타일에 대한 초저비용 무제한 variation"이라고 해석해봅니다.

즉, AI는 화이트 노이즈로부터 시작해서 우리가 알고 있는 여러 스타일들을 초저비용으로 다양한 variation을 생성할 수 있게 되었는데요, 이는 '무한'하기도 하지만 'variation일 뿐'이기도 합니다.

==> 한편, 사람은 계속해서 "새로운 스타일"을 창조해나가기 때문에 위의 variation과는 다릅니다. 즉, AI와 사람은 계속해서 영향을 주고 받으면서 (드럼머신 소리를 흉내내는 드러머처럼) 새로운 협업을 이어나갈 것 같습니다.

4. AI로 누구나 쉽게 생성할 수 있게 되는 시대가 되면서 또다른 창의력 폭발/대중화의 시대가 오는 것은 좋은 일이지만, 나를 표현하는 일련의 과정으로서의 기존과 같은 연주 기반의 창작과정은 계속해서 존재할 수 있지 않을까...라는 약간의 미련 섞인 바람도 남겨보고,

+오히려 사람에 의한 연주 시장은 '유기농 음식'처럼 프리미엄화될 수 있다-라는 희망섞인 예측도 해봅니다.

...

최대한 열린 마음인 척 하면서... 글을 적었지만, 여전히 보수적인 입장인 것을 느낍니다... ^^;

또 OpenAI와 Google에서 큰 행사가 예정되어 있습니다. 새로운 큰 기술이 발표될 때마다 항상 설레임과 두려움이 교차하는데요...

앞으로 몇년은 더 눈을 크게 뜨고 사람을 위한 기술이 될 수 있도록 더 많은 고민과 대화를 나눠보도록 하겠습니다.

keyword

작가의 이전글인간의 언어/지식을 넘어선 Language Model멀티모달AI, Spatial Intelligence작가의 다음글