청취 프로필, 청각적 움벨트

취향 DNA를 찾아서

by harmon
취향 프로필_spotify R&D copyrights all reserved.

"AI가 절대 흉내 낼 수 없는 마지막 한 조각은 바로 당신의 맥락과 취향이다." 흥미로운 채널 오즈의 지식토킹을 운영 중인 안광섭 선생님의 문장이다. AI에게 생각을 외주화시킬 수 있어도, 취향을 주입할 수는 없다. 음악에 적용시켜서, 각자에게 취향 프로필이 있다면 우리는 어떻게 취향을 발견할 수 있을까. 또한 음악 스트리밍이 떠먹여 주는 음악 취향은 과연 나의 취향이 맞는 것일까.


음악 취향의 구조와 관련하여 Peter J. Rentfrow 등 3인은 음악 발췌로만 음악 선호도를 체크하기로 했다. 그 이유는 2000년대의 선행 연구는 전부 장르 범주가 불명확하고 사회적 인식을 피해갈 수 없으며, 장르를 위주로 선행 연구를 진행했기 때문이다. 연구진은 제시된 MUSIC 모델의 앞 철자를 따서 Mellow, Urban, Sophisticated, Intense, Campestral로 구분하였다. Mellow는 건반이나 어쿠스틱을 위주로 한 부드러운 분위기와 로맨틱한 사운드를 지칭하는 심리적 안정감이라면, Urban은 타악기와 일렉트로닉 중심의 신체적 에너지를 방출하는 듯한 물리적 특성이다. Sophisticated는 기악적이면서 대개 지적이고 영감을 주는 듯한 복잡성을 띈다. Intense는 왜곡과 템포가 크고 빠르며 날 것의 에너지를 가지고 있어 Sphisticated와 정반대이다. 마지막으로 Campestral은 Mellow에 비해 지적이지 않으며 직접성/진정성에 훨씬 무게 중심에 쏠려 있는 특성이다.


4가지 실험을 진행했는데, 그중 흥미로운 건 마지막 실험이다. 앞선 실험에서 음악적/심리적 속성을 14가지, 각각 7가지로 구분시켜 요소 부하량과 속성 평균값을 상관분석해서 각 요소가 어떤 속성 프로파일을 가지는지 확인했다. 여기서 요소 부하량은 주성분 분석으로 MUSIC 요소에 관련된 값을 말하고, 속성 평균값은 40명이 9점 척도로 매긴 속성(빠르기, 세기 등)을 말한다. 곡의 개수 n=146이고, x, y가 각각 요소 부하량과 속성 평균값이라고 할 때 피어슨 계수(r)로 선형 관계 강도를 구했다. 예를 들면 Intense 부하량이 높은 헤비메탈과 펑크는 세기와 빠르기가 높으므로 양의 상관관계(+)인 것이다.

7가지 음악적 속성 — dense, distorted, electric, fast, instrumental, loud, percussive

7가지 심리적 속성 — aggressive, complex, inspiring, intelligent, relaxing, romantic, sad

공분산 행렬은 확률 벡터의 원소들이 갖는 상관성을 측정하기 위해 모든 조합을 공분산으로 계산하는 것이다. 이 방법으로 고유값(λ)이 큰 순으로 취향 차이를 설명할 수 있게 된다. 논문에 제시된 계층 구조로 설명하면 가장 먼저 Sophisticated vs. Lowbrow, 고급과 대중음악으로 이원화된다. 클래식을 좋아하는 사람과 헤비메탈을 좋아하는 사람 간의 격차가 얼마나 큰지 생각해볼 수 있는 대목이다. 다음으로는 Lowbrow가 에너지를 중심으로 Intense와 Campestral로 구분된다. Lowbrow 안에는 컨트리와 록, 펑크가 모조리 섞여 있는데 아무래도 Intense는 공격성이 강한 반면 Campestral은 그렇지 않다. 그 다음 층위에서 Mellow가 파생되고, 마지막 층위에서 Urban이 최종적으로 분리되었다. Sophisticated 속 클래식/재즈와 소프트록 사이에는 inspiring, intelligen폭이 컸다. Urban은 Mellow와 달리 리듬이 중요시되고 Mellow은 슬픔이 크다. 정리하자면 에너지 수준이 가장 먼저 구별되고 리듬성, 감정성이 이어서 나뉘게 되는 것이다.


결과는 어땠을까? 사람들은 장르가 무엇인지 몰라도, 음악에서 느껴지는 감각을 통해 Mellow인지(67%), Sophisticated인지(80%), Intense인지(83%)를 무난하게 구분할 수 있었다. 또한 이 흐름은 완전히 다른 음악과 표본을 대상으로 해도 반복적으로 5가지 요소가 나왔으며 성별과 나이 등 변인을 통계적으로 제거하여도 동일하다는 것이다. 음악 취향이 본질적으로 장르 기반의 선택이 아니라 감각과 감정에 의존되어 있으며, 장르는 편의상 인간이 분류하기 고안해낸 표제어 같은 것이라는 말이다. 생각해 보면 음악을 타인과 이야기할 때 이해를 돕기 위해 편의상 장르적 접근을 하는 것일 뿐, 실제로 스포티파이나 애플 뮤직 등의 스트리밍 서비스는 음향 속성에 기반해 추천해주고 있다. 이는 인간의 청취 경험이 본질적으로 문법 분류와는 전혀 다름을 의미한다. 소쉬르의 이론으로 보강하자면 보편 문법이 장르이자 랑그(Langue)일 테고 이는 그저 체계에 불과할 뿐 개별적인 청취 감각은 파롤(Parole)에 해당하기 때문이다. 우리는 사운드가 어떠한 장르와 문법을 가지고 있다고 정의내릴 수 없다. 물론 상황에 따라 듣는 음악도 달라지므로 이를 고려하지 않았다는 한계가 있으며, 사운드를 구어로 풀어내기 힘든 부분은 별개라고 생각되지만 말이다.


인터넷 서칭을 하다 보니,『당신의 음악 취향은』에서 제시한 청취 프로필의 7가지 차원으로 취향을 발굴하려는 글이 보였다. 책에서 소개하는 미적 차원과 음악적 차원의 7가지 요소는 진정성, 사실성, 참신성, 멜로디, 가사, 리듬, 음색으로 구별된다. 저자인 수전 로저스·오기 오가스는 멜로디, 가사, 리듬, 음색은 다양한 특질로 이루어지는 영역이고, 미적 차원에서는 진정성(목위/목아래), 사실성(어쿠스틱/테크노), 참신성(독창성/익숙함) 이항으로 구분될 수 있다고 설명한다. 설명하기가 어려운 영역이지만 무엇을 어떻게/왜로 설명하려는 단계를 지나치고 있다는 점에서 멋진 일이라고 생각되었다. 청취 프로필으로나마 음악 취향을 설명하려고 하고, 음악 데이터를 수집﹥패턴을 인식﹥가설을 검증﹥결론과 취향을 선언하게 되는 과정인 것이다.

어떤 곡을 좋아하는가?

좋아하는 곡 사이에는 어떤 공통점이 있는가?

사운드의 질감과 톤, 분위기, 기악 배치는 어떠한가?

교차되는 장르나 미학적 코드가 있는 것인가?

멜로디와 가사는 어떠한가?

청각적 움벨트Umwelt라고 용어를 남발하고 싶다. 움벨트는 야코프 폰 윅스큅Jakob von Uexküll이 제창한 개념이자, 생물학과 기호학에서 주로 개별 생물체가 감각 기관을 통해 주관적으로 인식하는 환경, 세계를 뜻한다. 청각적 움벨트는 호모 사피엔스가 겪는 보편적인 경험이다. 귀의 구조가 동일하다면, 인간이 공통적으로 지각하는 20Hz~20,000Hz의 음량은 어떤가? 1,000Hz가 40phon이자 1,000mel이라고 한다. 그렇다면 저음에서는 데시벨이 몇 배나 커져야 할까? 40phon을 1sone이라고 한다면, 왜 등차는 10이 더해지는 수열인데 인간은 0.6배로 압축해서 받아들이는 걸까? 10,000Hz는 왜 5,000Hz의 2배인데 정확하게 두 배 높게 들리지 않는 걸까? 개개인마다 심리량은 다를 수 있지만, 인간은 청각적 신호를 왜곡 없이 받아들이며 이는 꽤 정확하다. 청각적 장면 분석Auditory Scene Analysis 이론 위에서 살펴봤을 때도, 인간은 음을 쉽게 구분할 수 있다. 흔리 심리음향학에서 말하는 칵테일 파티 효과나 선행음 효과, 마스킹 효과도 그렇다. 생물학적 반응에 기인하는 자연스러운 현상인 것이다. 하지만 움벨트에는 보편적 청각 처리뿐만 아니라 개인이 주관적으로 인식하는 청각적 반응도 포함된다고 본다. 이전 글에서 다루었지만 뇌에는 확증적으로 하향식 처리를 하는 시스템도 존재하며, 아무리 객관적인 사실이라고 하더라도 개인의 반응은 제각각인 이유인 것이다.


보컬과 음색

청각적 움벨트는 물리적인 현상 이외에 뇌가 해석하는 주관적 인식이 수반된다. 자주 언급되는 구성성분인 보컬, 음색을 이야기해보자. Demetriou, Jansson, Kumar & Bittner는 음악에서 어떤 요소가 가장 두드러지게 인식되며 보컬은 어느 정도 영향을 미치는지 연구하고자 했다. 첫 번째 단계에서는 Spotify 사용자 생성 플레이리스트의 상위 1000개 태그와 검색어, 아티스트의 바이오그래피를 분석하였다. 그 결과, 태그에서는 장르와 무드, 활동 위주의 태그가 압도적이었으며 검색어와 바이오그래피 역시 별반 다르지 않았다. 두 번째 단계에서는 626명의 Spotify 사용자에게 음악을 들으면서 어떤 것들에 끌리는지를 아무것도 명시하지 않고 순위를 매기게 한 다음, 1~3순위에는 그 이유를 서술하게 하였다. 놀랍게도 보컬/목소리/가수를 언급한 인원은 186명 (29.7%)이며 가사/단어를 언급한 사람은 348명 (55.6%), 둘 다 언급한 사람은 101명 (16.1%)이었다. 세 번째 단계에서는 531명을 대상으로 소팅된 14가지 범주를 보여주고 순위를 매기게끔 하였는데 통계적 유의성을 위해 RRA를 활용하여 도출하였다. RRA는 0과 1사이의 값으로 순위를 변환하여 베타 분포를 기반으로 무작위 분포가 발생할 확률은 계산하는 것이다.


결과만 보자면, 순서대로 감정/무드, 보컬, 가사, 비트/리듬만이 0.001보다 작아서 유의미하게 나타났다. 일반적으로 음악을 들을 때 흔히 생각하는 구성요소이기는 하나, 보컬 세부 속성에서는 노래 실력, 개성, 진정성, 가사의 재치나 메시지, 음악과 잘 맞는지 총 7가지가 통계적으로 유의미하게 나타났다. 여기서 지켜볼 점은 음악적 테크닉보다 진정성, 그리고 실력이나 목소리가 잘 어우러지는지의 여부가 훨씬 중요하게 여겨진다는 것이다. 우리는 발라드를 부르는 가수의 가창력에 놀라곤 하지만 그것 역시 곡의 분위기와 매력에 정합된다고 느낄 때 훨씬 매력적이라고 생각하게 된다. 악동뮤지션의 듀엣 보컬이 헤비메탈이나 록, 펑크 사운드에 접목된다고 하면 개성은 물론 음악성의 품질 전체가 떨어지는 게 뻔할 것처럼 말이다. 인간 성대의 공명으로 발생하는 스펙트럼값을 포먼트라고 하는데 구강 구조나 성대의 길이가 사람마다 다르기 때문에 어떤 사람은 허스키하고 어떤 사람은 맑고 청아한 목소리를 낼 수 있다고 한다. 보통 허스키한 보이스는 관능적이고 친밀감을 주기 때문에 재즈나 R&B, 블루스에 적합하고 청아한 보이스는 클래식이나 발라드, 포크 등에 꽤나 어울릴 거라고 생각했으나 이 역시 보컬만으로 정해지는 게 아닌 음악의 특질과 어울리는지가 중요할 것이다.


가사와 음향

한 가지 논문을 더 살펴보자. Shahrzad Naseri를 필두로 한 연구진들은 Spotify의 약 40억 개 플레이리스트를 분석해서 'sad morning', 'chill vibes'와 같은 제목에서 무드 어휘를 추출하였다. 여기에 곡과 무드 사이의 연관 강도를 측정하기 위해 BNPMI(베이지안 Normailzed +PMI) 식으로 곡 s와 무드m이 얼마나 자주 같이 나타나는지를 확인한 것이다. 또한 임계값을 0.1로 설정하여 이보다 값이 크면 양(+), 작으면 음(-)으로 분류하였다. 총 955,109곡를 토대로 순서쌍(s,m) 약 3백만 개 중 75%는 학습하고 25%는 테스트하였는데, 그 결과 'chill'이 압도적으로 많으며 'hardcore', 'angry', 'dark' 등의 순으로 나타났으며 멜랑콜리 등 어둡거나 특정한 감정 등에 수식어를 붙이는 결과를 보였다. 가사 모델링 방식은 스포티파이에서 제공하는 17가지 특성 수치(acousticness, bounciness 등)를 토대로 빈도 기반의 BoW와 Transformer (BART/BERT) 방식을 취했다. 후자는 다시 NLI 방식으로 가사를 전제하고 무드를 문장으로 변환된 걸 가설로 이용해 무드 함의 여부를 파악하고, NSP 방식으로 연관성을 잡아낸다. 특히 MLP를 통해 음향 데이터를 벡터 차원으로 출력해서 BART로 출력한 가사와 결합하는 하이브리드 모델을 이용하기도 했다. NLI 모델은 한번도 학습해본 적이 없는 데이터를 추론할 수 있는 '제로샷 대응'이 가능하다는 점에서 꽤 정확한데, 훈련 없이 가사만으로 무드를 집어내는 데 각각 F1 57.50, F1 85.38 점수였다. NLI 방식은 정밀도가 높으나 재현율은 떨어지고, NSP 방식은 정밀도가 낮으나 재현율이 높았다. 반면 제로샷 대비 파인튜닝을 했을 때는 모델링 방식 모두 재현율이 올라갔다.

음향 파인튜닝: F1 87.48

가사 NLI 파인튜닝: F1 97.05

하이브리드 NLI: F1 97.24

그래서 가사vs음향, 무엇이 훨씬 곡의 무드를 이해하는 데 도움이 될까? 가사가 음향보다 훨씬 점수가 높으며, 당연하게도 하이브리드(가사+음향) 방식이 더 점수가 높다는 걸 알 수 있다. 사실 가사는 'love'라는 것만 들어가도 훨씬 예측이 정확하게 들어갈 수 있지만, 음향적으로 'chill'한 건 쉽게 구분할 수 없으며 이에 대한 해석도 분분하기 때문이다. 따라서 내러티브적 측면에서 봤을 때는 가사가 훨씬 유의미하고 유익하지만 사운드나 질감 측면에서 봤을 때는 음향이 훨씬 유익하다. 모델링 예측은 인간의 패턴과도 비슷했는데 BNPMI와 비교하게 되면 F1 62.63(가사), F1 55.91(음향), F1 73.19(하이브리드)로 가사와 훨씬 잘 맞는다는 걸 알 수 있다. 사람들이 플레이리스트 제목을 지을 때도 가사에 영향을 더 많이 받는다는 걸 알 수 있다. 이렇게만 본다면 인간은 가사를 통해 곡을 더 잘 이해하는 것만 같지만, 어떠한 무드는 가사나 사운드로도 전혀 예측할 수 없었다. 인간에게 판단을 맡긴 결과로는, 101개 곡의 302개 순서쌍(s, m)을 가사, 기악 버전만 들려주고 Kappa 지수로 측정했을 때 가사 0.2846, 음향 0.2910이었다. 보통의 일치에 해당하는 결과값으로 무드를 판단하는 것 자체가 굉장히 주관적임을 보여주었다.


시각적 단서 : 앨범 커버아트

결국 음악 취향이 복잡한 요인이 얽힌 그물이라면 시각 작용도 영향을 미칠 수 있을까? 논외이지만, 음악을 들으면서 마주해야 하는 앨범 커버아트를 꽤 중요시여기는 편이다. 도서관인 서점에 간다고 생각해보자. 어떤 책을 고를지 고민하는데 예쁘고 아기자기한 표지를 들춰보고 싶지, 밍밍하고 벽돌 같은 표지를 열기에는 선뜻 쉽지 않을 것이다. 앨범 커버는 그 자체로 무용하지만 음악을 듣게 싶게 만드는 장치로 설계될 수 있다. 2023년 Yannick Joye와 Bob M. Fennis 교수는 시각 예술이 앨범의 판매성과와 청취 행동과 어떤 연관성이 있는지를 알아보는 실험을 진행했다. 첫 번째 연구는 1956년부터 2013년 사이의 유명 앨범 324장을 수집해 수평과 수직선의 비중을 카디널리티 인덱스(중복값)로 측정했다. 두 번째는 연구는 153명의 피험자를 대상으로 수직과 수평선이 많은 앨범과 사선이나 대각선이 많은 앨범을 보여준 후 청취를 요청했다. 마지막 연구는 온라인 플랫폼에서 약 300명을 모집해 다양한 장르의 앨범에서 드러난 수직과 사선의 시각적 자극을 체험시킨 뒤, 커버아트에 대한 미적인 평가와 음악에 전도되는 호감도, 그리고 구매할 의사를 별점으로 매기게 하였다.


결과적으로 셋 모두 유사했다. 첫 번째 연구에서는 수평과 수직선이 많은 앨범일수록 빌보드 차트 최고 순위가 높았으며 유지 기간 역시 길었으며 비평가의 평점 역시 높았다. 두 번째 연구에서도, 수평˙수직선이 많을수록 음악을 더 오래 청취하였으며, 세 번째 연구도 마찬가지였다. 앨범 커버 디자인 시 사선보다 수직선이 훨씬 차트 성과를 향상할 수 있다는 것이다. 수직선은 심미적 감상을 유발하기보다는 암묵적으로 인간의 지각 편향성일 가능성이 크지만 음악적으로 무관한 곡임에도 선호도가 전이되었다는 점을 보면, 마케팅적 측면에서도 긍정적인 효과가 있을 것으로 보인다. 게다가 약 20초 정도 청취 시간이 유의미하게 길었다는 것은 곧 앨범 커버에 대한 미적 평가를 넘어서 음악의 선호도에도 연관성이 있다고 볼 수 있다. 놀랍게도 서체 역시 음악 앨범 청취에 영향을 준다는 연구도 있다. 논문은 교차-모델 이론Crossmodal Correspondence을 기반으로 하는데 이를테면 각진 형태를 보면 위협적이라고 느끼고, 이는 또 거친 음색과 이어지는 식이다. 세 가지 실험을 진행했는데, 결론적으로는 음악을 들려주고 난 이후에는 그 영향이 매우 미미했으며 긍정적 전이도 조금만 관찰되었으나 음악을 들려주지 않고 커버만 서체가 주는 기대감이 매우 강했다는 것이다.


어떻게 보면 앨범 커버아트는 청취 이전에 프레이밍으로써 작동하고 있을지도 모른다. 아마 다음 글에서 구체적이고 자세히 다룰 수 있으면 좋겠지만, 이렇듯 시각적 단서까지 음악적 취향에 깊게 관여한다는 점에서 인간의 청각적 움벨트는 감각 자극에만 국한되지 않는다는 걸 알게 되었다. 피아노의 물리적 건반소리나 첼로나 바이올린의 현을 켜는 소리, 타악기를 두드리거나 의도치 않게 건드리는 물리적 속성 모두 우리의 청취 범위, 취향 프로필 안에 기록된다. 캐럴 계숙 윤의 저서『자연에 이름 붙이기』에는 이런 단락이 있다.

p.382 한 가지 비전이 옳다고 선언하는 것은 요점을 빗나가는 일이다. 우리는 서로 뚜렷이 구분되며 각자 유효한 두 개의 시각을 지닌 채 살고 있고, 그 시각들은 우리가 하는 일이 무엇인가에 따라 각자 다른 유용한 것을 줄 수 있다. 우리가 하려는 일인 전 지구의 인간 분류군들의 진화를 연구하는 것이라면, 인간은 유전적으로 다양한 개체군들이라고 보는 과학의 시각이 인종이라는 편협한 개념의 방해를 받지 않으므로 우리에게 도움이 될 가능성이 훨씬 크다. 그런가 하면 지역적 규모에서, 이를테면 한 공동체의 문화적, 사회적, 경제적 분리 면에서 삶을 이해하려 한다면, 인종에 대한 우리 움벨트의 시각이 정확히 우리에게 필요할 것이다.

동일하게 음악에도 화성, 리듬, 선율이 있으며 귀를 통해 소리의 구조와 규칙을 이해하고 자연스럽게 받아들이는 것과 동시에 개인의 경험과 기억 등 음악적으로 환원이 불가능한 관점이 존재한다. 음향적으로 분석하고 발전시키기 위해서는 전자가 매우 중요하겠지만 심리적이고 문화적인 측면에서 바라본다면 후자의 관점, 즉 취향 프로필에 접근할 수 있어야 한다고 생각한다. 소리는 보편적으로 누구에게나 동일하게 들릴지 모르지만 우리 모두가 좋아하는 음악이 다른 이유를 규명해줄 수는 없기 때문이다.