스포티파이의 설계 방식

음악 취향과 스트리밍 서비스

by harmon
오랫동안 사용해온 음원 스트리밍 사이트가 있지만 그거 주로 바깥에서 지하철을 타거나 산책할 때 틀어 놓는, 말 그대로 재생용에 가깝다. 새로운 노래를 찾고 싶거나, 이 뮤지션과 비슷한 스타일의 다른 뮤지션을 알고 싶어 꼬리에 꼬리를 물며 '디깅'할 때는 늘 유튜브를 헤맨다. 『나다운 게 뭔데』中

아이팟은 뉴밀레니엄의 'Me 세대에 제대로 들어맞았기에 출현할 수 있었다. 그리고 '여기서 당장 내 식대로 하겠다'는 고집은 사리상 사람들이 통제할 수 있는 유일한 영역, 즉 소비에 엄청난 실존적 정치적 무게가 투자되는 현실을 반영한다. 제품 이름이 아이(i)로 시작하는 데는 이유가 있다. 그건 우리 음악이 아니라 내 음악인 것이다. 『레트로마니아』中

음악에 대한 기호는 지극히 개인적이다. 그래서 '마이 뮤직'이라고 부른다. 하지만 영화를 '마이 무비'라고 하지 않는다. 연구에 따르면 사람들이 페이스북과 같은 소셜 서비스에 음악을 올려놓고 방문객이 들을 수 있게 해놓는 것은 그들이 음악을 듣고 좋아하기를 바라서가 아니다. 자신이 즐기기 위해서다.
『취향의 탄생』中

음악 앨범을 청취하는 것은 좋아하는 음악을 소비한다는 걸 넘어 개인의 정체성을 확립하고 수정하는 과정 속에 있다. 이전 글에서, 싱글과 앨범으로 구분되는 원인이 소비자들의 감상 방식과 직결된다면 구체적으로 앨범이 어떻게 의미를 자아내고 청취 방식과 취향과 연결될 수 있는지를 살펴보아야 할 것 같다고 설명했다. 특히 연관되는 논문으로 티아 데노라Tia Denora가 제시한 <자기 기술로서의 음악>, <음악은 어떻게 감정을 순치하는가?>에서 다룬 음악이 주관적 입장과 정체성을 정교화하기 위한 재료라는 주장과 이어질 수 있다. 이는 음악이 음악으로써 존재하는 게 아닌 느낌, 동기부여, 욕망, 양식 등 미적 행위주체성의 매개 변수를 조절하고 구성하기 위한 질료라는 인식이 깊게 박혀 있다. 예를 들면 음악이 삶의 전부는 아닙니다만』을 최근에 읽었는데 배순탁 선생님은 깊게 파지 못하고 넓게 벌리는 것을 좋아하여 음악 이외에 다양한 체험을 연계하여 음악을 바라볼 수 있는 취향의 시선을 공유하고 있었다. 인간의 행위와 구조 사이, 다양한 음악을 듣는다는 믿음 때문에 레게를 들을까, 아니면 레게를 듣기에 다양한 음악을 듣는다고 정체성을 확립할 수 있는 것인가를 논의하는 것이다. 장르를 불문하고 청취하는 것이야말로 음악을 깊게 듣는다는 정체성과 행위 사이의 상호작용이 있음을 알 수 있다.


신경과학에서 말하는 예측 처리predictive processing 이론은 신경조직이 외부 자극에 의해 잠잠하다가 자극을 인식하고 평가, 반응하는 구조와는 반대라고 설명한다. 뇌에서는 이미 과거의 기억을 기반으로 시뮬레이션을 구성하고 있고 예측하고 있다는, 상향 처리 방식이 아닌 하향 처리 방식을 이야기한다. 헬름홀츠는 무의식적 추론을 언급한 적 있고 이를 발전시킨 칼 프리스턴은 뇌가 일종의 내적 모델을 갖고 있으며 감각으로부터 증거를 수집하고 감각 입력과 예측 오류를 최소화하고 있다고 주장했다. (뇌를 부단히 노력하는 자기확증적 예측기계라고 보았다, 김주환 선생님 브런치 참조). 가추법이기는 하지만 프리스턴은 인간에게는 자유에너지가 있으며 지각·능동적 추론을 통해 사후계산을 한다는 것이다. 이때의 정밀도는 베이지안 이론(사후 확률=우도*사전확률/증거로)으로 계산하며, 음악으로 본다면 예측되지 않은 사운드의 가능성(우도)을 높을수록 오차가 커지며 쾌감이 달라질 게 될 것으로 보인다. 물론 선호도라는 것 자체가 음고나 음색, 리듬 등 복잡한 요인으로 형성되는 것이지만, 인간은 음악 작품이 지나치게 시시하면 좋아하지 않지만 복잡하면 예측할 수 없다며 좋아하지 않는다. 비틀스의 <yesterday>가 대표적으로 뇌는 어느 정도의 예측 위반이 전두엽에서 먼저 포착된 후 중변연계 영역의 네트워크가 중격의지핵을 활성화시켜 도파민 생성을 촉진하는 것으로 보인다.


뇌는 특화된 뉴런 네트워크를 통해 음고와 음색, 발생 위치, 음량, 음길이 등을 분리해 낼 수 있다. 또한 감각 자극에 포함된 정보만을 다루는 처리 과정이 상향 처리 과정이다. 하위 수준의 상향 처리는 말초 영역에서 일어나나, 고위 수준의 처리 과정은 하위 수준에서 뉴런으로 투영된 결과물을 받아 표상으로 통합한다. 반대로 전두엽은 하향 처리를 실행하며 하향과 상향 처리 과정이 정보를 교환한다. 뇌는 퍼즐을 맞추듯 두 가지 작용을 이행하며 감각처리를 정교한 방식으로 작동시키고 있으며 위에서 말한 도식이 형성되기 위한 전제로 기억이 매우 필수적이다. 대니얼 J. 레버틴은 다중 흔적 기억 모형을 언급하며 선율의 음정과 빠르기를 제외한 리듬 정보를 계산하고 음고를 무시한 선율의 견본을 제작하여 해마에 저장할 수 있다고 보았다. (<음악 인류>) 그 나이대를 청소년기로 유력하게 바라보고 있으며, 음악이 처리되는 것과 기억되는 곳은 동일한 편도체이므로 모든 경험이 부호화되는 동시에 모든 경험과 시간 등을 떠올릴 수 있게 만든다. 같은 곡의 다른 버전을 들어도 원본을 빠르게 떠올릴 수 있으며 1) 곡이 다음에는 진행되는지 2) 이미 등장했던 요소는 무엇인지를 파악할 수 있는 이유로 설명된다.


뇌는 매우 편향적이다. 사실 음악이 변연계를 넘나드며 개인의 주관적 인식taste을 만들어낸다는 것에는 아무도 부정하지 않는다. 우리가 듣는 음악은 사전-신념에 크게 좌우된다고 볼 수 있으며 어떤 음악을 듣느냐에 따라 사후 경험의 틀을 구성할 수 있다. 내가 좋아하는 음악은 기존에 형성된 취향 도식schema에 부합하거나 미량의 오차만이 발생할 가능성이 높다. 음악을 지도로 비유해 보자. 내가 좋아하는 음악 취향이 특정 좌표 A라고 보자. 근간이 되는 곳을 넘어서 어디까지 확장할 수 있을지 고민하게 될 때, 우리는 베이스캠프를 어떠한 음악 B가 매우 마음에 든다면 현재 좌표에서 크게 멀지 않으니 옮길 필요가 없다고 느낄 것이다. 하지만 탑다운Top-down 방식만이 운용되는 것은 아니며, 만약 마음에 드는데 장르나 문법이 전혀 다르다면 아예 사이드 베이스캠프 C를 먼 곳에 마련할 수도 있는 것이다. 최근 LP 판매량이 급증도 설명할 수 있다. IFPI의 음악 리포트에서 소비자들이 음악을 물리적으로 소장하는 경험 (22%)을 중요시 여기고 있었고, 루미네이트의 Top Entertainment Trends for 2023 자료에 따르기를 LP 구매자 절반은 턴테이블을 갖고 있지 않다는 답변이 있었다. (<한국저작권위원회>) 이는 LP 구매가 굿즈로써 자신의 취향을 확증할 수 있는 내부적 모델이자 뇌의 작용으로 해석할 수 있다.


그렇다면 스포티파이는 어떻게 청취 다양성을 넓힐 수 있도록 시스템을 설계하고 있을까. 취향은 모험 지수의 임계점을 오가는 낯섦과 친숙함의 경계에 있는 것처럼 보이며, 최근에는 지리적 환경보다 개인의 경험과 디지털 스트리밍 플랫폼에서의 청취가 훨씬 중요하게 다가오는 것 같다는 느낌을 받는다. 먼저 「Where To Next? A Dynamic Model of User Preferences」이다. 스포티파이는 2021년, 사용자의 음악 청취 흐름을 분석하고자 했다. 사용자의 과거 이력을 바탕으로 미래의 선호도를 예측하는 전이 행렬Transition Matrix을 구축하기 위해 선호도 전이 모델Preference Transition Model, PTM을 고안하였다. PTM은 과거에 한 번도 들어본 적 없는 장르를 들을 수 있는지 예측하기 위해 고안되었으며 음악은 100만 명 이상의 사용자, 1,600만 건의 감상 세션을 대규모 데이터로 활용했다. 또한 해당 연구에서는 장르 간 비교우위가 존재하여 전환 확률값을 계산하였으며 사용자의 취향이 고정된 것이 아닌 중심점이 궤적을 그리는 형태로 이동하였으므로 선제적으로 다음에 들을 만한 장르음악을 추천해 주는 식으로 알고리즘을 구상했다. 논문에서 흥미로운 점은, 펑크->록이나 팝->일렉트로닉 장르 등의 유사한 장르로의 전이 확률은 상대적으로 높으며 록을 듣는 사람들은 록 음악을 계속 소비할 확률이 70~80%에 달하는 것으로 나타났다. 따라서 소비자의 전이 패턴은 통계적으로 예측 가능하며 취향을 포함한 변심과 유도를 모두 포함하고 있는 듯하다.


스포티파이는 단순히 선형 인터페이스가 아닌 자아실현의 도구로 일조할 수 있기 위한 에이전트 시스템으로 음악을 추천할 수 있도록 하고 있다.「TastePaths: Enabling Deeper Exploration and Understanding of Personal Preferences in Recommender Systems」를 살펴보면 HCI/UX를 개발하는 과정이 상세히 나타나 있다. 연구진들은 RQ를 개인화와 탐색, 학습으로 잡고 전문 음악 큐레이터 5명을 섭외해 두 개의 장르를 15분 동안 탐색하게 하였다. 하나는 자유이고 하나는 RateYourMusic에 있는 인기장르목록에 대해 발언을 했는데 이들에게서 나온 공통 패턴이 1) 앵커링, 2) 조감도 확보, 3) 디깅이이었다. 첫 번째는 Anchor artists로 나에게 친숙한 아티스트의 음악을 통해서 다른 아티스트를 발굴하게 된다는 친숙함에 관한 것이다. 두 번째는 특정 아티스트 이전에 이와 유사한 장르나 하위 장르 등 사전 정보를 파악하여 맥락화하게 된다는 것이다. 마지막은 흥미로운 아티스트를 발굴하면 인기 있는 트랙을 들으면서 청취를 할지 말지 결정하게 된다는 이야기였다. 이를 기반으로 새로 개발한 모델 중 하나는 TastePaths로, (D1)3명의 아티스트로 시작해서 (D2) 150명의 아티스트 노드를 Louvain 알고리즘으로 클러스팅하여 하위 장르 3개를 라벨링하는데, TF-IDF 기법으로 중요도를 계산하여 붙인 다음 (D3) 노드를 클릭하면 아티스트의 인기 있는 곡이 나오고 미리 듣기가 지원되는 형식이다. 따라서 앵커에서 핵심 클러스터 아티스트로 이동하기 위한 최적 경로를 구하기 위해 Steiner tree 알고리즘를 이용하고 핵심이자 경계에 있는 게이트웨이 아티스트를 반드시 지나가도록 설계했다.

(a) 클러스터 탐색, (b) 앵커 아티스트(3명) 탐색, (c) 녹색 경로 중심의 가이드 팔로우업

Tastepaths는 개인화와 비개인화 두 버전이 있는데, 스트리밍 서비스를 구독하는 16명을 대상으로 피드백을 얻고자 한 결과, 개인화와 비개인화(A/B)에 유의미한 차이는 없었다. 하지만 설문지에서 I(내 취향에 맞는 아티스트를 찾을 수 있었는가), S(예상 못했지만 좋은 발견을 했는가) 항목값이 개인화 버전에서 더 높았다. 게다가 개인화 버전에서 플리의 곡 수나 저장 수, 탐색한 클러스터 수가 훨씬 높은 수치로 나타났다. 결과적으로 16명 중 12명이 개인화 버전을 선호하였으며 오히려 게이트웨이 아티스트를 지나가므로 경계에 있는 아웃라이어 아티스트를 발견하는 것에 훨씬 만족감을 드러냈다는 것이다. 물론 참여자의 선호도 편향과 대중 간의 괴리 문제, 정성 연구를 기반으로 하였기에 정량적 연구가 필요하다는 한계가 존재한다. 이외에도 스포티파이는 2021년, 엔지니어링 연구 측면의 연구가 있다.(「Algorithmic Balancing of Familiarity, Similarity & Discovery」) 특히 Autoplay 청취에서 만족감과 트랙 발견에서 높은 향상을 보여준 Hierarchical OWA 방식은 트랙 친숙성이 높으면 보통 발견은 최저값을 갖기에 비율을 맞추기 어려운데, 이를 모두 챙겼다는 결과를 보여주었다. 이는 취향이 고정적인 것이 아닌 어느 정도의 발견이 있을 때 만족도가 유지될 수 있음을 시사한다. 나는 조던 피터슨이 했던 말인 "한 발은 질서와 안전의 세계에, 다른 발은 가능성과 성장, 모험의 세계에 디디고 서 있어야 한다”가 바로 떠올랐다. 스포티파이의 추천 알고리즘도 뇌가 원하는 것처럼, 예를 들자면 90%의 친숙함과 10%의 낯섦을 구현하고 있었기 때문이다.


Hierarchical OWA 방식은 다음과 같다. 먼저 word2 vec 임베딩을 하여 트랙을 벡터 공간에 위치시킨 다음, 관련성, 친숙성, 발견 세 가지 항목을 중심으로 값을 계산한다. 관련성 값은 γ(r) = (1 / (α + r))^(1/3) -> 유사도 점수 세제곱근의 역수이며, 친숙성 값은 pi=c1⋅c2+c3 (c1: 재생 맥락 의도 c2: 스트림 시작 이유 c3: 스킵, 음수 패널티)로 나타내는데 이후 시그모이드로 정규화하여 아티스트 선호도 중 n=3인 값을 구한다. 여기서 3인 이유는 가장 선호하는 곡을 들었다고 해서, 그 아티스트를 좋아하지 않을 수 있기 때문에 히트 트랙이라는 변수를 최대한 줄이기 위함으로 설명하고 있다. 마지막인 발견값은 dS(u, t)=1 [d] ×ζ(u, t) -> 발견 유무 1 [d] x사용자-트랙 유사도로 측정했다. 당연하지만 해당 세 가지 요인을 병렬-상관관계 분석을 했을 때 유사성 <->트랙 친숙성, 유사성 <->아티스트 친숙성 간에는 연관관계가 양(+)으로 나타났다. 또한 취향 적합도, 트랙 친숙도, 아티스트 친숙도 보완하기 위해 rank score를 넣었으며, 마찬가지로 역수로 변환해 상대적으로 괜찮은 순위 점수를 반영하였다. 수식은 어려우니 넘어가고 그다음 2단계로 OWA(집계 함수)에 따라 가중치를 순서대로 부여한다. 근데 Hierarchical OWA 방식은 관련성, 친숙성, 발견을 조합한 후 다시 트랙 친숙도와 조합하였으며, 1단계에서 연산으로 하나라도 높으면 되는 OR 논리를 적용하고 다음 조합할 때는 친숙성을 엄격하게 거르는 식으로 유연하게 논리를 적용하였다.

Hierarchical OWA는 특이하게 발견도가 높으면서도 스킵 정도가 낮고, 만족도가 높다.

추가로 사용자들은 듣고 있는 장르에 대한 이해도를 높이는 것은 물론 클러스터를 주도적으로 변형하고 확장하는 등의 통제의 욕구를 드러냈는데, 이게 스포티파이의 기능에도 정교하게 구현되어 있다. 어려운 논문은 제쳐 두고, 스포티파이의 앱 UI/UX 기능을 살펴보자. 음악이 나의 자아를 구성하고, 다시 뇌가 확증적으로 가시적인 결과물을 스포티파이는 보여준다. 1) 곡 제외하기 기능이다. 사용자가 능동적으로 특정 곡을 플레이리스트에서 제외할 수 있다. 2023년 2월에 생긴 기능인데 Discovery Weekly나 Radio Station의 발견 로직에는 동일하게 적용되나 최근 청취 기록에는 로직이 적용되지 않는다. 그 이유는 내가 검색한 것은 정말로 그 곡이 좋아서 들을 가능성이 높으나, 일반적으로 플레이리스트는 기능적으로 듣는 일이 많으므로 '플레이리스트'에서만 제외되는 것으로 보인다. 이렇듯 스포티파이는 음악 취향을 확인하는 거울이 되어가고 있다. 2) Wrapped 기능이다. 애플뮤직과 유튜브 뮤직에도 있는 것으로 알고 있지만 매년 1월부터 11월 중순까지의 음악 기록을 보여주면서 오롯이 청취자 자신이 보고 싶어 하는 이야기를 들이민다. 여기에는 청취 시간과 가장 좋아하는 장르, 앨범, 노래, 팟캐스트, 아카이브, 청취 유형 등이 포함되며 내가 듣는 음악이 곧 나의 취향과 정체성을 확인하는 인포그래픽 장치임과 동시에 SNS에 공유가 가능한 Recap 형식이다. 3) 마지막은 청취 프로필이 곧 구현될 것이라는 내용이다. 지난 3월 13일, Spotify 공동 CEO인 Gustav Söderström은 SXSW 콘퍼런스에서 발표했는데 이는 뉴질랜드 프리미엄 이용자를 대상으로 우선 적용이 될 예정이다. taste profile이 생기게 되면 모든 청취 데이터를 사용자가 확인할 수 있으며 추천을 더욱 세밀하게 조정하여 알고리즘을 제어할 수 있는 권한을 부여하게 된다.


스포티파이는 하나의 테크기업이고, 결과적으로는 에코 챔버 효과가 발생하지 않게 발견 기능을 지원하면서도, 음악 취향을 지속적으로 확인할 수 있도록 조치하고 있는 것으로 보인다. 최근에 스포티파이를 사용하면서 흥미롭게 봤던 기능은 송DNA로 프리미엄 구독자에게 제공되는데 곡 제작에 참여한 프로듀서나 엔지니어, 아티스트 등의 이름과 인터폴레이션 정보 등을 쉽게 확인할 수 있는 인터랙티브형 서비스였다. 사실 이 기능도 Beta로 올해 3월에 나왔지만, 음악 취향을 발굴하는 데 큰 도움이 될 것 같았다. 특히 곡 단위로 참여하였으니 내가 좋아하는 음악 취향이 특정 프로듀서의 스킬이나 설계일 수도 있으니 상세하게 분류해 보고 탐색해 볼 수 있지 않을까 생각했다. 아마 기능 개선이 더욱 진행된다면 Genius에 있는 창작과정 스토리나 관련 인터뷰까지 넣을 수 있을 것이고, 이는 음악을 듣는 사용자의 취향을 확대할 수 있을 것이다. 특히 앞으로도 플리와 같은 기능적·배경음악과 앨범이라는 예술형식으로서의 음악 감상의 폭이 벌어질수록 그럴 갓 같은 기분이 들며 스트리밍 서비스 역시 뇌의 구조와 닮아가고 있지 않은가 하는 생각도 해본다.

songDNA 기능: 인터랙티브형 서비스(Beta)