AI, 블랙핑크와 에미넴 표절 의혹에 휩싸이다

발음이 같으면 비슷한 음악을 생성하는 AI

Aug 13. 2025

[2025년 8월 12일 먀 AI 뉴스레터로 발행한 글입니다.]

지난 6월, 디즈니와 유니버설이 이미지를 생성하는 AI 회사 미드저니를 저작권 침해로 고소한 사건이 있었습니다. 며칠 전 미드저니가 그에 대한 답변서를 냈는데요. 주요 입장 중 하나는 바로:

AI는 학습할 뿐, 재생산하지 않는다.

입니다. 학습에 사용되었다고 하더라도 복사해서 재생산한 게 아니므로 저작권 침해라고 볼 수 없다는 주장인데요. 며칠 전, AI가 발음이 비슷한 가사만 보고도, 학습할 때 들은 원곡과 거의 똑같은 음악을 생성한다는 연구 결과가 나왔습니다. 어찌된 영문일까요?

AI를 시험하는 방법

연구진은 두 가지 기법으로 이 현상을 시험했습니다. 함께 보시죠!

1. 우회하는 승부, APT

APT(Adversarial PhoneTic Prompting)는 가사의 핵심 구절을 발음과 리듬이 비슷한 다른 단어로 바꾸는 방식입니다. 래퍼 에미넴(Eminem)의 유명한 랩 <Lose Yourself> 가사에 나오는 ‘mom’s spaghetti’ 구절을 발음이 유사한 ‘Bob’s confetti’로 바꾸는 식이지요. 이렇게 하면 가사의 의미는 ‘엄마의 스파게티’에서 ‘밥의 색종이 조각 가루’로 완전히 달라지지만, 소리 내 읽으면 리듬과 운율이 서로 매우 흡사하지요?

99c7d1888d7d2f8c4ad2c755f5e81ff0a3513fa203002eca3850bf532e32942b?w=1200

APT 기법으로 핵심 가사를 바꾼 결과. 단어도 뜻도 다르지만, 소리내어 읽어보면 발음과 운율이 매우 유사하다. 출처: 논문

연구진은 이처럼 발음에 기반한 단어 대체를 통해 음향 구조는 유지하되 의미는 엉뚱한 가사들을 만들어냈습니다. 가사를 보면 원곡과 관계없어 보이지만, 발음과 강세, 그리고 라임(rhyme) 구조는 거의 그대로지요.

2. 정면으로 부딪히는 승부, AVT

APT가 교묘하게 가사를 바꾼다면, AVT(Adversarial VerbaTim Prompting)는 가사를 원문 그대로 넣어 모델이 배운 내용을 재현하는지를 확인하는 방식입니다. <Lose Yourself>와 같은 유명 곡의 가사를 한 줄도 바꾸지 않고 통째로 넣는 식이지요. 만약 모델이 학습할 때 들은 노래를 그대로 기억하고 있다면, 거의 원곡과 똑같은 노래를 생성할 수 있습니다.

같은 가사를 준다고 해도, 저작권을 침해하지 않으려면 유사한 음악을 생성해서는 안될 텐데요. 결과는 어땠을까요?

AI, 너 솔직히 다 기억하고 있지?!

우선 실험에 쓰인 AI 모델과, 생성된 결과물의 유사성을 판단하는 기준을 알아보겠습니다. 이번 실험에 쓰인 모델은 총 세 종류입니다. 가사를 입력하면 분위기에 맞는 노래를 만들어주는 AI 모델 YuE와 이미 상용화된 서비스 SUNO, 그리고 텍스트를 넣으면 영상을 만들어주는 구글의 AI 모델 Veo 3입니다.

곡이 얼마나 서로 비슷한지 객관적으로 보여주는 기준으로는 CLAP 점수, AudioJudge, 그리고 CoverID가 있는데요. 간단하게 설명하면 아래와 같습니다:

CLAP: 두 오디오가 얼마나 비슷한지 측정하는 AI 기반 척도로, 1에 가까울수록 유사함을 뜻한다.

AudioJudge: GPT-4 기반으로 음악 두 개의 멜로디 유사도와 리듬 유사도를 0~1 사이로 평가해 주는 시스템으로, CLAP과 마찬가지로 1에 가까울수록 유사함을 의미한다.

CoverID: 알려진 곡과의 커버 관계를 판별하는 지표로, 값이 낮을수록 원곡에 가깝다고 볼 수 있다.

이제, 실험 결과를 하나씩 뜯어보겠습니다.

1. 음악 모델에 대한 APT 공격

연구진은 SUNO에 에미넴의 <Lose Yourself> 가사를 APT 방식으로, 즉 가사의 발음이나 운율은 비슷하지만 의미는 엉뚱하게 바꾼 버전을 입력했습니다. 그러자 노래가 한 곡 생성되었는데요. 생성된 노래는 원곡과 멜로디와 리듬 면에서 매우 흡사했습니다. CLAP 점수가 0.773에 달했지요.

APT 기법으로 생성한 음악의 유사도 점수 비교. 출처: 논문. 번역: 먀 AI

연구진은 ‘아파트’라고도 불리는, 브루노 마스와 블랙핑크의 로제의 곡 <APT>에 대해서도 실험했습니다. CLAP 유사도가 0.852를 기록했는데요. 특히 SUNO에 APT로 가사를 바꿔 만든 곡은 AudioJudge로 확인했을 때 멜로디 유사도 0.95, 리듬 유사도 0.98이라는 결과가 나왔습니다. 원곡과 구별이 어려울 정도로 음악적 구조가 동일할 때 나오는 점수입니다.

2. 음악 모델에 대한 AVT 공격

연구진은 YuE 모델에 밴드 그린 데이(Green Day)의 히트곡 <Basket Case>를 그대로 입력해 음악을 생성했습니다. 그 결과, CLAP 유사도는 0.856, CoverID 지표는 0.174, 그리고 AudioJudge로 측정한 멜로디와 리듬 유사도는 각각 0.95와 0.90을 기록했습니다!

물론 AVT 공격이 모든 장르 노래를 유사하게 만든 건 아닙니다. 곡에 따라 편차가 있었는데요. 에드 시런의 <Thinking Out Loud> 같은 발라드곡 가사를 투입한 경우엔 CLAP 점수가 약 0.5대로 상대적으로 낮게 나오기도 했습니다.

<Basket Case>, <Thinking Out Loud>와의 유사도 비교. 출처: 논문

하지만 일단 모델이 학습하는 과정에서 들어본 노래라면, 가사를 정확히 줬을 때 대체로 원곡에 아주 가까운 음악을 만들었습니다. 심지어 AI에게 ‘록 발라드 스타일’과 같은 추가 지시를 주어도, 가사가 원곡이면 원곡 스타일로 음악을 생성해 버렸습니다! 음악 스타일 지시는 거의 무의미했지요. 연구진은 가사 자체가 생성 결과를 결정짓는 열쇠라고 추론합니다.

3. 텍스트-영상 모델에 대한 공격

이번 실험은 조금 다릅니다. 텍스트에 기반해 영상을 만드는 모델인 Veo 3에 대한 실험인데요. 연구진은 Veo 3에 에미넴의 <Lose Yourself> 가사를 입력하여 해당 곡의 뮤직비디오와 얼마나 비슷한 장면을 내놓는지 관찰했습니다. 어떤 결과가 나왔을까요?

실제 뮤직비디오(왼쪽)와 Veo3가 생성한 뮤직비디오(오른쪽). 출처: 논문

위 이미지에서 오른쪽 위는 APT 기법으로 바꾼 가사로 생성한 영상이고, 그 아래는 AVT 기법으로 가사를 그대로 넣어 만든 뮤직비디오입니다. 공격 기법과 상관없이, 두 영상 모두 후드 쓴 남성이 어두운 도시 배경에서 랩을 하는 장면과, 비트에 맞춰 장면 전환이 이뤄지는 연출 등을 보여주는 영상을 만들어냈는데요. 이는 실제 <Lose Yourself>의 뮤직비디오 연출과 매우 흡사합니다.

가사에 ‘후드티’나 ‘도시 뒷골목’ 같은 시각적 단어가 전혀 없었는데도, 모델이 원본 영상의 분위기와 구성을 재현한 것이지요. 연구진은 이러한 현상을 ‘음소-시각 회상(phonetic-to-visual regurgitation)’이라고 이름을 붙입니다. 소리의 패턴만으로도 모델 내부에 저장된 시각 장면이 촉발되었다는 의미입니다. 이번 연구는 사진, 영상, 텍스트 등 다양한 종류의 데이터를 동시에 다루는 멀티모달 AI 모델에서 처음 보고된 종류의 기억 유출 현상입니다.

AI는 정말 기억하고 복사하는 게 아니라, 배우고 새롭게 만드는 걸까요? 그리고 새로 만든 거라면, 결과물이 과하게 유사해도 괜찮은 걸까요?

질문을 곱씹다 보면, 우리는 AI에 대해 얼마만큼 알고 있는 건지 궁금해 집니다. 인간이 생각하는 방식을 표방하는 ‘인공지능’이 예상을 벗어나는 행동을 해 사람을 놀라게 하는 소식이 종종 들리는데요. ‘열 길 물속은 알아도, 한 길 사람 속은 모른다'라는 속담이 떠오릅니다. 우리는 AI에 대해 ‘몇 길’이나 알고 있을까요?

참고자료
- 논문 <Bob’s Confetti: Phonetic Memorization Attacks in Music and Video Generation>
- 생성된 다양한 음원과 영상 듣고 보기

먀 AI 뉴스레터: 단순 트렌드 나열이 아닌, '진짜' 인공지능 이야기
구독하기: https://mmmya.stibee.com/

keyword

먀 ai 직업 에디터

[AI 뉴스레터: https://mmmya.ai 구독] 단순 트렌드 나열이 아닌, '진짜' 인공지능 이야기를 찾아다닙니다.

팔로워 25

매거진의 이전글구글이 지구를 10m 단위로 쪼갰습니다AI 성격 레시피: 친절 한 스푼, 정직함 두 스푼..매거진의 다음글