유튜브 저작권 탐지 알고리즘
창작자들이 유튜브에 올리기 전 가장 고민하는 부분, 저작권. 유튜브 내에서 사용되는 이미지, 폰트, 다른 사람의 영상, 음악... 모두 저작권의 보호를 받는 요소다. 하지만 일반적으로 법 조항을 꼼꼼히 알긴 어렵고, 유튜브 정책은 더 어려워보인다.
기본적으로 다른 사람이 창작한 저작물은, 창작자가 퍼블릭 도메인으로 사용 가능하게 풀어 놓지 않은 이상 모두 저작권법의 보호를 받는다. 저작권 침해의도가 없어도 그렇다. 여기서 질문 하나. Q1. 그럼 사용할 수 있는 유튜브 영상은 뭘까?
바로 크리에이티브 커먼즈 저작자 표시 라이선스가 체크된 상태로 올라온 영상이다. 내용의 더보기 버튼을 클릭하면 가장 밑 부분에서 확인할 수 있다. 재사용 허용이 적혀있다면 '유튜브 플랫폼 내에서'는 재사용이나 편집이 자유롭게 가능하다. 물론, 재사용 허용이라도 출연자 초상권 침해의 여지가 있을 수 있으며, 영상을 악의적으로 재편집하여 명예를 훼손했다면 부가적인 법적 책임에서 벗어나긴 어려울 것이다. 한 가지 유의할 것은, 유튜브 규정 상 원본 영상이 삭제된 시 바로 그에 대한 재사용 권리도 사라진다.
Q2. 그럼 마음 편하게 사용할 수 있는 건 허용된 영상 밖에 없나?
그렇다. 왜냐하면, 유튜브는 당신의 저작권 침해를 '거의 무조건' 잡아낼 수 있다. 때로는 인공지능이 업로드된 지 1초만에 잡아내기도 하고, 알고리즘이 시간을 들여 당신의 콘텐츠가 수익창출이 날 쯤 잡아내기도 하고, 또는 시청자의 신고로 잡아내기도 한다. 실제로 유튜브는 아래의 이미지와 같이 저작권 침해로 나름의 규제를 내린다. 저작권 침해가 잦은 채널은 채널의 수익화를 금지 시키고, 심하면 채널을 비활성화 시키기도 한다. 영상 자체를 시청하지 못하게 금지하기도 하고, 해당 콘텐츠만의 수익화를 막거나 수익을 업로드 한 사람과 저작권 소유자가 배분하도록 설정하기도 한다. 이 모든 건 저작권 소유자 마음이다!
추가적으로, 저작권 침해를 알고리즘이 감지해도, 저작자가 별도의 조치를 취하지 않을 수 있다. 이른바 걸렸는데 훈방... 다만 저작자가 저작권 침해를 알게 된 뒤 신고하는 기간 같은게 정해져있지 않다. 맘 바뀌면 바로 당신의 영상을 삭제처리 할 수 도 있는 것이다.
크리에이터 스튜디오의 저작권 탭을 들어가면, 유튜브 알고리즘이 알아서 찾아준 내 저작권 침해사실을 알 수 있다. 모자이크 처리되어있지만, 영상의 제목+링크 / 조회수 / 업로드일 / 업로드 채널과 구독자 / 일치 비율 / 일치하는 구간의 영상까지 모두 확인할 수 있다. 느낌표 버튼을 누르면 유튜브를 통해 삭제요청이 가능하고, 메시지 버튼을 통해서 저작권 침해 채널에게 의견을 전달할 수도 있다. 물론 유튜브를 통하지 않고 법정을 가는 사람들도 있겠지만...
무시무시하다. 저작권 침해를 하면 채널이 비활성화 될 수도 있다니.. 그럼 창작자는 저작권 단속을 피하고 싶을 것이다. 저작권 침해 요소를 아예 영상에 포함 시키지 않는 것이 최선이겠지만, 현실적으로 어렵다. 저작권 단속은 음주 단속과는 달라서, 단속을 피해가기도 어렵다. 음주 단속은 경찰의 위치를 미리 알고 피해갈 수 있지만, 유튜브의 단속 구역은 전방위적이고 인공지능이 24시간 포진해있기 때문이다.
Q3. 그렇다면 유튜브는 어떤 알고리즘으로 저작권 침해를 잡아낼까? 우선 유튜브 말고도 음악을 잡아내는 곳이 있다. 바로 음악 검색 앱이다. 어떤 음악을 들려주면, 알고리즘을 통해서 비슷한 음악을 찾아낸다. 이런 기술을 '핑거프린팅 알고리즘'이라고 한다. 범죄자의 지문을 미리 등록해놓으면 나중에 수사하면서 지문을 비교해 범죄자를 찾을 수 있듯이, 미리 등록해놓은 정보와 대조해서 해답을 찾는 것이다. 우리는 음악 검색을 할 때 전체 곡에 비해 매우 짧은 촛수의 음악을 들려준다. 길어도 15초를 넘지 않는다. 하지만 거의 모든 어플들은 시끄러운 환경에도 불구하고 답을 찾는다. 알고리즘은 짧은 구간을 들려줘도 전체 음악에서 그 부분을 찾을 수 있도록 개발되어있으며, 기계음이나 외부 노이즈가 섞여있어도 음악을 검색할 수 있게 일부로 저품질의 음원도 데이터베이스에 등록해놓는다. 유튜브도 동일하다. 영상에 단 10초만 음악이 나와도, 음악이 흘러나오는 카페에서 Vlog를 찍어도, 알고리즘은 모두 잡아낼 것이다.
영상도 동일한 핑거프린팅 알고리즘을 쓴다. 다만, 음악보다 영상이 훨씬 데이터량이 많다. 게다가 음악은 기존에 음악 검색 앱 등 개발되어있는 정보가 많았다. 음악의 상대적으로 수동적인 데이터베이스 입력과정을 겪었으나, 유튜브의 알고리즘은 다르다. 유튜브는 공식적으로 2018년까지 콘텐츠 ID(유튜브의 자체적인 핑거프린팅 알고리즘)을 위해서 1억 달러 이상을 투자했다고 발표했다. *콘텐츠 ID는 영상 뿐 아니라 음악 저작권 침해도 잡아낼 수 있다.
영상 알고리즘에 대해서 알려진 바는 거의 없지만, 유튜브는 딥러닝의 일종인 인공신경망 모델을 차용했다. 쉽게 말하면 인간의 신경처럼 스스로 뻗어나가 학습할 수 있는 모델이다. 우리는 어제 일어난 축구 경기와, 오늘 일어난 축구 경기를 구분할 수 있다. 하지만 초록 인조잔디가 넓게 깔려서 색색깔의의 유니폼이 빠르게 돌아다니는 영상을 알고리즘은 구분하기 어렵다. 유튜브는 이런 것을 교육시켰다. 유사한 장면이 자주 나타나는 영상에는 콘텐츠 ID가 낮은 빈도로 작동된다. 영화는 유사한 장면이 등장할 확률이 낮지만, 같은 사고를 보도하는 뉴스는 영상 자체가 비슷할 확률이 높다. 알고리즘은 영상의 내용까지 미리 알고(물론 우리가 제목도 쓰고, 내용도 쓰고, 업로드할 때 카테고리까지 설정하지만) 저작권 침해여부를 판단한다.
물론 알고리즘은 완벽할 수 없다. 저작권 침해를 의도한 사람들은, 영상의 크기를 줄이고, 화질을 낮추고, 때로는 위아래를 바꿔놓기도 한다.(요즘엔 이런 것도 잡아내는 추세다) 2018년에는 10시간 짜리 백색소음을 알고리즘이 저작권 침해로 인식해 논란이 되기도 했다. 하지만 확실한 건 유튜브의 저작권 탐지견은 계속 발전할 거라는 거고, 창작자들은 더 주의깊게 '알고 만들어야'할 것이다.