오픈AI의 Sora(소라)와 데이터 '공정 학습'의 등장
지난주를 가장 뜨겁게 달군 AI 뉴스는 단연 오픈AI의 새로운 비디오 생성 모델, Sora(소라)입니다. 원하는 바를 문장으로 작성하면 영상을 만들어주는 모델인데요. 기존 유사 모델과 다르게 1분짜리 영상을 만들 수 있고, 다양한 구도에서 아주 자연스러운 움직임을 구사해 출시하자마자 화제가 되었습니다.
Sora의 수석 연구원 빌 피블스와 팀 브룩스가 Sora의 기능을 뽐내며 기분을 좀 내려는데 찬물을 끼얹는 사람이 있습니다. 에드 뉴턴-렉스(Ed Newton-Rex)입니다.
에드는 두 연구원이 올린 영상에 집요하게 질문을 던집니다. ‘기술이 참 대단한 건 알겠는데 어떤 데이터로 모델을 학습시켰나요?’라고 말이죠. 물론 답은 돌아오지 않습니다.
에드는 틱톡의 AI 디자인 총괄 출신으로, 대표적인 이미지 생성 모델 Stable Diffusion을 만든 Stability AI(스태빌리티AI)의 부사장이었습니다. 생성형 모델을 위한 학습 데이터를 수집하는 과정에 무시되는 윤리 문제를 해결하고자 에드는 2023년 11월 스태빌리티AI 부사장직을 내려놓았습니다. 그리고 지난 1월 비영리단체인 Fairly Trained(페얼리 트레인드)를 설립했는데요. 공정 무역을 의미하는 fair trade처럼 공정한 인공지능 모델 학습, 즉 fair train을 지지한다는 의미입니다.
페얼리 트레인드는 창작자를 생성형 AI로부터 보호하고자 합니다. 저작권을 침해하지 않은 데이터로만 학습한 모델에게 License(라이선스)를 의미하는 ‘L’ 인증서를 발급하는데요. 지금까지 아홉 개의 AI 회사가 L인증서를 받았습니다.
L인증서는 아래 세 가지 요구사항을 충족하면 받을 수 있습니다.
1. 데이터 출처
: 모델을 학습시키는 데 사용될 목적으로, 계약을 체결할 권리가 있는 당사자와 계약을 통해 명백하게 전달받은 데이터를 사용해야 한다.
: 사용처에 적합한, 개방형 라이선스를 가진 데이터를 사용해야 한다.
: 전 세계적으로 공공 영역(public domain)에 속하는 데이터를 사용해야 한다.
: 모델 개발자가 전적으로 소유하는 데이터를 사용해야 한다.
2. 데이터 실사
: 사용하려는 데이터가 데이터를 소유한 사람의 권리를 침해하지는 않는지 등을 점검하는 안정된 실사 절차가 있어야 한다.
3. 데이터 기록
: 각 모델에 어떤 학습 데이터가 사용되었는지를 기록하는 안정된 절차가 있어야 한다.
Sora 연구원에게 출처를 묻는 에드의 트윗에는 부정적인 글도 달립니다. ‘브로, (데이터 출처에 대해) 이제 아무도 신경 안 써’라고 말이죠. 정말 이제는 아무도 신경 쓰지 않는 문제일까요?
창작자의 저작권 보호를 위해 노력하는 또 다른 비영리 단체가 있습니다. 시카고 대학의 SAND(샌드) 연구소인데요. 창작자의 작품을 인공지능이 무단으로 모방할 수 없도록 Glaze(글레이즈)와 Nightshade(나이트셰이드)라는 인공지능 모델을 만들었습니다.
도넛 회사 크리스피 크림의 기본 도넛, ‘오리지널 글레이즈드’를 아시나요? 설탕 옷을 입은 도넛인데요. 샌드 연구소의 모델은 도넛에 글레이즈를 입히듯 작품에 ‘글레이즈’를 입힙니다. 인공지능이 창작자의 스타일을 다른 스타일로 이해하도록 원작품에 노이즈를 입혀 스타일 모방을 방지합니다.
글레이즈가 입히는 노이즈는 사람이 작품을 볼 때는 영향을 거의 미치지 않습니다. 하지만 인공지능이 볼 때는 사실주의 그림을 추상 표현주의로, 연필로 그린 그림을 유화로 인식하도록 하죠.
작품에 글레이즈 노이즈를 씌워두면 모델은 화풍을 제대로 읽지 못해 모작 생성에 어려움을 겪습니다.
글레이즈가 저작권을 보호하는 수비수라면, 나이트셰이드는 공격수입니다. 글레이즈가 작품을 해석하지 못해 모방하는 행위를 막아준다면, 나이트셰이드는 이미지 생성 모델에 잘못된 이미지를 학습시켜 능동적으로 모델을 망가뜨리죠.
독성 식물 이름인 나이트셰이드는 인공지능이 이미지를 인식하고 해석하는 요소를 오염시켜 왜곡된 결과를 만들도록 유도합니다. 학습 자체를 오염된 데이터, 즉 '독성 샘플'로 했으니 모델 성능이 몹시 저하되는데요. 적게는 100장 미만의 오염 데이터로 모델을 고장낼 수 있습니다. 사용 예시를 함께 살펴볼까요?
오염된 데이터로 학습한 오염된 모델은 강아지를 고양이로, 자동차를 황소로, 판타지 풍을 선화로, 큐비즘을 만화풍으로 인식합니다. 요청한 화풍을 따라 하지 못하는 것을 넘어 올바르게 이미지를 인식하는 능력을 아예 상실하죠.
인간이 작품을 만들 때 다양한 작가의 영향을 받듯, 인공지능이 학습하는 과정 또한 같다는 주장도 있습니다.
하지만 페얼리 트레인드를 설립한 에드는 본질에 접근합니다. 창작자가 자신의 작품이 Sora를 학습시키는 데에 사용되었는지 걱정해야 하는 상황 자체를 지적하는데요. 애초에 법이 생성형 AI로부터 창작자를 보호해야 한다고 말합니다. 더불어, 오픈AI가 “대중에게 공개”된 데이터로 Sora를 학습시켰다는 표현을 문제 삼습니다. 이는 빠져나갈 구멍을 만들기 위한 의도적인 표현이라는 주장입니다.
디지털 콘텐츠 결제 서비스 액세이트(Axate)의 대표 도미닉 영은 “창작자들이 작품을 빼앗길 걱정 없이 “대중에게 공개”할 수 있도록 하는 것이 바로 저작권의 핵심”이라고 강조합니다.
에드는 또 다른 주장을 펼치는데요. 그동안 창작자는 자신의 작품을 보고 누군가가 영향을 받으리라는 사실을 알고 있었고, 작품을 공개할 때는 그 사실도 고려했다고 합니다. 하지만 대규모로 생산된 자신의 모작과 경쟁하게 되는 상황은 창작자가 고려한 범주가 아니라고 주장합니다.
반대 입장도 있습니다. 원시인이 자신이 그린 벽화가 미래에 위키피디아에 게재될지 몰랐다고 해서 그림을 내려야 하는 건 아니라는 주장이죠.
에드는 해당 발언에 동의하지만 현대의 작가가 고려하는 사용 범주는 또 다르며, 그 범주는 인공지능 학습을 포함하지 않는다고 반박합니다.
우리는 지금 인공지능 시대를 급하게 맞이하고 있습니다. 새로운 기술은 눈에 띄게 발전하여 두려움과 설렘을 동시에 안겨줍니다. 하지만 왜인지 왕건이 급하게 물을 마시고 체할까 싶어 찻잔에 나뭇잎을 띄워준 여인의 이야기가 떠오릅니다. 어쩌면 페얼리 트레인드의 에드는 목이 말라 급하게 물을 들이켜려는 AI 업계의 찻 잔에 나뭇잎을 띄우는 중인지도 모릅니다. 왕건은 여인의 현명함을 알아보고 청혼을 해 아내로 맞이했는데요. 업계는 에드의 노력을 어떻게 받아들일지 모르겠습니다.