AI가 그린 그림의 저작권은 누구 거지?

AI 모델 개발사가 갖게 되나요?

Oct 17. 2023

AI는 정말이지 안팎으로 난리입니다(?). 무슨 의미냐고요? 데이터 센터, 인프라 등의 분야에서는 GPU 부족, 신제품 출시 등 이슈가 끊이지 않고 있습니다. 그뿐만 아니라, 모델 개발의 측면에서는 너도나도 LLM 개발에 뛰어들며 경쟁의 불꽃이 튀고 있고요. 또, 그와 다른 층위, AI 기반의 서비스를 생각해 보면 창작, 법 등 기존 질서가 확립된 분야에서 논쟁도 계속되고 있지요.

오늘은 AI와 관련하여 많은 분이 가장 피부에 와닿는다고 느끼실 ‘크리에이티브’에 대해 이야기해 볼까 합니다. AI로 생성된 그림, 음악에 관한 서비스들이 앞다투어 출시될 때마다, 새로운 목소리가 나오고, 문제들이 제기되고 있어요. 저작권에 대한 이야기가 나오게 되는 이유는, AI 학습 시 활용되는 데이터들에 저작권이 있다는 점 때문입니다. :0

[ AI 생성물은 저작권 대상이 아니다? ]

AI에 관한 저작권 이슈에 참고가 될 판결이 거의 세계 최초로 나왔습니다. 판결의 출처는 바로 미국인데요. 인공지능(AI)이 생성한 작품은 저작권을 가질 수 없다는 판결이 나왔습니다. 이에 따라, AI를 통해 작품을 더 쉽게 제작하고 저작권 이익을 얻고자 했던 다수의 콘텐츠 비즈니스 업체들은 다시금 고민을 거듭하게 되었습니다.

미국의 스티븐 탈러라는 발명가가 제출한 USCO 저작권 거부에 대한 소송에서, AI의 저작권에 대한 이야기가 나오게 된 것인데요. 이 소송은 스티븐 탈러가 '다부스(DABUS)'라는 AI 시스템을 활용해 ‘낙원의 입구 (A Recent Entrance to Paradise)' 라는 시각 예술 작품을 제작해서 저작권을 신청했다가, 미국 저작권 협회 측에 신청을 거부당한 사건에서 시작되었습니다.

2022년부터 영국, 호주, 남아공, 사우디아라비아 등에서 특허 및 저작권 등록을 진행 중이었던 스티븐 탈러는 매우 낙심했다고 하는데요. 올해 3월, 미국 저작권협회는 탈러의 작품에 대한 저작권을 인정하지 않으면서 “인간의 창의력이 얼마나 투입되었는지, 그 양에 따라 저작권을 인정한다”라는 원칙을 세웠습니다. 그 원칙에 대하여 미국의 법원도 동의한 셈이지요.

최근 AI를 활용한 각종 미술품 또는 체험 공간 전시가 점점 늘어나고 있는데요. AI를 활용하려 하는 예술가 또는 전시 기획자들에게 이 판결은 매우 유의미할 것 같습니다.

[ AI 학습 데이터를 제공하면 돈을 준다고요? ]

국내에서는 AI 학습 데이터를 수집하는 과정에서 데이터 저작권자의 권리를 인정하는 방식을 최초로 도입한 사례가 나왔습니다. 모 기업에서 자체 개발하는 대형언어모델(LLM) 학습에 사용할 데이터의 라이선스를 확보할 수 있도록, 데이터 제공자에게 라이선스를 확인하고 수익을 배분하는 프로세스를 도입한 건데요. 자신의 데이터가 AI 학습에 활용된다는 사실이 불편했던 사람들도, 활용 대가를 인정받는 절차를 통해 거부감을 줄일 수 있게 되고, 개발의 측면에서도 한국어 데이터를 수집하여 고성능의 모델을 구축할 수 있지 않을까, 기대되는 부분입니다. :)

일명 ‘1T 클럽’이라고 불리는 데이터 제공자 모임에는 다양한 파트너사들이 속해 있고, 또 추가될 예정이라고 하는데요. 이들은 텍스트, 책, 기사, 보고서, 논문 등 다양한 형태의 한국어 데이터를 제공합니다. 한국어가 가진 특성상 표현의 층위, 다양한 은유, 민족 정서들을 수집하려면 정말 많은 데이터가 필요할 텐데요. 이 데이터의 수집 과정에 ‘보상’ 체계가 있다면 좀 더 수월한 데이터 수집이 될 것이라는 생각에서 출발한 저작권자 수익 모델이라고 하네요.

데이터를 제공하는 파트너사들은 데이터 제공량에 비례해 LLM API 사용료를 할인받거나, LLM의 API 사업으로 창출할 수익을 공유하는 등 두 가지 방식의 혜택을 받을 수 있다고 합니다. 단순한 게이미피케이션을 적용하였지만, AI 모델 학습을 위해 데이터 라이선스를 해결한 첫 사례라 의미가 있다는 생각이 드네요. 실제로 오픈 AI도 비슷한 방식을 도입해서, 7월에 AP통신과 라이선스 계약을 맺기도 했답니다.

[ ‘제3자 정보 제공 거부’를 하지 않으면 내 정보가 AI 거라고요? ]

메타는 AI에 관한 저작권 문제, 특히 학습 데이터 수집에 관한 문제들을 사전에 방지하기 위한 장치를 마련하였는데요. 바로 데이터 학습 거부 요청 양식을 추가한 것입니다. 이름하여 '생성 AI 데이터 주체 권리(Generative AI Data Subject Rights)'라는 제출 양식인데요. 제출 양식 내의 표현이 흥미롭습니다.

메타는 이 ‘학습 거부 요청’ 양식에서, AI가 '인터넷 또는 라이선스가 있는 소스에서 공개적으로 사용할 수 있는' 데이터를 '제3자 정보'라고 이름 지었는데요. 덧붙여, 이 ‘제3자 정보’는 '예측과 패턴을 사용해 새로운 콘텐츠를 생성하는 생성 AI 모델을 훈련하는 데 사용되는 수십억 개의 데이터' 중 일부일 수 있다고 설명했습니다.

내 정보는 나의 것. 비밀을 지키고 싶으신 분들은 '생성 AI 데이터 주체 권리'를 확인해 보세요!

우리가 보통 어떤 플랫폼에 회원가입을 할 때, ‘제3자 정보 제공 동의’라는 항목을 확인하고, 동의하거나 동의하지 않음을 표시하곤 하는데요. 이때의 ‘제3자 정보’의 활용 방식에 AI 학습 활용을 추가한 셈이지요. 물론, 동의는 별도의 프로세스로 따로 받고 있지만요.

또한, '다른 제공업체로부터 데이터를 라이선싱하는 것 외에도 웹에서 공개 정보를 수집한다'고 밝혔는데요. 여기에는 이름이나 연락처 같은 개인 정보가 포함될 수 있다고 합니다. 만약 거부 의사를 따로 밝히지 않으면 페이스북 댓글이나 인스타그램 사진 등이 생성 AI 모델 교육에 사용된다는 것이지요.

메타에서는 최근 출시된 ‘라마 2’의 학습 당시에는 이런 데이터들을 활용하지 않았다고 하는데요. 앞으로 개발할 모델은 실사용자의 데이터를 참고한 모델일 것이라는 예측이 가능하네요. 우리의 SNS 일상 기록이 메타의 AI 학습 데이터가 된다니, 메타의 AI가 드러낼 특성이 어떠할지에 대하 어렴풋이 짐작해 볼 수 있는 부분이긴 하지만, 조금 걱정이 되는 분들도 있으실 거예요. 나의 사적인 정보가 녹아 있는 AI 데이터가 생산되는 것이니까요. :)

'생성 AI 데이터 주체 권리(Generative AI Data Subject Rights)'는 ‘사용 동의’가 기본 설정되어 있는폼(form)이기 때문에, 만약 우려되는 부분이 있다면 데이터 사용을 거부하도록 설정을 직접 변경해야 합니다. 사용 거부 답변도 3가지로 나뉘어 있습니다. 단순히 사용 동의/비동의가 아니기에 혼선이 생길 수도 있겠습니다. 거부하는 방법을 모르면 자신의 데이터를 AI 학습에 사용하도록 동의한 것과 같아지기에, 관련된 논란이 세계 각지에서 일어날 것으로 보이네요.

[ AI로 인한 혁신이 어마어마한데, 좀 감안해 주시면 안 될까요? ]

학습 데이터 수집에 관한 저작권 이슈의 중심에 있는 기업, 바로 오픈AI입니다. 오픈AI는 미국의 코미디언이자 작가인 사라 실버만에게, LLM 개발 시 자기 작품을 무단 사용했다는 내용으로 고소당한 상태인데요. (메타도 같이 고소당했습니다… :0) 오픈AI는 이 소송에 대해 기각 신청을 한 상태입니다. 법원에는 AI로 인한 혁신을 감안해달라고 호소했다는 이야기가 전해지고 있네요.

오픈AI는 소송 기각 신청 과정에서, LLM 기술의 혁신을 위해서 저작권 보호와 기술 발전 사이의 균형이 필요하다는 입장을 밝혔는데요. 어렵게 들리는 이야기이지만, 쉽게 말하면 좀 더 효율적인 AI 모델 개발을 위하여 학습 데이터의 저작권 보호를 양해해 달라는 의미일 거예요. 오픈AI는 자신들의 히트작인 ‘ChatGPT’를 인쇄기의 발명에 비유하면서, AI를 동력으로 한 지적 혁명과 그 잠재력을 인정해야 한다고 주장하고 있습니다.

물론, 인터넷에 공개된 정보는 사용해도 되는 것으로 간주하는 '공정사용' 개념이 이미 있긴 하지만, 우리는 지금도 ‘공정사용’ 개념에 따르기보다는 각 정보의 저작권자를 밝히고, 또 그들에게 사전에 허락을 구하는 등 최대한 저작권을 보호하려는 것이 더 바람직하다고 생각하고 있지요. 그래서 오픈AI가 주장하는 내용이 얼마나 받아들여질지, 주목해 봐야 할 부분일 것 같습니다. :)

그러나 AI 개발에는 인간의 창의성과 의도가 들어간 데이터를 활용하는 ‘학습’이라는 단계가 있어야 하므로, AI와 저작권 문제가 서로를 간섭하지 않는 일은 없을 것 같아요. 그 시작이 오픈AI였을 것이고요. 오픈 AI가 직면한 상황 때문에 앞서 소개해 드린 국내의 수익 배분 프로세스 도입 사례나 메타의 사전 동의 프로세스 도입이 있게 된 것이겠지요. AI로 인해 저작권에 대한 개념도 더 확장될 것으로 보이네요. 그런데, 이 문제에 원만한 합의점을 찾을 수 있을까요? :)

keyword

작가의 이전글인공지능 프레임워크, 좀 더 알아보자 : 파이토치 편빙글빙글 돕니다, MLOps Lifecycle작가의 다음글