brunch

You can make anything
by writing

C.S.Lewis

by 초코 인사이트 May 08. 2024

OpenAI, 학습 데이터 저작권 침해 논란

OpenAI, 저작권 침해 논란 속 학습 데이터 삭제

최근 인공지능(AI) 기술의 급속한 발전으로 AI 모델 학습에 사용되는 데이터에 대한 관심이 높아지고 있다. 그러나 이와 동시에 저작권 침해 문제도 대두되고 있는데, 대표적인 사례가 바로 OpenAI를 상대로 한 집단 소송이다. 이 사건의 최근 전개 양상을 살펴보면 AI 업계의 데이터 사용에 대한 시사점을 얻을 수 있다.

OpenAI CEO Sam Altman 출처: Markus Schreiber/AP

작가 길드, OpenAI 상대로 집단 소송 제기

미국의 작가 단체인 '작가 길드(Authors Guild)'는 AI 스타트업 OpenAI를 상대로 집단 소송을 제기했다. 소송의 핵심 쟁점은 OpenAI가 저작권이 있는 도서를 무단으로 사용하여 AI 모델을 학습시켰다는 것이다. 작가 길드는 OpenAI가 사용한 데이터셋에 "10만 권 이상의 출판된 도서"가 포함되어 있을 것으로 추정하고 있다.


OpenAI, 문제의 데이터셋 삭제 

소송 과정에서 공개된 문서에 따르면, OpenAI는 'books1'과 'books2'라는 이름의 두 개 데이터셋을 삭제한 것으로 나타났다. 이 데이터셋들은 GPT-3 모델 학습에 사용되었으며, 방대한 양의 도서 데이터를 포함하고 있었던 것으로 알려졌다. OpenAI 측은 해당 데이터셋이 2021년 말 이후 사용되지 않아 2022년 중반 삭제했다고 밝혔다.


데이터셋 생성 연구원들, OpenAI 퇴사

또 다른 주목할 만한 사실은 문제의 데이터셋을 생성한 두 명의 연구원이 현재 OpenAI에 재직하고 있지 않다는 점이다. OpenAI는 처음에 이들의 신원 공개를 거부했으나, 이후 작가 길드 측 변호사에게 신원을 밝힌 것으로 전해졌다. 다만 법원에는 관련 정보의 비공개를 요청한 상태이다.


고품질 학습 데이터의 중요성과 저작권 이슈

GPT-3와 같은 강력한 AI 모델이 등장하면서 고품질 학습 데이터의 중요성이 커지고 있다. OpenAI를 비롯한 많은 기업들이 인터넷상의 다양한 데이터, 특히 도서 데이터를 활용해 모델을 학습시키고 있다. 그러나 이 과정에서 저작권 침해 문제가 불거질 수 있다. 데이터 제공자들은 자신들의 지적 재산이 공정하게 보상받기를 원하는 반면, 기술 기업들은 이에 대한 비용 부담을 피하고 싶어 한다.



OpenAI 사례는 AI 업계가 직면한 데이터 사용과 저작권 보호 간의 딜레마를 보여준다. 기술 발전을 위해서는 양질의 데이터 확보가 필수적이지만, 그 과정에서 저작권자의 권리도 존중되어야 한다. 이 문제에 대한 사회적 합의와 제도적 장치 마련이 시급해 보인다. AI 기업들도 데이터 사용에 있어 좀 더 신중하고 투명한 자세를 보일 필요가 있다. 기술과 윤리의 조화로운 발전을 위해 모든 이해 당사자들의 지혜가 모아져야 할 때이다.



참고: https://www.businessinsider.com/openai-destroyed-ai-training-datasets-lawsuit-authors-books-copyright-2024-5

작가의 이전글 AI 시대 혁신을 선도하는 한동대, 미네르바와 손잡다
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari