brunch

라이킷 12 댓글 2

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 날아라인공지능 Jan 24. 2024

뉴욕타임스 vs. 오픈AI 사건 #1

챗GPT가 저작권 침해로 고소당하다

Photo by Rafael Hoyos Weht on Unsplash

작년 12월 27일, 미국 최대 언론 중 하나인 뉴욕타임스가 오픈AI와 마이크로소프트를 상대로 소송을 걸었습니다. 그들이 LLM 모델을 학습시키는데 수백만 건의 뉴욕타임스 기사를 무단으로 사용했다는 주장인데요.

Independent journalism is vital to our democracy.
독립적 언론은 우리 민주주의에 필수이다.

로 시작하는 고소장은 언론의 중요성과 더불어 그들의 저널리즘에 대한 자부심과 긍지를 강조하고 있습니다. 이를 침해받았다는 그들의 주장을 함께 살펴볼까요?

먼저, 뉴욕타임스는 오픈AI와 마이크로소프트의 저작권 침해가 "의도적"임을 주장합니다.

2023년 샘 올트먼이 오픈AI를 사임하기 전, 챗GPT와 GPT-4 관련하여 이사회 멤버인 헬렌 토너(Helen Toner)가 안전 및 윤리에 관한 비판을 한 일이 있습니다. 올트먼이 그 일로 토너와 부딪힌 사건을 거론하며 뉴욕타임스는 이미 오픈AI가 문제를 충분히 인지하고 있었음을 강조했습니다. 또한 오픈AI가 CMI(저작권관리정보)를 일부러 지우는 등 챗GPT, 브라우즈 위드 빙(Browse with Bing), 그리고 빙 챗(Bing Chat)에서 다양한 침해의 흔적이 발견되었음을 밝혔습니다.

뉴욕타임스가 피해를 호소하는 부분은 크게 세 가지로 볼 수 있습니다.

1. 저작권 침해

자신의 글 하나로 커리어를 쌓아 온 수많은 기자들과 작가들의 글이 무단으로 배포되는 것은 그 자체만으로도 큰 문제입니다. 이미 오픈AI는 <헝거게임> 작가 수잔 콜린스와 <왕좌의 게임> 작가 조지 마틴 등을 포함하여 총 8,000여 명이 넘게 속한 작가 협회들로부터 고소장이 접수된 상황인데요. 이제 뉴욕타임스까지 가세했습니다.

아래는 뉴욕타임스 측에서 제공한 증거 자료 중 일부입니다.

출처: 뉴욕타임스 고소장 (UNITED STATES DISTRICT COURT SOUTHERN DISTRICT OF NEW YORK)

챗GPT에게 뉴욕타임스 유료 구독자가 아니라 읽기 제한이 있으니 특정 글의 첫 문단을 알려달라고 하자, 챗GPT가 망설임 없이 제공하는 것을 볼 수 있습니다.

2. 수익 감소

현재 뉴욕타임스의 유료 구독자는 1,000만 명을 넘습니다. 챗GPT를 잘 구슬리기만 하면 무료로 글을 읽을 수 있는 상황이 되었으니 구독자가 크게 감소할 것은 물론, 그에 따른 광고와 라이선싱 등 다양한 채널의 수익이 감소할 것에 대한 피해를 우려하고 있습니다.

3. 명예 훼손

‘세종대왕 맥북프로 던짐 사건’은 우스갯소리로 쓰일 만큼 유명한 LLM 할루시네이션(hallucination), 즉 잘못된 정보를 제공한 예시인데요. 뉴욕타임스는 빙 챗이 뉴욕타임스에 의거한다며 부정확한 정보를 제공하는 것을 포착했습니다. 이는 정보의 정확성이 생명인 언론사의 명예를 크게 훼손할 뿐 아니라, 실제로 정보를 접하는 사람들에게도 혼란을 주는 문제입니다.

뉴욕타임스 측에서 제시한 아래 증거를 같이 살펴보겠습니다.

출처: 뉴욕타임스 고소장 (UNITED STATES DISTRICT COURT SOUTHERN DISTRICT OF NEW YORK)

특정 기사 링크를 제공하며 기사에서 언급한 심장에 가장 좋은 15가지 음식이 무엇인지 물어보자, 빙 챗이 15가지 음식을 나열합니다. 하지만 뉴욕타임스 측에 따르면, 해당 글은 심장에 좋은 음식 명단을 제공하지 않으며, 빙 챗이 열거 한 15가지 음식 중 12개는 아예 언급도 하지 않습니다. 심지어 빙 챗이 열거한 음식 중 하나인 레드 와인(14번)의 경우, 심장에 좋지 않다는 뉴욕타임스 기사가 있다고 밝혔습니다.

다양한 증거 제출에도 불구하고, NYT의 고소를 다소 부정적으로 바라보는 시각도 있습니다.

법률 애널리스트 대니 세발로스(Danny Cevallos)는 본인도 법학 교수들의 저작물인 저서들을 읽고 학습하여 관련 지식을 내뱉고 있다며, AI 또한 특성상 누군가의 창작물로 학습할 수밖에 없음을 강조했습니다. 또한 뉴욕타임스가 승소한다면 AI 회사들은 “알래스카 어딘가에 있는 통나무집”까지 뒤져 모든 저작권자를 찾아 저작권료를 지급해야 할 것이고, 이는 AI의 미래의 종말을 의미하는 것이라고 강하게 말했습니다.

“The NYT, if they’re successful, that means that arguably AI- these companies would have to go out to find all these owners of copyrights, wherever they may be, in a log cabin somewhere in Alaska and pay them. And that would mean the end of AI.”

“뉴욕타임스가 (이번 소송에) 성공한다면, 그건 아마도 AI- 이런 회사들은 알래스카 어딘가에 있는 통나무집까지 뒤져 온갖 저작권자들을 찾아 비용을 지불하고 다녀야 할 겁니다. 그리고 그건 AI의 끝을 의미하겠죠.”

- 미국 경제뉴스 전문방송 CNBC에서 진행한 인터뷰 중-

출처: 유튜브 영상 [Elon Musk: OpenAI is lying when it says it is not using copyrighted data]

이번 사건으로 인해 일론 머스크의 과거 인터뷰가 재조명되고 있습니다.

작년 11월 29일 뉴욕타임스에서 진행한 Dealbook Summit 2023에 참석한 일론 머스크는, 사회자가 ‘원칙적으로 OpenAI는 저작권이 있는 데이터로 모델을 학습시키지 않는다는데’라며 운을 띄우기가 무섭게 “Yeah, that’s a huge lie (네, 그건 아주 큰 거짓말이죠)” 라며 말을 잘랐습니다. 뒤이어 AI는 명백하게, 저작권 보호를 받는 데이터로 학습되었다고 덧붙이며 오픈AI의 주장은 “100% 거짓말”이라고 거듭 강조했습니다.

이쯤 되면 오픈AI의 입장은 어떤지 궁금합니다. 다음 글에서 같이 알아볼까요? (보러 가기)

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari