brunch

You can make anything
by writing

C.S.Lewis

by Andy Oct 24. 2024

퍼플렉시티, NYT의 저작권 분쟁

표절 뿐만 아니라, 콘텐츠의 플랫폼 종속 가속화도 문제

퍼플렉시티의 크롤러(Crawler), 내 이럴 줄 알았다!


오늘날 인공지능(AI) 기술은 검색, 추천, 콘텐츠 생성에 이르기까지 광범위한 영역에서 활용되고 있습니다. 특히, LLM(대규모 언어 모델)은 사용자 질문에 대한 답변을 자연어로 제공하면서 그 정확성과 효율성에서 큰 주목을 받고 있죠. 그러나 이러한 기술적 발전은 저작권 문제를 야기하며, 콘텐츠를 생산하는 기업들에게 심각한 도전과제를 제기하고 있습니다. 


NYT는 퍼플렉시티가 콘텐츠를 사용하는 방식이 저작권 침해라고 주장합니다. / BEATA ZAWRZEL - 게티이미지


지난 10월 21일, 뉴욕타임스와 뉴스 코퍼레이션(News Corporation)이 AI 기반 검색 엔진인 퍼플렉시티(Perplexity)를 상대로 저작권 소송을 제기한 사건은 이 문제가 단순한 콘텐츠 도둑질 논쟁을 넘어 여러 방향으로, 문제가 확장되고 있음을 보여줍니다. 뉴스 코퍼레이션의 자회사인 다우존스(월스트리트 저널의 모회사)와 NYP 홀딩스가 저작권 및 상표권 침해로 제기한 이 소송은 퍼플렉시티가 'robots.txt'로 크롤링이 거부된 사이트는 스크랩을 더 이상 하지 않겠다는 약속을 지키지 않고 있다는 것을 주장하죠. 퍼플렉시티의 CEO인 아라빈드 스리니바스(Aravind Srinivas)는 그런 혐의를 부인하면서, 모든 언론사와 협력하는데 관심을 가지고 있다는 입장을 내놨습니다. 특히, 광고를 AI 생성 답변에 넣으면서, 그 수익을 공유할 것이라고 발표하기도 했죠. 


실제로 퍼플렉시티의 크롤러는 매우 강력하고, 저도 사용하면서 이렇게까지 만들면 나중에 커다란 분쟁이 나오지 않을까 심히 염려스러웠습니다. 특히, API를 통해 데이터와 콘텐츠를 판매하는 블룸버그와 같은 기업들은 크롤러 접근을 DDoS 공격만큼이나 심각한 침해로 인식하고 있기도 하고 말이죠. 미국 시장에서 퍼플렉시티는 할루시네이션도 적고, 꽤나 정확한 자료로 리포트나 논문 작성에 큰 도움이 된다는 평가를 받고 있는 것은 이 불법적인(?) 크롤러 때문이기도 하다는게 제 생각입니다. 


이미 와이어드(WIRED)와 포브스(Forbes)는 퍼플렉시티의 크롤링에 대한 내부 검증을 마치고 표절 혐의 고발을 이미 해놓은 상태입니다. 퍼플렉시티의 비즈니스 책임자인 드미트리 셰벨렌코(Dmitry Shevelenko)는 "크롤링이라는 것은 특정 URL에서 정보를 다 빨아들여서는 색인에 추가하는 것"이며 자사가 제공하는 URL 요약 기능은 다른 기능이라는 관점을 내놓기도 했죠. (내가 잘못알아 들은건지 모르지만, 그것도 문제는 맞는거 같아! 드미트리!) 



LLM의 학습 데이터와 콘텐츠 무단 활용


LLM은 막대한 양의 텍스트 데이터를 학습하여 자연어 처리 능력을 향상시킵니다. 이 과정에서 인터넷에 공개

된 방대한 양의 텍스트 자료가 모델 학습에 사용되며, 그 안에는 당연히 저작권이 보호되는 콘텐츠도 포함될 수 있습니다. 퍼플렉시티와 같은 AI 기반 검색 엔진은 특정 질문에 대해 웹상의 다양한 자료를 참조해 요약된 답변을 생성하는 방식으로 운영되고 있죠. 이때, 뉴욕타임스(NYT)나 월스트리트 저널(WSJ)과 같은 언론사들의 콘텐츠가 허가 없이 활용된다는 것이 이번 소송의 핵심 쟁점입니다.


뉴욕타임스는 퍼플렉시티가 자사 기사를 무단으로 크롤링(crawling)해 AI 모델을 학습시켰으며, 이를 통해 생성된 요약본은 자사의 창작물에 대한 권리를 침해한다고 주장하고 있습니다. 특히, 이러한 학습 결과물이 직접적인 인용이 아닌 '간접적인 활용'이라는 점에서 문제는 더 복잡해집니다. AI 모델이 콘텐츠를 학습한 후에 생성하는 결과물은 원본과 유사할 수 있지만, 완벽히 동일하지 않을 수도 있습니다. 하지만 이는 여전히 원작자의 표현 방식을 학습한 결과이므로, 저작권 침해의 소지가 있다는 것이 언론사의 입장입니다.


즉, LLM에 기반한 저작권 침해는 'AI기반의 표절' 사건의 방향으로 흘러가고 있다는 겁니다. 실제 NYT의 기사들은 단어의 선택, 문법과 표현에 있어 수많은 인적 자원을 투입하여 정제된 좋은 글들이 많죠. 그래서, 뉴욕타임즈는 수십억 달러의 손해를 입고 있다고 주장하는거죠. 


그런 면에서 OpenAI는 뉴욕타임즈와의 비슷한 소송에서 'NYT의 저작권 주장이 타당한지, NYT의 지적재산권 자중이 기술적으로 맞는 말인지'를 초점에 맞추고 있고, 다른 회사들은 공공의 이익을 위한 공정 사용(Fair Use)를 주장하고 있기도 한데요. 정작 중요한 건, 저작권 사용료를 내라는 것 따위가 아닐수도 있습니다. 



플랫폼 종속의 문제: 콘텐츠의 통제권 상실


이번 사건에서 주목할 만한 또 다른 중요한 측면은 언론사들이 AI 기술로 인해 자사의 콘텐츠가 다른 플랫폼에 종속되는 상황에 대한 우려입니다. 퍼플렉시티와 같은 AI 플랫폼이 자사의 콘텐츠를 학습하여 사용자에게 정보를 제공하는 과정에서, 그 콘텐츠는 더 이상 언론사 자체의 플랫폼에서만 소비되지 않습니다. 이는 콘텐츠 제공자가 더 이상 자신들의 정보가 어떻게 활용되는지 통제할 수 없게 되는 상황을 초래하죠. 콘텐츠가 AI 모델의 학습 데이터로 사용되면, 그 정보는 AI 모델을 통해 다양한 경로로 재생산되고 배포되며, 그 과정에서 콘텐츠 제공자가 얻는 직접적인 이익은 감소합니다.


이 문제는 AI 기술이 콘텐츠 산업에 미치는 구조적인 변화를 시사합니다. 언론사들이 오랜 시간 공들여 생산한 콘텐츠가 다른 AI 플랫폼을 통해 재가공되고 재배포되면서, 그 콘텐츠는 다시는 원래의 플랫폼으로 돌아오지 않을 가능성이 큽니다. 이는 정보의 가치를 유지하고자 하는 언론사들에게 심각한 타격으로 작용할 수 있으며, 결국 콘텐츠 생산자는 자신이 만든 정보의 통제권을 상실하게 됩니다.


국내 언론의 탈포털 전략은 참담한 실패를 했다. / 저널리즘 온앤오프 2022 - 미디어오늘


대표적으로 우리나라의 신문사가 네이버와 다음 같은 포털에 뉴스 기사를 게재하기 시작하면서, 신문사는 수익성 악화로 고민해야 했습니다. 자사의 웹페이지 보다는 네이버에서 소비되는 뉴스 기사의 양이 월등했고, 조회수를 위해서 기사의 제목은 자극적이거나, 알맹이 없는 기사들이 속보와 단독으로 남발되었습니다. 이는 자사의 콘텐츠를 제대로 지켜내지 못하면, 저급한 수준의 기업이 되는 일이 얼마나 손쉬운가를 보여주는 대목입니다. 원가 절감을 위해 AI가 기사를 써도 '한국에서는' 충분한 수준의 글을 쓸 수 있을 것이라는 것이 이런 이유입니다. 콘텐츠 통제권을 잃은 기업은 '바지 사장'이 되어갈 뿐입니다. 



법적 대응과 기술 혁신 사이의 균형


뉴욕타임스의 이번 소송은 단순히 퍼플렉시티가 자사의 콘텐츠를 무단으로 사용한 것에 대한 대응에 그치지 않습니다. 이는 AI 기술 발전에 따른 저작권법의 한계를 시험하는 중요한 사건이기도 합니다. 특히, AI 기술이 점점 더 많은 데이터를 학습하는 방식으로 발전함에 따라, 저작권 보호와 기술 혁신 사이의 균형을 맞추는 것이 핵심 과제가 될 것입니다.


LLM과 같은 AI 모델이 공정 이용(fair use) 원칙에 따라 데이터를 활용할 수 있다는 주장이 있지만, 이러한 원칙이 저작권자의 권리를 충분히 보호하지 못할 가능성도 존재합니다. 이는 단순한 콘텐츠 사용을 넘어, 콘텐츠의 소유권과 그 통제력에 대한 근본적인 질문을 제기합니다. AI가 콘텐츠를 학습하는 방식 자체가 콘텐츠 제공자에게 장기적으로 불리한 구조를 만들 수 있기 때문에, 저작권 보호에 대한 재논의가 필요합니다.


LLM이 어떤 콘텐츠를 만들 때, 저작자의 콘텐츠를 얼마나 활용했는지에 대한 지분을 정확히 알려주는 플랫폼이 등장한다면 모를까, 이 논쟁은 아마 끝이 나지 않을 것처럼 보입니다. 그런 면에서 Explainable AI의 명쾌한 설명이 필요한 것도 이런 이유입니다. 광고나 수익에 대해 저작자와 나누는 방식을 비즈니스 모델로 다들 이야기 하지만, 얼마만큼을 누구에게 주어야 할 지 제대로 설명하는 기업은 아직 없죠. 


무언가를 얼마나 넣었는지, 그걸 알아야 저작권료를 받을 수 있을 것 가인가? / 나무위키 



콘텐츠 통제권을 위한 저작권 강화


결국, 이번 소송은 AI 기술이 콘텐츠 산업에 미치는 영향과 그에 따른 저작권 문제를 명확히 드러내고 있습니다. 언론사와 같은 콘텐츠 생산자는 자신의 콘텐츠가 직접적으로 무단 인용되는 문제뿐만 아니라, AI 모델에 학습되어 간접적으로 활용되는 점도 심각한 문제로 인식하고 있습니다. 이는 콘텐츠가 원래의 플랫폼이 아닌 다른 플랫폼이나 서비스에 종속되며, 그 이후에는 더 이상 콘텐츠 제공자가 이를 통제할 수 없게 된다는 불안감을 반영하고 있죠. 


앞으로 AI 기술이 더욱 발전하면서 콘텐츠 통제권에 대한 논의는 더욱 중요해질 것입니다. AI 기술의 혁신을 저해하지 않으면서도, 창작자의 권리를 보호할 수 있는 법적, 윤리적 체계를 구축하는 것이 시급합니다. 그렇지 않으면 콘텐츠 제공자들은 자신의 정보를 AI 플랫폼에 종속시키는 상황에 놓이게 될 것이며, 그로 인해 장기적인 손실을 입게 될 것입니다. 아마, 우리나라는 네이버에 종속되는 수준을 넘어서, 수많은 저작자들이 AI에 일거리를 순식간에 빼앗길 수도 있죠. 저는 지금이 아니면 너무 늦을 수도 있다고, 기자분들에게 꼭 이야길 하고 싶네요. 


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari