AI 기업과 언론사의 이번 저작권 이슈는 중요한 사례가 될 것입니다
뉴욕타임스(The New York Times)가 오픈 AI(Open AI) 측에 저작권 침해를 이유로 소송을 제기한 바 있다. '챗GPT에 무단으로 사용되었다(달리 말하면 챗GPT가 무단으로 사용했다)'라는 것이 골자다. 뉴욕타임스가 제기한 소송 문서가 관계자들 사이에서 원문 그대로 공유되기도 했었는데 그 안에 적힌 내용도 장황해 60페이지를 훌쩍 넘기는 하나의 기록물이 되었다. 어떻게 입수했는지 알 수도 없고 어쩌면 굳이 알 필요도 없을 테지만 소송 문서에 담긴 내용들이 국내외 주요 미디어에 끼칠 수 있는 영향이 어쩌면 실로 대단할 수도 있겠다 싶다. 그것이 긍정이든 부정이든 궁극적으로 (빅테크와 미디어에) 굉장한 레퍼런스가 될 수도 있기 때문이다. "우리도 저작권 침해를 당했으니 잘 나가는 AI 기업에 소송 좀 걸어봐야지" 혹은 "우리도 잘 나가는 언론사가 소송 걸기 전에 대응 준비를 해봐야지" 같은 단순한 느낌은 아니다. 또 그리 단순하지도 않다. 뭐 어쨌든 글로벌 시장에서 가장 굵직한 빅테크와 미디어의 대결인지라 관전의 묘미가 있다.
오픈 AI의 변명일지 모르겠지만 전 세계 수많은 사람들 혹은 기업들이 오픈 AI 자신들의 테크놀로지를 사용하여 일상생활 자체를 개선하고 있다고 했다. 또한 지구상 수많은 개발자는 물론, 500대 포츈(Fortune) 기업 중 무려 92%나 되는 기업이 오픈 AI 기술을 기반으로 불특정 다수의 서비스 개발을 진행 중이라는 이야기를 자사 블로그 입장문 인트로에 딱 붙여뒀다. 그러니까 자사의 인공지능 기술이 이미 세상을 바꾸고 있다는 것이다. 그리고 4가지 꼭지를 들어 자신들이 하고 싶은 말을 했다. 변명일 수도 있고 핑계일 수도 있지만 뉴욕타임스를 향한 반박문이면서 해명글이자 오픈 AI가 생각하는 온전히 오픈 AI 입장에서의 '팩트'다. "뉴욕타임스 주장에 동의하지 않지만(동의할 수도 없겠지만)" 이러한 이슈가 오픈 AI의 향후 비즈니스와 오픈 AI가 실행하고자 하는 의도, 올바른 테크놀로지 구축을 위한 방법을 보다 명확하게 할 수 있는 계기로 삼을 것이라고 했다. 자세한 내용은 아래와 같다. (오픈 AI 블로그에 올라온 입장문을 일부는 원문 번역했고 기사화 된 이야기를 조금 다듬어 덧붙이기도 했습니다. 아래 개인적 의견도 함께 붙입니다)
1. 우리는 언론사와 협력하고 있고 새로운 기회를 창출하고 있습니다(We collaborate with news organizations and are creating new opportunities)
오픈 AI는 뉴스나 미디어 연합과 같은 관련 업계뿐 아니라 수많은 곳들과 접촉하면서 다양한 기회를 모색했고 충분히 우려되는 사안에 대해서도 깊게 논의하며 솔루션을 제공해 왔습니다. 오픈 AI의 목표는 건전한 뉴스 생태계를 지원하고 상호 협력과 이익이 될 수 있는 기회를 창출하는 등 긍정적 의미의 파트너십을 구축하고자 합니다. 방대한 양의 공공 기록물 분석이라던가 기사 번역과 같이 오랜 시간을 소요해야 하는 작업을 지원하고 있고 기자나 편집자들에 베네핏을 주기 위한 서비스를 제공합니다. 또한 공개되지 않은 역사 콘텐츠 학습을 통해 세상에 알 수 있도록 훈련시키고 있습니다. 실시간 콘텐츠를 표시하도록 하여 뉴스 게시자와 독자를 연결할 수 있는 새로운 창구를 제공하고 있습니다. AP, 독일의 악셀 스프링거(Axel Springer), 비영리이면서 지역 뉴스에 특화된 벤처 '아메리칸 저널리즘 프로젝트(American Jouranlism Project), 뉴욕대학교(NYU)와의 초기 파트너십을 통해 오픈 AI가 하고자 하는 접근 방식을 들여다볼 수 있을 것입니다. 아메리칸 저널리즘 프로젝트에는 약 500만 달러 상당의 API 크레디트를 제공했고 뉴욕대학교에는 약 40만 달러의 보조금 등을 지원하면서 저널리즘 이니셔티브를 신설하기도 했습니다.
2. (AI) 학습에 활용하는 것은 공정한 이용이기도 하고 옳은 일이기에 선택 가능한 옵션을 제공했습니다(Training is fair use, but we provide an opt-out because it’s the right thing to do)
개방된 온라인 공간에서 구할 수 있는 인터넷상 자료를 활용하여 인공지능 모델을 학습시키는 것은 '공정이용'에 해당할 수 있고 이는 오랫동안 널리 인정된 판례에 의해 뒷받침이 되고 있습니다. 그러니 AI 학습에 활용하는 것은 공정한 이용이라 할 수 있습니다. 이러한 원칙은 창작자들에겐 공정하게, (미국의) 선도기업들에게는 필수적이며 미국의 경쟁력을 높이는데 매우 중요한 부분입니다. 유럽 연합, 일본, 싱가포르, 이스라엘을 포함한 다른 지역이나 국가에서도 저작권 콘텐츠에 대한 학습을 허용한다는 법률이 있는데 이는 인공지능 혁신과 발전, 투자 등에 매우 긍정적으로 작용할 수 있습니다. 더불어 언론사들에게 콘텐츠 학습 가능 여부를 선택할 수 있도록 opt-out 기능을 주었으므로 전혀 문제가 없습니다. 오픈 AI는 퍼블리셔를 위해 아주 심플한 옵트아웃 프로세스를 제공했습니다. 이는 챗GPT 사이트의 GPT Bot을 참고하면 됩니다. GPT Bot이 사이트에 액세스 하는 것을 허용하지 않으려면 'robots.txt'에 GPT Bot을 추가하면 됩니다. 2023년 8월 뉴욕타임스는 퍼블리셔 사이트에 액세스 하지 못하도록 옵트아웃 프로세스를 채택하기도 했습니다. GPT Bot은 오픈 AI의 웹 크롤러입니다.
3. '역류'라고 하는 이슈를 제로로 만들기 위해 노력하고 있지만 보기 드문 이례적 사례일 뿐입니다(“Regurgitation” is a rare bug that we are working to drive to zero)
콘텐츠 자체를 그대로 암기하여 되풀이하는 memorizaion은 굉장히 드물게 나타나는 오류입니다. 학습 데이터에 특정 콘텐츠가 두 번 이상 나타나는 경우(사례 : 공개되어 있는 여러 웹사이트에 해당 콘텐츠의 일부가 나타나는 경우)가 더 흔합니다. 의도하지 않은 암기를 제한하고 AI 모델 출력에서 일어나는 '역류'를 방지하기 위한 조치가 마련되어 있습니다. 또한 사용자가 책임감 있게 행동해야 합니다. 의도적으로 모델을 조작하여 역류를 일으키는 것은 적절한 기술 활용이 아닐뿐더러 사용 약관에도 위배되는 행동입니다.
인간은 새롭게 닥친 문제를 해결하기 위해 폭넓은 교육을 받습니다. 오픈 AI는 인공지능 모델이 모든 언어와 문화, 산업을 포함하여 전 세계 다양한 정보를 관찰하기를 바라고 있습니다. 인공지능 모델은 생각보다 더욱 방대한 인간 지식의 집합체로부터 학습합니다. 뉴스를 포함한 어느 특정 분야의 경우 전체 학습 데이터의 아주 작은 조각에 불과합니다. 뉴욕타임스를 포함하여 어떤 단일 데이터 소스도 인공지능 모델의 계획된 학습에 그리 의미가 있지는 않습니다.
4. 뉴욕타임스는 전체 내용을 전하지 않고 있습니다(The New York Times is not telling the full story)
뉴욕타임스와 논의한 것은 지난 12월 19일입니다. 나름 건설적인 커뮤니케이션이었습니다. 협상은 챗GPT의 속성값이 포함된 실시간 디스플레이를 중심으로 한 고부가가치 파트너십에 초점을 맞췄습니다. 이를 통해 뉴욕타임스는 기존 독자 그리고 신규 독자와 소통 가능한 방법을 확보하였고 오픈 AI 유저들은 보도에 접근할 수 있게 되었습니다. 었습니다. 오픈 AI는 다른 단일 소스와 마찬가지로 뉴욕타임스의 콘텐츠가 기존 모델 학습에 의미 있는 기여를 하진 못했습니다. 향후 학습에도 충분한 영향을 미치지 못할 것입니다. 지난 12월 27일 뉴욕타임스를 통해서 접하게 된 소송 제기는 그저 놀라움 그리고 실망감으로 다가왔습니다.
뉴욕타임스는 일부 콘텐츠가 '역류'하는 현상을 경험했다고 했습니다. 문제를 해결하기 위해 해당 케이스를 공유해 달라고 했지만 거듭 거부해 왔습니다.
재미있는 것은 뉴욕타임스가 언급한 역류 사례는 수년 전 제3의 웹사이트에 퍼져있는 기사에서 나온 것으로 보입니다. 애초에 모델 자체가 역류할 수 있도록 장황한 기사 발췌문을 포함하는 등 의도적으로 명령어를 조작한 것으로 보입니다. 이러한 프롬프트를 사용하게 되면 뉴욕타임스가 의도한 대로 매번 반응하지 않을 텐데 어쩌면 역류가 일어날 수 있도록 명령어 조작을 한 것과 더불어 여러 차례의 시도 중에서도 역류에 해당하는 부분만을 일부러 선별했을 수 있습니다. 오픈 AI는 학습데이터 역류 시도에 대해 시스템을 강화하고 있고 최신 모델에서도 보다 성능을 강화하고 있습니다.
뉴욕타임스의 소송은 실익도 없거니와 무의미하다고 생각합니다. 그럼에도 불구하고 뉴욕타임스와 건설적인 파트너십을 희망합니다. 60여 년 전 신경망 작동에 대해 최초로 보도하고 수정헌법 제1조 언론 및 출판의 자유를 옹호하는 등 오랜 역사를 가진 뉴욕타임스의 업적을 존중하며 여전히 건설적인 파트너십을 희망하고 있습니다. 앞으로도 언론사와의 지속적 협력을 통해 인공지능의 혁신적인 잠재력을 실현함으로써 양질의 저널리즘을 생산할 수 있는 능력을 향상시킬 수 있기를 기대합니다.
이처럼 오픈 AI와 뉴욕타임스는 서로 대립하고 있다. 오픈 AI 반박문에서 나타난 것처럼 공정한 이용인지 아닌지, 제로베이스로 만들려는 역류에 관한 크리티컬 한 이슈 등은 쟁점이 되기에 충분해 보인다. 더불어 언론사가 쏟아내는 콘텐츠가 인공지능 학습에 일부는 무분별하게 쓰이고 있고 작게는 개별적으로 협상이 이루어져 본 계약으로 진행되기도 한다. 결국 인공지능을 다루는 빅테크나 중소기업, 스타트업 그리고 언론사 간의 협약은 명확하게 정해진 것조차 없다는 셈이다. AI 산업계는 물론 저작권을 가진 미디어가 서로 상생할 수 있도록 제도 개선이 필요한 시점이 아닐 수 없다. 서로가 다른 의미의 '고퀄리티'를 원하고 있음에도 서로가 서로를 밀어내는 모양새가 테크놀로지와 저널리즘 성장을 방해하는 '동상이몽' 같아 한편으론 아쉽다.
※ 오픈 AI 블로그에 올라온 게시글을 참고하여 작성했습니다. 실제 원문의 내용과 약간의 차이가 있을 수 있습니다만 이를 왜곡하거나 의도적으로 수정하진 않았습니다. 더불어 오픈 AI와 뉴욕타임스 그 어느 쪽을 특별히 옹호하려는 의도는 없으니 있는 그대로 참고해 주시면 감사하겠습니다.
https://openai.com/blog/openai-and-journalism