brunch

You can make anything
by writing

C.S.Lewis

by 정중규 Jul 23. 2023

어이, 인공지능! 내 콘텐츠 그만 갖다 써!

alookso / 뉴욕타임스

이, 인공지능! 내 콘텐츠 그만 갖다 써! / 뉴욕타임스 쉬라 프렌클(Sheera Frenkel), 스튜어트 톰슨(Stuart A. Thompson)


인공지능 기업이 온라인 콘텐츠를 무단으로 사용하는 관행에 팬픽 작가, 배우, 소셜미디어 기업, 뉴스 매체 등이 저항하는 움직임이 나타나고 있다. 

킷 로프슈타트(42)는 20년 넘는 경력의 팬픽 작가다. ‘스타워즈’의 영웅들과 ‘뱀파이어 해결사’의 악당들이 평행세계를 탐험하는 내용의 소설을 온라인에 무료로 공유해 왔다.


그런데 지난 5월 그녀는 온라인에 글을 올리는 걸 중단했다. 데이터 기업이 그녀의 이야기를 복사해 챗GPT의 기반이 되는 인공지능에 그대로 제공했다는 걸 알게 됐기 때문이다. 그녀는 경악했고 자신의 창작물이 저장되어 있는 계정을 폐쇄했다.


지난달에는 반(anti)-인공지능 시스템 활동을 조직하는 데에도 참여했다. 다른 팬픽 작가 수십과 함께 불온한 내용의 글을 온라인에 대거 게시한 것이다. 작가들의 작품을 인공지능에 입력하는 데이터 수집 서비스를 교란하고 부담을 가하기 위한 목적이었다.


영국 사우스요크셔에서 성우로도 활동하는 로프슈타트는 “우리 각자가 할 수 있는 모든 것을 다해서 우리의 창작물은 멋대로 기계가 수확할 수 있는 대상이 아니라는 걸 보여줘야 한다”고 말했다.


실리콘밸리와 전 세계가 인공지능 기술에 열광하는 흐름과 비교하면 인공지능 시스템에 반발하는 팬픽 작가들의 움직임은 미미한 수준에 불과하다. 그러나 최근 몇 달 사이 레딧과 트위터를 비롯한 소셜미디어 기업, 뉴욕타임스와 NBC뉴스 같은 뉴스 매체, 폴 트렘플레이 같은 작가와 세라 실버먼 같은 배우 또한 인공지능이 동의 없이 데이터를 수집하는 것에 반대하는 입장을 표명했다.


이들은 다양한 방식으로 반발하고 있다. 작가와 예술가는 창작물을 보호하기 위해 문을 걸어 잠그거나 인공지능이 생성한 게시물을 게재한 특정 웹사이트를 보이콧한다. 레딧 같은 기업은 데이터 접근에 대한 비용을 청구하려고 한다. 올해에만 최소 10건의 관련 소송이 제기되었다. 인공지능 기업이 창작자의 작품을 AI 시스템 학습에 무단으로 사용했다는 혐의다. 지난주에는 세라 실버먼과 다른 두 작가 크리스토퍼 골든, 리처드 카드레이가 인공지능의 저작물 사용 문제로 챗GPT 제작사인 오픈AI를 비롯한 여러 기업에 소송을 제기했다.

이러한 반발의 핵심에는 이야기, 예술 작품, 뉴스 기사, 게시물, 사진 같은 온라인상의 정보에 미처 개발되지 않은 큰 가치가 잠재되어 있다는 새로운 인식이 자리하고 있다.


이른바 ‘생성형 인공지능’은 텍스트, 이미지, 여타 콘텐츠를 생성할 수 있다. 이러한 AI의 새 물결은 대규모 언어 모델(LLM) 같은 복잡한 시스템 위에서 구축되며 사람이 쓴 것 같은 산문을 만들 수 있다. 이런 언어 모델은 갖가지 데이터를 모조리 학습함으로써 인간의 질문에 답하거나 문체를 모방하거나 희극과 시를 대량 생산할 수 있는 것이다.


이런 이유로 IT 기업들은 인공지능 시스템을 위한 더 많은 데이터를 얻기 위해 정보 사냥에 나섰다. 구글, 메타, 오픈AI는 대규모 팬픽 데이터베이스, 뉴스 기사, 도서를 막론하고 인터넷에 있는 모든 정보를 활용했다. 이들 대부분이 무료로 이용 가능했기 때문이다. IT 업계에서는 이를 인터넷 ‘스크래핑(scraping, 특정 페이지의 데이터 자동 추출)’이라고 부른다.


오픈AI가 2020년 출시한 인공지능 시스템 GPT-3는 5000억 개의 ‘토큰’을 사용한다. 토큰은 대부분 온라인에서 수집한 개별 낱말을 일컫는다. 1조 개가 넘는 토큰을 아우르는 인공지능 모델도 있다. 인터넷 스크래핑 관행은 오랫동안 지속되어 왔으며 스크래핑을 한 기업이나 비영리 단체는 대부분 그 사실을 공개했다. 그런데 데이터를 소유한 기업들은 이를 충분히 이해하지 못했거나 특별히 문제가 있다고 보지 않았다. 그러나 지난해 11월 챗GPT가 등장하며 대중이 챗봇을 구동하는 인공지능 모델을 보다 잘 알게 되면서 상황이 바뀌었다.


인공지능 기업 노믹의 창립자인 브랜든 두더스타트 CEO는 “지금 일어나는 현상은 데이터 가치를 근본적으로 재조정하는 것”이라고 말했다. “이전에는 데이터를 모두에게 공개하고 광고를 게재함으로써 가치를 획득하는 것으로 생각했다. 그러나 이제는 데이터를 인공지능에 입력해 더 큰 가치를 뽑아낼 수 있다고 보기 때문에 데이터를 꼭꼭 걸어 잠가야 한다고 생각한다.”


그런데 데이터를 둘러싼 저항은 장기적으로 별다른 효과를 거두지 못할 수도 있다. 구글과 마이크로소프트 같은 충분한 자금력을 갖춘 거대 IT기업은 이미 산더미 같은 정보를 독점하고 있는 데다 권한을 더 취득할 수 있는 자원도 보유하고 있다. 손쉽게 콘텐츠 스크래핑이 가능한 시대가 끝나면 대형 IT 기업과 경쟁하고자 했던 소규모 신흥 인공지능 기업과 비영리 단체는 시스템 훈련을 위한 콘텐츠를 확보하기 힘들어질 수도 있다.


오픈AI는 성명을 통해 챗GPT는 “라이선스 계약을 체결한 콘텐츠, 누구나 이용 가능한 콘텐츠, 인간 인공지능 트레이너가 만든 콘텐츠로 학습했다”고 밝혔다. 또 “우리는 저작자의 권리를 존중하며 그들의 이익을 보호하기 위한 협력이 지속되기를 기대한다”고 덧붙였다.


구글도 성명을 통해 저작자의 향후 콘텐츠 관리에 관한 논의에 참여하고 있다며 “우리는 활기 넘치는 콘텐츠 생태계에서 모두가 혜택을 입는다고 믿는다”고 밝혔다. 마이크로소프트는 논평 요청에 응답하지 않았다.


데이터를 둘러싼 이런 반발은 작년 챗GPT가 전 세계적인 열풍을 일으키면서 터져 나왔다. 지난해 11월 한 프로그래머 팀은 마이크로소프트와 오픈AI를 상대로 집단 소송을 제기했다. 이들은 인공지능으로 구동하는 프로그래밍 어시스턴트 훈련에 자신들의 코드가 사용되어 저작권을 침해 당했다고 주장했다.


지난 1월 이미지와 영상을 제공하는 업체인 게티이미지는 텍스트를 입력해서 이미지를 생성하는 인공지능 기업 스태빌리티AI에 소송을 제기했다. 저작권이 있는 자사의 사진을 인공지능 학습에 사용했다는 이유다.


그리고 6월에는 로스앤젤레스의 로펌인 클락슨이 오픈AI와 마이크로소프트를 상대로 151쪽 분량의 집단 소송을 제기했다. 오픈AI가 미성년자의 데이터를 수집한 방법을 상세히 설명하면서 웹 스크래핑은 저작권법 위반으로 “절도”에 해당한다고 말했다. 지난주에는 구글을 상대로 유사한 내용의 소송을 제기했다.


클락슨의 설립자인 라이언 클락슨은 “미국 전역에서 발생하는 이러한 데이터 저항 사태는 출처에 상관없이 정보를 모조리 쓸어서 자신의 것으로 만드는 빅테크 기업의 생각에 대한 사회적인 반발”이라고 말했다.

산타클라라대학교 법학과의 에릭 골드먼 교수는 소송으로 제기한 주장이 광범위해서 법원이 받아들일 가능성은 낮다고 봤다. 그러나 소송이라는 봇물은 이제 시작이며 다가올 “두 번째와 세 번째 물결”로 향후 인공지능의 미래를 가늠할 수 있을 것이라고 말했다.


대기업도 인공지능 스크래핑에 반발하기는 마찬가지다. 지난 4월 레딧은 제3자가 SNS의 방대한 개인 간 대화 데이터베이스를 분석하고 다운로드할 때 쓰는 서드파티 앱 API(application programming interface)의 유료화 계획을 발표했다.


당시 스티브 허프먼 레딧 CEO는 레딧이 “세계 최대 기업 몇몇에 가치 있는 모든 것을 무료로 제공할 필요는 없다”고 말했다.

같은 달 개발자들이 프로그래밍 질의응답을 주고받는 사이트 스택오버플로도 인공지능 기업들에 데이터 비용을 청구할 것이라고 밝혔다. 이 사이트에는 약 6000만 개에 달하는 질문과 답변이 축적되어 있다. 이런 움직임은 앞서 IT 전문 매체인 와이어드가 보도한 바 있다.


뉴스 매체도 인공지능 시스템에 반발하는 기류에 가세했다. 지난 6월 뉴욕타임스는 생성형 인공지능 사용에 관한 내부 문서에서 인공지능 기업들이 “지적 재산권을 존중”해야 한다고 언급했다. 뉴욕타임스 대변인은 구체적인 답변을 거부했다.


예술가와 작가 개개인이 인공지능 시스템에 맞서려면 창작물을 발표하는 플랫폼에 대해 재고할 수밖에 없다.


니콜라스 콜(35)은 브리티시컬럼비아주 밴쿠버에서 일러스트레이터로 활동한다. 인공지능이 자신의 뚜렷한 예술 세계도 복제할 수 있다는 사실에 덜컥 겁이 난 그는 자신의 작품도 스크래핑 됐을지 모른다고 의심했다. 그는 고객 유치를 위해 인스타그램, 트위터를 비롯한 소셜미디어 사이트에는 계속 작품을 계속 게시할 예정이다. 하지만 아트스테이션처럼 인간이 만든 콘컨텐츠와 인공지능이 생성한 콘텐츠를 같이 게재하는 사이트에는 작품 게시를 중단했다.


그는 “나를 포함한 예술가들은 정당한 이유 없이 고의적으로 날치기 당한 기분”이라고 말했다. “가슴속에 실존적 두려움이 자리하고 있다.”


작가들은 최소 1100만 편 이상의 작품을 보유한 팬픽션 데이터베이스 사이트 AO3(Archive of Our Own)에 데이터 스크래핑과 인공지능이 생성한 글을 금지하라며 점차 강하게 압박하고 있다.


지난 5월 챗GPT가 AO3에 게시된 인기 팬픽의 스타일을 모방한 사례가 몇몇 트위터 계정에 공유하자 수십 명의 작가가 들고일어났다. 이들은 자신의 작품 공유를 차단하고 인공지능 스크래핑을 교란할 만한 파괴적인 내용의 콘텐츠를 올렸다. 또, AO3 운영진에게 인공지능이 생성한 콘텐츠를 허용하지 말 것을 강하게 요구했다.


AO3에 법률 자문을 하는 털사대학교 법학과의 뱃시 로젠블랫 교수는 AO3는 “최대한의 포용성”을 정책으로 하기에 어떤 글을 인공지능이 생성했는지 감별하는 위치에 서기를 원치 않는다고 말했다.


팬픽 작가인 로프슈타트와 인공지능의 싸움은 ‘호라이즌 제로 던’이라는 비디오 게임에 관한 이야기를 쓰는 중에 시작됐다. 이 게임은 종말 이후의 세계에서 인간이 인공지능 로봇과 대결하는 내용이다. 그녀는 게임에서 어떤 로봇은 선하고 어떤 로봇은 악하다고 말했다.


그러나 현실 세계에서는 “오만함과 기업의 탐욕이 로봇에게 악한 일을 하도록 부추기며 망치고 있다”고 말했다.


-----------------------------

https://alook.so/posts/70tmOaG?utm_source=user-share_mJt15VQ


저자 쉬라 프렌클(Sheera Frenkel) / 샌프란시스코에서 활동하며 수상 경력이 있는 IT 전문 기자다.


저자 스튜어트 톰슨(Stuart A. Thompson) / 온라인 정보 흐름을 보도하는 IT 기술 담당 기자다.


번역 윤지선 / 이화여대에서 생물학을 공부했다. 번역 작업을 하고 있다.


저작권 안내 © 2023 The New York Times. All rights reserved.


alookso가 뉴욕타임스와 제휴 라이선스 계약을 맺고 번역했습니다. 뉴욕타임스 홈페이지에서도  영문 원본 아티클을 읽을 수 있습니다.


매주 5회, 뉴욕타임스의 보도 기사와 칼럼을 번역해 소개합니다. * 이 계정은 alookso에서 운영합니다.

작가의 이전글 공영방송사 비리, 늑장-봐주기 수사 규탄집회 / 정중규
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari