ChatGPT가 발표된 이후 세상은 대규모 언어모델(LLM) 기반의 인공지능(AI) 시대로 급격히 빨려 들어가고 있다. 저명한 컴퓨터 과학자인 레이 커즈와일이 주장했던 특이점이 벌써 온 것은 아닌가 하는 생각이 들 정도이다. AI의 급속한 발전은 기술적인 것 외에도 많은 파생되는 이슈들을 낳았는데 그중 하나가 저작권 문제이다.
벌써 국내외 AI 개발사들이 소송에 휘말리기도 했는데 이러다 보니 초기에 이문제를 심각하게 보지 않던 업계 분위기도 바뀌어 이제는 저작권이 화두로 떠오르고 있다. 하지만 2026년 시행 예정인 AI 기본법에는 관련 내용이 빠져있는 상태이다. 그래서 AI과 관련된 저작권 문제들과 해결책을 미리 살펴볼 필요가 있다.
우선 AI 시대의 저작권 관련하여 이미 문제가 되고 있는 것이 AI 학습에 사용되는 데이터이다. 거대언어 모델에 기반한 AI 엔진은 방대한 데이터를 학습해야 하는데 이 데이터를 무상으로 써서는 안 된다는 것이다. 저작권 법상 타인의 창작물을 무단으로 영리를 위해 가져다 쓰는 것은 저작권 위반에 해당된다.
애플 같은 경우 뉴스 기사들을 데이터로 쓰면서 5000만 달러를 지급한다는 보도가 있었고 다른 대형 업체들도 속속 비용 지불 계약을 맺고 있다. 하지만 이런 대형 업체들도 이미 초창기 학습에 들어간 데이터에 대해서는 별다른 답이 없고 우후 죽순 격으로 발표되고 있는 신생 AI 엔진의 개발사들은 학습용 데이터의 출처조차 밝히지 않고 있는 것이 현실이다.
개발사가 밝히지 않으면 학습 데이터의 출처를 알기 힘들고, 안다고 해도 수사를 해서 법적으로 배상을 받아내는 것은 쉽지 않다. 법은 증거를 가지고 말해야 하므로 학습데이터가 어디서 왔는지 입증을 해내야 한다. 그런데 이 입증의 책임은 결국 주장하는 쪽에 있을 수밖에 없어서 그 복잡한 시스템 속에서 데이터가 어떻게 움직이는지 외부인이 일일이 파악하기가 사실상 불가능하다. 어떤 AI 모델은 계산과정이나 결과가 나온 이유를 알려주는 기능이 있기도 하지만 그런 선의에 기대할 수는 없다.
그런 가운데 대형 개발사들은 학습용 데이터를 구매함과 동시에 자사의 플랫폼 데이터를 활용하는 방식을 추구하고 있다. 테슬라는 X(구 트위터)를 가지고 있고 구글은 유튜브, 메타는 페이스북, 애플은 사용자의 휴대폰에서 데이터를 쓸 수 있다.
그동안엔 이런 것에 대해 달리 규제가 없었는데 여기에 대해서도 기준이 필요하다. 이런 데이터들은 모두 창작자에게 저작권이 있기 때문이다. 저작권은 신고할 필요 없이 창작과 동시에 발생하는 것이라 플랫폼에 창작물을 올린 사람은 누구든지 권리가 있다. 이 경우 창작자에게 AI 학습에 대한 거부권과, 승낙 시 거기에 따르는 보상이 주요 쟁점이 될 것이다.
두 번째로 예상되는 문제점은 AI 결과물이 인간의 창작물을 기반으로 했을 경우 과연 저작권 관점에서 어떻게 봐야 하는가이다. 대표적인 것이 2025년 전 세계를 열광하게 만든 ChatGPT의 지브리풍 이미지 생성이다. 이 서비스는 평범한 사진을 입력하면 ”센과 치히로의 모험”을 제작한 일본의 애니메니션 제작사 '지브리'의 화풍으로 변환되어 출력된다.
이것을 놓고 일본의 유명 만화가들도 반발했고 상당한 논란이 일었다. 과연 화풍을 가져다 쓴 것을 저작권 침해로 볼 수 있을까? 이미 알려져 있듯이 예술가의 스타일 자체는 저작권으로 보호하지 않는다. 하지만 이것은 기존과는 다른 차원에서 악용될 소지가 있다.
예를 들어 지브리의 화풍으로 성인물을 그린다면 지브리로서는 그동안 쌓아온 이미지와 업적에 상당한 타격을 입게 된다. 터무니없는 제품에 광고용 애니메이션으로 삽입된다든가, 전혀 허락한 적 없는 방식으로 얼마든지 사용될 수 있다. 마치 나는 아무것도 하지 않았는데 내 쌍둥이가 사고를 치고 다니는 것과 같다. 이것은 금전적인 손해보다 더 큰 피해를 보는 것이고 수십 년의 역사가 한순간에 부정당하는 것이나 같다. 기업들은 저마다 아이덴티티가 있고 그것을 관리하기 위해 막대한 비용을 쓰고 엄격한 관리 지침을 가지는데 이 모든 노력이 물거품이 되는 것이다.
이에 대해 가수를 따라는 '모창'도 있는데 뭐가 문제냐고 할 수도 있는데 모창과는 다르다. 모창은 본인이 나와서 노래를 부르기 때문에 가짜라는 것을 사람들이 알 수 있고 또 흡사할 뿐 완전히 똑같지도 않다. 하지만 AI를 이용한 화풍 카피는 완벽하게 따라 하는 게 가능하고 얼마든지 찍어낼 수 있다.
게다가 모창이라고 해도 모창임을 밝히지 않고 실제 인물로 속이고 상업적 활동을 해서는 안된다. 화풍도 마찬가지라고 볼 수 있다. 이에 관련해서 아직 판례나 법적인 것이 정립되어있지는 않다. 창작자 입장에서는 한번 허락하면 무차별로 퍼져나가는 AI 서비스의 특성을 감안할 때 쉽게 허락하기 힘들다는 점과 개발 업체에 비용이 수반될 수 있다는 점이 합의점을 도출하기 어렵게 하는 변수이다.
마지막으로 볼 내용이 가장 난해한데 AI 결과물이 인간의 창작물을 표절한 경우이다. 이것은 AI가 인간의 창작물을 통해 학습하다 보니 그와 비슷한 글의 조각이나 논리적인 흐름을 결과물로 만들어 내는 것이다. 예를 들어 AI에게 소설을 써달라고 했을 때 AI는 인간처럼 아이디어를 토대로 상상하는 게 아니고 학습된 자료를 바탕으로 무작위성(Random)을 가미하여 새로운 소설을 만들어낸다. 그래서 어디서 본듯한 유사 창작물이 나올 수 있다. 유사성은 문체에서 느껴질 수도 있고 맥락에서 느껴질 수도 있다.
이것은 인간이 만들어낸 표절과는 양상이 좀 다르다. 분명히 어느 소설의 영향을 받은 것 같은데 워낙 많은 내용이 섞여 들어가다 보니 완전히 같지는 않고 표현 방식도 다르다. 사실 근본적으로 따지면 원작자의 허락이 없이 소설이 학습에 사용되는 것부터가 문제이다. 하지만 원작자가 이것을 알아챌 방법도, 막을 방법도 없다. 소설의 유통경로는 얼마든지 있고 AI는 이것을 어떤 경로를 통해서든 얻을 수 있기 때문이다.
AI의 저작권은 인정되지 않는 것으로 정부에서 발표한 적이 있다. 하지만 인세가 아닌 광고나 구독료등 다른 방식으로 수입을 올릴 방법은 얼마든지 있다. 이럴 때 원작자는 무엇을 근거로 막을 수 있을까? 애초에 표절을 입증할 수나 있을까? 우리는 이 문제에 대해서 좀 더 진지하게 봐야 한다. 가능한 방법은 창작물의 무단 학습을 최대한 차단하는 것과 AI 소설임을 미리 밝히는 것, 그리고 AI가 창작한 것인지 검증하는 기술을 개발하는 것 등이 있을 수 있다.
인류의 역사 속에서 신기술은 부작용도 항상 같이 따라왔고 인간은 그것을 하나씩 해결해 왔다. 이번 AI 문제도 이와 다르지 않을 것이다. 오히려 AI 문제를 AI로 해결할 수도 있을 것이다. 예를 들어 문화재를 감정하는 감정사가 있듯이 AI가 다른 AI의 학습과정을 추적하게 하거나 AI 결과물인지, 표절인지 감정할 수도 있다. 그리고 AI가 창작물을 만들 때 저작인격권의 성명표시권에 따라 저작자를 표시하듯이 학습출처를 표시하게 만드는 것도 방법이다.
현재 AI는 너무 빨리 발전해서 AI 기술 그 자체도 완전히 정립되지 않은 상태라 규제하는 법이 바로 다듬어지기는 어렵다. 여기에 대해서는 앞으로도 진지한 논의가 필요하고 국가적인 관심과 지원이 뒤따라야 한다. 모두가 웃으며 특이점을 맞이하기 위해서는 예상되는 AI 저작권 문제를 최대한 해결해 주는 것이 급선무이다.