인공지능의 저작권 침해에 대한 미래
저는 AI가 인간에게 미치는 영향을 탐구하기 위해서 글을 씁니다. 이 주제를 분석하면서 다소 암울한 미래가 그려졌습니다. 그러므로 저작권에 대한 부정적인 시야가 필요하지 않은 경우, 글을 읽지 않으시는 걸 추천드립니다. 여러분의 기분은 소중하니까요 :)
AI 가 창의적인 작품을 제작하는 능력이 향상됨에 따라, 인간이 만든 예술 작품과 컴퓨터가 만든 예술 작품의 구분이 더욱 모호해지면서 상황은 더 복잡해질 가능성이 높습니다.
by 세계 지식 재산권 기구 (World Intellectual Property Organization)
이 인용구는 2017년에 제시된 문제점으로 AI 가 창의적인 작품을 제작하는 능력이 향상됨에 따라, 인간과 AI의 저작물 구분이 어렵다는 점을 나타냅니다. 인간의 저작물을 지키기 위해서 저작권을 설정하는 것은 중요한 문제입니다. 그런데 AI가 새로운 것을 무수히 만들 때, 저작물은 어떻게 설정해야 할까요?
저작권에 대한 이슈는 정보사회에서 민감한 주제입니다. 창작자의 권리를 보호하기 위해서 제공하는 저작권은 데이터를 지키는 중요한 방법입니다. 오늘 이야기는 AI가 무엇을 어떻게 학습하길래 저작권 이슈가 쉽게 해결되지 않는지, 그래서 우리는 어떤 방향을 고려하는 게 적절한지 생각해보려 합니다.
지금도 저작권을 지키고 보존하는 방법이 있으며, 법과 규칙에 따라서 저작권은 보호되고 있습니다. 안정적인 사회에서는 기존 규칙대로 처리하는 것은 큰 문제가 없습니다. 그러나 사회가 바뀌고 있고 인공지능에 의해서 지적재산에 대한 소유의 경계가 허물어지고 있습니다.
2024년 현대사회에서 구성된 저작권에 대한 논의에 앞서,
과거에 문제가 되었던 저작권 이슈하나를 소개드립니다.
발명가 Gary Benson과 Arthur Tabbot은 컴퓨터에서 소수 (0.5234...)를 2진수로 표현하는 알고리즘을 개발하였고 특허를 신청하였습니다. 알고리즘은 소수를 2씩 곱해가며, 1 또는 0이 바뀌는 것을 기준으로 소수를 표현하는 기술이었습니다.
알고리즘은 다음과 같이 작동하며, 이에 대한 특허를 신청하였습니다.
소수 0.523은 다음과 같은 방식으로 이진수로 표현됩니다.
2 x 0.523 = 1.046 => 1
2 x 0.062 = 0.124 => 0
2 x 0.124 = 0.248 => 0
...
결과적으로 0.523는 100...으로 쓰일 수 있습니다.
당시에는 순수한 수학적 표현은 특허법에 따라 등록할 수 없었습니다. 특허의 기준은 기계의 존재 유무였고, 알고리즘은 기계가 존재하지 않기에 특허를 받지 못하였습니다. 이 사실에 대해서 대법원에 판결을 요구하였지만 기각되었습니다. 이 사건에 대해서 튜링 상을 받은 컴퓨터 과학자 앨런 뉴얼 (Allen Newell)은 이렇게 말합니다.
알고리즘의 특허 가능성을 이해하기 위한 현재의 모델들은 근본적으로 불충분합니다. 단순히 조금 부족한 정도가 아니라 완전히 망가졌습니다.
당시에 특허에 대한 개념은 새로운 지적재산을 충분히 반영하지 못했고, 지적재산을 규정하는 모델 자체가 잘못되었다고, 근본적으로 틀렸다고 말했습니다 (fundamentally broken!, 근본적으로 틀렸어!). 대법의 판단과는 별개로 특허를 규정하는 모델 자체가 틀렸다는 점이 주목할 부분입니다.
과거에 비추어봤을 때, 현재 우리가 규정하는 지적재산권 보호 정책이 AI 능력으로부터 올바른 판단을 내릴 수 있는지 생각하면… 대답은 "아니요"입니다. 왜냐하면 우리는 AI의 능력의 끝을 모르기 때문입니다.
인간사회는 기술의 발전에 발맞춰 필요한 법과 규칙을 만들고, 지적재산에 대한 보호 수단도 시대의 흐름에 따릅니다. 인공지능 사회에서 나타난 괴물은 인간과는 다른 방식으로 정보를 저장하고, 학습하고, 활용합니다.
과거 기술에 대한 특허 기준이 시대를 반영하지 못했던 것처럼, 지금 지적재산에 대한 규칙도 빠르게 변하는 인공지능 기술을 충분히 고려하지 못할 가능성이 있습니다.
생성형 AI는 데이터로부터 많은 것을 보고 배웁니다. 인간도 데이터로부터 보고 배우지만, 그의 학습 능력은 압도적입니다. 그가 무수히 많은 단어들을 조합하여 글을 만들어낼 수 있기에, 새롭다는 개념은 의미가 퇴색됩니다.
가장 큰 문제는 지키는 대상의 형태입니다.
"오렌지 나무는 오렌지가 열린 지 얼마나 오렌지."
이 문장의 소유권을 주장할 때, 누군가 오렌지는 사과로 바꿔서, "사과나무 아래서 사과하자."라는 문장을 만든다면, 과일에 대한 비유는 공통적이지만, 문장 자체는 다릅니다. 해당 오렌지 나무에 대한 문장은 정확히 어떤 지식에 대한 저작권일까요?
책에 대한 저작권을 이야기할 때도, 중간에 있는 문장 모두에 대해서 저작권이 생기는지, 혹은 문장이 아니라 지식 그 자체에 있는지 모호합니다. 뉴욕타임스가 2023년 크리스마스 시즌에 마이크로소프트와 오픈 AI를 대상으로 대규모 저작권 침해 소송을 진행하였습니다.
생성물이 뉴스기사를 완벽히 복제할 수 있었습니다.
그런데 만일, 중간 단어나 문장을 조금 변경하면 저작권을 침해하지 않은 걸까요?
보호하는 것은 중요하지만, 학습의 입장에서 정보들은 형체가 없으며, AI가 학습하는 것도 형체가 모호합니다. 혹여나 그가 학습하는 것을 명확하게 하여, 침해 여부를 판단하고자 하려는 시도도 AI의 높은 학습능력의 대상을 모호하게 판단하기 어렵게 만듭니다.
1. AI는 패턴을 배운다. 데이터에는 무수히 많은 패턴이 있다.
2. AI는 데이터를 보고 학습을 진행한다. 모든 데이터를 기억할 수 있다.
AI 모델은 데이터를 암기하나요?
"네"
AI 모델은 데이터로부터 패턴을 배우나요?
"네"
AI 모델은 데이터와 패턴으로부터 새로운 것을 만들어 낼 수 있나요?
"네"
AI 모델은 데이터를 지우고 패턴을 남길 수 있나요? (암기를 없애고, 특징만 남긴다)
"네"
AI 모델은 새로운 것을 남기고 기존에 학습한 데이터와 패턴을 지울 수 있나요? (창의력만 남긴다)
"네"
도대체 왜 모든 게 가능한 이유는 뭐죠?
AI모델의 학습 방법인 End-to-End 학습의 가장 큰 장점은 어떠한 목적 함수든지 학습 방법을 찾아낸다면 학습시킬 수 있다는 것입니다. AI는 무엇이든 학습할 수 있습니다. AI 연구자들은 이러한 특징을 멋지게 "Universal Approximation Theorem"이라고 부르죠.
물론 학습을 위해서는 데이터를 준비하고 학습 방법을 설계해야 합니다. 어쨌든 이론적으로는 가능하다는 말입니다. 그래서 무엇이든 학습할 수 있다는 전제하에서 가치 있는 지적재산이 정확히 무엇을 의미하는지 모르겠습니다.
모든 가치 있는 정보들은 별처럼 빛날 때, 그 가치를 인정받습니다. 온 우주가 빼곡하게 별로 채워진다면, 그 반짝이는 게 무슨 가치가 있을까요?
"그 말은 AI가 발전함에 따라서 지적재산이라는 개념이 사라질 수 있다는 건가요?"
"대답하지 않겠습니다..."
개인의 창작물을 존중하고 지키는 것은 중요합니다. 그렇기에 AI가 아이디어를 훔치고 베끼는 것은 지양해야 됩니다. 그러나 AI가 창작한 것이 인간이 창작한 것보다 훨씬 양이 많고 의미들을 잘 결합한 것이라면, 개인의 창작물의 가치는 상대적으로 줄어듭니다. AI가 발전하면서 지속적으로 줄어드는 창작물의 가치에 대해서 지적재산이라는 용어가 그 힘을 유지할 수 있을지 모르겠습니다.
물론 현실적으로 저작권이 사라지지 않을 것 같지만, 이론적으로 사라질 것 같다고 조금스럽게 말해봅니다.
이 글을 보는 독자 여러분은
저의 글이 지적 재산이라고 생각하시나요?
저의 생각이 지적 재산이라고 생각하시나요?
개인적으로 저는 이 글에서 무엇이 저의 저작권인지 모르겠습니다. 이 글의 생각과 가치도 이전에 존재하던 지식들로부터 생겨난 하나의 별이라고 생각하거든요. 마찬가지로 AI가 만들어 내는 지식들도 이전 지식들로부터 관계를 파악하고 조합한 결과라면, 나의 별과 그의 별이 다르지 않을지 모릅니다. 문제는 우리가 만들 수 있는 별의 개수보다 AI가 채울 수 있는 별의 개수가 훨씬 많다는 점입니다.
제가 마주한 공포는 양적 우위가 아래 개념을 만나,
사람이 이길 수 없는 조건이라는 사실로부터 찾아왔습니다.
AI 가 창의적인 작품을 제작하는 능력이 향상됨에 따라, 인간이 만든 예술 작품과 컴퓨터가 만든 예술 작품의 구분이 더욱 모호해지면서 상황은 더 복잡해질 가능성이 높습니다.
이 불공평한 상황에 대해서 사람이 택할 수 있는 길은 있습니다.
AI가 별을 만들지 못하도록 하는 겁니다. 방법은 간단합니다. 별을 관찰할 망원경을 주지 않거나, 우리가 관찰한 별을 알려주지 않는 거예요.
인터넷에서는 모든 정보에 쉽게 접근할 수 있고, 데이터가 있다면 AI는 패턴을 학습할 수 있습니다. 한 번 본 것을 잊지 않는 사람처럼, AI는 본 정보에 대해서 암기와 학습을 모두 진행합니다. 그러니까 오히려 보이지 않는 데이터가 중요합니다. 더욱이 AI가 볼 수 없는 세상에서 수집된 데이터가 더욱 소중해집니다. 데이터를 세상을 탐구한 지식의 결과이고, AI는 배우지 못한 데이터는 모델에 들어가서 암기될 수도, 패턴을 추출해 낼 수도 없습니다.
션 오코넬: "가끔은 사진을 찍지 않는 게 좋아. 그 순간을 그냥 즐기고, 마음속에 담아두는 거야."
월터 미티: "왜 사진을 안 찍죠?"
션 오코넬: "아름다운 것들은 주목받으려 하지 않아. 그냥 그 순간을 경험하는 게 더 중요할 때가 있거든."
AI로부터 지식을 지키기 위해 기록하지 않는다.
"내가 사진을 찍지 않으면, AI는 설표에 관한 지식을 절대 배우거나 암기하지 못해."
마침 그곳을 지나가던 한 예술가가 물었다.
"그럼 나의 그림은 AI로부터 지킬 수 있어?"
"가능하지. 그 누구도 보지 않는다면."
저는 AI가 인간의 가치를 뺐어가는 것을 옹호하지 않습니다.
다만, AI로부터 영향력을 관찰하고 이론적인 시나리오 예상할 뿐입니다.
영화 오펜하이머에서 그가 체인반응으로 핵폭탄이 대기를 불태울 수 있다고 한 것처럼, 제가 말하는 것은 이론적인 가능성입니다. 현실의 규제와 저항으로 지식의 가치가 한순간에 사라지지 않을 것 같습니다. 하지만 AI 연구자도 기술의 한계를 모르는 와중에 막연히 지적재산을 지켜질 수 있다는 건 근거를 찾기 어렵더군요.