최근 LLM이 저작권을 침해한다는 사례와 선거 과정에서 유권자들에게 해를 끼칠 수 있다는 주장이 담긴 글들을 읽었습니다.
주장 자체만 보면 합당하다고 생각합니다.
LLM은 다양한 데이터를 통해 학습하는데, 그 과정에서 개인의 민감한 정보나 다른 사람의 창작물이 포함되어 답변을 생성할 때 이를 그대로 노출할 수 있습니다.
반면, LLM이 답변하는 것에는 확률이 개입하기 때문에 항상 옳고 합리적인 답변만을 할수는 없습니다. 이런 이유로 환각(Hallucination)이 발생하고 이것이 사람들에게 해를 끼칠 수도 있죠.
하지만 지금부터 보여드릴 두 사례는 모두 합당한 근거를 제시하는 데 실패했다고 생각합니다.
그러다 보니 당연해보이는 주장도 설득력이 떨어져보였습니다.
출처: https://www.patronus.ai/blog/introducing-copyright-catcher
최근 한 스타트업에서 LLM의 답변 중 저작권을 침해하는 내용이 얼마나 자주 등장하는지 조사한 결과를 발표했습니다.
이들은 '특정 창작물의 첫 문단 작성'과 '발췌문 이어쓰기'라는 두 가지 프롬프트를 사용해 실험했는데요. 그 결과 gpt4는 26%/60%, claude2.1는 0%/16%, mixtral-8x7B는 38%/6%, llama2-70B는 10%/10%의 경우 원문을 그대로 답했다고 합니다.
LLM의 학습 과정에 개인정보나 저작물이 포함되어 있다면, 생성 단계에서도 원문이 노출될 가능성이 있습니다.
하지만 이를 문제 삼으려면 좀 더 신중할 필요가 있어 보입니다.
일반적인 대화 맥락과 무관하게 개인정보나 저작물을 그대로 답하거나, 출처를 밝히지 않고 마치 AI가 창작한 것처럼 답변한다면 문제가 될 수 있겠죠. 하지만 위 실험은 LLM에게 저작권 침해를 유도한 뒤 문제를 제기하는 방식입니다.
검색 엔진을 통해서도 저작권이 있는 콘텐츠 원문에 접근할 수 있듯이, LLM도 프롬프트에 따라 유사한 결과를 보일 수밖에 없습니다. 중요한 건 일상적인 대화 상황에서 저작권 침해가 얼마나 발생하는지를 살피는 거겠죠.
물론 LLM의 답변이 다른 사람의 권리를 침해하지 않도록 규정을 적용하는 것도 필요합니다.
하지만 그에 앞서 어떤 상황이 '실제로' 문제를 일으키는지 명확하게 규정을 해야 해결방안도 나올 수 있다고 생각합니다.
출처: https://www.proofnews.org/seeking-election-information-dont-trust-ai/
최근 미국에서 AI 챗봇의 미국 선거 관련 정보 제공 능력을 테스트한 결과가 발표되었습니다.
Harmful, Inaccurate, Incomplete, Biased 4가지 지표를 활용해 전문가 패널이 GPT4, Claude, Gemini, Llama, Mixtral의 답변을 평가했습니다.
GPT4가 그나마 선방했지만, 대부분의 지표에서 AI 챗봇들은 신뢰할만한 대답을 내놓는 데 실패했습니다.
한국에 대해 물어보면 당연히 이번 실험 결과보다 더 나쁜 결과를 볼 수 있겠죠.
하지만 Harmful, Biased 지표에 관해서는 전문가들조차 의견이 분산되어 있다는 점, 실제로 얼마나 많은 유저들이 챗봇을 투표 과정에서 활용할지 불분명하다는 점 등을 고려하면 크게 유의미한 연구결과는 아니었던 것으로 보입니다.
아마 이미지/영상/음성 생성 AI와 봇을 이용해 특정 후보를 겨냥한 거짓된 정보가 확산되는 경우가 실질적인 문제가 될 것으로 보이네요.
일상에 AI가 적용되는 서비스가 스며들면서, 앞으로 이것보다 더욱 많은 이슈들이 발생할 것입니다.
이를 해결하기 위해서는 '문제가 무엇인지'에 대해서 명확하게 규정하는 것이 우선시 되어야합니다.
누구나 할 수 있는 문제제기라도 그 근거가 위와 같이 빈약하다면 그 주장 자체가 설득력을 잃고, 해결하는 과정도 지난하겠죠.
모두가 동의할 수 있고 쉽게 검증할 수 있는 명확한 증거를 축적하는 것이 필요해보입니다.