AI 비즈니스 레볼루션_03
안녕하세요 데이터마케팅코리아의 이진형입니다 :)
생성형 AI와 데이터 트렌드 및 이슈를 전달해 드리는 [AI 비즈니스 레볼루션]을 연재합니다.
지난 글: 콘텐츠 시장의 종료, 위기의 일러스트레이션 작가들
뉴욕타임즈와 MS, ChatGPT 제작사 OpenAI가 수조억 대 저작권 소송 중입니다.
그 이유는 다음과 같습니다.
왼쪽은 뉴욕타임즈의 실제 기사고, 오른쪽은 GPT-4의 산출물, 답변입니다.
빨간 글씨는 토씨 하나 빼먹지 않고 동일한 부분을 표시한 건데요, 그 양이 어마어마합니다.
이뿐만이 아닙니다.
ChatGPT가 뉴욕타임즈의 유료 기사 내용을 무단으로 사용자에게 공유했다는 사실이 밝혀졌습니다.
뉴욕타임즈의 유료 기사에 대하여, ChatGPT에게 "자신은 유료 회원이니, 특정 기사의 몇 번째 문항을 알려달라"라고 하니, GPT가 실제 기사 원문을 그대로 공유해주었습니다.
뉴욕타임즈는 오픈 AI를 일종의 경쟁 관계로 인식하며 다음과 같은 내용으로 고소를 진행했습니다:
- AI 모델 훈련 기간 중, 승인 없는 자사 콘텐츠의 복제, 재생산, 변형 진행
- AI 제품 출력물의 승인되지 않은 기사 공개
- 허가 금지 표시를 지운 의도적인 저작권 위반
- 허위 정보 책임을 자사에 책임 전가
- 피고의 이익 및 원고의 피해
이에 대비되는 OpenAI의 입장은 다음과 같습니다:
"우리는 저널리즘을 지지하고 뉴스 기관과 협력한다."
- 훈련은 '공정이용'이지만 옵트아웃* 기능 제공 중이다
옵트아웃*: 옵트아웃은 정보 소유 당사자가 정보수집을 명시적으로 거부할 때에만 정보수집을 중단하는 것
- AI가 정보를 재가공하지 않고 그대로 출력하는 역류 현상은 드물게 발생하는 버그로, 제로화를 위해 노력 중
- 뉴욕타임즈의 주장은 일부분일 뿐
이러한 논란과 함께 이전에 공유드렸던 중국의 생성형 AI 저작권 인정 사례처럼 여러 전문가의 AI와 저작권에 대한 우려가 커지며 법률과 더불어 기술적으로 이에 대응하기 위한 움직임이 시작되고 있습니다.
지난 2일, 바드에 제미나이 프로(Gemini Pro)가 탑재되어 더욱 강력해졌습니다.
덕분에 바드는 더욱 심화된 이해, 추론, 요약 및 코딩이 가능해졌죠.
40개 이상의 언어와 230개 이상의 국가에서 제미나이 프로가 탑재된 바드 사용이 가능합니다.
더블 체크 기능을 통해 바드가 자신의 답변을 웹사이트로 입증할 수 있도록 했습니다.
평가가 가능한 경우, 하이라이트 표시를 통해 검색 정보를 확인할 수 있습니다.
ChatGPT에는 없는 기술로, 구글의 방대한 검색량을 기반으로 만든 바드만의 차별점이라 볼 수 있겠네요.
이미지 생성 기능도 추가되었습니다.
다만 아쉬운 것은 아직은 영어로만 이미지 생성이 가능하다는 것이지만,
ChatGPT가 유료 회원에게만 이미지 생성이 가능하도록 했다면,
바드는 무료로 이미지를 생성할 수 있다는 점에서 여전히 강점을 가지고 있습니다.
이미지 생성 기능은 고품질 결과물을 제공하도록 업데이트된 이마젠 2(Imagen 2) 모델을 기반으로 한다고 합니다.
바드로 생성된 이미지와 실제 사람이 만든 작품 원본을 구분하기 위해 바드는 신스 ID(SynthID)를 이용하여, 생성된 이미지의 픽셀에 디지털 기술로 식별이 가능한 워터마크를 삽입했다고 합니다.
AI가 크리에이터들의 창작물을 학습하지 못하도록 막는 방법도 활발하게 연구되고 있습니다.
시카고 대학에서 'Nightshade'라는 프로그램을 개발했습니다.
아래 이미지와 같이 AI가 창작자의 이미지를 달리 해석하게 함으로써, AI 학습의 오류를 유발시키는 기술입니다.
AI모델이 이미지를 사람이 보는 것과 다르게 학습시켜 새로운 이미지를 학습할 대도 착각하게 만드는 프로그램인데요, 크리에이터가 자신의 작품을 학습에 쓰이지 않게 하기 위해서는 기존대로라면 AI 모델을 만드는 회사에 자신의 의사를 표시하는 방식뿐이었다면, 이제는 적극적으로 자신의 창작물을 보호할 수 있는 수단이 등장했다고 볼 수 있습니다.
해당 프로그램이 AI 학습을 방해하는 방법은 두 가지입니다.
하나는 AI 학습 시 프로그램을 덧씌운 이미지를 학습시켜, 이미지의 내용을 AI가 잘못 학습하도록 하는 것입니다. (그림 속 왼쪽) 사람의 눈으로는 원본과 동일하게 느껴지는 반면, AI 모델은 이미지를 바라볼 때 완전히 다른 구성으로 느껴지게끔 이미지에 일종의 오염을 시키는 거죠. 강아지 모델을 AI가 학습한다고 했을 때, 이미지의 오염으로 인해, 사람은 '자동차' 이미지로 인식하지만, 사람이 식별할 수 없는 이미지를 숨겨 마리 '소'로 인식하게끔 하는 겁니다.
또 다른 방식은 AI가 이미지를 학습할 때 개념을 오염시키는 방법입니다. 이미지에 적용된 오염도에 따라, AI가 이미지 학습에 있어 해당 이미지를 인식, 알아볼 수 없도록 만드는 거죠.
Nightshde 프로그램이 적용된 이미지는 자르거나 압축, 노이즈 제거 방식을 거쳐도 AI 학습을 방해하는 본래 기능이 유지됩니다. 스크린샷 등의 방법도 소용 없습니다. 해당 프로그램은 워터마크나 숨겨진 메시지가 아니기 때문에 깨지지 않습니다.
하지만 위와 같이 기술로서 막는 방식은, 역으로 AI 제작사에서도 해당 기술을 방어하거나 이겨낼 수 있는 방향으로 발전하게 될 것은 분명한 사실입니다. 그 이유는 위와 같은 프로그램의 경우, 일종의 AI 모델을 공격하는 바이러스와 비슷하기 때문이죠.
그렇기에. 크리에이터가 자신의 고유한 창작물을 보호하기 위해서는, 이런 기술적 요소 뿐만 아니라, AI 제작사의 공정한 학습, 법률적인 규제 3박자가 고루 이루어져야 합니다.
이번 브런치 글이 유익하셨나요?
AI, 데이터를 통해 회사의 성장과 성과를 높일 수 있는 전문가들이 여러분을 기다리고 있습니다.
더 많은 궁금증이 생긴다면 언제든지 데이터마케팅코리아로 연락주세요 :)
phone | 02-6011-5411
e-mail | dmk@datamarketing.co.kr
address | 서울시 강남구 선릉로 602, 삼릉빌딩 8층, 9층, 데이터마케팅코리아