인공지능은 모든 글을 다 보고 있다
2023년 7월 1일. 우리 곁에 언제나 있는 구글의 약관이 슬쩍 업데이트되었다. 구글은 공개적으로 사용 가능한 데이터를 사용하여 인공지능 모델을 학습할 수 있고, 이를 위해 온라인에 게시된 모든 데이터를 수집할 수 있다고 명시하였다. 발표에 따르면 구글은 번역, 텍스트생성, 클라우드 등 인공지능이 활용되는 자사 서비스를 위해 본인들이 수집할 수 있는 데이터는 모두 사용하겠다는 것처럼 보인다. 챗GPT, 바드, 빙 챗, 미드저니 등 인공지능 모델이 인터넷에서 수집한 정보로 훈련을 하면서 발생하고 있는 저작권 문제에 또 하나의 논란이 추가된 셈이다.
IT매체인 기즈모도는 구글의 약관 변경에 대해 다음과 같이 꼬집는다.
“구글은 마치 인터넷 전체가 구글의 AI 놀이터인 것처럼 모든 부분에 게시된 데이터를 수집하고 활용할 권리를 보유하는 것처럼 행동한다”
잠깐!
구글이 검색에서 수집된 데이터를 가지고 간다는 말은 구글 검색이 되는 브런치스토리의 글도 가져간다는 뜻이 된다. 즉, 이 글을 포함한 브런치 작가님의 글들은 모두 구글이 가져가서 자신들의 언어 모델을 훈련하는데 쓴다는 얘기인 것이다.
내 글을 "공짜로" 구글이 가져간다는데
여러분들은 여기에 동의한 적이 있나요?
앞서 이야기한 생성형 인공지능과 저작권 관련 이슈는 챗GPT가 등장한 이후 계속해서 논란이다. 미국에서 가장 큰 커뮤니티인 레딧에 올라온 수많은 네티즌들의 글은 인공지능이 가져다가 언어 학습을 하는 데 사용하였다. 그래서 레딧은 이달부터 자신들의 글에 접근을 하는 애플리케이션을 대상으로 요금을 부과하기로 결정하였다. 트위터 역시 마찬가지다. 트위터에 올라온 수많은 트윗들 역시 언어를 학습하는 인공지능 모델의 좋은 훈련 대상이었다. 지난 2월 이미 트위터에 대한 접근을 유료화한 바 있었고 최근에는 일일 게시물 조회 수까지 제한하면서 자신들의 데이터가 외부로 빠져나가는 것을 막고 있다. 또한 트위터의 수장인 일론 머스크 테슬라 CEO는 MS가 트위터 데이터를 인공지능 훈련에 무단 사용한다고 소송까지 불사하겠다는 불편한 기색을 보이기도 하였다. 챗GPT의 오픈 AI 역시 소송을 피해 갈 수 없었다. 미국의 한 법률회사는 오픈 AI가 불법적으로 이미지 데이터부터 금융 데이터까지 수집하였다며 소송을 제기하였다.
언어를 생성하는 생성형 인공지능 외에도 그림을 생성하는 생성형 인공지능 역시 소송을 피해 갈 수 없었다. 그림 생성 초거대 AI 모델의 대표주자인 스테빌리티 AI (Stability AI)는 최근 게티 이미지(Getty Images)로 부터 소송을 당했다. 세계 최대 규모의 시각 자료 보유 업체인 게티 이미지는 자신들이 보유한 사진이나 그림에 대한 유료 저작권을 가지고 있다. 게티 이미지 측은 스테빌리티 AI가 자신들의 저작물을 무단 복제하여 2차 저작물을 만들어 내었다고 주장하며 소송을 한 것이다. 근거 중 하나로 아래 사진을 예시로 들었다. 왼쪽의 축구 사진은 게티 이미지가 보유한 사진이며, 오른쪽 사진은 인공지능이 만든 사진이다. 게티 이미지 측의 사진을 무단으로 가져가서 유사한 사진을 생성한 것이라 주장한 것이다.
이렇듯 우리가 인터넷에서 만들어내고 있는 데이터는 알게 모르게 인공지능이 학습을 하는 데 사용하고 있다. 나에게 저작권료는 전혀 오지 않고 있지만 나의 저작물들을 인공지능이 가져가는 것이다.
최근 FAccT에 발표된 연구 논문을 살펴보면 우리는 모두 빅테크의 데이터 노동자라고 주장한다. 우리가 제작한 데이터는 이제 빅테크 기업들이 수익 창출을 위해 만들고 있는 AI모델의 밑바탕이 되어 영원히 남게 되었다. 구글 포토에 올리는 사진들, 레딧에 공감한 댓글들, 리캡차(reCAPTCHA)에서 지정한 이미지 레이블, 온라인 검색 등은 우리가 무료로 빅테크 기업들에게 노동력을 제공하고 있는 행위들이다.
그래도 우리는 무급으로 봉사하고 있는 것은 모르면서 즐겁게 인터넷 세상에 흔적으로 남기고 있다. 더 큰 문제는 빅테크 기업들의 생성형 인공지능을 만들기 위해 혹사당하고 있는 데이터 노동자들이다. 시간당 2달러를 받으며 챗GPT의 유해성을 낮추는 과정에 투입되고 있는 아프리카 케냐의 노동자들이 바로 그들이다. 현재 데이터 생산에 착취당하고 있는 노동자들에 대해서는 추후 글에서 자세히 다뤄보도록 하겠다.
참고자료
https://www.lawtimes.co.kr/news/185810
https://news.kmib.co.kr/article/view.asp?arcid=0018429537&code=61141111&sid1=eco