brunch

기술개발 우선 vs. 정당한 보상

Ep 9. 인공지능 훈련데이터에 대한 문제

by 빙산HZ



‘가짜 신분’의 리스크 보다 더 큰 문제가 예상되는 것은 바로 ‘훈련 데이터’와 관련된 리스크이다.


저작권이 있는 창작물들을 무단으로 머신 러닝에 활용해 개발된 인공지능의 개발사.


인터넷에서 접근 가능한 모든 게시물이 ‘공개자료’는 아니다.


또 인공지능붐이 일어나기 전 2022년 이전까지 인터넷 서비스가 사용자 약관에 어떤 것을 올렸을 때, 그걸 인공지능개발에 활용해도 된다고 사전동의를 한 경우는 거의 없을 것이다.


블룸버그 인텔리전스의 보도영상에 따르면 이런 인공지능 회사들의 저작권침해가 인정될 경우, 배상액은 어마어마 하다. 뉴욕타임즈와 오픈AI의 소송에서는 법정최소배상액이 20억 달러, 비고의 침해 인정시, 3000억 달러, 고의침해 인정시 1.5조달러가 된다. 구글의 경우, 법정최소배상액이 4억 달러, 비고의 침해시 59억 달러, 고의 침해시 최고배상액 295억 달러이다.


오픈AI의 경우, 과거 직원이었던 수치르 발라지가 2024년 12월 사망상태로 발견된 사건이 또 이슈가 되고 있다. 이 직원은 오픈AI가 저작권이 있는 데이터를 사용하여 챗GPT를 개발한 것이 저작권을 침해 했다고 주장한 바 있다. 당시 경찰은 ‘자살’로 사건을 종결했지만 여러 절차가 부적절했다며 유족이 진상 규명을 요청하고 있다.



이 사건은 저작권과 관련되었다기 보다는 <그것이 알고 싶다> 류의 사건이라 길게 다루고 싶지 않다. 하지만 사건 당사자(혹은 피해자)의 어머니의 인터뷰를 시청 후 의혹이 왜 생길 수 밖에 없는 지에 대해 공감 되었다.


내부고발자라는 피해자의 특수성이 우선 '피살'의 동기로 추정되는 것도 이해되고, 아들의 죽음을 받아들이고 싶지 않은 어머니의 정서적 저항감 역시 이해가 된다.

사건 조사가 충분히 이뤄지지 않고 자살로 처리되었다는 점이나 화장터에서 자살이라는 사인을 보고 사적인 부검을 추천한 점, 사건 현장의 의혹이 가는 부분들에 대해서도 공감을 할 수 있었다.


페이스북의 메타(META) 역시 마찬가지이다.

미 상원위원회에서 저작권있는 자료들을 토렌트를 통해 확보한 것으로 보이는 직원들의 대화 로그가 공개되었다.


공개된 META 직원들의 대화로그(log)에서는 기업용 노트북에서 토렌트를 사용해서 자료를 받는 것에 대한 의문이 언급되었다. 페이스북의 인트라넷을 사용하지 않은 이유에 대해 묻는 직원에게 '토렌트 시더(Seeder)가 페이스북 서버로 추적되는 것을 피하기 위해서' 라는 답변이 오갔다.

출처: Forbes Breaking News


머신러닝이라는 훈련구조상, 저작권이 있는 자료를 훈련데이터로 사용해야 퀄리티가 높은 모델을 만들 수 있다. 시작은 연구 목적이라해도 그 연구의 궁극적 목적이 상업적 프로젝트로 이어지고, 수익 사업으로 운영되는 이상, ‘공정사용’을 주장하는 것은 더 어려워 질 것으로 추정된다.


하지만 아직도 대부분의 인공지능 회사들은 책임을 회피하기 위해 어떤 자료들을 훈련데이터로 사용했는지 공개하지 않고 있다. 저작권법을 들이댈 때는 ‘공정사용’을 주장하지만, 훈련데이터를 공개하라고 하면 ‘영업기밀’이라는 이중 잣대를 내밀기도 한다.


어쩌면 개발자들의 문화에서 보편적인 '지식 공유'라는 측면에서 'Github'와 같은 커뮤니티에 익숙하기 때문에 저작권 의식이 옅은 것일지도 모르겠다. 서로 코드를 공유하고 더 좋은 것을 만들려고 하는 문화가 익숙하기 때문에 '공개된 자료'라고 해석하려는 성향이 있을지 모르겠다.


하지만 Library Genesis와 같이 저작권들의 동의 없이 스캔되어 공유되는 자료들이 모인 웹사이트가 '공개 도메인'이라고 해서 그 사이트의 모든 자료들이 '무료 사용' 가능하다는 해석은 합리적이지 않다. 즉 훈련이 '훔친 자료'들로 이루어졌을 경우, 그 법적 책임을 물을 수 있다는 거다. 앞서 다룬 바 있던 '앤트로픽'과 작가들의 소송이 약 21억원으로 합의된 사례는 앞으로도 계속 나올 수 있겠다.


https://brunch.co.kr/@chooseurmiracle/277



'추론 능력'인가? '암기 능력'인가?


한편 저작권 영역 외에도 훈련데이터를 공개하지 않을 때 생기는 문제가 있다.

그건 인공지능의 성능과 능력을 평가할 때, 한 인공지능모델의 문제해결 능력이 ‘단순 암기’의 결과인지, 아니면 일반화추론 능력을 사용한 것인지 구분하기 어렵다는 것이다. 애플의 논문에서 언급된 현상은 ‘단순암기’의 가능성이 높다는 걸 암시하는 것일 수 있다.


훈련데이터가 필수불가결한 것 이상, 저작권자들을 향한 정당한 보상이 필요하다. 후반부에 추가로 더 논의하게 되겠지만 '인공지능개발'이란 영역에만 '기술 우선'이라는 이중잣대가 적용될 경우, 저작권 산업에 미칠 영향 역시 무시할 수 없기 때문이다.


"그러면 그 비용을 지불할 수 있는 업체만 인공지능개발에 뛰어들 수 있냐?"


이 질문은 정말 '공정'에 연관된 것인지 의문이기도 하다.

keyword
이전 09화딥페이크보다 무서운 '작가의 유혹'