딥러닝에 필요한 학습 데이터를 AI가 만들게 되면서, 일종의 '근친교배'가 일어나 인공지능의 붕괴가 일어날 수 있다는 얘기였다. 근친혼으로 혈통을 유지한 스페인의 합스부르크 왕가는 각종 유전질환에 시달리다 종국에는 아무런 후손도 남기지 못한 것으로 유명하다. 이 집안 스토리가 자가복제 부작용의 대표격이라 '합스부르크 부메랑'이라 이름 붙인 것 같다.
합스부르크 왕가
제이선 섀도스키라는 호주 데이터사이언티스트의 설명이다. "합스부르크 AI란 다른 생성 인공지능의 결과물을 지나치게 많이 학습한 시스템이 과장되고 기괴한 특징을 가진 근친교배 돌연변이가 되는 현상이다."
인간의 근친혼 부작용(턱이 과도하게 길어진다든지)처럼 '합성 데이터'의 되먹임으로 인공지능이 기괴해질 수 있다는 점이 흥미롭다. 이를 일부에서는 '환각'이라고 부르는 모양인데, 사실상 인간과 다를 바 없어 보인다.
인공지능의 학습 데이터에 관한 문제는 여기저기서 뜨거운 감자다. 전세계 개발자들의 '네이버 지식인'격인 '스택오버플로우'는 챗gpt 공개 이후 트래픽이 급감했다고 알려져 있다. 스택오버플로우의 방대한 데이터로 만들어진 AI가 거꾸로 본체를 대체한 셈인데, 일부에선 "이제 무슨 데이터로 학습시키느냐"는 우려가 크다. 더 이상 학습시킬 데이터가 없는 탓에 인공지능의 발전도 얼마 안 가 한계에 직면할 것이란 목소리도 나온다.
얼마 전 메타(페이스북)가 '스레드'라는 이름만 새로운 SNS(사실상 트위터의 클론이나 다름 없다)를 내놓은 것도, 일부에서는 자기네 인공지능 개발을 위한 학습 데이터 수집용이라고 보기도 한다. 수집이 관건인 시대가 됐다.