brunch

브런치북 AI 인문학에 길을 묻다 02화

라이킷 85 댓글 30

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 최재운 Sep 19. 2023

합스부르크 유전병에 걸린 인공지능?

합성데이터 학습에 따른 AI 붕괴

처음 유럽사를 접하는 한국 사람에게 어려운 개념이 바로 가문이다. 딸이 시집가면서 가문의 영지를 다른 나라에 혼수품으로 들고 가지 않나, 왕의 후계자가 없을 때 다른 국가의 왕이 그 왕위를 상속하거나 겸직하지 않나. 동양적 역사관에 익숙한 사람이 보기에 가문들 주도로 진행되는 중세 이후 유럽의 역사는 꽤나 이해하기 어렵다.

특히나 이놈의 합스부르크 가문은 여기저기에서 동시 다발적으로 등장한다. 분명 오스트리아의 왕가가 합스부르크 가문인데, 스페인에서 왕으로 나타나지 않나, 헝가리를 지배하지 않나. 프랑스의 왕 루이 16세의 부인인 그 유명한 왕비 마리 앙투아네트 역시 합스부르크 가문의 공주 출신이다. 이렇듯 유럽의 중세와 근대 역사에서 빼놓을 수 없는 가문이 바로 합스부르크 가문이다. 오스트리아에서 발원한 합스부르크 가문은 본국을 비롯해 헝가리, 스페인 등의 다양한 지역을 지배한 합스부르크 가문.

"행복한 오스트리아여. 그대는 결혼하라!"

합스부르크 가문은 결혼을 통해 동맹을 다지며 가문과 제국을 번성시킨다. 그러나 권력을 유지하기 위해 삼촌과 조카가 결혼하는 등 수세기 동안 가족 내에서 결혼을 반복하는 우를 범하고 만다. 근친혼은 귀족이나 왕족들 사이에서 볼 수 있는 현상이다. 이집트의 파라오들은 근친혼을 통해 순수한 혈통을 유지한다고 믿었다. 합스부르크 가문 역시 가문 내에서 권력과 재산을 지키기 위해 근친혼을 다수 선택하였지만 유전적 다양성의 감소를 초래하였고, 많은 유전병 문제가 발생하게 된다. 훗날 러시아의 로마노프 왕조를 파국으로 몰고 간 유전병인 '혈우병' 역시 근친혼에 따른 결과라는 연구 결과도 있다.

합스부르크 가문에서 가장 잘 알려진 유전적 특징은 '합스부르크 아래턱' 또는 '합스부르크 입'이라 불리는 특유의 턱 모양이다. 이는 하악전돌증(Mandibular Prognathism)이라는 유전병의 결과로, 하악이 상대적으로 앞으로 돌출되어 아래턱이 두드러지게 나타나게 된다. 이 턱의 특징은 바로 합스부르크 가문의 왕과 군주들의 초상화에서 쉽게 확인할 수 있다.

합스부르크 가문의 상징, '주걱턱'

유전병으로 가장 유명한 왕은 스페인 합스부르크 왕가의 마지막 국왕 카를로스 2세이다. 다양한 유전병을 앓고 있었던 그는 불임의 문제를 겪게 되었고 결국 후손을 남기지 못하며 스페인에서 합스부르크 대는 끊어지고 만다. 이후 스페인 왕위는 부르본 가문으로 넘어가게 되고 왕위 상속을 둘러싼 유럽 각국의 대대적인 전쟁까지 벌어지게 된다. 오스트리아의 합스부르크 가문은 그 유명한 황태자 암살 사건을 시작으로 하는 1차 세계대전으로 인해 몰락하게 되지만, 이미 유전병으로 가세는 많이 기운 상태였다.

합스부르크 왕가의 몰락을 가져온 유전 질환이 인공지능에서 목격이 되고 있다는 주장이 나와 화제이다. 호주의 모내시 대학(Monash University)의 연구원인 제이선 사도스키(Jathan Sadowski)는 인공지능이 근친 교배로 인해 붕괴되고 있다며 '합스부르크 AI'라는 개념을 주창하였다. 그는 합스부르크 AI를 "인공지능이 만들어낸 합성 데이터로 많은 훈련을 받은 인공지능 모델은 과장되고 그로테스크한 특징을 가진 근친 돌연변이가 되는 시스템"이라고 정의했다.

인공지능이 근친교배를 한다는 사실에 의문을 표하는 사람들이 있을 것이다. 이를 이해하기 위해서는 최근 인공지능 업계의 트렌드를 파악해야 한다. 인공지능은 기본적으로 학습 데이터가 필요하다. 그것도 양질의 학습 데이터가 아주 많이 필요하다. 하지만 데이터를 구하는 과정은 비용이 많이 들고 법적인 규제도 많다. 현실의 데이터를 구하기가 힘들어진 인공지능 기업들은 원본 데이터와 유사한 특성을 가진 가상의 '인공 데이터' 혹은 '합성 데이터(Synthetic Data)'를 생성시킨 후 인공지능을 학습시키고 있다.

실제로 아프리카에 위치한 나이지리아의 데이터 과학자들은 의복을 학습시키는 인공지능 모델을 개발하면서, 서양 의복 데이터는 많지만 아프리카 의상 데이터가 거의 없다는 것을 알게 된다. 그들은 부족한 아프리카 의상 데이터를 만들기 위해 인공지능의 힘을 빌리게 된다. 인공지능이 만들어주는 가상의 아프리카 의상 데이터를 다시 인공지능에게 학습시키는 상황이 벌어지고 있는 것이다.

인공지능이 창조해 낸 데이터를 다시 인공지능이 학습한다는 상황이 아이러니하게 느껴질 수 있다. 하지만 데이터에 대한 의존도가 높고, 양질의 데이터를 대량으로 구하기는 힘든 현 상황에서 합성 데이터는 많은 주목을 받고 있다. MIT Technology Review에서는 미래 10대 기술 중 하나로 합성 데이터를 선정하였고, 합성 데이터만 전문적으로 생산하는 기업들 역시 많은 투자를 받으며 괄목할만한 성장세를 보이고 있다.

하지만 합성 데이터에 대한 우려 섞인 연구 결과 역시 속속 발표되고 있다.

지난 5월 영국 옥스퍼드 대학과 캠브리지 대학의 연구진이 발표한 논문인 '재귀의 저주(The Curse of Recursion)'에 따르면 오늘날 대부분의 인공지능은 '합성 데이터' 혹은 AI에 의해 생성된 데이터로 학습하고 있음을 알 수 있다. 현실에서의 예측 불가능한 상황이 녹아있어 다양성이 나타나는 실제 데이터는 학습에서 배제되고, 이쁘게 잘 정제되어 있는 합성 데이터만 인공지능이 활용하고 있는 것이다. 인공지능이 합성 데이터에 주로 의존하게 된다면, 실제 데이터에서 관찰되는 풍부성과 신뢰성과는 거리가 먼 결과가 도출될 수 있다. 이는 잘못된 정보나 저품질의 결과가 도출되는 현상을 만들게 되고, 궁극적으로 인공지능 모델이 붕괴되는 결과가 발생할 것이라고 연구자들은 논문에서 밝히고 있다.

인공지능이 만든 데이터는 오차가 적다. 잘 정제되어 있다. 이러다 보니 극단의 상황을 표현하는 소수의 데이터는 무시되게 된다. 가문의 순수혈통을 지키기 위한 근친혼처럼 인공지능 역시 자신이 만든 잘 정제된 데이터를 스스로 학습하며 근친혼으로 나아가고 있다. 인공지능이 만든 데이터를 학습하면서 인공지능이 성장하고, 성장한 인공지능이 다시 데이터를 만들고, 이 데이터를 다시 인공지능이 학습하는 과정이 반복되고 있다.

이전 글에서 인공지능이 창발 속성을 보이며 사람이 상상할 수 없었던 결과를 내보이는 것을 살펴본 바 있다. (링크 : 창발성을 드러내는 AI, 인형사가 될 수 있을까?) 챗GPT와 같은 초거대 인공지능 모델을 기반으로 하는 생성형 인공지능은 우리에게 충격과 경탄을 안겨주었다. 심지어 창발 속성과 같이 원인은 알 수 없지만 인공지능이 스스로 진화해 나가는 모습은 공포를 안겨주기에 충분하다.

하지만 스스로 진화해 나가는 인공지능은 근친교배의 늪에 빠졌다. 실제 데이터를 구하기가 너무 어렵기에 등장한 합성 데이터. 합성 데이터를 무한 반복으로 흡수하는 생성 인공지능은 환각의 늪을 넘어 모델 붕괴의 위기에 직면하고 있다.

재귀의 저주를 발표한 영국의 연구진들은 모델 붕괴를 막기 위한 방안으로 데이터 출처를 다변화해서 다양성을 수용하는 방향으로 가야 한다고 이야기하고 있다. 근친교배의 늪에서 벗어나 다양성을 수용하자는 결론은 인공지능뿐만 아니라 현대를 살아가는 우리 모두가 귀를 기울여봐야 할 조언이다. 우리는 근친 교배를 하는 것처럼 듣고 싶은 것만 듣고, 보고 싶은 것만 보며 알고리즘이 만든 에코 챔버에 갇혀 있지 않는가?

keyword

Brunch Book

AI 인문학에 길을 묻다