언젠가부터 '고구마'는 답답함의 대명사가 되었다. 드라마나 소설의 전개가 느려도 '고구마', 소심해서 할 말을 잘 못하는 사람도 '고구마'. 뭐든 답답하면 '고구마'가 되었다.
하지만 고구마는 더 다양한 특징을 지녔다. '먹으면 목이 막힌다'는 특징은 수많은 고구마의 특징들 중 하나에 불과하다. 고구마는 맛있고, 달콤하고, 부드럽고, 치즈랑 잘 어울린다. 그런데 '먹으면 목이 막힌다'는 특징이 고구마의 전부인 양 고구마가 답답함의 대명사가 되었다. 고구마 입장에선 조금 억울할 만하다.
고구마가 아무리 억울해도, 밈이 되어버린 이상 어쩔 수 없다. 사람들은 이미 고구마의 맛, 달콤함, 부드러움은 잊어버렸다. 고구마 밈이 생기기 전 사람들이 인식하고 있는 고구마 특징의 빈도 분포가 아래 그래프와 같다고 하자. 이산형 데이터인 고구마의 특징을 연속형처럼 그려놓은 오류를 저질렀지만, 그게 더 차이가 두드러져 보일 것 같아 그랬다. x축은 고구마의 특징, y축은 해당 특징을 사람들이 인식하는 빈도다. 그 아래 그래프는 고구마 밈이 생긴 후 사람들이 인식하고 있는 고구마 특징의 빈도 분포다. '먹으면 목이 막혀 답답하다'는 특징이 고구마의 대부분을 차지하게 되었다.
이러한 현상은 인공지능 모델에서도 나타났다. 많으면 많을수록 좋은 인공지능 학습 데이터를 조달하기 위해 인공지능을 활용하기 시작했다. 인공지능이 생성한 데이터로 인공지능을 학습한다는 의미다. 매우 좋은 생각 같지만, 막상 해보니 '모델 붕괴(Model Collapse)' 현상이 일어났다(출처: Ilia Shumailov et al., The Curse of Recursion: Training on Generated Data Makes Models Forget, 2023). 인공지능이 만든 학습 데이터는 실제 데이터의 분포와 달리 주류의 데이터로 조금 더 편향되어 있다. 예를 들어, 0과 9 사이 10가지 숫자 이미지를 생성하는 인공지능을, 인공지능이 생성한 데이터로 계속 학습시킨다고 하자.
아래 그래프는 인간이 만든 학습 데이터로 학습한 인공지능이 생성한 데이터 분포를 나타낸 것이다. x축은 생성한 숫자, y축은 각 숫자가 생성된 빈도다. 이번에도 이산형 데이터인 학습 데이터의 종류를 연속형처럼 그려놓은 오류를 저질렀지만, 그게 더 차이가 두드러져 보일 것 같아 그랬다. 숫자 0의 빈도가 가장 많지만 다른 숫자들도 그럭저럭 많이 생성되는 것을 알 수 있다. 그 아래 그래프는 인공지능이 만든 학습 데이터로 학습한 인공지능이 생성한 데이터 분포를 나타낸 것이다. 극단적으로 숫자 0만 많이 생성하는 것을 알 수 있다.
인간은 자주 보지 않는 숫자도 잘 쓰지만, 인공지능은 학습 데이터에 적었던 숫자는 잘 생성해내지 못한다. 그래서 인공지능이 만든 학습 데이터에는 인간이 만든 학습 데이터에서보다 0이 훨씬 많이 등장한다. 이렇게 편향된 데이터로 계속 학습하다 보면, 인공지능은 0의 사진만 더 많이 보게 되고 결국 숫자 0만 아는 바보가 된다.
밈으로만 대화하다 보면 우리도 바보가 될지 모른다. 본래 고구마가 무엇이었는지는 까맣게 잊고 '고구마=답답함'이라는 수식만 기억해 의미 없는 대화를 주고받을 것이다. '생각붕괴'가 일어나기 전에 고구마를 가만히 들여다보자. 우리의 세상이 좁아지지 않게. 고구마가 억울하지 않게.
Thumbnail Image by Mary Potoplyak on Unsplash