즐거운 일은 마지막 방울까지 착즙을

by 여운

대부분의 AI 학습 데이터는 매우 불균형하다.

특히 입력된 이미지나 텍스트를 특정 카테고리 중 하나로 나누는 분류 과제를 학습할 때 그렇다. 카테고리가 2개든 5개든, 소수의 카테고리에만 대부분의 데이터가 몰려있는 식이다.

한창 국민청원 사이트가 활발했을 때, 어떤 글이 10만 명의 동의를 받아 청원 성립할 수 있는지 예측하는 AI를 학습해보려고 했다. 하지만 10만 명의 동의를 받는 글은 극극극소수였고, 심히 불균형한 데이터를 그대로 학습한 AI는 모든 글이 청원 성립에 실패할 것이라는 간단하고 암담한 예측을 내놓았다.


이런 불상사를 방지하기 위해 학습 데이터에 '샘플링(Sampling)'을 적용해 볼 수 있다. '언더샘플링(Undersampling)'은 지나치게 많은 데이터를 없애는 방식이다. 예를 들어 청원 성립에 실패한 글은 너무너무 많으니 이 중 몇 개는 지우고 학습하자는 것이다. 일반적으로 청원 성립에 성공한 글의 개수랑 비슷한 개수만 남기고 다 버린다. 이렇게 하면 데이터 불균형 문제는 해결되지만, 사실 버려지는 데이터가 너무 많아 아깝다.


데이터를 버리지 않는 샘플링 방식도 있다. '오버샘플링(Oversampling)'이다. 오버샘플링은 비주류 데이터의 덩치를 키우는 방식이다. 비주류 데이터가 적으니 주류 데이터 개수만큼 중복해서 학습 데이터에 추가하거나, 아니면 비주류 데이터를 '증강(augmentation)'하여 사용하기도 한다. 예를 들어, 청원 성립에 성공한 글에서 일부 단어를 유사어로 바꾼다거나, 줄 바꿈이나 띄어쓰기 형식을 조금씩 바꾼다거나 할 수 있다. (물론 증강을 얼마큼 정성스럽게 하냐에 따라 또 성능이 달라질 것이다.)


그런데 사실 우리의 일상도 매우 불균형하다. 즐거운 일은 그리 자주 일어나지 않고(그 근거로 월화수목금이 토일보다 훨씬 길다), 하기 싫은 일은 해도 해도 다시 나타난다(운동은 오늘 해도 내일도, 다음 주도, 다음 달도, 내년도 해야 한다 하).

AI의 성능을 개선하듯이, 우리의 기분을 개선해 보자면 우리도 샘플링이 필요할지도 모른다.

즐거운 일은 계속 곱씹고 착즙하면서 오버샘플링을, 하기 싫거나 기분 나쁜 일은 최대한 잊으면서 언더샘플링을.




Thumbnail Image by Emily Patnaude on Dupe

keyword
매거진의 이전글영어 울렁증과 튜링테스트