brunch

정크 데이터와 인공지능

by Pen 잡은 루이스


수많은 사람들이 인공지능과 함께 하고 있습니다. 뭐만 하면 '챗GPT에 물어봤다'면서 자신의 지식을 섞어 이야기하는 사람도 종종 보이고 특히나 생성 AI를 통해 만들어진 이미지가 SNS나 블로그 그리고 여기 브런치에서도 자주 보이고 있죠. 인공지능 모델은 방대한 양의 데이터를 집어삼키며 학습을 했기에 인간과 동등한 수준을 어느새 넘어서며 어마무시한 능력을 보여주고 있습니다. 언어를 이해하고 이미지를 그려내고 이야기를 쓰고 생성하고 분석하는 인공지능도 양질의 데이터가 아닌 '저품질'의 데이터를 장기적으로 학습하게 되면 인지 능력과 추론 능력이 떨어지고 모델의 손상도 남을 수 있다는 연구 결과가 있다고 합니다. 생각해 보면 인간과 유사한 지점에 있는 셈이죠. 우리도 단순하거나 중독성 있는 정크 콘텐츠를 소비하게 되면 집중력도, 기억력도 떨어질 수 있는데 이를 브레인 로트(Brain rot)라고 부르며 인공지능에도 똑같이 적용되어 관련 연구에서도 'LLM Brain rot' 가설이라고 불렀다고 하는군요.


출처 : 허깅페이스

LLM은 본질적으로 텍스트에서 패턴을 학습합니다. 그리고 그걸 기반으로 답을 생성하기도 하죠. 학습 데이터의 숫자(양, Volume)는 중요합니다. 물론 다양성(Variety)도 중요하죠. 앞서 언급도 했고 후술도 하겠지만 데이터의 퀄리티 또한 중요한 부분입니다. 때때로 LLM이 모델 학습을 할 때 논문이나 도서를 데이터로서 활용하기도 하죠. 덧붙이면 뉴스 콘텐츠도 있고 블로그, 카페 등 인터넷에 돌아다니는 콘텐츠도 포함될 수 있습니다. 또 어떤 걸 대상으로 학습했을지 사실 세세하게 알 순 없겠지만 '마구잡이 잡식성'으로 먹게 되면 데이터 품질 요소가 뒤섞일 수 있는데요. 사실 인간도 매일같이 좋은 음식만 먹을 순 없죠. '저속노화'라고 해서 좋은 것만 드시라고 하는 의사도 가끔은 술도 마시고 달달한 디저트도 먹고 밀가루 음식도 먹지 않겠습니까? 야채도 먹고 탄수화물도 먹고 단백질도 먹으며 건강을 챙긴다고 하지만 어딘가에 정크 푸드도 분명히 존재하고 있을 겁니다. 사람마다 다르기야 하지만 술을 매일 마시면 간에 타격이 있습니다. 맵고 짠 음식을 삼시세끼 채우면 위에 자극이 올 수 있습니다. 장기적으로 보면 손상이 온다는 거죠. 인공지능이 인간처럼 소화기관을 가지고 있는 건 아니지만 데이터를 학습할 때 얼마나 유의미하고 유익한지 들여다볼 필요가 있습니다.


음식으로 비교하긴 했지만 인간은 자극적이고 중독적인 콘텐츠를 심심풀이라도 하는 듯 무의식적으로 소비할 때가 있습니다. 유튜브 쇼츠나 틱톡과 같은 숏폼 콘텐츠를 반복적으로 소비하게 되면 집중력, 기억력, 사회적 판단 능력이 떨어질 수 있다는 얘기도 있습니다. LLM도 품질이 낮은 콘텐츠를 반복 학습하게 되면 추론 수행 능력이 손상될 수 있다고 하죠. 실험에서도 데이터 셋을 조작해 동일한 학습 조건에서 여러 모델을 학습시켰다고 했는데 이를 통해 실제 손상을 입게 되는지 검증하기 위한 연구를 했다고 했습니다. 벤치마크에서도 점수가 훅 떨어졌고 대놓고 추론하는 단계와 구조가 무너져 별다른 생각(thinking) 없이 결론으로 이어지는 현상이 생기기도 했다는군요. 더 큰 문제는 저질 콘텐츠를 장기 학습한 후 양질의 클린 데이터를 재학습하고 모델 튜닝도 거쳤으나 완전하게 복구되지 않았다고 했습니다. 이미 손상을 입은 상태라는 거죠.


당연하지만 저질의 콘텐츠를 방대한 양으로 학습하게 되면 그 결과값이 좋을 리가 없죠. 이를 활용하는 인간에게도 영향이 있을지 모릅니다. <터미네이터>를 비롯한 SF 아포칼립스에 등장하는 반사회적이고 폭력적인 인공지능이 탄생하게 되는 근본적인 원인도 (단언할 순 없지만) 학습 데이터에 있을지도 모릅니다. 인간도 자라나는 환경이 중요한 법인데 인공지능도 다르지 않아 보입니다. 결국 데이터 품질에 대한 가이드라인을 새롭게 설계할 필요가 있다는 것입니다. AI 관련 기업들을 만나다 보면 '데이터야 많으면 많을수록 좋다'라고 합니다만 도메인의 다양성보다는 양질의 데이터 확보(Quality), 데이터의 깊이(Depth)를 볼 줄 알아야 하고 이게 또 얼마나 자극적이고 피상적인가(engagement) 평가하는 지표 설계가 필요해졌습니다. 인간 역시 육체적 건강도 중요하지만 마음건강(혹은 정신건강)도 중요한 법이잖아요. 좋은 LLM 모델을 만들기 위한 인공지능의 인지 건강도 생각해야 할 것 같습니다. 생성형 인공지능에서 에이전틱 AI 나아가 피지컬 AI로 이어지는 시대 속에서 보다 월등한 인공지능 모델을 만들기 위한 보이지 않는 전쟁이 지속되고 있지만 얼마나 좋은 데이터를 확보하느냐의 경쟁 역시 지속 가능한 인공지능의 토대가 될 것 같네요.






keyword