데이터 고갈로 더 이상 인공지능 학습이 불가능해질까?

스탠퍼드 AI Index Report 2024. 분석 #2

Jun 17. 2024

최근 제기된 주제인데 AI가 학습을 하기 위해서는 데이터가 필요한데 이것이 고갈되어 더 이상 AI가 발전하지 못하는 상황이 올 수도 있다는 얘기이다. 스탠퍼드 대학에서는 이것에 관해 Epoch연구소의 연구자료(출처:https://epochai.org/blog/will-we-run-out-of-ml-data-evidence-from-projecting-dataset)를 인용해 일리가 있는 얘기라고 주장하고 있다.

데이터 고갈 시점 예측(출처: 스탠보드 AI Index Report)

보고서는 2가지 방식으로 고갈시점을 예측하고 있는데 하나는 역사적 예측(Historical Projection)으로 AI모델을 학습시키는 데 사용되어 온 데이터의 양의 변화를 기반으로 고갈시점을 예측했다. 또 하나의 방식은 연산예측(Computing Projection)으로 데이터량과 컴퓨팅 능력을 감안해 예측했다. 컴퓨팅 능력이란 저장장치, 연산능력 등을 모두 포함한 개념이다. 연산능력은 매년 늘어나지만 어느 정도 한계를 가지고 있다. 따라서 보다 현실적인 수치라고 볼 수 있다.

데이터의 종류는 3가지로 분류하는데 저품질 언어 데이터(low-quality language stock)는 인터넷 커뮤니티 글처럼 출처불명의 불규칙하고 자유분방한 데이터이다. 진실여부도 알 수 없고 용어도 불명확하며 문장자체도 매우 거칠다. 반면 고품질언어데이터(High-quality language stock)는 잘 정돈되고 명확한 의미를 가지는 데이터를 말한다. 뉴스나 저서나, 논문, 백과사전 같은 것이 해당될 수 있다. 그리고 이미지 데이터가 있다.

표를 보면 저품질 언어데이터는 연산 예측에서 2040년, 역사적 예측에서 2032년 고갈될 것으로 예측된다. 연산예측이 좀 더 긴 이유는 아마 연산능력이 받쳐주지 않으면 데이터가 있어도 다 소모할 수 없기 때문 일 것이다. 이에 관해서는 별도의 설명은 나와있지 않다.

고품질 언어 데이터와 이미지 데이터에서는 역사적 예측이 더 늦게 고갈되는데 이것은 데이터의 양 자체가 연산능력을 초과하지 않기 때문 일 것이다. 이 경우 연산능력이 발전하는 속도가 데이터 처리양보다 빨라서 고갈시점이 빠른 것으로 보인다.

이미지 데이터는 텍스트보다 인터넷상의 데이터가 적고 데이터 형태로 추출하는데도 시간이 걸려 생산도 늦다. 따라서 훨씬 뒤인 2046년으로 계산된 것 같다. 즉 이미지는 데이터의 양보다는 연산능력에 달려있다고 본 것이다. 당연히 그럴 수밖에 없다.

데이터 고갈 문제에 대해 현재까지 나온 해법은 AI가 인공적으로 데이터를 생산해서 그것으로 다시 AI를 학습시키는 방법이다. 이 방법은 원천 데이터 자체가 희소한 경우 고육지책으로 쓰이던 방법인데 데이터 고갈 시에도 활용할 수 있다는 것이다.

하지만 최근 연구에서 이 방법의 한계가 발견되었다고 한다. 영국과 캐나다에서 진행한 연구(출처: https://arxiv.org/pdf/2305.17493)에서 이런 식으로 AI가 발생시킨 데이터를 학습에 이용했더니 학습을 지속할수록 실데이터의 분포를 기억하지 못하고 좁은 범위의 데이터를 산출하게 되었다고 한다. 이것을 모델의 붕괴라고 하는데 인터넷에 AI가 생성한 데이터가 늘어날수록 이걸 학습하는 인공지능이 잘못된 학습을 하게 되는 악순환으로 빠져들 수 있다.

정규분포 변화(출처: 스탠보드 AI Index Report)

이 그래프에서 보듯이 학습이 계속될수록(세대가 넘어갈수록) 정규분포에서 점점 중앙으로 모이기 시작한다. 원래 실데이터는 정규분포에 가까웠지만 중앙으로 모이기 시작하면 오히려 실데이터와는 멀어지게 된다.

숫자 결과물의 변화(출처: 스탠보드 AI Index Report)

이 그림을 보면 원래모델에서는 다양한 숫자를 결과물로 내놓지만 합성데이터로 계속 학습시키면 20번째 모델부터는 다양성이 거의 실종되는 것을 볼 수 있다.

또 다른 연구에서도 실데이터가 아닌 합성데이터를 계속 사용하여 학습시킬 경우 출력품질이 떨어지게 되는 현상을 발견하였고 이것을 모델 자가포식 장애라고 명명했다(출처:https://arxiv.org/pdf/2307.01850).

학습이 반복될수록 얼굴에 이상 무늬가 나타난다(출처: 스탠보드 AI Index Report)

이 그림은 이미지 생성모델에 합성데이터를 계속 넣었을 경우 7, 9 세대 모델에 가서는 얼굴에 해쉬(빗살무늬)가 나타나는 것을 볼 수 있다. 다만 합성데이터와 실데이터를 섞어주면 이런 현상을 완화할 수 있다고 한다.

합성 데이터로 학습할 경우 모든 면에서 결과물 품질이 떨어진다(출처: 스탠보드 AI Index Report)

이 그래프를 보면 완전 합성데이터보다는 실데이터와 섞은 분홍색 선이 훨씬 좋은 결과를 보이고 있다는 것을 알 수 있다. FID는 모델이 생성한 이미지와 원본이미지의 특징적 거리를 나타내는 것으로 낮을수록 좋다. 정밀도(Precision)는 모델 성능지표 중 하나로 참으로 추론한 것 중 실제로 참인 경우이다. 재현율(Recall)은 참인 것 중에서 참으로 추론한 경우이다.

비슷해 보이지만 다 이유가 있는 지표이다. 일일이 설명하려면 너무 깊게 들어가니까 아무튼 실데이터가 들어가야 자가포식현상을 막을 수 있다는 것만 알아두자. 즉 데이터 고갈은 현실적인 문제이며 비록 합성데이터로 고갈시점을 늦출 수는 있더라도 한계는 분명하다.

이론적으로는 이런데 내 개인적인 의견으로는 그렇게 당장 고갈 될 것 같지는 않다. 예측에서는 당장 올해 고품질 언어 데이터가 고갈되는 것으로 나왔지만 그렇지 않았다. 학자들은 고갈이란 단어를 쉽게 쓰는데 현실에서 고갈은 그렇게 자주 벌어지지 않는다.

석유를 보면 아는데 80년대부터 고갈된다고 경고들이 나왔지만 아직까지 고갈되지 않았고 오히려 매장량이 늘어나고 있다. 점점 기술이 발전하면서 석유를 더 많이 찾아내고 있고 연비 또한 좋아지면서 효율적인 사용이 되고 있는 것이다. 최근엔 셰일가스등 신공법으로 더 많은 석유가 창출(?)되고 있다.

데이터도 우리가 세상의 모든 고품질 언어데이터를 찾아내 집계했다고 믿기는 어려울 것이다. 데이터는 계속 생산되고 기술의 발달로 생산량이 더 늘어날 것이다. 서구의 데이터만 있는 것도 아니고 동양의 데이터도 있을 것이고 전산화와 거리가 먼 인도, 중국의 방대한 인류문화 데이터도 있다. 저 멀리 티베트 고원의 사원에 있는 데이터도 집계에 포함했을까? 아닐 것이다.

이렇듯 데이터는 연구에서 처럼 당장 고갈되지는 않을 것이다. 하지만 합성 데이터 만으로는 AI를 학습시킬 수 없다는 사실은 마치 신이 쉬운 길을 허락하지 않은 것처럼 두려움을 안겨준다. 아무리 많은 데이터라도 언젠가는 고갈될 것이고 석유보다는 고갈시키기 쉬운 자원이다. 왜 이런 현상이 발생하는지에 대한 보다 깊은 연구와 함께 해결방안을 찾아야 할 것이다.

keyword

키르히아이스 경제 분야 크리에이터 직업 출간작가

퇴사일기 저자

세상의 꿈과 사람을 연결하고 싶습니다.

팔로워 739

매거진의 이전글대한민국이 미국, 중국, 일본보다 AI 특허가 많다고?각 나라별 AI 파운데이션 모델 보유수는 어떻게 될까?매거진의 다음글