AI의 성장판은 닫혀가고 있다.

인공지능, 그리고 미래

by Upked

AI라는 개념이 대중에게 각인된 이세돌과 알파고의 대결. 그 이후로 벌써 10년에 가까운 시간이 흘렀다.

인공지능 관련 기술은 정말 무서운 속도로 발전해왔다. 요즘엔 인공지능이 일자리를 독점하여 인류를 위협할 것이라는 말도 나오는 것 같다. 과연 정말로 AI 기술의 발전이 인간 시대의 종말을 가져올까?




생각보다 더 급격한 성장, 그러나..


알파고의 파급력은 강력했지만, 사실 그 후로도 AI 관련 연구는 꽤 오랫동안 정체되어 있었다.

그러다 5년의 세월이 흘러 2020년, GPT-3이라는 인공지능 모델 하나가 등장했다.

그리고 이 모델의 등장으로 AI업계의 패러다임은 엄청난 격변을 맞게 된다.


GPT는 사전학습미세조정이라는 두가지 차별점으로 다른 모델들과의 성능 차이를 큰 격차로 벌려나갔다.

이전까지의 인공지능 산업은 수학 문제를 푸는 AI, 바둑을 두는 AI처럼 각각의 분야에 특화된 모델을 만드는 것에 초점이 맞추어져 있었다.


하지만 GPT가 추구하는 방향은 약간 달랐다. 분야를 가리지 않는 만능 모델을 만들기 위해 다양한 분야의 데이터(파라미터)를 한 모델에 전부 때려박고, 그 후 미세한 조정을 통해 만들어진 이 모델은 한 분야에 특화된 AI를 상대로 압도적인 성적을 거두게 되었다.


어려운 문제를 풀고, 고민을 들어주거나 그림을 그려주는 등 사용자의 요구에 따라 무궁무진하게 활용할 수 있는 AI의 등장이였다. 이런 특징으로 ChatGPT는 출시 직후 5일만에 사용자 100만을 넘기는 기염을 토하기도 했다.


GPT라는 개념이 학계에 정착된 후로, 더 이상 AI업계는 특정 작업에 특화된 모델을 만드려 하지 않고, 하나라도 더 많은 데이터를 모델에 학습시키자는 흐름으로 넘어가계 된다.

그 후로 지금까지도 AI는 엄청난 속도로 발전해 왔다. 사실상 우리가 경험한 대부분의 AI 기술은 10년이 아닌 5년 사이에 이루어낸 성과라고 볼 수 있다. 그렇다면 정말 우리의 미래도 암울하기만 할까?

여기에 대해 나는 우리가 너무 걱정하지 않아도 된다고 말하고 싶다.




AI의 성장곡선은 결코 무한하지 않다.


바로 윗 글에서 인공지능 업계의 패러다임을 바꾼 모델의 이름을 GPT-3이라고 한 적 있다.

여기서 한가지 의구심이 들 수 있다. 방금은 GPT라는 기술이 혁신이라면서, 왜 1도 아니고 2도 아닌 GPT-3에 들어서야 패러다임이 바뀐 것일까?


해답은 바로 "데이터의 양"에 있다.


GPT-1의 경우 1억이 조금 넘는 데이터가, GPT-2의 경우에는 15억 정도의 데이터가 들어 있었다.

그리고 GPT-3에는 무려 1750억의 데이터가 들어갔다. 초기 모델인 GPT-1의 1500배에 달하는 양이다.


공부에서도 무식하게 문제를 많이 푸는 일명 "양치기"를 하면 성적이 오른다는 말처럼, GPT모델도 양치기를 하다 보니 성능이 급격하게 향상된 케이스다.

여기서 한가지 재밌는 사실은 성장 곡선이 꾸준한 우상향을 그린 것이 아닌, 특정 지점에서 폭발적인 성능 향상을 보여주었다는 것이다.


출처 : Emergent Abilities in Large Language Models: A Survey, arXiv


논문에서는 이러한 현상을 Emergent Abilities(창발적 능력)이라고 부른다. 마치 사람이 외국어를 계속 접하다보면 어느 순간부터 듣기에 혈이 뚫리는 것처럼, AI도 데이터의 양이 일정 수준(임계점)을 돌파하자 성능이 급격하게 향상되었다는 내용이다.

그래프를 보면, 데이터의 수가 약 1000억을 돌파하는 시점에 성능이 급격히 향상됨을 알 수 있다. 아까 GPT-3에 들어간 데이터의 양이 1750억이라고 했으니, 이 조건을 만족하는 샘이다.


만약 이러한 임계점을 AI가 한 번 더 뚫을 수 있다면, 그때는 진짜로 AI의 발전을 사람이 감당할 수 없는 시대가 올지도 모른다. 하지만 우리가 잊어서는 안 될 사실은, 아직 관측되지 않은 '두 번째 임계점'이 어디에 있는지도 모르고, 실제로 있는 것인지도 불확실하다는 것이다.




2025년 최신 AI 모델들은 수천억~조단위의 데이터를 학습시키고 있다. 1조라고 해도 직접 계산해보면 GPT-3의 6배 정도밖에 안 된다. 총량은 늘었지만 상승폭만 놓고 보면 앞에서 본 1500배에 비해 미미한 수준이다.

이미 학계에선 기존에 존재하는 대부분의 데이터를 이미 모델 학습에 써버려서 학습시킬 데이터가 부족하다는 말도 꾸준히 나오고 있다(데이터 고갈). 물론 이에 대한 대안도 여럿 있지만, 모델의 규모를 키우는 데에는 점점 제동이 걸리고 있다. 이러한 상황을 종합해보면, 앞으로 일어날 모든 가능성을 예측할 수는 없지만 적어도 우리가 살아있을 동안에는 인간이 완전히 AI에게 대체될 걱정을 할 필요가 없다는 것이 나의 생각이다.