brunch

You can make anything
by writing

C.S.Lewis

by 알바트로스 Mar 09. 2024

초거대언어모델(LLM) - 자본과 데이터의 집약체

매개변수와 데이터는 많으면 많을수록 좋다


거대언어모델(LLM)에는 최첨단 기술뿐만 아니라 자본과 인류 문명의 정수가 녹아있습니다. 최근 미국의 반도체 회사 엔비디어(NVIDIA)의 주가는 왜 연일 고공행진을 하고 있는 것일까요? Google과 OpenAI 그리고 Microsoft가 그토록 자체 생성형 AI 개발에 열을 올리고 있는 이유는 무엇일까요? 초거대언어모델(LLM)의 개념과 기술을 이해하고 나면 자본과 데이터의 집약체이자 패권전쟁의 중심에 있는 인공지능의 새로운 면모를 보실 수 있을 것입니다.


생성형 AI에 막대한 자본을 투입하는 빅테크 기업들 (출처 : The Strategy Deck)


우리는 지금까지 어텐션 메커니즘(attention mechanism)과 병렬처리를 통해 모델의 성능을 기하급수적으로 개선한 Transformer와 그의 자녀들인 GPT 그리고 BERT에 대해서 배웠습니다. 그러나 Transformer 역시 일정 수준에 이상의 성능 개선을 이루어내지 못하면서 한계에 봉착하게 됩니다. 그렇다면 Transformer 성능의 한계를 어떻게 극복할 수 있었을까요? 그 답은 '다다익선(多多益善)' 즉 많으면 많을수록 좋다.'에서 찾을 수 있었습니다.(물론 작동 원리를 배우다 보면 아시겠지만 무작정 큰 것이 다 좋은 것은 아닙니다.)


엔지니어와 연구자들은 GPT와 같은 기초모델(foundation model)의 매개변수(parameter)를 기하급수적으로 늘리고 천문학적인 양의 텍스트 데이터를 학습시키는 방식을 통해서 또 한 번의 혁신을 이루어 냅니다. 이렇게 탄생한 거대한 언어모델이 바로 초거대언어모델(Large Language Model)입니다.


이처럼 초거대언어모델(LLM)이란 아주 큰 텍스트 데이터셋으로 훈련된 딥러닝(Deep Learning) 기반의 언어 모델을 말합니다. 이러한 모델들은 적게는 수십~수백억 개에서 많게는 수 조개의 매개변수를 가지고 있습니다. 매개변수란 결국 언어모델을 구성하는 심층신경망(Deep Neural Network)의 가중치(weight)와 편향(bias)을 가리킵니다. 일반적으로 딥러닝 모델은 매개변수가 많을수록 인풋 데이터의 세부적인 특성까지 파악이 가능하며, 따라서 성능 또한 좋은 것으로 알려져 있습니다.


매년 증가하고 있는 LLM의 매개변수들(출처 : HarishDataLab)


뿐만 아니라 초거대언어모델(LLM)은 일상생활에서 자주 사용되는 말뭉치(corpus) 뿐만 아니라 각종 논문과 전문서적에 이르기까지 방대하고 다양한 데이터를 학습함으로써 다양한 주제에 대해 사람과 유사한 매끄럽고 자연스러운 문장을 생성해 낼 수 있게 되었습니다. 이러한 작업을 위해 웹 사이트 상에 떠도는 잡다한 텍스트부터 전문서적과 논문에 이르기까지 실로 어마어마한 양의 데이터를 가공하고 학습하는 작업이 필요했습니다.


이처럼 방대한 양의 학습 데이터 덕분에 초거대언어모델(LLM)은 기존의 언어 모델들보다 더 다양한 패턴과 구조를 학습할 수 있게 되었습니다. 그렇다면 언어모델이 얼마나 거대해야 초거대모델(LLM)이라고 할 수 있는 것일까요? 명확히 정해진 기준은 없지만 보통 수십억 개 이상의 매개변수(parameter)를 가지고 있는 언어모델을 초거대언어모델(LLM)이라고 부릅니다. 챗GPT의 기초 모델인 GPT-3.5의 경우 약 1750억 개의 매개변수를 가지고 있는 것으로 알려져 있습니다.


결국 앞으로의 인공지능은 누가 더 많은 계산 리소스(GPU)와 양질의 데이터를 확보하느냐의 싸움이 될 가능성이 큽니다. 그리고 이 두 가지는 자본 및 노동력과 밀접한 관계가 있습니다. 물론 생성형 AI를 보다 적은 리소스로 활용하기 위한 PEFT(Parameter Efficient Fine-Tuning) 그리고 양자화(Quantization)와 같은 다양한 테크닉의 연구가 계속되고 있지만, 생성형 AI와 초거대언어모델(LLM)의 본질은 결국 자본에 있는 것일지도 모르겠습니다.


초거대언어모델(LLM)의 등장으로 이제 언어모델은 점점 더 거대화되어가며 자연어처리의 새로운 표준이 되었습니다. 하지만 완전히 새로운 개념은 아닙니다. 결국은 GPT와 같이 뼈대가 되는 모델에 방대한 데이터셋으로 사전 학습(pre-training)을 진행한 뒤 특정 태스크를 잘 수행할 수 있도록 미세 조정(fine-tuning)을 하여 성능을 향상하는 방식으로 만들어진 것이 바로 초거대언어모델(LLM)이기 때문입니다. 이러한 과정을 통틀어 전이학습(transfer learning)이라고 합니다. 다음시간에는 전이학습이 어떻게 이루어지는지 그 원리를 자세히 배워보도록 하시죠.


이전 03화 Transformer의 자녀들 - BERT와 GPT
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari