brunch

연재 중 생각하는 기계의 원리 - 2편 03화

라이킷 26 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

Transformer의 자녀들 - BERT와 GPT

BERT와 GPT는 Transformer와 무슨 연관이 있을까?

by 알바트로스 Mar 03. 2024

자연어처리 역사의 한 획을 그은 트랜스포머(Transformer)에서 BERT와 GPT라는 두 개의 서로다른 언어모델이 탄생하였습니다. BERT와 GPT는 둘다 트렌스포머에서 파생된 언어모델로 트랜스포머를 같은 어머니로 두고 있는 형제라고 할 수 있습니다. 이 두 모델은 서로 다른 강점을 가지고 각자의 영역에서 준수한 성능을 자랑하며 SoTA 모델로 인정받고 있습니다.

GPT와 BERT는 둘 다 트랜스포머의 아키텍처를 기반으로 하지만, 사용하는 방향과 목적, 그리고 학습 전략에서 차이점이 있습니다. BERT는 양방향 정보를 활용하여 문맥을 파악하는 데 중점을 둔 반면, GPT는 주어진 정보를 바탕으로 다음에 올 내용을 예측하는 생성적인 측면을 강조합니다. 한마디로 BERT가 자연어이해(NLU)에 특화되었다면, GPT는 자연어생성(NLG)에 특화되었다고 할 수 있지요. 그럼 각각의 모델에 대해 자세히 살펴봅시다.

1. 문장 이해에 특화된 BERT

BERT는 Bidirectional Encoder Representations from Transformers의 약자로, 트랜스포머의 인코더 구조만을 활용한 모델입니다. BERT의 가장 큰 특징은 이전의 언어 모델들과 달리 양방향으로 문맥을 파악하며 학습한다는 점입니다. 기존의 언어 모델들은 대부분 단방향적인 학습, 즉 왼쪽에서 오른쪽으로 또는 그 반대로만 텍스트를 읽었습니다. 그러나 BERT는 주변의 문맥 정보를 앞 뒤 양방향에서 동시에 파악하므로, 단어나 구문의 정확한 의미를 더 잘 이해할 수 있다는 장점을 가지고 있습니다.

BERT Architecture

모델 학습 과정에서는 '마스크된 언어 모델링(Masked Language Modeling)'이라는 독특한 방식을 사용하는데, 텍스트의 일부 단어를 무작위로 가리고(마스크), 그 마스크된 단어를 예측하는 형태입니다. 트랜스포머의 인코더 구조를 그대로 답습한 BERT는 트랜스포머와 동일하게 미세조정(fine-tuning)을 통해 다양한 자연어 처리 태스크에서 뛰어난 성능을 보여주었습니다. 특히 질문 응답(QA) 시스템, 감정 분석, 개체명 인식(NER) 등에서 주목받는 성과를 냈습니다.

GPT만큼 잘 알려져 있지는 않지만 BERT 역시 초거대언어모델(LLM)의 범주에 들어가는 거대한 모델입니다. BERT의 기본 모델인 BERT-base는 약 1.1억개, 그리고 성능을 극대화 한 BERT-large는 약 3.4억개의 매개변수(parameter)를 가지고 있는데, 이는 2018년 OpenAI에서 발표한 GPT-1 보다 큰 규모입니다. 2019년 BERT의 개념을 소개한 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding라는 논문이 발표되었을 당시에만 해도 BERT는 뛰어난 성능과 거대한 모델 크기로 주목을 받았었습니다.

지금은 약 1750억개의 매개변수를 가진 GPT-3를 비롯하여 BERT보다 커다란 매개변수와 좋은 성능을 자랑하는 초거대언어모델(LLM)들이 많이 출시되었지만, BERT는 여전히 GPT가 커버하지 못하는 문맥 파악 관련 태스크를 훌륭하게 커버하며 자연어처리 개발자들 사이에서 널리 사용되고 있는 모델입니다.

2. 생성형 AI의 뼈대가 되는 GPT

GPT는 Generative Pre-trained Transformer의 줄임말로, Transformer 아키텍처를 기반으로 한 언어 생성 모델입니다. GPT는 Transformer 아키텍처 중 디코더(decoder) 부분만을 활용하여 구축되었습니다. 이를 통해 주어진 입력 텍스트에 대해 적절한 다음 텍스트(또는 단어)를 예측하는 데 특화된 모델이 탄생했습니다. 2022년 11월 OpenAI에서 발표한 챗GPT의 기초모델인 GPT-3.5의 뼈대가 되는 언어모델로 초거대언어모델(LLM)과 생성형 인공지능이라는 하나의 거대한 트렌드를 주도할 정도로 각광받고 있는 모델입니다.

GPT는 BERT와 동일하게 먼저 대량의 텍스트 데이터를 사용해 사전학습(pre-training)을 진행한 뒤에, 그 다음 특정 태스크에 대해 미세 조정(fine-tuning)을 적용하여 커스터마이징 합니다. 이러한 두 단계의 학습 방식 덕분에 GPT는 다양한 자연어 처리 태스크에서 뛰어난 성능을 발휘할 수 있게 되었죠. 잘 알려져 있듯이 GPT는 자연어 생성 작업에 특히 강합니다. 따라서 대화형 시스템, 스토리 생성, 텍스트 완성 등의 작업에 적합한 것으로 알려져 있습니다.

GPT Architecture

OpenAI는 2018년 GPT-1를 시작으로 매년 GPT를 기반으로 한 자사의 기초모델 시리즈를 발표하고 있습니다. OpenAI는 GPT의 매개변수(parameter)를 늘리거나 학습용 텍스트 데이터셋을 다양화 하는 등 여러 방식을 통해 매년 성능을 기하급수적으로 개선시키고 있습니다. GPT-1 부터 GPT-4에 이르는 GPT 시리즈의 상세한 모델 스펙과 성능에 대해서는 이 책의 후반부에서 자세히 다루도록 하겠습니다.

GPT 시리즈의 거대화는 수천억원에서 수조원에 달하는 막대한 훈련비용이라는 문제에서 자유로울 수 없습니다. 기초모델이 거대해질수록 사전학습과 미세조정에 들어가는 비용 역시 모델의 크기에 비례하여 증가할 수 밖에 없기 때문입니다. 또한 이렇게 모델이 거대화될수록 작은 스타트업과 개인은 독자적으로 언어모델을 개발하기 점점 더 힘들어지며, OpenAI나 google과 같은 빅테크 기업에 절대적으로 의존할 수 밖에 없다는 문제점이 있습니다.

keyword