brunch

You can make anything
by writing

C.S.Lewis

by 최재철 May 09. 2024

Transformer에 시작된 여정

BERT 와 GPT까지 

2017년에 "Attention is all you need"라는 논문(https://arxiv.org/abs/1706.03762)이 NLP 연구 커뮤니티를 휩쓸었습니다. 지금까지 100,000회 이상 인용된 Transformer는 오늘날 대부분의 주요 NLP 아키텍처의 초석이 되었습니다. 

트랜스포머 모델의 전체 구조도


두 축으로의 발전

NLP에서 Transformers는 크게 2개의 축으로 발전되었습니다. 하나는 BERT(Bidrectional Encoder Representations from Transformers) 고, 또 하나는 일반인들도 많이 들어본 GPT(Generative Pretrained Transformer) 계열입니다. 

간단하게 두 모델의 특징을 살펴보면, BERT와, GPT는 각각 Google과 OpenAI에서 만든 자연어 모델이고, 

BERT는 트랜스포머의 인코더를, GPT는 트랜스포머의 디코더를 분리해 각각 독자적인 모델로 발전시켰습니다. (*쉽게설명하면 여기서 인코더는 입력부, 디코더는 출력부에 해당합니다.) 

트랜스포머 가계도

BERT는 마스크된 언어 모델링을 사용하여 끊임없이 훈련하여 문장에서 누락된 단어를 예측하는 기술을 연마했습니다. BERT의 "B"는 "Bidirectional"이며 "양방향"인 것이 특징입니다. 이것은 어떤 사건을 두 가지 다른 관점에서 생각하는 개념입니다.

예를 들어, 학교에서의 시험문제처럼, 문장의 일부를 빈칸으로 두고, 전후의 문장을 통해서 그 빈칸을 유추하도록 하는 것입니다. 

「먼 옛날에 어느날 ()가 담배피던 시절에~」  ():한국사람이라면 빈칸에 들어갈 적절한 단어는 "호랑이"라고 유추할 수 있겠죠 ^^


그에 반해 GPT는 텍스트 처리에 대한 단방향 접근 방식을 채택했습니다. (굳이 양방향으로 훈련할 필요가 없다고 판단했겠죠.) 텍스트를 왼쪽에서 오른쪽으로만 분석했지만 GPT는 텍스트를 생성하고 일관되고 상황에 맞게 관련성을 엮어내는 놀라운 능력을 보여주었습니다. 

 

학습방향 차이점


그리고, 둘 다 대규모 언어 모델로 BERT는 3억 4000만, GPT-3은 1750억, GPT-3.5는 3550억의 방대한 파라미터를 가지고 있습니다.

그리고 이것을 100만 단위라면 M(Million), 10억 단위라면 B(Billion)이라는 기호로 표현합니다. 즉, 3억 4000만이면 「340M」, 1750억이면 「175B」라고 표현합니다. 


결 론

Transformer로 시작되어 BERT와 GPT라는 두 가지 변화까지 살펴보았습니다. 

여기에서 우리는 혁신과 영향력의 놀라운 여정을 목격했습니다. 

앞으로 좀 더 지켜봐야 겠지만, 현재로써는 GPT 의 승리인 거 같습니다. 




[참고문헌]

https://blog.testworks.co.kr/natural-language-and-transformer-bert-gpt/

https://m.hanbit.co.kr/channel/category/category_view.html?cms_code=CMS5215583920

https://brunch.co.kr/@harryban0917/280

https://ratsgo.github.io/nlpbook/docs/language_model/bert_gpt/

https://medium.com/@prudhvithtavva/bert-vs-gpt-a-tale-of-two-transformers-that-revolutionized-nlp-11fff8e61984

https://velog.io/@supply90/BERT-GPT


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari