BERT 와 GPT까지
2017년에 "Attention is all you need"라는 논문(https://arxiv.org/abs/1706.03762)이 NLP 연구 커뮤니티를 휩쓸었습니다. 지금까지 100,000회 이상 인용된 Transformer는 오늘날 대부분의 주요 NLP 아키텍처의 초석이 되었습니다.
NLP에서 Transformers는 크게 2개의 축으로 발전되었습니다. 하나는 BERT(Bidrectional Encoder Representations from Transformers) 고, 또 하나는 일반인들도 많이 들어본 GPT(Generative Pretrained Transformer) 계열입니다.
간단하게 두 모델의 특징을 살펴보면, BERT와, GPT는 각각 Google과 OpenAI에서 만든 자연어 모델이고,
BERT는 트랜스포머의 인코더를, GPT는 트랜스포머의 디코더를 분리해 각각 독자적인 모델로 발전시켰습니다. (*쉽게설명하면 여기서 인코더는 입력부, 디코더는 출력부에 해당합니다.)
BERT는 마스크된 언어 모델링을 사용하여 끊임없이 훈련하여 문장에서 누락된 단어를 예측하는 기술을 연마했습니다. BERT의 "B"는 "Bidirectional"이며 "양방향"인 것이 특징입니다. 이것은 어떤 사건을 두 가지 다른 관점에서 생각하는 개념입니다.
예를 들어, 학교에서의 시험문제처럼, 문장의 일부를 빈칸으로 두고, 전후의 문장을 통해서 그 빈칸을 유추하도록 하는 것입니다.
「먼 옛날에 어느날 ()가 담배피던 시절에~」 ():한국사람이라면 빈칸에 들어갈 적절한 단어는 "호랑이"라고 유추할 수 있겠죠 ^^
그에 반해 GPT는 텍스트 처리에 대한 단방향 접근 방식을 채택했습니다. (굳이 양방향으로 훈련할 필요가 없다고 판단했겠죠.) 텍스트를 왼쪽에서 오른쪽으로만 분석했지만 GPT는 텍스트를 생성하고 일관되고 상황에 맞게 관련성을 엮어내는 놀라운 능력을 보여주었습니다.
그리고, 둘 다 대규모 언어 모델로 BERT는 3억 4000만, GPT-3은 1750억, GPT-3.5는 3550억의 방대한 파라미터를 가지고 있습니다.
그리고 이것을 100만 단위라면 M(Million), 10억 단위라면 B(Billion)이라는 기호로 표현합니다. 즉, 3억 4000만이면 「340M」, 1750억이면 「175B」라고 표현합니다.
Transformer로 시작되어 BERT와 GPT라는 두 가지 변화까지 살펴보았습니다.
여기에서 우리는 혁신과 영향력의 놀라운 여정을 목격했습니다.
앞으로 좀 더 지켜봐야 겠지만, 현재로써는 GPT 의 승리인 거 같습니다.
[참고문헌]
https://blog.testworks.co.kr/natural-language-and-transformer-bert-gpt/
https://m.hanbit.co.kr/channel/category/category_view.html?cms_code=CMS5215583920
https://brunch.co.kr/@harryban0917/280
https://ratsgo.github.io/nlpbook/docs/language_model/bert_gpt/
https://velog.io/@supply90/BERT-GPT