brunch

연재 중 생각하는 기계의 원리 27화

라이킷 23 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 알바트로스 Feb 11. 2024

인공지능에 빅뱅이 일어나다

언어모델(LM)은 어떻게 초거대언어모델(LLM)이 될 수 있었을까?

본격적으로 챗GPT의 두뇌를 해부해볼 시간입니다. 이번시간부터 꽤나 긴 시간을 할애해서 걸쳐 통계적 언어모델부터 딥러닝과 클라우드 컴퓨팅을 비롯한 최첨단 기술의 집약체라고 할 수 있는 초거대언어모델(LLM)에 이르기까지 챗GPT의 두뇌라고 할 수 있는 언어모델(Language Model)의 기술적 발전 흐름을 따라 배워볼 것입니다. 다양한 언어모델들을 직접 해부하며 그 작동원리를 이해하고 예시코드를 활용하여 각 모델의 작동 메커니즘을 구현하며 익히기 위한 학습 과정입니다.

이제부터는 언어모델 개발자가 되기 위한 배경지식과 기초개념을 다지기 위한 깊이있는 내용들을 다룹니다. 여러분의 목표가 자연어처리(NLP) 엔지니어가 되는 것이든 단순히 챗GPT를 업무에 보다 잘 활용하는 기술을 습득하는 것이던 상관 없습니다. 기술 발전의 흐름을 따라 언어모델의 구조를 하나하나 뜯어보며 마스터 하면 남들보다 두배 세배 깊이있는 전문지식을 어렵지 않게 갖출 수 있을 것이라고 약속드릴 수 있습니다. 이번 시간은 앞으로 다룰 내용들의 틀을 잡는 목차정도로 사용해주시면 되겠습니다.

언어모델(Language Model)에 빅뱅이 일어나다

언어모델은 크게 초거대언어모델(LLM) 이전과 그 이후로 나눌 수 있습니다. LLM 이전에는 조건부확률과 분포가설과 같은 통계학 이론에 기반한 전통적인 언어모델이 있었습니다. RNN과 LSTM 등 텍스트 데이터를 순차적으로 처리하는 seq2seq 기반의 딥러닝 언어모델도 있었지요. 하지만 이들 언어모델은 텍스트 분류나 키워드 추출같은 단편적인 업무 보조만 가능한 수준이었습니다. 초거대언어모델(LLM)이라고 부를만큼 매개변수(parameter)와 학습데이터가 거대하지도 않았지요. 그렇다면 언어모델은 어떻게 초거대언어모델(LLM)으로 진화했을까요?

사실 초거대언어모델(LLM)은 대단히 새로운 기술은 아닙니다. LLM이 탄생하기 위한 토대는 1950년대 인공지능의 탄생 이후 하나 둘 갖추어지고 있었기 때문입니다. 인공신경망을 겹겹이 쌓아 올린 심층뉴럴네트워크(Deep Neural Network, DNN)를 활용한 여러 알고리즘의 발전뿐 아니라 다량의 비정형 데이터를 수집하고 저장하기 위한 Apache Hadoop과 같은 분산 DB 시스템과 NoSQL 그리고 이러한 데이터들을 처리하기 위한 GPU와 TPU를 비롯한 다양한 병렬처리 기술들까지. 필요한 것은 하나둘 갖추어지고 있었습니다.

출처 : attention is all you need(Sudipto Baul, Medium)

그러나 이 모든 조건들이 적합한 시점에 만나 폭발적으로 발전할 수 있게 해준 빅뱅과도 같은 사건이 일어납니다. 바로 2017년 구글의 엔지니어와 연구자들이 발표한 'attention is all you need'라는 논문에서 제시된 트렌스포머(transformer)라는 언어모델의 구조와 병렬처리에 대한 이론입니다. 병렬처리를 이해하면 기존 언어모델의 한계가 어떻게 극복되고 폭발적인 성능 발전이 가능해졌는지 이해할 수 있습니다. 우리는 트랜스포머의 핵심적인 메커니즘인 어텐션(attention)이 어떻게 작동하는지 배우고 병렬처리가 어떻게 언어모델의 성능을 혁신적으로 개선했는지 배워볼 것입니다. 그리고 나서 자연어처리의 최신 기술인 초거대언어모델(LLM)의 작동원리와 그 활용법을 익혀볼 것입니다.

언어모델(Language Model)의 작동원리를 왜 배워야 할까?

채팅만으로도 손쉽게 챗GPT를 활용할 수 있게된 요즘 어렵고 복잡해보이는 언어모델의 작동 메커니즘을 발전 순서대로 공부해야 하는 이유는 무엇일까요?

이해를 돕기위해 스스로를 비행학교에 갓 입학한 신입 파일럿 후보생이라고 생각해봅시다. 비행학교에서는 비행기 조종법은 물론이고 비행기가 날기 위해 필요한 양력과 부력 그리고 비행기 동체와 날개의 구조까지 자세히 배울 것입니다. 이런 복잡한 물리학 법칙들은 비행기를 잘 조종하기 위해서 필수적일 뿐만 아니라 혹시 모르는 비상상황에서도 유용하게 쓰입니다.

마찬가지로 기술 발전의 흐름과 맥락에 대한 이해를 하는 것은 인공지능시대를 살아가게될 여러분이 초거대언어모델(LLM)을 능숙하게 다루고 거기에 따르는 위험과 잠재력을 충분히 이해하기 위해 매우 중요합니다. 무엇보다 기본 원리를 이해하고 있는 사람들은 아무리 새로운 기술이 나와도 현혹되지 않고 기술의 본질을 바라볼 수 있습니다. 즉 스스로 LLM을 조련할 수 있는 조련사가 될 수 있는 것이지요.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari