챗GPT가 나오고, LLM과 생성AI는 전국민이 알만한 용어가 됐지만, LLM이 어떻게 작동하는지 제대로 이해하기는 일반인 입장에서 쉽지 않다.
딥마인드 공동 창업자로 지금은 마이크로소프트에서 개인 사용자용 AI 부문을 이끌고 있는 무스타타 슐레이만이 쓴 '더 커밍 웨이브'에서 일반인이라도 비교적 이해가 좀 되는 LLM에 대한 설명이 있어 소개한다.
얼마전 까지만 해도 자연어 처리는 너무 복잡하고 너무 다채롭고 너무 미묘해서 최신 AI로 처리하기에는 어려워 보였다. 2017년 구글 소규모 연구원 그룹은 AI 시스템이 데이터 시리즈에서 가장 중요한 부분에만 집중해 다음에 일어날 일을 정확하고 효율적으로 예측하도록 하는 방법에 집중했다. 그리고 그들의 연구는 챗GPT를 포함한 대규모 언어 모델 분야에서 혁명에 버금가는 토대를 마련했다.
LLM에서 핵심적인 기술로 꼽히는 트랜스포머의 탄생이다.
LLM은 언어 데이터가 순차적으로 제공된다는 점을 이용한다. 각 정보 단위는 어떤 식으로든 한 시리즈의 앞 부분에 있는 데이터와 관련이 있다. 이 모델은 상당히 많은 양의 문장을 읽고 그 안에 담긴 추상적 표현을 학습한 다음 학습한 내용을 기반으로 다음에 나올 내용을 예측한다. 문제는 주어진 문장 어디에서 시그널을 찾아야 하는지 아는 알고리즘을 설계하는데 있다. 문장에서 가장 눈에 띄는 요소인 핵심 단어가 무엇이고 그 단어들은 서로 어떤 연관이 있을까? AI에선 이같은 개념을 보통 어텐션이라고 한다.
LLM은 문장을 수집할때 어텐션 맵이라고 생각할 구두점을 음절과 같은 '토큰'으로 구성하지만 실제로는 자주 발견되는 문자들을 덩어리로 묶어 모델이 정보를 더 쉽게 처리할 수 있도록 한다. 물론 인간은 단어를 사용해 이러한 작업을 수행하지만 LLM은 인간의 어휘를 사용하지 않는다는 점에 주목할 필요가 있다. 대신 이 모델은 수십억 개의 문서에서 패턴을 발견하는데 도움이 되는 일반적인 토큰의 새로운 어휘를 만들어 낸다. 어텐션 맵에서 각 토큰은 그 앞에 있는 모든 토큰과 특정 관계를 맺고 있으며, 정보를 담고 있는 주어진 문장에서 이 관계의 강도는 해당 문장에서 해당 토큰이 갖는 중요도를 설명해준다. 사실상 LLM은 어떤 단어에 주목해야 하는지를 학습한다고 할 수 있다.
따라서 There io going to be a fairly major strom tomorrow in brazil이라는 문장을 예로 들면 LLM은 there라는 단어의 the와 going이라는 단어의 ing가 서로 다른 언어에서도 흔히 발견되기 때문에 이 두글자에 대한 토큰을 생성할 가능성이 높다. 전체 문장을 분석할 때 이 모델은 storm, tomorrow, Brazil이 중요한 요소임을 학습해 브라질은 장소를 뜻하고 앞으로 폭풍이 일어날 것이라는 사실 등을 추론할 수 있다. 이를 바탕으로 이 모델은 다음 순서로 어떤 토큰이 나올지, 또 입력한 정보에 따라 논리적으로 이어질 결과는 무엇인지를 제안한다. 다시 말해서 그 다음에 따라 나올 수 있는 내용을 자동으로 완성해준다. 이러한 시스템을 트랜스포머라고 한다.
LLM은 지도 학습에 의존을 넘어선 AI 시스템이라는 점도 주목할 필요가 있다.
2017년 구글 연구원들이 트랜스포머에 관한 첫번째 논문을 발표한 이후 그 발전 속도가 놀라울 정도로 빨라졌고 얼마 지나지 않아 오픈AI는 GPT-2를 출시했다. 매개변수 15억개를 가진 GPT-2는 800만 페이지에 달하는 웹텍스트로 훈련됐다. 하지만 2020년 여름 오픈AI가 GPT-3를 출시하고 나서야 사람들은 그 규모를 제대로 파악하기 시작했다. 무려 1750억개의 매개변수로 구성된 이 신경망은 1년 전의 신경망보다 100배 이상 큰 역대 최대 규모의 신경망이었다.
내가 지금부터 설명하고자 하는 AI 시스템은 엄청난 규모로 작동한다. 한가지 예를 소개하겠다. 2010년대 중반 AI의 발전 대부분은 지도 딥러닝의 효과에 힘입은 바가 크다. 여기서 AI 모델은 신중한 수작업으로 레이블이 지정된 데이터를 통해 학습한다. AI 예측의 정확도는 훈련용 데이터의 레이블 품질에 따라 달라지는 경우가 많다.
그런데 LLM이 가져온 혁명의 핵심 요소는 신중하게 선별해 작좁 레이블을 지정한 데이터셋이 아닌 복잡하고 원시적인 실제 데이터로 대규모 모델을 처음으로 학습시킬 수 있었다는데 있다. 그 결과 웺상의 거의 모든 텍스트 데이터가 유용해졌다. 즉 텍스트 데이터가 많을수록 더 좋았다. 오늘날의 LLM은 수조 개에 달하는 데이터를 통해 훈련 받는다.위키피디아를 통째로 다 읽고 유튜브의 모든 자막과 댓글을 읽고 수백만 개의 벌률 계약서, 수천만개의 이메일, 수십만 권의 책을 모두 읽는다고 상상해보자. 이러한 모델이 학습중에 소비하는 단어 수는 헤아릴 수 조차 없을 정도로 많을 것이다.
폄범한 사람이 분당 약 200단어를 읽을 수 있다고 치면 하루 24시간 동안 다른 일은 전혀 하지 않는다는 가정 하에 80년 간 약 80억단어를 읽을 수 있다. 보다 현실적으로 말하면 미국인은 하루 평균 약 15분 동안 책을 읽고 이는 1년 동안 약 100만 단어를 읽을 수 있다는 것을 의미한다.이는 LLM이 한달간 훈련하면서 소비하는 단어수보다 약 6배 더 적은 수치다. 따라서 이 새로운 LLM이 번약에서 부터 정확한 요약, LLM의 성능 개선을 위한 계획서 작성에 이르기까지 한때 숙련된 전문가들의 영업이었던 다양한 글쓰기 작업에서 놀라울 정도로 뛰어난 능력을 발휘하는 것도 그리 이상한 일은 아니다.