LLM, 인공지능 언어 모델의 발전

by 이롱이

언어를 이해하는 다양한 시도들

초기 AI는 인간의 언어를 이해하기 위해 다양한 방법을 시도했습니다. 그중 가장 단순한 방법인 BOW(Bag of Words)는 문장에 어떤 단어가 얼마나 자주 등장하는지만 보고 의미를 파악하는 방식이었어요. 단어의 순서나 관계는 무시했기 때문에 "개가 고양이를 쫓는다"와 "고양이가 개를 쫓는다"를 구분하지 못하는 한계가 있었죠.

이후 등장한 N-gram은 이 한계를 보완하기 위해 여러 단어를 묶어 순서를 고려하기 시작했어요. 덕분에 "나는 학교에"라는 문장 다음에 "간다"가 올 확률을 계산할 수 있게 되었죠. 하지만 문장이 길어지면 필요한 데이터의 양이 기하급수적으로 늘어나는 문제가 있었습니다.

화면 캡처 2025-09-10 150340.png N-gram은 앞의 단어들을 보고 다음 단어가 무엇일지 확률적으로 계산해 예측한다.

RNN(순환신경망)은 이런 문제를 해결하고자 이전의 정보를 기억하며 다음 단어를 예측하는 모델입니다. "나는 오늘 학교에 가서 친구와 함께 점심을 먹고..."처럼 문맥이 길어지는 상황에서도 어느 정도 의미를 파악할 수 있었습니다. 하지만 너무 오래된 기억은 점차 흐릿해지는 '장기 의존성' 문제로 인해 문장이 아주 길어지게 되면 앞에 나온 중요한 정보를 잊어버리게 되곤 했죠.


언어 혁명의 시작 : 어텐션과 트랜스포머

위와 같은 언어 모델의 한계를 극복하기 위해 등장한 개념이 바로 어텐션(Attention)입니다. 어텐션은 AI가 문장을 읽을 때 모든 단어를 똑같이 보지 않고, 중요한 단어에 더 '주의(Attention)'를 기울이는 방식이에요. 예를 들어, "나는 오늘 시험을 봤다"라는 문장에서 AI는 '시험'과 '봤다'처럼 의미적으로 중요한 단어들에 더 큰 가중치를 부여하며 문장의 핵심을 파악합니다.

출처 : AHHALabs

그리고 이러한 어텐션 개념을 활용하여 개발된 모델이 바로 트랜스포머(Transformer)입니다. 트랜스포머는 문장 전체를 한 번에 보고 모든 단어 사이의 관계를 파악할 수 있어, 긴 문장도 효과적으로 이해할 수 있어요. 또한, 여러 개의 다른 관점(헤드)으로 동시에 문장을 바라보는 '멀티 헤드 어텐션'을 통해 문장의 의미를 더 풍부하게 이해하게 되었죠. 이 트랜스포머 덕분에 ChatGPT와 같은 혁신적인 AI들이 탄생할 수 있었습니다.


LLM, 방대한 지식을 학습하다

인공지능의 언어 능력은 트랜스포머(Transformer)의 등장으로 폭발적인 성장을 이루었습니다. 과거의 모델들이 문장을 순서대로 처리하며 앞선 내용을 잊어버리곤 했던 것과 달리, 트랜스포머는 문장 전체의 단어 관계를 한 번에 파악하는 혁신적인 방식을 사용했죠. 이러한 기술적 도약은 AI가 훨씬 더 복잡하고 긴 문맥을 이해할 수 있는 기반을 마련했습니다.

LLM(Large Language Model), 즉 거대 언어 모델은 이러한 트랜스포머 모델을 기반으로 만들어졌습니다. 이름에서 알 수 있듯이, 이 모델들은 인터넷의 방대한 양의 텍스트 데이터를 미리 학습합니다. 이 과정을 사전 학습(Pre-training)이라고 부르는데, 이를 통해 모델은 수많은 언어 패턴과 지식을 습득하게 됩니다. 마치 수십만 권의 책을 읽고 세상의 모든 정보를 머릿속에 담아둔 것처럼, LLM은 언어의 문법, 의미, 그리고 다양한 맥락적 지식을 학습하여 인간처럼 자연스러운 대화를 만들어냅니다.

lpi9i3gq7tzx959bj-large-language-models.png?auto=format%252Ccompress

GPT-3와 같은 LLM은 사전 학습된 방대한 지식 덕분에, 특정 작업을 위한 추가적인 학습 없이도 놀라운 성능을 보여줄 수 있었습니다. 이를 제로샷(Zero-shot) 또는 퓨샷(Few-shot) 학습이라고 하는데, 단 한두 개의 예시만으로도 새로운 작업을 수행할 수 있다는 의미예요. 덕분에 우리는 별도의 훈련 없이도 AI에게 번역, 요약, 코드 작성 등 다양한 작업을 요청할 수 있게 되었습니다. 이러한 LLM의 등장 덕분에 인공지능은 단순히 정보를 찾아주는 도구를 넘어, 인간과 소통하며 창작 활동을 돕는 파트너로 진화하고 있습니다. ChatGPT 같은 대화형 AI는 트랜스포머 모델을 기반으로 방대한 데이터를 학습하여 인간처럼 자연스러운 대화를 나누고 질문에 대한 답변을 생성합니다. 긴 기사나 논문을 몇 문장으로 요약해 주는 기능들은 문장 내에서 중요한 단어들을 파악하고 핵심 내용을 추출하는 어텐션 기술을 활용합니다.

keyword
이전 11화NLP, 인간의 언어를 배운 AI