머신러닝(Machine Learning)이 어떻게 데이터를 통해 스스로 규칙을 학습하고, 이를 이용해서 예측과 판단하는 지를 확인했습니다. 이렇게 ‘정답이 있는 데이터’를 보고 배우거나, 정답 없이 스스로 패턴을 찾는 방식이 주류였습니다. 대규모 언어 모델(LLM)도 기본적으로는 정답 데이터를 이용하는 지도 학습(Supervised Learning)과 강화 학습(Reinforcement Learning)을 사용합니다. 하지만, LLM이 등장하면서 AI가 학습하는 방식도 크게 달라졌습니다. 이번에는 조금 어려운 개념들을 최대한 쉽게 풀어, LLM이 어떻게 학습하는지 살펴보겠습니다.
자기지도학습은 LLM의 기초 학습 단계입니다. 일반적인 머신러닝은 ‘정답’을 학습하지만, 자기지도학습은 정답이 없어도 학습이 가능합니다. 텍스트 데이터 자체에서 학습 목표를 만들어내는 방식이지요.
예를 들어, 문장 “오늘 나는 ___를 먹었다”가 있을 때, 빈칸에 들어갈 단어를 맞추는 것이 학습 목표가 됩니다. 이렇게 모델은 문맥과 단어 간의 관계를 이해하며 언어의 기본 규칙과 구조를 배우게 됩니다.
즉, 사람처럼 글을 읽고 문맥을 이해하며 스스로 학습하는 능력을 갖추는 단계입니다.
기초 능력을 갖춘 모델은 아직 사람처럼 명령을 이해하거나 원하는 대로 답하지는 못합니다. 이어서 지시튜닝으로 학습합니다. 모델에게 “이렇게 해라”라는 지시와 그에 맞는 예시를 보여주는 방식입니다.
예를 들어, “이 문장을 세 줄로 요약해 줘”라는 지시와 함께 요약 예시를 주면, 모델은 자연스럽게 요약하는 방법을 학습합니다.
결과적으로 지시튜닝을 거친 모델은 사용자의 요구에 맞게 정보를 가공하고 표현할 수 있는 능력을 갖게 됩니다.
그리고 이런 결과를 자연스럽고, 사실에 부합하며, 유용하게 답하도록 가르치는 강화학습입니다. 여러 전문가 집단의 사람이 모델의 여러 답변을 비교하고, 어느 답변이 더 좋은지 평가한 데이터를 기반으로 학습합니다.
예를 들어, AI가 여러 번 답변을 했을 때 사람이 “이 답변이 더 좋다”라고 선택하면, 모델은 그 패턴을 따라 점점 더 인간이 선호하는 맞는 답변을 내놓게 됩니다.
즉, 사람의 선호를 반영해 모델이 스스로 개선되는 과정이라고 이해하면 쉽습니다.
LLM이 기존의 모델들과 가장 차별화된 요소인 ‘프롬프트’입니다. LLM은 '프롬프트'에 맞춰 다양한 답변을 생성합니다. 따라서 필요에 맞춰서, 적절하게 프롬프트는 조정하는 기술이 필요합니다. “전문가처럼 답해줘”라고 프롬프트를 넣으면, 모델은 전문가 스타일로 대답합니다.
또 인컨텍스트 러닝을 통해, 프롬프트 안에 작은 분량의 예시를 넣어주기만 해도 새로운 작업을 수행할 수 있습니다. 즉, 모델이 이전에 배운 내용을 바탕으로 즉석에서 학습한 것처럼 행동할 수 있습니다.
모델은 엄청 큰 학습 자료를 이용해서 학습하지만, 모든 정보를 기억하고 있지는 않습니다. 따라서, 학습 이후의 최신 정보나 회사 내부 자료를 활용하려면 RAG가 필요합니다. 모델이 외부 문서나 데이터베이스에서 필요한 정보를 찾아와 답변에 반영하는 방식입니다.
예를 들어, 회의록이나 사내 문서를 확인한 뒤, 이를 바탕으로 질문에 답할 수 있습니다.
이와 같이 LLM 시대의 학습은 기존의 머신러닝 학습과는 다른 기법들을 대거 도입하였습니다.
1. 기초적인 능력을 학습: 자기지도학습, 지시튜닝
2. 사람의 선호에 맞춘 학습: RLHF
3. 즉석 활용과 제어: 프롬프트 엔지니어링, 인컨텍스트 러닝
4. 업무 적용과 확장: RAG
이처럼 LLM읜 단순한 텍스트 예측 모델이 아니라, 사람처럼 생각하고, 이해하며, 상황에 맞춰 행동하고, 여러 도구를 활용하는 학습 구조를 갖추고 있습니다.
참고
1) LLM. https://en.wikipedia.org/wiki/LLM
2) Self-supervised learning. https://en.wikipedia.org/wiki/Self-supervised_learning
3) Reinforcement learning from human feedback. https://en.wikipedia.org/wiki/Reinforcement_learning_from_human_feedback
4) Prompt engineering. https://en.wikipedia.org/wiki/Prompt_engineering
5) Retrieval-augmented generation. https://en.wikipedia.org/wiki/Retrieval-augmented_generation
6) A survey on multimodal large language models. https://pmc.ncbi.nlm.nih.gov/articles/PMC11645129/