brunch

You can make anything
by writing

C.S.Lewis

by 알바트로스 Mar 10. 2024

전이학습(Transfer Learning)이란?

사전학습(pre-training)과 미세조정(fine-tuning)

지난시간에 우리는 방대한 양의 매개변수(parameter)와 훈련 데이터(training data)를 통해 만들어진 초거대언어모델(LLM)에 대해 알아보았습니다. 매개변수와 훈련 데이터가 거대한 만큼 LLM에 소비되는 컴퓨팅 리소스와 비용은 상상을 초월합니다. OpenAI의 CEO 샘 올트먼은 챗GPT(GPT-3.5 기반) 훈련에만 1만개의 엔비디아 칩이 사용됐으며, 작년 3월에 출시한 GPT-4.0 훈련에만 무려 1억달러(약 1300억원) 이상이 들었다고 밝히기도 했습니다.


출처 : Unsplash


이처럼 막대한 자본이 필요한 LLM 개발을 위해 매번 천문학적인 양의 돈과 시간을 쓰는 것은 현실적으로 불가능합니다. 어떻게 이 문제를 해결할 수 있을까요? 정답은 이미 만들어진 모델을 최대한 활용하는데에 있습니다. 이번 시간에는 이러한 문제를 해결하기 위한 딥러닝 테크닉인 '전이학습(Transfer Learning)'에 대해 배워보도록 하겠습니다. 


1. 전이학습(Transfer Learning)이란?


전이학습이란 한 테스크에 대해 훈련(training)된 모델을 사용해 유사한 작업을 수행하는 모델의 기초로 활용하는 딥러닝 테크닉입니다. 즉 이미 다른 데이터셋으로 학습된 모델의 지식을 새로운 작업이나 데이터셋에 활용하는 기법이지요. 이 방법은 작은 데이터셋으로도 높은 성능을 얻을 수 있게 해주고 수행하고자 하는 태스크와 도메인에 특화된 언어모델을 만들 수 있다는 장점이 있습니다. 


기존의 딥러닝 vs 전이학습(출처 : towardsdatascience)


넓게 보면 지난시간에 배웠던 Transformer와 거기에서 파생된 BERT 그리고 GPT 모두 전이학습 방식을 활용한 언어모델이라고 할 수 있습니다. 전이학습은 초거대언어모델(LLM) 개발과 활용에 있어서 핵심적인 학습방법이기 때문에 그 개념을 이해하는 것이 중요합니다. 전이학습은 사전학습과 미세조정의 연결 과정을 포괄하는 개념인데 각각의 역할은 다음과 같습니다.


- 사전학습 (Pre-training)


사전학습이란 전이학습의 한 과정으로, 대규모의 일반적인 데이터셋을 사용해 모델을 학습시키는 프로세스를 말합니다. 사전학습은 방대한 양의 텍스트 데이터와 클라우드 스토리지 그리고 GPU와 같은 컴퓨팅 리소스뿐만 아니라 막대한 양의 전기와 뛰어난 개발자 등을 필요로 하기 때문에 천문학적인 비용과 노력이 들어갑니다.

출처 : Improving Knowledge Tracing via Pre-training Question Embeddings


사전학습 단계에서 언어모델은 언어의 기본 구조, 문법, 뉘앙스, 다양한 정보 등을 학습합니다. 예를 들어 트랜스포머의 디코더 구조를 따르는 GPT는 사전학습 과정을 거쳐 대규모의 데이터에서 막대한 양의 지식을 습득하고 인간 피드백에 의한 강화학습(Reinforcement Learning From Human feedback, RLFH)을 통해 GPT-3.5라는 기초모델(Foundation Model)로 다시 태어났습니다.


이해를 돕기 위해 GPT-X라는 기초모델을 스포츠 선수에 비유해봅시다. 사전학습 과정을 통해 뛰어난 운동신경을 갖추고 신체 구조와 움직임의 원리를 통달한 GPT-X는 이제 어떠한 종류의 운동도 평균 이상으로 잘하는 만능 스포츠맨으로 다시 태어났습니다. GPT-X는 수영,테니스,축구,야구 등등 분야를 가리지 않고 왠만한 프로선수 못지 않은 실력을 자랑한합니다. 그러나 GPT-X는 만능 스포츠맨으로 남는 것에 만족하지 못합니다. 그의 목표는 이제 세계 제일의 수영선수가 되는 것입니다.


- 미세조정 (Fine-tuning)


미세조정이란 사전학습된 모델을 특정 태스크와 도메인에 맞게 조정하는 과정입니다. 적게는 수천건에서 많게는 수만건 정도의 비교적 적은 양의 특정 작업 데이터를 사용하여 모델의 파라미터를 미세하게 조정하며 이를 통해 모델은 특정 도메인과 영역에 특화된 성능을 발휘하게 됩니다. 


출처 : BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding


GPT-X가 만능 스포츠맨을 넘어 올림픽 수영부문에서 금메달을 따기 위해서는 사전학습만으로는 부족합니다. 이제 GPT-X에게는 수영 특훈이 기다리고 있죠. GPT-X는 이제 물의 저항을 줄이는 방법과 물속에서 효율적으로 호흡하는 법을 배웁니다. 사전학습 때 만큼은 아니지만 꽤나 혹독한 훈련을 거쳐 이제 GPT-X는 세계적인 수영선수로 거듭났습니다. 


예를 들어, 우리는 사전학습된 언어모델을 미세조정하는 것 만으로도 성능좋은 법률상담 챗봇을 만들어낼 수 있습니다. 일상대화에는 잘 쓰이지 않지만 계약이나 소송 등에서 자주 쓰이는 어휘를 수천에서 수만건 추가학습 하는 것 만으로도 언어모델은 법률 분야와 관련된 질문에 한층 더 전문적이고 정확한 답을 줄 수 있는 '법률 전문가 챗봇'으로 변모합니다. 이처럼 사전학습은 사전학습된 모델을 일반적인 데이터로 학습시키는 단계이며, 미세조정은 특정 작업에 모델을 최적화시키는 단계라고 볼 수 있습니다.

이전 04화 초거대언어모델(LLM) - 자본과 데이터의 집약체
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari