brunch

LLM 파인튜닝

by 푸른공방

1. LLM의 Fine-tuning이란?

• 기본 개념: 이미 학습된 대규모 언어모델(LLM)을, 특정 작업이나 도메인(분야)에 맞게 추가 학습시키는 것입니다.

• 예: GPT 같은 모델을 의료 분야 진료 기록 요약에 특화시키는 경우.


2. 데이터셋 종류에 따른 Fine-tuning


Supervised Fine-tuning (지도 학습 기반)

• 레이블이 있는 데이터 사용 (예: 질문 정답 쌍)

• 성능 향상 확실하지만, 데이터 준비 비용이 큼


Unsupervised Fine-tuning (비지도 학습 기반)

• 레이블 없는 데이터 사용

• 도메인 적응(Domain Adaptation)에 사용

• 예: 기사 원문만 사용해서 뉴스에 특화되게 모델을 적응시킴



3. 모델 업데이트 방식에 따른 Fine-tuning

Full Fine-tuning

• 모델 전체 파라미터를 업데이트

• 정확도는 높지만, 비용·시간·GPU 메모리 등 자원이 많이 듬


PEFT (Parameter Efficient Fine-tuning)

• 일부만 업데이트하거나 소규모 추가 구성만 학습

• 효율적이고 빠르며, 대표적인 방식:

LoRA (Low-Rank Adaptation)

• 고차원 매개변수를 저차원으로 근사해 빠르게 학습

• 기존 모델 성능은 유지하면서 새로운 작업에 적응



4. Instruction Tuning & RLHF

• Instruction Tuning:

사용자 지시어(예: “요약해줘”)를 잘 따르게 학습시키는 방식

ChatGPT, Claude 등이 여기에 해당

• RLHF (Reinforcement Learning from Human Feedback)

사람이 직접 평가한 피드백을 보상 신호로 사용하여 강화 학습

• PPO(Proximal Policy Optimization): 기존 보상 모델 기반 강화 학습

• DPO(Direct Preference Optimization): 보상 모델 없이 직접 선호 최적화



5. 데이터셋 설계 시 유의사항

• 고품질, 일관성 있는 데이터 사용

• 충분히 대표성 있는 데이터 확보

• 프롬프트 형식 일관 유지 (훈련 시와 추론 시 동일)


keyword
작가의 이전글도파민 코드