DeepSeek의 학습 방법은 기존의 대규모 언어 모델(LLM) 학습 방식과
몇 가지 중요한 차이점을 보여서 흥미롭습니다.
이번 연휴 기간 내에 딥시크 논문과 오픈소스를 읽어보고 제가 느낀 점을 정리해봅니다.
#DeepSeek 의 주요 학습 방법
1. 순수 강화학습(Pure Reinforcement Learning) 접근
DeepSeek-R1-Zero 모델은 지도 학습 없이 순수 강화학습만으로 학습되었습니다. 이는 OpenAI의 ChatGPT와 같은 모델들이 일반적으로 사용하는 지도 학습 후 강화학습(RLHF) 방식과 대조됩니다
2. 규칙 기반 보상 시스템
DeepSeek은 신경망 기반 보상 모델 대신 규칙 기반 보상 시스템을 사용합니다. 이 시스템은 수학 문제의 정확한 답변이나 코딩 문제의 컴파일 결과와 같은 명확한 기준을 바탕으로 보상을 계산합니다
3. 다단계 학습 파이프라인
DeepSeek-R1 모델은 4단계 학습 과정을 거칩니다:
a) 콜드 스타트 (소규모 지도 학습)
b) 추론 중심 강화학습
c) 거부 샘플링 및 지도 학습
d) 다양한 태스크에 대한 강화학습
4. 지식 증류(Knowledge Distillation)
DeepSeek은 큰 모델의 능력을 작은 모델로 전달하는 지식 증류 기법을 사용하여 효율적인 소형 모델들을 생성합니다
#OpenAI 의 ChatGPT와의 차이점
1. 학습 방식: ChatGPT는 지도 학습 후 인간 피드백을 통한 강화학습(RLHF)을 사용하는 반면, DeepSeek-R1-Zero는 순수 강화학습에 중점을 둡니다
2. 보상 시스템: ChatGPT는 인간 또는 AI 평가자의 피드백을 사용하는 반면, DeepSeek은 규칙 기반 보상을 사용합니다
3. 모델 구조: DeepSeek은 Mixture-of-Experts(MoE) 구조를 사용하여 효율성을 높입니다
4. 오픈소스 정책: DeepSeek은 모델을 오픈소스로 공개하여 연구 커뮤니티의 접근성을 높였습니다
#RAG 적용 Transformer와의 비교
장점:
1. 동적 지식 업데이트: DeepSeek의 강화학습 방식은 새로운 정보에 더 빠르게 적응할 수 있습니다. RAG는 외부 지식베이스에 의존하므로 업데이트에 추가 작업이 필요합니다
2. 추론 능력: DeepSeek의 접근 방식은 복잡한 추론 과정을 직접적으로 학습하므로, 단순히 정보를 검색하고 결합하는 RAG보다 더 깊은 추론이 가능합니다
3. 리소스 효율성: DeepSeek의 MoE 구조는 RAG 시스템보다 더 효율적인 계산 리소스 사용을 가능케 합니다
단점:
1. 설명 가능성: RAG 시스템은 사용된 외부 정보 소스를 명확히 추적할 수 있어 설명 가능성이 높은 반면, DeepSeek의 순수 강화학습 접근법은 이 측면에서 제한적일 수 있습니다
2. 특정 도메인 적용: RAG는 특정 도메인의 지식을 쉽게 통합할 수 있는 반면, DeepSeek의 접근법은 도메인 특화에 추가적인 학습이 필요할 수 있습니다
3. 학습의 안정성: 순수 강화학습 접근법은 학습 과정이 불안정할 수 있으며, 이는 DeepSeek이 다단계 학습 파이프라인을 도입한 이유 중 하나입니다
결론적으로, 제 생각에는, DeepSeek의 접근 방식은 강력한 추론 능력과 효율성을 제공하지만, 특정 상황에서는 RAG의 유연성과 설명 가능성이 여전히 장점을 가질 수 있을 것이라고 생각합니다.
두 접근법의 장단점을 고려하여 기업에서 해결하고자 하는 분야에 가장 적합한 방법을 선택해야 할 것입니다.
참고자료
https://lnkd.in/gSu_dM6f
https://lnkd.in/gvzR-zSz
https://lnkd.in/gXeBKrvQ
https://lnkd.in/g3vCDqq9
https://lnkd.in/ggPakyZh
https://lnkd.in/gAr9Q4Cv