AI학습방법의 종류

지도학습, 비지도학습, 강화학습, RLHF

by chorong Sep 18. 2024

인공지능을 학습시키는 방법에는 크게 4가지가 있습니다.

지도학습, 비지도학습, 강화학습 그리고 GPT의 주 학습방법인 인간의 피드백을 통한 강화학습(RLHF)입니다.

이 외 딥러닝의 학습방법인 '메타학습'을 포함하여 전이학습, 다중작업학습 등 여러 학습방법이 있습니다만, 다른 학습방법은 하나씩 하나씩 정리하겠습니다:)

1. 지도학습(Supervised Learning)

#분류 #회귀 #과적합현상 #Classificarion #Regression #Overfitting

지도학습이란, 입력값(input)과 결과값(정답 레이블)을 주고 학습시키는 방법입니다. 주로 과거 데이터를 기반으로 앞으로 있을 이벤트에 대해 예측하는데에 사용됩니다. 정답지를 주고 학습하므로 결과를 정확히 예측하는 알고리즘을 학습키는 것으로 정의할 수 있으며 맞느냐/틀리느냐를 기준으로 학습하기에 분류/회귀 등 여러 방법에 활용됩니다.

이때, 지도학습으로 학습한 인공지능모델의 성능은 새로운 데이터에 대해 얼마나 잘 일반화가 되었는지에 따라 평가됩니다. 따라서 지도학습은 학습데이터의 양과 품질이 중요합니다.

2. 비지도학습(Unsupervised Learning)

#군집화 #차원축소 #DimensionalityReduction #Clustering

학습 과정에서 결과값(정답지)도 함께 제공되는 지도학습과는 달리 입력값(input)만 주고 학습하는 방법입니다. 입력값만 주어지므로 데이터를 탐색하여 내부구조의 속성을 스스로 파악 해야하며, 이후 '클러스터링(Clustering)' 즉 그룹화(군집화)를 통해 유사한 속성끼리 분류합니다.

비지도학습의 주요 목적은 학습데이터의 본질적인 특성을 이해하거나 유용한 방향으로 요약 및 그룹화 하는 것입니다.

3. 강화학습(Reinforcement Learning)

#자연어처리 #NaturalLanguageProcessing

정답지도 함께주는 지도학습, 정답지를 주지 않는 비지도학습과는 달리 강화학습은 결과에 대한 '보상'을 주는 학습방법입니다. 따라서 어떤 행동이 최선인지를 학습하기에 로봇 및 게임, 내비게이션 등에 주로 이용되며, 학습 시 일정한 시간 내 예상되는 보상을 극대화할 수 있는 행동을 선택하도록 합니다. 이 과정은 시행착오를 통해 최적의 정책(poilcy)를 발견한 것 역시 포함됩니다.

4. 인간의 피드백을 통한 강화학습

(RLFH, Reinforcement Learning from Human Feedback)

#자연어처리 #자율주행자동차 #NaturalLanguageProcessing #Autonomous Vegicle

chatGPT의 학습방법으로 알려진 인간의 피드백을 통한 강화학습은, 학습명 그대로 사람의 피드백을 통해 스스로 학습할 때 보다 효율적으로 수행하는 머신러닝 학습방법 중 하나입니다. 기존 강화학습에서 비롯되어 보상을 극대화할 수 있는 행동(학습)을 이끌어냅니다. 이 과정에서 사람의 피드백을 활용하니 실 사용자인 사람의 요구에 조금 더 들어맞는 결과를 낼 수 있습니다.

[참고자료]

1. 인공지능(AI)&머신러닝(ML)사전, 지도학습/비지도학습: https://wikidocs.net/120172

2. IBM, 지도학습이란 무엇인가요?: https://www.ibm.com/kr-ko/topics/supervised-learning

3. AWS, RLHF란 무엇인가요?: https://aws.amazon.com/ko/what-is/reinforcement-learning-from-human-feedback/

4. 위키백과, 인간 피드백을 통한 강화학습: https://ko.wikipedia.org/wiki/%EC%9D%B8%EA%B0%84_%ED%94%BC%EB%93%9C%EB%B0%B1%EC%9D%84_%ED%86%B5%ED%95%9C_%EA%B0%95%ED%99%94_%ED%95%99%EC%8A%B5

keyword