라이킷 8 댓글 공유 작가의 글을 SNS에 공유해보세요

You can make anything
by writing

C.S.Lewis

AI학습방법의 종류

지도학습, 비지도학습, 강화학습, RLHF

by chorong Sep 18. 2024

인공지능을 학습시키는 방법에는 크게 4가지가 있습니다.

지도학습, 비지도학습, 강화학습 그리고 GPT의 주 학습방법인 인간의 피드백을 통한 강화학습(RLHF)입니다.

이 외 딥러닝의 학습방법인 '메타학습'을 포함하여 전이학습, 다중작업학습 등 여러 학습방법이 있습니다만, 다른 학습방법은 하나씩 하나씩 정리하겠습니다:)



1. 지도학습(Supervised Learning)

#분류 #회귀 #과적합현상 #Classificarion #Regression #Overfitting

지도학습이란, 입력값(input)과 결과값(정답 레이블)을 주고 학습시키는 방법입니다. 주로 과거 데이터를 기반으로 앞으로 있을 이벤트에 대해 예측하는데에 사용됩니다. 정답지를 주고 학습하므로 결과를 정확히 예측하는 알고리즘을 학습키는 것으로 정의할 수 있으며 맞느냐/틀리느냐를 기준으로 학습하기에 분류/회귀 등 여러 방법에 활용됩니다.

이때, 지도학습으로 학습한 인공지능모델의 성능은 새로운 데이터에 대해 얼마나 잘 일반화가 되었는지에 따라 평가됩니다. 따라서 지도학습은 학습데이터의 양과 품질이 중요합니다.




2. 비지도학습(Unsupervised Learning)

#군집화 #차원축소 #DimensionalityReduction #Clustering

학습 과정에서 결과값(정답지)도 함께 제공되는 지도학습과는 달리 입력값(input)만 주고 학습하는 방법입니다. 입력값만 주어지므로 데이터를 탐색하여 내부구조의 속성을 스스로 파악 해야하며, 이후 '클러스터링(Clustering)' 즉 그룹화(군집화)를 통해 유사한 속성끼리 분류합니다. 

비지도학습의 주요 목적은 학습데이터의 본질적인 특성을 이해하거나 유용한 방향으로 요약 및 그룹화 하는 것입니다. 



3. 강화학습(Reinforcement Learning)

#자연어처리 #NaturalLanguageProcessing

정답지도 함께주는 지도학습, 정답지를 주지 않는 비지도학습과는 달리 강화학습은 결과에 대한 '보상'을 주는 학습방법입니다. 따라서 어떤 행동이 최선인지를 학습하기에 로봇 및 게임, 내비게이션 등에 주로 이용되며, 학습 시 일정한 시간 내 예상되는 보상을 극대화할 수 있는 행동을 선택하도록 합니다. 이 과정은 시행착오를 통해 최적의 정책(poilcy)를 발견한 것 역시 포함됩니다.



4. 인간의 피드백을 통한 강화학습

(RLFH, Reinforcement Learning from Human Feedback)

#자연어처리 #자율주행자동차 #NaturalLanguageProcessing #Autonomous Vegicle

chatGPT의 학습방법으로 알려진 인간의 피드백을 통한 강화학습은, 학습명 그대로 사람의 피드백을 통해 스스로 학습할 때 보다 효율적으로 수행하는 머신러닝 학습방법 중 하나입니다. 기존 강화학습에서 비롯되어 보상을 극대화할 수 있는 행동(학습)을 이끌어냅니다. 이 과정에서 사람의 피드백을 활용하니 실 사용자인 사람의 요구에 조금 더 들어맞는 결과를 낼 수 있습니다.





[참고자료]

1. 인공지능(AI)&머신러닝(ML)사전, 지도학습/비지도학습: https://wikidocs.net/120172

2. IBM, 지도학습이란 무엇인가요?: https://www.ibm.com/kr-ko/topics/supervised-learning

3. AWS, RLHF란 무엇인가요?: https://aws.amazon.com/ko/what-is/reinforcement-learning-from-human-feedback/

4. 위키백과, 인간 피드백을 통한 강화학습: https://ko.wikipedia.org/wiki/%EC%9D%B8%EA%B0%84_%ED%94%BC%EB%93%9C%EB%B0%B1%EC%9D%84_%ED%86%B5%ED%95%9C_%EA%B0%95%ED%99%94_%ED%95%99%EC%8A%B5





매거진의 이전글 AI, 인공지능의 종류_2

브런치 로그인

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari