학습은 지도 학습,비지도 학습,강화 학습으로 구분됩니다. 지도 학습은 레이블(=정답)된 데이터로 학습하는 방법이며 비지도 학습은 레이블(=정답)이 없는 데이터로 학습하는 방법입니다. 강화 학습은 보상으로 학습을 진행하며 의사결정을 위한 최적의 액션을 선택합니다.
알고리즘은 회귀, 트리, 부스팅, 딥러닝, GAN 등 전통적인 방법과 새로운 방법론 등이 계속해서 나오고 있습니다.
머신러닝 정의 분류
DACON에서 개최된 대회를 학습방법으로 구분해보면 아래와 같은 비율의 대회가 개최되었습니다. 지도 학습 대회의 비중이 크네요. 최근 Kaggle과 DACON의 대회는 이미지, 영상, 음성, 텍스트 등의 비정형 데이터를 딥러닝 알고리즘으로 학습하여 결과를 예측하는 대회가 많이 열리고 있습니다.
DACON 대회 학습방법 별 크기 비교 (2020-12-03 기준)
대회 개최가 많은 지도 학습에 대해서 알아보겠습니다. 지도 학습은 분류와 회귀 문제로 구분할 수 있습니다. 이전 게시물의 타이타닉 생존율 예측 문제도 탑승객이 살았는가 죽었는가를 예측하는 분류 문제입니다. 회귀 문제는 미래의 주택 가격을 예측하는 것과 같이 미래의 특정 값을 예측하는 문제입니다.
캐글과 데이콘에는 지도 학습 대회는 어떤 것들이 있는지 살펴보도록 하겠습니다.
지도 학습의 분류 문제는 아래와 같습니다.
Dacon의 "타이타닉:누가 살아남았을까?"입니다. 지도 학습 중 분류 문제로 정형 데이터가 제공되며 예측 결과는 AUC로 평가됩니다. 목표는 머신러닝을 사용하여 타이타닉 난파선에서 살아남은 승객을 예측하는 대회입니다.
Dacon / 지도 학습 / 정형 데이터 / 분류 문제 / AUC
Kaggle의 "Bag of Words Meeds Bags od Popcorn"입니다. 지도 학습 중 분류 문제로 타이타닉과 다른 점은 정형 데이터가 아닌 비정형 테이터 텍스트 데이터가 주어집니다. 목표는 IMDB 영화 리뷰 데이터 (=텍스트 데이터)로 리뷰가 긍정/부정인지 감정분석을 통해 예측하는 대회입니다. 자연어 처리의 입문 대회로 유명한 대회입니다. tutorial 코드로 시작해보세요.
Kaggle에서 입문 대회를 찾는 방법은 Getting Started (초보자 연습용), Playground (놀이터. 흥미로운 문제 위주)라는 tag의 대회를 찾으시면 됩니다. 그리고 notebooks의 필터에서 beginner 등의 태그로 검색하여 인기 있는 노트북으로 코드를 수행해보면서 시작하시면 도움이 많이 되실 것 같습니다.