brunch

You can make anything
by writing

C.S.Lewis

by hansung dev Dec 04. 2020

02. 머신러닝이란? 이렇게 시작하세요.

지도 학습, 분류/회귀 입문 대회 알아보기

머신러닝의 정의는 데이터에서 규칙을 학습하고 결과를 예측하는 알고리즘을 통칭합니다. 여기서 데이터, 학습, 알고리즘은 어떤 것들이 있는지 알아보겠습니다.


데이터는 정형 데이터와 비정형 데이터로 구분됩니다. 정형 데이터는 Tabular Data를 말합니다. 비정형 데이터는 텍스트, 이미지, 영상, 음성 데이터입니다.

 

학습지도 학습, 비지도 학습, 강화 학습으로 구분됩니다. 지도 학습은 레이블(=정답)된 데이터로 학습하는 방법이며 비지도 학습은 레이블(=정답)이 없는 데이터로 학습하는 방법입니다. 강화 학습은 보상으로 학습을 진행하며 의사결정을 위한 최적의 액션을 선택합니다.

 

알고리즘은 회귀, 트리, 부스팅, 딥러닝, GAN 등 전통적인 방법과 새로운 방법론 등이 계속해서 나오고 있습니다.

머신러닝 정의 분류




DACON에서 개최된 대회를 학습방법으로 구분해보면 아래와 같은 비율의 대회가 개최되었습니다. 지도 학습 대회의 비중이 크네요. 최근 Kaggle과 DACON의 대회는 이미지, 영상, 음성, 텍스트 등의 비정형 데이터를 딥러닝 알고리즘으로 학습하여 결과를 예측하는 대회가 많이 열리고 있습니다.

DACON 대회 학습방법 별 크기 비교 (2020-12-03 기준)




대회 개최가 많은 지도 학습에 대해서 알아보겠습니다. 지도 학습은 분류와 회귀 문제로 구분할 수 있습니다. 이전 게시물의 타이타닉 생존율 예측 문제도 탑승객이 살았는가 죽었는가를 예측하는 분류 문제입니다. 회귀 문제는 미래의 주택 가격을 예측하는 것과 같이 미래의 특정 값을 예측하는 문제입니다.


캐글과 데이콘에는 지도 학습 대회는 어떤 것들이 있는지 살펴보도록 하겠습니다.


지도 학습의 분류 문제는 아래와 같습니다.


Dacon의 "타이타닉:누가 살아남았을까?"입니다. 지도 학습 중 분류 문제로 정형 데이터가 제공되며 예측 결과는 AUC로 평가됩니다. 목표는 머신러닝을 사용하여 타이타닉 난파선에서 살아남은 승객을 예측하는 대회입니다.

Dacon / 지도 학습 / 정형 데이터 / 분류 문제 / AUC


Kaggle의  "Bag of Words Meeds Bags od Popcorn"입니다. 지도 학습 중 분류 문제로 타이타닉과 다른 점은 정형 데이터가 아닌 비정형 테이터 텍스트 데이터가 주어집니다. 목표는 IMDB 영화 리뷰 데이터 (=텍스트 데이터)로 리뷰가 긍정/부정인지 감정분석을 통해 예측하는 대회입니다. 자연어 처리의 입문 대회로 유명한 대회입니다. tutorial 코드로 시작해보세요.

Kaggle / 지도 학습 / 텍스트 데이터 / 분류 문제 / AUC


지도 학습의 회귀 문제는 아래와 같습니다.


Kaggle의  "House Prices: Advanced Regression Techniques"입니다. 지도 학습 중 회귀 문제입니다. 목표는 Ames, Iowa에 있는 주거용 주택 정보(79개 변수)로  각 주택의 최종 가격을 예측하는 대회입니다.

Kaggle / 지도 학습 / 정형 데이터 / 회귀 문제 / rmsle

Kaggle의 "Predict Future Sales"입니다. 지도 학습 중 회귀 문제입니다. 목표는 러시아 최대 소프트웨어 회사 중 하나 인 1C Company가 친절하게 제공 한 일일 판매 데이터(=시계열 데이터)로 다음 달의 모든 제품 및 매장의 총판매량을 예측하는 대회입니다. 코세라의 "How to Win a Data Science Competition: Learn from Top Kagglers" 교육 과정 중 최종 프로젝트 대회이기도 합니다.

Kaggle / 지도 학습 / 정형 데이터 / 회귀 문제 / rmse




Kaggle에서 입문대회 찾는 꿀팁!


Kaggle에서 입문 대회를 찾는 방법은 Getting Started (초보자 연습용), Playground (놀이터. 흥미로운 문제 위주)라는 tag의 대회를 찾으시면 됩니다. 그리고 notebooks의 필터에서 beginner 등의 태그로 검색하여 인기 있는 노트북으로 코드를 수행해보면서 시작하시면 도움이 많이 되실 것 같습니다.

Kaggle, "Getting Started, Playground" competitions




캐글과 데이콘에서
지도 학습인 분류와 회귀 문제로 시작해보세요.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari