머신러닝은 크게 지도학습과 비지도학습으로 나눌 수 있다. 지도학습은 정답 있는 데이터로 예측 모델을 만드는 방법이고, 비지도학습은 정답 없이 데이터 속 패턴을 발견하는 데 초점을 두는 방법이다.
지도학습(Supervised Learning)은 입력 데이터와 그에 해당하는 정답(label)이 함께 주어지는 경우로, 모델은 이 관계를 학습하여 새로운 입력에 대한 출력을 예측하는 방법이다. 지도학습에는 분류와 회귀가 있다.
분류(Classification)는 출력이 범주형인 문제로, 이메일이 스팸인지 아닌지 판별하거나 사진 속 동물 종류를 분류하는 것처럼 입력을 미리 정의된 클래스 중 하나로 분류하는 작업이다. 로지스틱 회귀, 결정트리, 랜덤포레스트, SVM, 신경망 등이 대표적인 알고리즘이다.
회귀(Regression)는 출력이 연속형 값인 문제로, 집값이나 주가, 온도와 같이 수치를 예측하는 작업이다. 선형 회귀, 다항 회귀, 회귀용 SVM, 신경망 회귀 모델 등이 대표적이다.
비지도학습(Unsupervised Learning)은 입력 데이터만 주어지고 정답이 없는 경우로, 데이터 속 숨겨진 구조나 패턴을 발견하는 것이 목적이다. 주요 유형으로는 군집화, 차원 축소, 연관 규칙 학습이 있다.
군집화(Clustering)는 유사한 데이터끼리 묶는 기법으로, 고객 세분화나 문서 주제 분류에 활용되는 방법이다. K-평균, 계층적 군집화, DBSCAN 등이 대표적이다.
차원 축소(Dimensionality Reduction)는 데이터의 중요한 특징만 남기고 차원을 줄이는 기법으로, 시각화나 노이즈 제거에 사용되는 방법이다. PCA, t-SNE, UMAP 등이 여기에 속한다.
연관 규칙 학습(Association Rule Learning)은 변수들 간의 연관성을 규칙 형태로 발견하는 방법으로, 장바구니 분석에서 “맥주를 사면 땅콩도 산다”와 같은 규칙을 찾는 데 사용되는 기법이다. Apriori와 FP-Growth 알고리즘이 대표적이다.