알고리듬별 장단점 비교
알고리듬별 장단점 비교
선형회귀(Linear Regression)
연속적인 결과값을 예측할 때(연봉, 가격 등)
장점 :
- 쉽고 간단하게 설명 가능
- 데이터 크기가 적어도, 많아도 사용 가능
단점 :
선형 관계에 있다고 가정해야함, 아닐 경우 변수를 더해서 선형 관계로 만들어야 함
로지스틱회귀(Logistic Regression)
바이너리 값을 예측할 때 (예/아니오, 스팸/햄, 수락/거절 등)
장점 :
- 간단한 방법이지만 예측의 신뢰도를 평가하는 데 사용할 수 있는 가능성을 계산해 낼 수 있음
단점 :
선형관계에 있다고 가정해야함.(선형회귀와 동일)
CART(Classification And Regression Tree)
카테고리 분류에 사용(별점평가 1-5점, 사기/팔기/홀딩 등)
장점 :
- 선형관계에 있지 않은 데이터를 다룰 수 있음
- 설명과 해석이 쉬움
단점 :
데이터가 충분히 커야 함
Random Forest
CART와 동일
장점 :
- 정확도가 CART보다 나음
단점 :
- 파라미터를 많이 조정해야함
- CART처럼 명확하게 설명하기 어려움
Hierarchical Clustering
유사한 그룹을 찾을 때 사용
각 그룹 별로 다른 알고리듬(로지스틱회귀 등)을 적용해 예측의 정확도를 높일 수 있음
장점 :
- 먼저 클러스터 갯수를 선택할 필요 없음
- Dendrogram으로 시각화 가능
단점 :
-큰 사이즈의 데이터에 사용 불가(computing power)
K-Means Clustering
Hierarchical Clustering과 동일
장점 :
- 데이터 크기와 상관없이 사용 가능
단점 :
- 클러스터 갯수를 미리 선택 필요 (데이터에 대한 충분한 이해가 필요)