brunch

You can make anything
by writing

C.S.Lewis

by Jeanne Jun 26. 2016

Learning R

알고리듬별 장단점 비교

알고리듬별 장단점 비교


선형회귀(Linear Regression)

연속적인 결과값을 예측할 때(연봉, 가격 등)

장점 : 

- 쉽고 간단하게 설명 가능

- 데이터 크기가 적어도, 많아도 사용 가능

단점 : 

선형 관계에 있다고 가정해야함, 아닐 경우 변수를 더해서 선형 관계로 만들어야 함


로지스틱회귀(Logistic Regression)

바이너리 값을 예측할 때 (예/아니오, 스팸/햄, 수락/거절 등)

장점 : 

- 간단한 방법이지만 예측의 신뢰도를 평가하는 데 사용할 수 있는 가능성을 계산해 낼 수 있음

단점 : 

선형관계에 있다고 가정해야함.(선형회귀와 동일)


CART(Classification And Regression Tree)

카테고리 분류에 사용(별점평가 1-5점, 사기/팔기/홀딩 등) 

장점 : 

- 선형관계에 있지 않은 데이터를 다룰 수 있음

- 설명과 해석이 쉬움

단점 : 

데이터가 충분히 커야 함


Random Forest

CART와 동일

장점 : 

- 정확도가 CART보다 나음

단점 : 

- 파라미터를 많이 조정해야함

- CART처럼 명확하게 설명하기 어려움


Hierarchical Clustering

유사한 그룹을 찾을 때 사용

각 그룹 별로 다른 알고리듬(로지스틱회귀 등)을 적용해 예측의 정확도를 높일 수 있음

장점 : 

- 먼저 클러스터 갯수를 선택할 필요 없음

- Dendrogram으로 시각화 가능

단점 :

-큰 사이즈의 데이터에 사용 불가(computing power)


K-Means Clustering

Hierarchical Clustering과 동일

장점 : 

- 데이터 크기와 상관없이 사용 가능

단점 :

- 클러스터 갯수를 미리 선택 필요 (데이터에 대한 충분한 이해가 필요)

작가의 이전글 Learning R
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari