출퇴근길에 공부하는 머신러닝
회귀는 독립 변수의 변화에 따라서 종속 변수가 어떻게 변하는지를 설명하는 관계를 찾는 분석 방법이다. 조금 더 원초적인 해석은 데이터의 특성에 기반하여 원래의 상태로 돌아가려는 특성을 분석하는 방법론이다. 머신러닝 관점에서 해석하자면 데이터의 특징들을 기반으로 연속적인 값을 예측하기 위한 모델을 구축하는 것을 의미한다. 여기에서 기억해야 할 것은 연속적인 값을 예측하기 위한 모델이라는 것이다. 예를 들어 주식 가격의 변동, 집값의 예측, 제품의 판매량 예측 등에 사용된다.
이러한 회귀 분석은 모델이 간단하여 학습 시간이 짧고, 선형 데이터에 적합하다는 장점을 가지고 있는 반면에 비선형 데이터에는 부적합하고, 다차원 데이터에 대해서는 결과의 신뢰도가 낮을 수 있다는 단점을 가지고 있다. 비선형의 경우에는 복잡한 패턴을 가지고 있기 때문에 다항 회귀나 비선형 회귀 모델을 사용해야 한다. 하지만 여전히 회귀 모델이라는 한계가 있다. 그렇기에 적절한 데이터에 적절한 모델을 선택하여 학습하는 것이 중요하다.
위에서도 잠깐 이야기했듯이 회귀 분석은 다양한 방법들이 존재한다.
단순 선형 회귀 (Simple Linear Regression): 한 개의 독립 변수를 기반으로 종속 변수의 값을 예측한다. 형태는 다음과 같다. Y=ax+b
다항 회귀 (Polynomial Regression): 독립 변수의 거듭제곱을 추가하여 비선형 관계를 모델링한다.
로지스틱 회귀 (Logistic Regression): 분류 문제에 주로 사용되지만, 이름에 회귀라는 단어가 들어있습니다. 이는 결과 값이 0과 1 사이의 확률로 나오기 때문이다.
지금까지 간단하게 회귀 분석에 대해서 살펴보았다. 다음 시간에는 회귀 분석의 Loss Function에 대해서 알아보겠다.