Linear Regression 개념, 평가, 장단점
선형 회귀(Linear Regression)는
입력 특성(feature)과 출력(레이블) 간의
선형 관계를 모델링하는 지도학습 알고리즘입니다.
데이터를 가장 잘 설명하는 직선(또는 초평면)을 찾아 연속적인 값을 예측합니다.
핵심 아이디어: 입력 특성에 대한 선형 함수를 만들어 예측 수행.
- 예: 공부 시간(x)에 따른 시험 점수(y) 예측.
사용 사례: 집 가격 예측, 매출 예측, 공부 시간에 따른 성적 예측.
선형 회귀는 다음 수식을 기반으로 작동합니다:
[ y = w_0 + w_1 * x_1 + w_2 * x_2 + \dots + w_n * x_n ]
( y ): 예측값
( x_i ): 입력 특성
( w_i ): 가중치(특성의 중요도)
( w_0 ): 절편(bias)
모델은 **평균제곱오차(MSE)**를 최소화하도록 가중치와 절편을 학습합니다.
MSE는 모델의 예측값과 실제값 간 차이를 평가하는 지표입니다.
계산 방법:
1. 각 데이터 포인트의 오차(예측값 - 실제값)를 제곱.
2. 모든 오차 제곱의 합을 구한 뒤 데이터 포인트 수로 나눔.
[ \text{MSE} = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2 ]
예시:
- 데이터: 공부 시간(x) = [1, 2, 3], 점수(y) = [1, 2, 3]
- 예측값이 실제값과 같다면 MSE = 0 (완벽한 예측).
- MSE가 작을수록 모델 성능이 좋음.
빠른 예측 속도: 계산이 간단해 대용량 데이터에서도 효율적.
해석 용이: 가중치로 각 특성의 중요도를 직관적으로 파악 가능.
다양한 데이터에 적용 가능: 특성이 많은 데이터에서도 좋은 성능.
선형성 가정: 데이터가 비선형 관계일 경우 성능 저하.
이상치 민감: 이상치(outlier)에 영향을 많이 받음.
과소적합 가능성: 복잡한 패턴을 학습하기 어려움.
선형 회귀는 간단하면서도 강력한 회귀 분석 기법으로,
연속적인 값 예측에 적합합니다.
MSE를 통해 모델 성능을 평가하고,
빠른 예측 속도와 해석 용이성 덕분에 다양한 데이터셋에 활용됩니다.
다만, 비선형 데이터나 이상치가 많은 경우에는 추가 전처리나 다른 모델을 고려해야 합니다.