02. 지도학습 - 선형 회귀

Linear Regression 개념, 평가, 장단점

by 짧은 수필

선형 회귀란?

선형 회귀(Linear Regression)는

입력 특성(feature)과 출력(레이블) 간의

선형 관계를 모델링하는 지도학습 알고리즘입니다.

데이터를 가장 잘 설명하는 직선(또는 초평면)을 찾아 연속적인 값을 예측합니다.

핵심 아이디어: 입력 특성에 대한 선형 함수를 만들어 예측 수행.
- 예: 공부 시간(x)에 따른 시험 점수(y) 예측.


사용 사례: 집 가격 예측, 매출 예측, 공부 시간에 따른 성적 예측.




선형 회귀의 작동 원리

선형 회귀는 다음 수식을 기반으로 작동합니다:

[ y = w_0 + w_1 * x_1 + w_2 * x_2 + \dots + w_n * x_n ]

( y ): 예측값

( x_i ): 입력 특성

( w_i ): 가중치(특성의 중요도)

( w_0 ): 절편(bias)


모델은 **평균제곱오차(MSE)**를 최소화하도록 가중치와 절편을 학습합니다.




평균제곱오차(MSE)

MSE는 모델의 예측값과 실제값 간 차이를 평가하는 지표입니다.

계산 방법:
1. 각 데이터 포인트의 오차(예측값 - 실제값)를 제곱.
2. 모든 오차 제곱의 합을 구한 뒤 데이터 포인트 수로 나눔.

[ \text{MSE} = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2 ]


예시:
- 데이터: 공부 시간(x) = [1, 2, 3], 점수(y) = [1, 2, 3]
- 예측값이 실제값과 같다면 MSE = 0 (완벽한 예측).
- MSE가 작을수록 모델 성능이 좋음.




선형 회귀의 장단점


장점

빠른 예측 속도: 계산이 간단해 대용량 데이터에서도 효율적.

해석 용이: 가중치로 각 특성의 중요도를 직관적으로 파악 가능.

다양한 데이터에 적용 가능: 특성이 많은 데이터에서도 좋은 성능.


단점

선형성 가정: 데이터가 비선형 관계일 경우 성능 저하.

이상치 민감: 이상치(outlier)에 영향을 많이 받음.

과소적합 가능성: 복잡한 패턴을 학습하기 어려움.




결론

선형 회귀는 간단하면서도 강력한 회귀 분석 기법으로,

연속적인 값 예측에 적합합니다.

MSE를 통해 모델 성능을 평가하고,

빠른 예측 속도와 해석 용이성 덕분에 다양한 데이터셋에 활용됩니다.

다만, 비선형 데이터나 이상치가 많은 경우에는 추가 전처리나 다른 모델을 고려해야 합니다.


keyword
매거진의 이전글02. 지도학습 - 의사결정나무