들어가며
회귀분석은 통계학과 머신 러닝 분야에서 변수 간의 관계를 모델링하는 핵심 기법 중 하나이다. 회귀분석에 대해서 소개했던 지난 편에 이어서, 이번 편에서는 회귀분석의 핵심 개념인 Loss Function에 대해서 알아보고자 한다.
1. Loss Function이란?
Loss Function은 모델의 예측치와 실제값 사이의 차이를 나타내는 함수이다. 회귀 분석은 이 차이를 최소화하는 방향으로 모델을 학습시킨다.
2. 오차의 구성요소
회귀 모델의 오차는 크게 세 가지 요소로 구성되어 있다. 해당 요소는 다음과 같다.
Variance : 예측 값들의 흩어진 정도를 나타낸다.
Bias : 편향된 예측값 때문에 발생하는 오차를 나타낸다.
Noise : 데이터에 내재된 불확실성이나 잡음을 나타낸다.
3. Loss Function의 종류
Loss Function은 Simple Linear Regression과 Multi Linear Regression로 나뉠 수 있다.
1) Simple Linear Regression
Linear Regression은 하나의 독립 변수와 종속 변수 간의 선형 관계를 나타낸다. 그렇기에 아래의 방정식으로 표현할 수 있다.
yᵢ=β₀+β₁xᵢ+ϵᵢ
yᵢ는 종속 변수(Dependent Variable, DV)이다.
β₀는 상수항(Constant)으로 y축과의 절편을 나타낸다.
β₁는 독립 변수 xᵢ의 계수(Coefficient)로, xᵢ가 1 단위 증가할 때 yᵢ가 얼마나 변하는지를 나타낸다.
ϵᵢ는 오차항으로, 모델이 설명하지 못하는 변동을 나타낸다.
그리고 이 모델의 Loss Function은 다음과 같이 표현된다.
min∑(yᵢ−(β₀+β₁xᵢ))²
2) Multi Linear Regression
이어서 Multi Linear Regression은 여러 개의 독립 변수가 있을 때 사용되며, 아래와 같이 방정식을 표현할 수 있다.
yᵢ=β₀+β₁xᵢ₁+β₂xᵢ₂+…+ϵᵢ
xᵢ₁,xᵢ2,…는 여러 독립 변수들을 나타낸다.
각 β 계수는 해당 독립 변수가 1 단위 증가할 때 yᵢ가 얼마나 변하는지를 나타낸다.
그리고 이 경우의 Loss Function은 다음과 같이 표현된다.
min∑(yᵢ−(β₀+β₁xᵢ₁+β₂xᵢ₂+…))²
4. 왜 오차를 제곱할까?
오차를 제곱하는 이유는 몇 가지가 있는데, 우선 제곱을 하면 오차의 방향(양수나 음수)에 상관없이 항상 양수 값이 나오기 때문이다. 그리고 제곱을 하면 오차가 큰 부분에 더 큰 패널티를 줘서, 큰 오차를 줄이는 효과가 있다.
마치며
이번 시간을 통해서는 Loss Function을 통해서 모델의 성능을 최적화할 수 있도록 하는 기초개념을 학습하게 되었다. 다음 편에는 변수의 영향력을 알아볼 수 있는 β (계수)에 대해서 알아보도록 할 예정이다.