어떤 사건이 일어날 확률 p와 일어나지 않을 확률 1−p 의 비율(odds)에 로그를 취한 값.
확률은 범위가 (0,1)로 제한되는 반면, 로짓(로그 오즈)는 범위가 무한대로 확장되어 선형모델로 다룰 수 있다.
로짓이 입력 변수의 선형결합으로 표현된다고 가정하고 전개하면 다음과 같은 식을 얻을 수 있다.
로지스틱 함수는 로짓 함수의 역함수이며, (−∞,∞) 범위를 갖는 선형결합을 (0,1) 범위로 변환해 확률적 해석을 가능하게 한다.
로지스틱 회귀는 입력 x 에 대해 출력 y가 0 또는 1인 이진 분류 문제를 다루며,
이때 p는 "y=1일 확률”로 해석한다. 이는 베르누이 분포로 뒷받침 된다.
베르누이 분포는 확률변수 Y가 0 또는 1의 값을 취하는 경우를 모델링한다.
매개변수 p가 "Y=1일 확률"로 정의될 때, 베르누이 분포의 확률질량함수는 다음과 같이 쓸 수 있다.
로지스틱 함수는 베르누이 분포의 매개변수 p를 단순한 상수가 아닌, 입력값 x에 따라 달라지는 함수로 나타낸다.
베르누이 분포에서의 정의에 따라 로지스틱 함수에서도 마찬가지로 p는 y=1일 확률, 1-p는 y=0일 확률로 정의 및 해석된다.
로지스틱 회귀에 따른 분류에서는 p에 대해 기준이 되는 임계값(threshold)을 정해야 하며,
보통 p=0.5 를 기준으로 한다. 즉, p≥0.5 이면 y=1, p<0.5이면 y=0으로 결정한다.
이때 p=0.5를 만족하는 w^T x+b=0은 결정경계(decision boundary)가 된다.
이는 기하학적으로는 2차원에서는 직선, 3차원에서는 평명, 고차원에서는 초평면이 된다.
이러한 임게값은 상황에 따라 0.3, 0.7 등으로 달라질 수 있다.