조건부확률
1) 결합확률 = 사건의 교집합 / 전체
- 임의로 뽑힌 학생한명이 정시 입학한 여학생인 확률?
2) 주변확률 = 두개의 확률변수 있지만, 일부만!
- 뽑힌학생이 수시입학한 학생일 확률은?
3) 조건부확률 = 분자도 교집합 분모는 일부확률변수만
- 뽑힌 학생이 남학생임을 알 때, 이 남학생이 정시입학생일 확률은?
베이즈정리
- 일반적으로 조건부확률을 구하기 어려울 때, 그 반대의 조건부확률을 사용해 구할 수 있음
베이즈 결정이론
= 사후확률이 가장 높은 클래스로 분류
- 베이즈 정리를 이용해 Naive Baze Classifier를 만들 수 있음
- 통계적으로 최고의 분류기를 선택
- 가정1) 결정문제를 확률적인 문제로 표현이 가능
- 가정2) 관련된 확률 정보들을 모두 알 수 있음 (현실에선 힘듦)
ex) 구하고자 하는 것 : 어떤 값이 Salmon 인지/ Sea bass인지 클래스를 분류하는 것
활용할 수 있는 것 : P(x|w) : 클래스가 주어졌을 때 확률변수의 값
즉, Likelihood: Salmon임이 관측되었을 때, lightness 가 11이상, 12미만일 확률을 얼마?
- 베이즈 정리를 사용하면 일반저그로 알기 어려운 사후확률을
알기쉬운 사전확률과 우도를 이용해 계산할 수 있다.
데이터로부터 확률의 추정 (이산값인 경우)
- 각 클래스 레이블을 random variable로 가정
- 입력변수 A들간의 독립 가정
- Class_P(C) = Nc/N
- P(Ai|Ck) = |Aik|/Nc
|Aik|는 클래스 Ck에 속하는 데이터 중 입력변수 Ai에 대항하는 데이터의 수
ex) P(Status=Married|No)= 4/7 *여기서 No=Y/N로 분류해야될 것
데이터로부터 확률의 추정(연속 값의 경우)
1) 특정범위들로 이산화
- 순서형 변수로 변환됨
- 독립성 가정이 깨질 수 있음
2) 이원분리 (뭐보다 크냐 마냐)
- 둘로 분리해서 새로운 변수생성
3) 확률밀도 추정
- 입력변수들이 저규분포 등 특저 확률분포를 따르는 것으로 가정
- 데이터를 이용해 확률변수의 모수 추정 (정규분포의 평균, 표준편차 계산)
- 확률분포추정 이후, 이를 이용해 P(Ai|C) 계산
단순베이즈분류 문제해결
- 조건부 확률이 하나 이상이 0인 경우 전체확률이 0이 되는 문제 발생
- 확률 계산 방식 새롭게 이용!
1) 기본 :P(Ai|C) = Nic/Nc
2) 라플라스 : P(Ai|C) = Nic+1/Nc+C
-> 각각의 입력변수에 1씩 더함
3) m-추정 : P(Ai|C) = Nic+mp/Nc+m
-> 특정 1이 아닌, 원하는 확률로 사용가능
단순베이즈분류 총정리
- 이상값에 강건함
- 결측 값을 조건부 확률 계산시, 배제하여 자연스럽게 처리가능
- 몇몇 attribute에 대해선 독립서 가정이 성립하지 않을 수 있음
베이지안 추정이론
- 베이지안 추정이론에서는 베이즈 확률법칙을 이용해 모수 세타를 추정
- 사전분포 (사전 믿음)
- 우도 (모델 표현)
- 사후분포 (사전 분포와 데이터를 모두 반영한 사후분포)
- 예측분포 (사후확률을 이ㅛ한 새로운 데이터에 대한 예측분포)
- MAP추정