3.2 지도 학습 모델

데이터 과학 미니북 - 3. 데이터 분석

Jul 28. 2021

3.2 지도 학습 모델

지도 학습 (Supervised Learning) 모델

비지도 학습 (Unsupervised Learning) 모델

준 지도 학습 (Semi-Supervised Learning) 모델

강화 학습 (Reinforcement Learning) 모델

[표 1] 2000년대 미국 뉴욕 지역 부동산 가격

[그림 1] 선형 모델: 가격 ~ 면적

y_hat_i : i 번째 데이터 레이블 예측값

y_i : i 번째 데이터 실제 레이블

[그림 2] 선형 모델: 가격 ~ 나이

P(B|A) : A 사건이 일어난 상황에서, B 사건이 일어날 확률

P(A, B) : A, B 사건이 모두 일어날 확률

P(A) : A 사건이 일어날 확률

[표 2] 성별 신체 측정 데이터

P(성별=남성|키,무게,발) ∝ P(키|성별=남성) ∙ P(무게|성별=남성) ∙ P(발|성별=남성) ∙ P(성별=남성)

P(성별=여성|키,무게,발) ∝ P(키|성별=여성) ∙ P(무게|성별=여성 ∙ P(발|성별=여성) ∙ P(성별=여성)

변수들이 서로 독립이라는 가정

변수들이 정규 분포를 따른다는 가정

[그림 3] 신발을 구매할 때의 결정 과정

[그림 4] CART 붓꽃 품종 분류 모델

[그림 5] CART 붓꽃 품종 분류 모델 – 150개 측정값 분류 결과

[그림 6] 뇌 신경 세포

[그림 7] 다단계로 엮인 뇌 신경 세포

[그림 8] 뇌 신경 세포 모방 수식

[그림 9] 붓꽃 품종 분류 신경망

Brunch Book

Data Engineer & Scientist @ 삼성, 네이버, 부릉, 데이블, 티빙

3.2 지도 학습 모델

3.2 지도 학습 모델

3.2.1 선형 회귀 모델 (Linear Regression)

선형 회귀 모델은 모델 함수가 선형 함수(1차 함수)로 이루어져 있는 경우를 말합니다. 그러니까, 피쳐 변수가 x1, x2, x3 이고, 레이블 변수가 y 인 경우 모델은 다음과 같은 1차 함수의 형태가 됩니다.

[표 1]은 미국 뉴욕 지역의 부동산 통계 데이터 일부를 발췌한 것입니다.[1] 이 데이터에서 가격을 예측하는 선형 모델을 몇 가지 만들어 보겠습니다.

우선 면적 변수만 피쳐로 사용한 경우의 선형 모델은 다음과 같습니다.

일반적으로 머신 러닝 모델에서 예측 값과 실체 측정값의 차이를 손실(Loss) 또는 손실 함수(Loss Function)라고 하는데, 하는데, 선형 모델의 경우 손실 함수는 다음과 같이 정의되고, 그 의미는 평균오차제곱(Mean Squared Error) 입니다.

부동산 데이터에서 가격을 예측하기 위해 ‘나이’ 변수만 피쳐로 사용하는 선형 모델을 만들면 다음과 같습니다:

선형 모델은 앞서 살펴 본 것처럼 변수 하나씩만 넣어서 만들어야 하는 것이 아닙니다. 여러 변수를 한꺼번에 넣어서 만들 수도 있습니다. 부동산 데이터의 모든 피쳐 변수를 다 활용한 선형 모델은 다음과 같이 학습 됩니다.

3.2.2 나이브 베이즈 모델 (Naïve Bayes)

고등학교 수학 시간에 배우는 베이즈 조건부 확률 정리는 다음과 같이 생겼습니다.

[표 2] 데이터에서 키, 몸무게, 발치수는 피쳐 변수, 성별은 레이블 변수입니다. 우리가 원하는 모델은 다음과 같은 함수인데요,

나이브 베이즈 모델 함수는 확률 표기법으로 다음과 같이 생겼습니다.

나이브 베이즈 모델은 여기서 키, 무게, 발 세 변수는 서로 독립이라고 가정하고 다음과 같이 추가로 더 정리합니다.

여기에서 중요한 것은 분자 값입니다. 분모는 고정된 값이기 때문에, 분자만 알면 다음과 같이 각 성별에 해당하는 확률을 비교할 수 있습니다.

이상이 나이브 베이즈 모델을 학습하는 과정입니다. 이제 완성된 모델을 이용하여, 키, 무게, 발치수가 주어졌을 때의 남자, 여자일 확률을 비교할 수 있습니다.

나이브 베이즈 모델이 나이브(a.k.a. 단순 무식)라는 수식어를 달고 있는 이유는 모델을 학습할 때 사용하는 다음 두 가지 가정 때문입니다.

3.2.3 의사 결정 트리 모델 (Decision Tree)

앞서 기초 통계 분석에서 살펴본 붓꽃 데이터에서 다음 예측 모델을 세운다고 해 보겠습니다.

가장 널리 쓰이는 의사 결정 트리 모델 알고리즘인 CART(Classification And Regression Tree)를 활용하여 만든 트리 모델은 [그림 4]와 같이 생겼습니다.

이렇게 간단한 결정 과정으로 붓꽃 품종이 잘 분류 될까요? 이 모델에 붓꽃 데이터의 150개 측정값을 다 넣어서 분류한 결과는 다음과 같습니다.

3.2.4 신경망 (Neural Network)

[1] Dick De Veaux (2015) "How much is a fireplace worth?" Stats 101: A resource for teaching introductory statistics, American Statistical Association

[2] https://ko.wikipedia.org/wiki/나이브_베이즈_분류