[강의노트] KDT_day4_260109

넘파이 판다스 실습 끝, 머신러닝 기초

by 아르떼

넘파이 판다스 실습 계속

https://colab.research.google.com/drive/1w0eWKIi7IirTMUH_CSUmt5tKUZ3TL6Xl?usp=sharing



머신러닝

데이터에서부터 학습하도록 컴퓨터를 프로그래밍하는 과학

프로그램을 손대지 않고 데이터를 넣어주면 넣어줄수록 프로그램의 성능이 높아진다.


예시) 스팸 메일 케이스

훈련 정의 : 스팸 메일과 일반 메일의 샘플을 이용해 시스템이 패턴을 구성하고 스팸 메일 구분접을 배우는 과정

훈련 세트 : 시스템이 학습하는 데 사용하는 데이터 샘플 세트

작업 : 새로운 메일이 스팸 메일인지 구분하는 작업

경험 : 스팸메일 분류기의 훈련에 사용된 메일의 데이터 샘플

측정 기준(P) : 정확도(정확히 분류된 메일의 비율, 분류 작업에 주로 사용)


머신러닝 애플리케이션 적용 사례

이미지 분류

이미지 스캔 의학 진단

자동 뉴스 기사 분류

긍정/부정 텍스트 분류

문서 요약

챗봇/ 개인비서

성능 지표 기반 내년도 수익 예상

음성 명령 작동 앱 제작

신용카드 부정거래 가지

고객 군집별 마케팅 전략 기획

고차원 데이터 그래프 시각화

추천시스템

지능형 게임


머신 러닝의 종류

지도 학습 vs 비지도 학습

지도 학습 : 명확한 목적 하에 명확한 답과 정확한 알고리즘을 써서 예측을 하는 것

비지도 학습 : 데이터 분석의 목적이 명확히 정의된 형태의 특정 필드 값을 구하는 것이 아니라 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태를 표현하는 것

준지도학습

강화학습

배치학습

가용한 모든 데이터를 사용하여 모델을 훈련시키는 방법

온라인 학습

데이터를 순차적으로 한 개씩 혹은 미니배치 단위로 사용하여 시스템을 훈련

사례 기반 학습

모델 기반 학습


머신러닝의 주요 도전 과제

충분하지 않은 양의 훈련 데이터

대표성 없는 훈련 데이터

낮은 품질의 데이터

관련 없는 특성

훈련 데이터 과대적합 # 규제: 모델을 일반화하고 과대적합을 피하기 위해 모델에 제약을 가함


테스트와 검증

데이터 분할-훈련 세트와 테스트 세트

모델이 얼마나 현실에 잘 맞는지 실제 데이터로 적용하기 전에 테스트를 해보는 것이 필요.


인공지능 데이터 전처리 - 데이터 분석 과정

데이터 수집

데이터 확인

데이터 전처리 (결측치 처리, 스케일링, label encoding, one-hot encoding)

데이터 시각화 (pairplot, histplot, countplot)

모델 선정

모델 최적화


작가의 이전글[강의노트] KDT_day3_260108