brunch

You can make anything
by writing

C.S.Lewis

by hansung dev Dec 10. 2020

03. 데이터분석 절차 이해 , 머신러닝 파이프라인

데이터 분석 경진대회, 정형 데이터 분석절차 이해

캐글과 데이콘 같은 데이터 분석 경진대회의 진행 절차에 대해 알아보겠습니다. 문제 정의, 모델 정의, 데이터 수집 및 가공, 모델 구현, 모델 제출 과정으로 구분됩니다. 데이터 분석 경진대회의 경우 문제 정의 및 데이터 수집 과정은 대회 측에서 제공합니다. 현업에서는 현실의 문제를 해결하기 위해 문제 정의 과정이 가장 중요하다고 생각되며 데이터 수집 과정은 데이터 엔지니어링 과정으로 피나고 땀내 나는 노력과 기술이 필요합니다.

데이터 분석 경진대회, 정형 데이터 분석 절차 요약


캐글과 데이콘의 진행 중 대회에 참여합니다. 문제 목표 및 평가방법, 대회 일정을 확인합니다. 제공된 데이터가 정형 데이터(Tabular data, 시계열), 비정형 데이터(이미지, 텍스트, 음성, 영상)인지 살펴보고, 데이터를 이해하기 위한 EDA(=탐색적 데이터 분석)를 시작합니다. 

데이터 분석 경진대회, 정형 데이터 분석 절차


EDA과정에서는 데이터의 사이즈는 어느 정도인지, 학습과 테스트 데이터는 어떻게 분리가 되어있는지? 결측 값은 어느 정도인지? 라벨이 있는 데이터라면 분포는 어떻게 되어있는지? 데이터의 특이점이 있는지 등을 살펴봅니다. 기본적인 데이터의 이해를 했다면 탐색적 데이터 분석과정을 반복합니다. 




EDA 과정을 통해 데이터를 이해했습니다. 다음 과정은 데이터 전처리입니다. 결측 값(=Missing values), 이상치(Outliers), Scaling을 통해 모델의 성능을 높이는 사전 작업을 진행합니다. 결측 값 및 이상치 데이터를 처리하는 방법은 삭제하는 방법과 대치 또는 로그 변환 등의 과정으로 진행합니다. 

데이터 전처리




피처 엔지니어링 과정은 더 나은 모델 알고리즘 성능을 위해 Raw Data로부터 Feature를 만들거나 재구성하는 과정입니다. Feature Selection는 여러 Feature들 가운데서 일부를 선택하는 과정입니다. Feature Extraction는 주어진 Feature를 바탕으로 새로운 Feature로 재구성합니다. 인코딩 과정을 통해 머신러닝이 학습할 수 있도록 문자를 숫자로 변환하고 모델 성능을 높이는 인코딩 절차를 선택합니다. (과정 반복)

피처 엔지니어링




EDA 및 데이터 전처리 과정을 마치고 피처 엔지니어링 및 모델 구현 과정은 베이스라인 모델을 생성 후 학습 및 예측, 모델 평가 과정을 반복하면서 모델의 성능을 높입니다. 이때 하이퍼 파라미터 튜닝을 통해 최적화합니다 (BaysianOptimization, Hyperopt). 모델 해석하기 과정은 머신러닝이 예측한 결과를 설명할 수 있도록 해석하는 과정입니다 (SHAP).

모델 구현 및 해석, 모델 예측 결과 제출




캐글과 데이콘에는 모델 예측 결과를 제출하면 리더보드에서 예측 점수 및 등수를 바로 확인할 수 있습니다. 이런 점이 대회에서만 느낄 수 있는 재미입니다. 그리고 캐글의 노트북, 데이콘의 코드공유 게시판에서 다른 사람들은 문제를 어떻게 풀었는지 살펴볼 수 있습니다. 실력을 높일 수 있는 부분이죠. 대회 막바지가 될수록 지치는데요. 이때쯤 다른 참가자들과 팀 구성을 통해 우승도 노려볼 수 있습니다.


지금까지 살펴본 과정을 정리해보면 아래와 같습니다. 모델 예측 성능을 높이기 위해 데이터 수집 및 가공, 모델 구현 과정이 반복됩니다. (파이팅!)

데이터 분석 경진대회, 정형 데이터 분석 절차


최근에는 Pycaret, AutoKeras 같은 AutoML 기술이 다양하게 제공되고 있습니다. 오늘 우리가 알아본 과정 중 자동화가 가능한 부분들은 AutoML 기술에서 자동화를 합니다. 자동화로 최적의 모델 선택 및 성능을 높이는 모델 개발에 집중할 수 있도록 환경을 제공하는 추세입니다.




브런치로 시작하는 캐글, 지난 글들.

why, 데이터 분석, 캐글과 데이콘으로 시작하세요.

what, 머신러닝이란? 이렇게 시작하세요. / 데이터 분석 절차 이해 , 머신러닝 파이프라인

how, "타이타닉 생존자 예측" 대회 참가부터 결과 제출까지 /예정

who,...


다음 글에서는 "타이타닉 생존자 예측" 문제를 같이 풀어보도록 하겠습니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari