"타이타닉 생존자 예측 대회"로 시작하는 캐글 대회
캐글의 경진대회는 다양한 유형이 있습니다. 상업적 대회(=Featured), 연구 목적(=Research), 학습용 대회(= Getting Started, Playground)가 있습니다. 그 외는 채용(=Recruitment) 및 정기적으로 열리는 대회(=Annual), 참여가 제한된 대회(=Limited Participation)가 있습니다.
Kaggle에서 가장 쉽게 접근할 수 있는 "Getting Started" 대회를 알아보겠습니다. "Getting Started" 대회는 종료일이 없으며 일정 기간이 지나면 초기화됩니다. 예측 결과 제출 시 리더보드에서 점수를 확인할 수 있습니다. 초보자가 캐글 사용법과 머신러닝 프로그래밍의 기본을 배우기는 좋은 반영구적인 대회입니다. "Getting Started" 대표적인 대회는 Digit Recognizer, Titanic: Machine Learning from Disaster, Housing Prices: Advanced Regression Techniques 가 있습니다.
Getting Started의 대표적인 대회 Titanic: Machine Learning from Disaster 에 참여해보겠습니다.
대회는 진행 중(=Ongoing) 상태이며 21,929팀이 참여하고 있습니다. 하단의 Tags를 보면 이진 분류(=bimary classification) 문제입니다. (생존자가 살았는가 죽었는가를 예측하는 분류 문제), 정형화된 Tabular data 형태이며 평가방식은 정확도(=accuracy)입니다.
대회 개요(=Overview)를 보면 대회에 대한 설명(=Description)과 평가(=Evaluation), 자주 묻는 질문에 대한 정보를 확인할 수 있습니다. 평가 정보가 중요한데요. 목표와 평가 Metric 및 예측 결과 제출 포맷에 대한 정의가 되어있습니다.
목표 : 승객이 타이타닉 침몰에서 살아남았는지 여부를 예측하는 것입니다.
평가 : 정확도
제출 파일 포맷 : 승객 번호 및 생존 여부(테스트 세트의 각 변수에 대해 0 또는 1 값을 예측)
데이터 설명에는 개요 및 데이터 명세서 등 데이터를 이해할 수 있는 정보들이 있습니다. 모델의 성능을 높이기 위해서는 데이터에 대한 이해가 중요합니다.
노트북에는 대회에 참여하는 캐글러들이 공유한 노트북들이 공개되어있습니다. 노트북 종류에는 베이스라인, 데이터 분석(=EDA), 포크, 병합 노트북 등이 있습니다. 이러한 다양한 노트북 등을 참고하여 많이 배우고 모델 성능을 높일 수 있습니다.
Titanic Tutorial 노트북으로 "타이타닉 생존자 예측"을 하고 결과를 제출해보도록 하겠습니다. 노트북을 클릭 후 오른쪽 상단의 "Edit My Copy"를 클릭합니다.
자신의 노트북이 생성되며 기존 노트북 내용이 복사된 부분을 확인할 수 있습니다. 상단의 "Save Version"을 클릭하면 코드가 모두 수행되며 결과 파일이 제출됩니다.
"Edit" 버튼 옆 "..." 버튼을 클릭 후 "Submit to Competition"을 클릭하여 생존 예측 결과 파일을 제출합니다.
제출 후 점수를 확인합니다. Titanic Tutorial의 점수(=정확도)는 0.77511입니다.
리더보드는 Public과 Private로 구분됩니다. 제출 후 즉시 Public 리더보드에서 순위와 점수를 확인할 수 있습니다. 대회 종료 후 Private 리더보드에서 다른 테스트 셋으로 평가된 점수 및 순위가 공개됩니다.
Titanic Tutorial의 코드의 이해는 캐글의 교육 과정에서 배울수 있습니다. 이 교육 과정은 파이썬 프로그래밍, 머신러닝, 데이터 시각화, 판 다스, 딥러닝, SQL 등 캐글 경진 대회에 참가에 필요한 개발 관련 교육으로 구성되어있습니다. (파이팅!)
참조. 캐글 및 위키 그리고 많은 도움을 받은 캐글 가이드
캐글과 데이콘 시작으로
데이터 분석 및 예측모델을 구축해보세요.