글로벌 데이터 사이어스 대회 플랫폼
Kaggle은 데이터 사이언스를 꿈꾸는 사람들은 한번은 들어본 대회일 것이다. 우리나라에도 데이콘, AI factory 등 다양한 데이터 대회 플랫폼이 존재한다. 하지만 전세계적으로 Google의 지원을 받는 가장 유명한 플랫폼은 Kaggle이다.
(Kaggle은 2010년 설립되었고, 2017년 3월 구글에게 인수되었다.)
연구단체나 기업 등이 데이터를 공개하고 채점 방식을 결정하면 대회가 시작된다. 누구나 참여할 수 있고 전세계에서 데이터를 가장 잘 예측하는 모델을 개발하기 위해서 경쟁을 한다.
Kaggle에서 가장 중요한 부분은 Competition이다.
competition은 train data와 test data를 나눠서 공개한다.
train data는 모든 데이터가 정답을 가지고 있다. 반면에 test data는 정답을 알 수 없다.
train data로 학습을 진행하고 test data를 예측한 결과를 submission(제출)하면 내부적으로 공개되지 않은 test data에 대한 모델의 결과를 알 수 있다.
public leaderboard는 1차적으로 대회중에 test data로 제공되는 데이터를 얼마나 잘 예측했는가를 공개하는 leaderboard이다. (kaggle을 하면 종종 LB라는 말을 볼 수 있는데 이것이 leaderboard이다.)
이 leaderboard는 보통 전체 채점용 test 데이터의 일부분(15~30% 정도)의 데이터에 대한 예측정도로 공개한다.
private leaderboard는 전체 채점용 데이터의 공개되지 않은 나머지 부분을 말한다. 대회가 끝난 뒤에 채점을 한 결과를 개시하는 곳이다. 이 private leaderboard가 최종적인 우승자를 결정한다. 전체 test data의 70~80%로 우승이 결정된다.
Kaggle에서 Competition에서 자신이 만든 모델, 시각화 다이어그램 등이 있는 노트북을 공유하는 곳이다. Kaggle notebook은 jupyter notebook과 거의 동일한 환경을 제공한다. (GPU 및 TPU도 사용할 수 있다.) Notebook은 크게 EDA형과 Baseline형이 있다.
EDA는 exploratory data analysis의 약자이다. 데이터가 가지고 있는 여러가지 특성과 insight를 보기 좋게 시각화를 하는 것이 주를 이룬다. 좋은 visualization이 있는 notebook은 많은 upvote를 받고, 데이터를 빠르게 이해하는데 도움을 주고, 결과적으로 kaggle 생태계에 좋은 기여를 한다.
Baseline형의 notebook은 모델을 빠르게 구축할 수 있도록 자신의 모델을 공개하는 것이다. 데이터를 전처리하고, 모델을 설정하는 부분은 반복적인 귀찮은 영역일 수 있다. baseline model들은 이러한 부분을 빠르게 뛰어넘고 모델과 data의 특성에 집중하여 좋은 결과를 낼 수 있게 해준다. 여러 모델을 Ensemble을 하는 경우, baseline model을 빠르게 조합하여 좋은 성과를 낼 수 있기도 하다.
Discussion은 Kaggle에서 수많은 질문과 토론을 할 수 있는 대화의 장이다. 대회에 대한 여러가지 궁금증, data에 대한 질문, 좋은 생각들을 서로 나누는 곳이다. kaggle에서는 upvote를 많이 받은 discussion을 한 유저에게 discussion ranking을 높게 부여해주기도 한다. 전세계의 수많은 데이터 스승이 존재하는 곳이다.
Kaggle에서는 Dataset을 공개하는 곳이 있다. Dataset Ranking도 존재하는만큼 수많은 데이터들이 존재하고 인기가 많은 데이터들도 존재한다. 자신이 관심있는 dataset을 찾아서 연구해보는 것도 재미있고 competition에 참여할 때 이용할 수도 있다. 또한 단순히 data만 있는 것이 아니라 pre-trained model들도 존재하므로 사용하면 좋다.
이렇게 재미(?)있는 Kaggle을 시작하고 싶은데 어떻게 해야할지 전혀 몰라도 상관이 없다! Kaggle이 제공하는 Course들을 들으면 쉽게 시작할 수 있다. 데이터 사이언스의 커리어를 Kaggle 홈페이지에서 시작하고 끝낼 수 있다고 말할 수 있을 정도로 풍부한 정보와 이점이 존재하는 곳이다!