brunch

You can make anything
by writing

C.S.Lewis

by hansung dev Nov 10. 2022

캐글 대회를 탐색합니다.

Kaggle OTTO 대회

캐글 대회 참석을 위해 2022년 11월 진행중인 대회를 살펴보았습니다.

캐글은 2010년 설립된 예측모델 및 분석 대회 플랫폼이다. 기업 및 단체에서 데이터와 해결과제를 등록하면, 데이터 과학자들이 이를 해결하는 모델을 개발하고 경쟁한다. 2017년 3월 구글에 인수되었다. 위키백과


캐글에 로그인 후 대회(Competitions)를 선택합니다.


진행중 대회(Active Competitions)


대회 메뉴를 선택하면 진행중 대회(Active Competitions) 목록을 확인할수 있습니다. 대회 상단 메뉴에 검색 및 대회 유형별 카테고리(All competitions, Featured 등)도 확인할수 있습니다. 진행중 대회 오른쪽의 필터링 항목 중 Closing Soon을 선택하여 대회 종료일로 정렬합니다.

대회 종료일로 정렬된 진행중 대회 목록을 확인할수 있습니다. Google AI4Code, Big Data Derby 2022 대회는 종료는 하루 남았네요. 

진행중 대회의 필터링 항목을 Recently Launched를 선택하여 최근에 시작한 대회로 정렬합니다. OTTS 대회는 대회 종료까지 3개월이 남았네요. TPS-Nov 2022는 대회 종료까지 21일이 남은것을 확인할수 있습니다.


OTTO – Multi-Objective Recommender System


OTTO 대회 일정을 확인해봅니다. 대회를 선택하고 Overview의 Timeline을 보면 2022년 11월 1일에 대회를 시작했고 마지막 결과파일을 제출하는 일정은 2023년 1월 31일입니다.

OTTS 대회는 이커머스 데이터중 세션 데이터를 기반으로 추천시스템을 구축하는 대회라는 설명을 확인할수 있습니다. 대회 상금은 $30,000 (4,105만원)입니다. 열심히 해야겠네요 :). 현재 335팀이 참여하고 있으며 대회 기간은 약 3개월 정도 남았다는것을 한눈에 확인할수 있습니다.

대회 소개(Overview) 하단의 Tag로도 대회의 특징을 살펴볼수 있습니다. 리테일과 쇼핑, 추천 시스템, weightedrecall라는 태그를 확인할수 있습니다. 

데이터 메뉴에서는 데이터에 대한 전반적인 내용을 확인할수 있습니다. 데이터는 3개 파일이며 총 11.89GB라는 것을 확인할수 있습니다. 데이터 파일 타입은 jsonl, csv 입니다. jsonl는 json을 한줄로 구성 후 \n으로 줄을 구분한 형태의 데이터 타입입니다. 각 데이터의 설명 및 구성하는 데이터의 의미에 대해 상세히 설명하고 있습니다.

데이터를 소개하는 github으로 이동해서 데이터에 대해 더 살펴보겠습니다. train.jsonl는 session과 events로 구성되어 있습니다. session는 하나의 값을 갖는 고유한 값입니다. session은 events라는 쇼핑몰에서 고객이 할동한 행위를 묶는 단위입니다. events는 clicks, carts, orders로 정의되어 있으며 aid는 상품을 식별하는 값으로 확인됩니다. ts는 쉽게 시간을 의미합니다. 


아래 그림의 데이터를 설명해보면 42번 세션의 고객이 시간 순서로 0번 제품을 클릭하고 1번 제품을 클릭, 2번 제품도 클릭 후 카트에 넣었다는 이벤트를 예측해볼수 있습니다.

https://github.com/otto-de/recsys-dataset

코드(Code)를 선택하여 추천이 가장 많은 (Most Votes)를 코드를 확인합니다. 

코드 제목을 살펴보면 Started 또는 Baseline 같은 키워드로 쉽게 시작할수 있는 코드를 선택할수 있습니다. 그리고 캐글링 문화 중 도움을 받은 코드는 Votes를 클릭합니다. github의 star 같은것으로 도움을 받은 코드, 데이터셋, 토론 게시물 등에 Votes를 합니다. :)v

선택한 코드를 살펴보고 데이터를 불러와 데이터를 이해하고 베이스라인 모델을 만들어 빠르게 제출해봅니다.

제출한 결과의 성적은 Leaderboard를 통해 확인합니다. 1등의 성적(Score)는 0.574로 확인됩니다.

이렇게 대회를 살펴보면서 도전할 대회를 탐색합니다. 빠르게 다른 대회로 이동하는것도 좋은 선택일수 있습니다. 다른 대회를 살펴보면 TPS-Nov 2022는 대회는 매달 개최되는 대회로 정형 데이터 기반 입문자를 위한 대회입니다. 다른 대회로는 매년 개최되는 2022 Kaggle machine Learning & Data Science Survey 대회도 보이네요. 캐글에서는 매년 정통적으로 개최되는 대회들이 있어 정기적으로 대회 참여를 하다보면 어느새 성장한 자신을 발견할수 있습니다. (그럼 함께 파이팅해요)


저는 11월 OTT로 추천시스템 및 2022 Kaggle machine Learning & Data Science Survey로 시각화 부분을 살펴볼 예정입니다. (지금 생각으로는요)
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari