RANZCR CLiP
캐글 CLiP 이미지 대회 금메달 노하우 공유 감사합니다. (업스테이지, 김윤수님)
영상의 내용을 정리한 브런치 글입니다. 많은분들에게 도움이 되었으면 합니다. (파이팅!)
목표 : chest x-ray 이미지를 인풋으로 받아, 환자에게 삽입된 카테터(튜브)의 종류 및 올바른 위치에 삽입됐는지 여부를 분류하는 multi-label classification 문제
기간 : 2020.12.15~2021.3.17
상품 : $50000
평가 지표 : 각 레이블 별 AUC값의 평균
고해상도를 어떻게 활용할 것인가? DownConv!
카테터(튜브) 마스크를 어떻게 활용할 것인가? Pre-training!
Unlabeled Data를 어떻게 활용할 것인가? Pseudo-labels!
위 3가지 솔루션으로 절반정도의 등수가 상위 1%까지 올라갈수 있었다고 합니다.
대회 선정 : 관심분야, 상금, CV-LB 상관성
둘러보기 : Code, Dicussion, EDS
검증방법 구축 : CV-split, LB와 상관성이 높은지
파이프라인 구축 : 베이스라인, 학습부터 캐글 제출까지
아이디어 실헝 : 캐글 포럼, 이전 대회 솔루션, 논문
최종 모델 학습 : pseudo-training, 앙상블
대회 선정 과정에 대한 노하우에서 CV-LB 상관성에 대해 자세히 알수 있어 좋았습니다.
"cv"로 검색, 대회 선정시 CV-LB 상관성 확인
"eda"로 검색, 데이터에 대한 이해 및 특이점을 확인
"base"등 검색, 베이스라인 코드를 확인하여 자신만의 베이스라인 구축 및 결과 제출
캐글의 공유 문화로 Code, Discussion에서 많은 정보 및 아이디어를 얻을수 있습니다.
실험 및 확인을 반복하는 자신만의 절차를 만들고 최종 제출을 한다.
예를 들어 코드 구조를 data.py, model.py, train.py, infer.py로 분류한다.
위 코드 구조로 대회선정을 잘하여 대회에 지속적으로 참가하여 코드를 완성한다.
캐글 discussion의 아이디어를 자신만의 코드에 적용하여 실험 및 반복한다.
캐글 상위 고인물이 참여하지 않는 대회는 쉐이크업 등 이유가 있기에 대회선정 과정에서 잘 검토한다.
캐글 상위 고인물 리스트를 만들어야 겠네요. ㅎㅎ, 캐글 카사바 대회는 쉐이크업이 심한 대회였죠. 대회를 통해 많이 배우고 성장할수 있는데요. 쉐이크업이 심한 대회에서는 배울수 있는 점이 적어 아쉽네요.
https://www.youtube.com/watch?v=KTgNiKm_gYw