DS SCHOOL 입문반 1주 차
시작하기에 앞서 캐글이 간단히 뭔지 알아봐요!
캐글은 '안토니 골드블룸'이라는 형님이 만들었으며,
간단히 말하면 데이터 사이언스 경진대회 사이트라고 생각하면 됩니다!
(현재 구글 지주회사 알파벳 소속입니다)
자기계발을 염두하고 있다면 정말 좋은 데이터 분석 인사이트를 얻어가실 수 있습니다.
경진대회에 많이 참여하고 높은 점수를 획득하면 가입한 계정의 스코어가 높아집니다.
캐글에서 상위권에 속하게 된다면 글로벌 기업에서도 직접 모셔오는 경우가 다반사라고 하네요!
UBS, google, IBM 등 데이터 사이언스를 구할 땐 캐글이라고 합니다! 헷
이 분이 현재 캐글에서 랭킹 1위입니다.
에어비앤비에서 데이터 사이언스를 담당하고 계신데요,
한국 사람들 중에서도 레전드도 있다고 합니다!
수년간 상위권에 속해있으며, 이름이 y라는 것 이외에는 누군지 알 수 없는 전설의 레전드라고 합니다!
현재 캐글 전체 순위 57위이시고 데이터 사이언스 관계자분들께서는 정말 유명한 분이시라고 하네요! ㅋㅋ
캐글 홈페이지에 접속하게 되면 267여 개의 경진대회를 확인할 수 있습니다.
그럼 간단히 어떻게 시작하는지 확인해볼까요!?
상단 카테고리에서 Competitions 탭을 클릭을 해주세요!
옆에 금액 같은 경우는 참여해서 우승하면 150만 달러를 준다고 합니다! 이야!!
다만 첫 번째 경기는 미국 국토안보부에서 테러 방지를 위해 캐리어 같은 짐에 위험 물건을 인지하고 감지하는
알고리즘을 만든다는........ 엄청 어렵다고 합니다! 그럼 패스!
All 탭을 클릭 후 Titanic:Machine Learing from Disaster을 클릭해주세요!
처음 입문 시에 많은 분들이 타이타닉 프로젝트로 시작한다고 합니다! (옆에 총 8569팀이 참여한 겁니다!)
되게 놀라운 점은 생각보다 가볍게 접근할 수 있는 부분입니다.
해당 탭 내에서 test.csv / train.csv 파일을 다운로드하여
엑셀 혹은 구글 스프레드시트를 통해서 타이타닉 사건의 생존율을 구할 수 있습니다!
파일을 다운로드하고 해당 데이터를 확인할 수 있는데요.
캐글에서 제공하는 타이타닉 데이터는 실제 사고를 배경으로 한 리얼 데이터라고 합니다.
해당 데이터를 스프레드 시트에 놓고 어떻게 하면 생존율이 높았는지.
객실 등급, 나이, 성별, 내리는 항만, 티켓 번호, 이름 등
여러 데이터를 취합 및 조합을 해서 생존율을 높일 수 있도록 만들어야 합니다.
기본적으로 생존: 1 죽는다: 0 이렇게 1,0 사이에 %를 만들어볼 수 있으며,
예로 들어 객실 등급이 1등급이며, 여성이라면 산다,
3등급이며, 남자들은 죽는다. 조합을 하며, 리얼 데이터를 조합할 수 있습니다.
해당 파일을 정리하여 파일을 업로드하면 타이타닉 프로젝트에 가입한 계정의 랭킹이 나오는데요!
성별 분류를 통해서 파일 업로드를 했는데 전체 참여 팀 중에서 2000명은 이겼네요! ㅋㅋㅋ
아직 그 이상의 점수는 못 넘겼고요! ㅠㅠ 0.8 이상이면 정말 잘한다고 합니다!
다만 캐글을 해본 결과 꾸준히 지속적으로 계속 도전을 해야 할 것 같습니다!
어떤 관점에서 접근해야 할지 직접 해보고 느껴봐야 그 감을 익히고 실무에 적용할 수 있을 것 같습니다.
건포어는 최근 DS SCHOOL에 입문반 수강을 통해 캐글에 대해 알게 되었습니다.
(본 내용도 1주 차 교육을 들으며 알게 된 내용들!)
데이터 분석에 대한 인사이트를 얻고 싶고, 실무에 적용시키고 싶다면 DS SCHOOL을 추천합니다!