Titanic: Machine Learning from Disaster
기술의 발전으로 데이터가 많아지고 활용할수 있는 기회가 많아졌습니다. 기업들은 데이터로 의사결정을 하고 고객들에게 편리함을 제공 합니다. 자연스럽게 데이터를 잘 다룰줄 아는 사람들이 필요하게 되었고 기업에서는 데이터 관련 직무들이 생겨나고 채용을 하게 되었습니다.
아래는 Toss 채용공고 건수를 직무별로 표현한 부분입니다.
개발자와 더블어 Data 관련 데이터분석과 데이터엔지니어 등의 공고 건수가 큰 부분을 차지 하고 있습니다.
데이터분석, 데이터엔지니어링 등 데이터를 다루는 기술은 여러가지가 있습니다. 자격증, 관련 분야 인턴, 데이터분석 대회, 해커톤 등 다양한 방법으로 현실의 문제를 풀어가는 방법을 직간접적으로 경험합니다.
데이터분석 대회 참여는 캐글과 데이콘 같은 플랫폼을 이용하면 효과적입니다. 대회 설명, 데이터, 토론과 코드공유, 리더보드로 실시간 순위 및 스코어를 확인할수 있습니다. 특히 토론과 코드공유 부분에서 다른 사람은 이 문제를 어떻게 풀어나가는지에 대해 살펴볼수 있어 실력 향상에 많은 도움이 됩니다. 그리고 활동한 내역들은 메달 등의 보상형태로 이후 채용 및 경력 증명등에 활용할수 있습니다.
캐글(Kaggle)은 2010년 설립된 예측모델 및 분석 대회 플랫폼이다. 기업 및 단체에서 데이터와 해결과제를 등록하면, 데이터 과학자들이 이를 해결하는 모델을 개발하고 경쟁한다. 2017년 3월 구글에 인수되었다.
데이콘(Dacon)은 2018년 설립된 Data Science Competition, 1만 AI팀이 협업하는 인공지능 플랫폼이다.
캐글과 데이콘외에도 AI Factory, kakao arena 등의 분석 대회 플랫폼이 있습니다.
캐글과 데이콘, AI 팩토리, 카카오 아레나에서 개체한 대회 수는 아래와 같습니다. 2010년 부터 시작한 캐글의 개체 대회수가 가장 많습니다. 2018년 시작한 데이콘의 대회 개체수가 두번째네요.
데이콘의 경우 2018년 시작을 하여 매년 대회 개체수가 증가하고 있습니다.
캐글과 데이콘 같은 데이터 예측/분석 플랫폼으로 시작한다는것은 알았는데요. 어떻게 시작해야할까요?
입문 대회로 유명한 "타이타닉 생존자 예측 문제"로 시작합니다.
캐글과 데이콘의 타이타닉 생존자 예측문제는 아래와 같습니다. 차이점은 캐글의 경우 평가 방식이 정확도 이며 데이콘의 경우 AUC 평가 방식을 사용 합니다. (평가 방식에 대해서는 이후 게시글에서 자세히 설명하도록 합니다.)
"타이타닉 생존자 예측 문제"로 시작하는것은 알았는데요. 어떻게 시작할지 감이 잡히지 않죠?!
캐글의 경우 Notebooks에서 다른 사람들의 코드를 살펴볼수 있습니다. "Titanic Tutorial" 라는 분석 및 예측 코드로 시작하시면 됩니다. 데이콘의 경우 코드공유 라는 메뉴에 "[제주TP] 타이타닉 공유"로 시작하시면 됩니다. 데이콘의 경우 코드공유에 한글 설명이 자세히 나와 있으며 토론 메뉴에서 다른 참여자와 토론도 할수 있습니다.
캐글과 데이콘의
"타이타닉 생존자 예측 문제"로 데이터 예측/분석을 시작해보세요.