캐글(Kaggle)과 데이콘(Dacon)
취업에 대한 팁을 주기 위해 각종 매체에서 인사 관계자나 기업 임원들이 하나같이 하는 말이 있다. 본인의 직무 관련 경험을 어필하는 것이 취업 성공의 지름길이라는 것이다. 사실 그 어떤 분야를 막론하고서라도 본인의 경험을 어필할 수 있다는 것은 강력한 무기다. 빅데이터와 AI 분야에서도 마찬가지이다. 단순히 저는 빅데이터와 인공지능 열심히 공부했어요!라고 말하는 것보다는 특정 프로젝트 참여와 같이 본인의 실제 경험을 이야기할 수 있는 사람이 매력적이다. 하지만 이렇게 본인의 경험을 어필하는 것은 쉬운 일이 아니다. 빅데이터와 인공지능 분야를 포함해 모든 신입 채용 준비생들의 딜레마랄까. 이제 막 시작하려는데 경험이 있을 리가 만무하기 때문이다.
빅데이터/AI 관련 경험은 어디서 쌓을 수 있는 거야?
이 질문에 구구절절 답을 할 수 있다면 비단 취업뿐 아니라 대학원 입시, 강사 활동 등 다양한 부분에서 훌륭한 장점이 될 수 있다. 이 분야는 오랜 시간 혹은 확실한 경력/경험을 가지고 있는 사람이 매우 부족하기 때문이다. 그리고 이 질문에 가장 좋은 답변은 본인이 '학위 과정 중 했던 경험'이나 '회사 생활 중 겪었던 일'을 어필하는 것이다. 내 커리어와 연결시켜 빅데이터/AI 관련 경험을 어필할 수 있다면 그만큼 좋은 것이 없다. 확실히 증명이 되지 않겠는가. 하지만 다시 한번 말하자면 이제 막 이 분야에 대한 공부를 시작하고 취업을 준비하는 학생들에게는 이 일이 사실상 불가능하다는 문제점이 있다.
우선 한 가지 다행인 점은 빅데이터/AI 분야는 다른 분야에 비해 아무 곳에도 소속되지 않은 상태라 할지라도 관련 경험을 쌓기 쉽다는 점이다. 수 없이 많이 열리고 있는 빅데이터/AI 관련 공모전이 있기 때문이다. 우선 다른 분야의 경우 공모전은 '학생이 하는 것'이고 진짜 프로들은 회사 일만을 하는 것이라는 인식이 어느 정도 있다. 하지만 빅데이터/AI 분야에서만큼은 다르다. 학생들이 많이 공모전에 참가하는 것은 사실이지만 공모전에서 특정 성과 이상 기록한 경험을 그 누구도 무시할 수 없다. 특히 그 공모전이 캐글과 같이 유명한 대회일수록 말이다.
Kaggle과 같은 데이터 사이언스 컴피티션 참가를 추천합니다.
개인적인 의견을 하나 덧붙이자면 회사 내에서 혹은 학교 내에서의 빅데이터 프로젝트 관련 경험을 어필하는 것이 그 사람의 역량을 보장하기에는 힘들다고 본다. 아무래도 회사 내, 학교 내의 프로젝트에선 정말 다양한 인원이 같은 프로젝트에 참여하게 되고 그곳에서 본인의 역할이 어떠냐에 따라 해당 경험이 함축하는 바가 매우 달라지기 때문이다. 그리고 이보다 더 중요한 점은, 개인적 의견으로 아직 데이터 시스템이 완벽하게 갖추어진 회사, 학교가 매우 드물고 그곳에서의 프로젝트라 함은 데이터 사이언스 자체에 포커스가 맞추어져 있기보다는 데이터 시스템 구축 정도에 한정돼있는 경우가 많기 때문이다.
한 마디로 요약하자면 캐글과 같은 데이터 사이언스 컴피티션에 참가하여 일정 성과를 거두면 해당 의혹을 모두 뿌리칠 수 있다. 해당 실적만으로 본인의 실력을 어필할 수 있고 데이터 사이언스 분야 자체의 실력을 입증할 수 있다. 그리고 이외에도 데이터 사이언스 컴피티션, 즉 공모전에 참가하는 것의 장점은 매우 많다. 취업 전일지라도 실제 기업의 데이터를 다뤄보는 경험을 쌓을 수 있다. 여기에 더해 최근 데이터 분야에선 어떤 이슈가 중요하게 다뤄지는지, 같은 문제에 대해서 다른 사람들은 어떻게 접근하고 있는지를 보며 공부하는 등 본인의 역량 향상에 많은 도움이 될 수 있다. 먼저 데이터 사이언스 컴피티션 혹은 해당 공모전이 무엇인지부터 파악해보도록 하겠다.
기업이 특정 플랫폼을 통해 데이터 사이언스 문제 해결을 요구하고 이를 공모전 형식으로 풀어나가는 것을 의미합니다.
기본적으로 이번 시간에 이야기하는 데이터 사이언스 컴피티션 혹은 해당 분야 공모전은 기업이 특정 플랫폼을 통해 문제 해결을 요구하고 공모전 형식으로 문제를 풀어나가도록 설계해 둔 시스템을 말한다. 말 그대로 흔히 말하는 공모전이다. 그리고 데이터 사이언스 분야에서는 이런 문제를 모아서 공유하는 특정 플랫폼이 존재한다. 캐글(Kaggle)이 그 대표적인 사례이다. 전 세계의 많은 기업들이 캐글을 통해 데이터와 문제를 제공하고 전 세계의 수많은 데이터 사이언티스트들은 해당 문제를 풀기 위해 달려든다. 물론 참가자들 사이에 등수를 매겨 상위권 몇 팀에게는 기업에서 상금도 준다.
이런 캐글은 전 세계 데이터 사이언티스트들의 성지라고 불린다. 캐글을 참가하는 사람들에게 캐글러라는 명칭을 따로 부여하기도 하며 캐글 자체가 이 분야에서는 하나의 문화다. 캐글의 가장 큰 장점이라고 하면 플랫폼의 '꾸준함'과 '공유 문화의 활성화' 두 가지를 뽑을 수 있다. 전 세계에서 데이터 사이언스 대회 관련 가장 큰 규모를 자랑하고 있기에 언제 접속하던 새로운 대회가 계속 진행 중이다. 다른 공모전들과의 가장 큰 차이점이라고 볼 수 있다. 그리고 지식과 풀이 방법에 대한 공유 문화가 정말 잘 잡혀있다. 1등을 한 사람이 대회가 끝났다고 바로 도망가지 않는다. 본인이 이 문제에 어떻게 접근했는지 코드를 공유하고 생각을 공유한다. 이 과정에서 비록 수상에 실패한다 할지라도 많은 배움이 생긴다.
캐글 외에도 이 분야 공모전은 정말 많이 열립니다.
그리고 캐글에서 입상을 한다는 것 자체가 굉장한 스펙이 된다. 한국인으로 이루어진 팀이 캐글에서 입상을 하고 그것 자체로 뉴스 기사가 나왔던 것이 아직도 기억에 남는다. 물론 캐글이 가진 영향력이 어마어마하기 때문에 캐글에서 입상을 한다는 것 자체는 매우 어렵다. 캐글 입상은 내 개인적인 목표이기도 하다. 하지만 캐글 입상이 어렵다고 실망할 필요는 없다. 캐글에서는 '경험'을 얻고 '배움'을 얻는 것만으로도 충분히 많은 가치가 있을 수 있기 때문이다. 그리고 캐글을 제외하더라도 빅데이터/AI 분야에서는 정말 많은 공모전이 개최되고 있다. 정말 입상만을 원한다면 그러한 공모전들을 참가하는 것도 좋은 기회가 될 수 있다.
한국판 캐글이라 불리는 데이콘(DACON)이라는 데이터 사이언스 플랫폼도 존재한다. 캐글과 유사하게 지속적으로 데이터 사이언스 문제를 개최하고 참가자들이 달려드는 형식이다. 데이콘의 영향력과 대회 입상 난이도가 캐글에 비할 수준이라곤 볼 수는 없지만 점점 국내의 많은 전문가들이 데이콘의 존재와 영향력을 인정하고 있다. 이 외에도 카카오 아레나나 혹은 특정 시즌이 되면 열리는 각종 공공기관들의 데이터 공모전 등이 있다. 유명한 공모전 사이트에 접속해서 '데이터' 혹은 '인공지능' 정도의 키워드로 검색을 해보면 된다. 특정 기간에는 놀라울 정도로 많은 대회들이 열리고 있다.
입상도 좋지만 경험과 공부에 많은 초점을 맞추었으면 좋겠습니다.
이런 많은 데이터 사이언스 경진대회에서 입상을 하면 당연히 좋다. 두말하면 잔소리다. 하지만 많은 공모전, 특히 캐글을 참여한다면 입상보다는 경험과 공부에 많은 초점을 맞추기를 추천한다. 사실 입상만 바라보면 입상에 실패했을 때 마음이 굉장히 심란해진다. 열심히 노력했지만 시간만 날린 기분이 들기 때문이다. 그리고 빅데이터/AI 분야에 점점 많은 사람들이 관심을 기울이고 참가하기 때문에 입상의 어려움은 점차 올라가지 않을까 추측한다. 심하게 말을 하자면 입상을 하지 못하더라도 나는 이것 자체로 많이 경험하고 공부가 되었어!라고 정신승리를 했으면 좋겠다.
이번 시간에 캐글을 비롯해 많은 공모전 참가를 해보라고 장려한 이유는 본인의 '경험'을 어필할 무기를 만들기 위해서이다. '모델 앙상블은 머신러닝 성능을 높이는데 주요하게 작동한다고 배웠습니다'라고 말하는 것이랑 'A라는 대회를 참여해 B라는 데이터에 적용을 해보니 모델 앙상블이 정말 중요하게 성능 향상에 영향을 미치고 있구나라는 것을 경험했습니다'라고 말하는 것은 많은 차이를 가져온다. 주변을 보면 정말 많은 사람들이 관련 공모전에 참가한다. 하지만 '입상 실패'에 대한 좌절감으로 멈추는 경우를 너무 많이 보았다. 쿨한 마음가짐으로 이를 이겨내 잘 세팅되어있는 플랫폼을 이용해 많은 성장이 있기를 바란다.