brunch

You can make anything
by writing

C.S.Lewis

by 삼더하기일 Mar 16. 2022

데이터 사이언스에 관심 있는 사람에게 추천하는 3가지

(1) 데이터 사이언스 컴피티션 참가하기

데이터 사이언스에 관심 있는 사람에게 추천하는 3가지 활동

데이터를 읽어 들어와 필요한 전처리, 수학적 작업 등을 거친 뒤 상황에 따라 머신러닝을 포함한 인공지능 알고리즘을 적용하며 그에 맞는 솔루션까지 제공하는 모든 활동을 통틀어 데이터 사이언스(Data Science)라고 합니다. 최근 빅데이터와 인공지능이 모두 각광받고 있어 데이터 사이언스를 공부하고자 하는 사람들도 자연스레 늘어나고 있습니다. 


하지만 데이터 사이언스를 공부하는 것이 마냥 쉬운 일은 아닙니다. 데이터 사이언스에 익숙해지기 위해서는 프로그래밍을 포함해 생각보다 많은 기초 학문이 필요하기 때문입니다. 이러한 이유 때문에 데이터 사이언스를 공부하는 사람들은 늘 무엇을 어떻게 공부해야 할지에 대해 고민합니다. 이번 데이터 사이언스에 관심 있는 사람에게 추천하는 3가지 활동 편에는 많고 많은 내용 중 데이터 사이언스 공부 방법 중 개인적으로 가장 효과적이라고 생각하는 방법을 3가지로 추려 추천드리고자 합니다. 그리고 그 첫 번째는 바로 데이터 사이언스 컴피티션에의 참여입니다.


데이터 사이언스 컴피티션이란?


실제 기업의 빅데이터 문제를 해결하는 데이터 사이언스 컴피티션


데이터 사이언스 컴피티션을 추천하기에 앞서 데이터 사이언스 컴피티션이 무엇인지 정확히 알 필요가 있습니다. 우선 데이터 사이언스 컴피티션은 실제 기업의 빅데이터 문제를 공모전의 형태로 해결하는 대회들을 일컫는 말입니다. 대다수 기업들은 각자만의 고유한 데이터를 수집 및 보관하고 있으며 그러한 데이터를 어떻게 잘 활용할지는 상당히 어려운 문제입니다. 경우에 따라서는 기업 내부에서 데이터를 자체적으로 활용하기에 아이디어가 부족할 수도 있으며 또는 시간, 인력의 소모를 생각할 때 외부 인원들의 작업이 필요한 경우도 있을 것입니다. 이때 기업 및 기관들은 본인들의 데이터와 데이터로 해결하고자 하는 문제를 함께 제공해주고 그 솔루션에 대한 아이디어를 공모전의 형태로 모집할 수 있습니다. 그리고 이러한 데이터 사이언스 컴피티션에 참가하는 조직의 수는 점차 늘어나 이제는 데이터 사이언스 컴피티션에 언제든 마음만 먹으면 참가할 수 있는 상황이기도 합니다.


보통의 경진대회(컴피티션)를 살펴보면 주최측에게 특정 데이터를 제공받고 해당 데이터를 이용해 인공지능 모델을 만들어 겨루는 형태가 가장 일반적입니다. 인공지능을 통해 특정 결과를 예측하고 그 예측 값이 주최측이 가지고 있는 실제 정답 데이터와 얼마나 유사한지를 수학적으로 계산해 순위를 정하는 것이 가장 일반적인 형태입니다. 그리고 최근에는 인공지능 모델을 만드는 것뿐 아니라 제공받은 데이터에서 유의미한 인사이트를 도출해 이를 보고서 형식으로 제공하는 경우도 많이 생기고 있습니다. 본인의 관심 있는 분야에 따라 취향에 맞는 대회를 선택해 실제 데이터 사이언스를 경험해볼 수 있습니다.

공부, 경험, 명예, 상금까지 4마리 토끼를 잡을 수 있는 기회


지금까지 간단히 데이터 사이언스 컴피티션이 무엇인지에 대해 살펴보았습니다. 언뜻 살펴보면 간단한 이 컴피티션은 실제로 참여할 경우 정말 많은 기대효과를 가지게 됩니다. 무수히 많은 경진대회의 장점 중 가장 의미 있는 것을 딱 한 가지만 뽑자면 실제 데이터 사이언스 문제를 해결하는 경험과 그에 따른 실력 상승이 있습니다. 보통 데이터 사이언스를 공부하는 학생의 경우 실제 기업이 어떤 고민을 가지고 데이터 사이언스 문제를 해결하는지 감을 잡기 힘든 것이 현실입니다. 하지만 다양한 경진대회에 참여하다 보면 그러한 기업들의 고민을 직접 피부로 느껴볼 수 있으며, 이를 해결하기 위해 다양한 아이디어를 내고 이를 실체화해보는 것은 정말 큰 경험이 됩니다. 또한 일반적인 경진대회와는 다르게 종료 후 우승자의 코드가 공개되는 문화가 있어 내가 고생했던 문제를 다른 사람들은 어떻게 해결했는가에 대한 참고도 할 수 있습니다.


이렇게 경진대회를 참가하게 되면 제출한 결과물에 따라 순위가 매겨지고 물론 공부를 하는 입장에서 반드시 순위권에 들 필요는 없습니다. 하지만 특정한 데이터 사이언스 컴피티션에서 수상을 하게 된다면 그 자체가 매우 큰 명예이자 스펙으로 작용하게 됩니다. 해당 수상경력이 있다면 취업 시 직무 관련 경험을 쓸 때나, 수상 경력을 쓸 때 모두 요긴하게 쓰입니다. 게다가 규모가 큰 유명한 몇몇 대회는 수상 자체로 큰 명예로 인정받기 때문에 우승자들은 수많은 곳에서 러브콜을 받게 되기도 합니다. 여기에 더해 수상자에게 일정 금액에 상금이 수여된다는 사실은 부수적이지만 놓치고 싶지 않은 큰 장점입니다.

데이터 사이언스 컴피티션 플랫폼


그렇지만 데이터 사이언스를 이제 막 공부하기 시작한 사람들이라면 경진대회의 존재를 알아도 참가하기 힘들 수 있습니다. 어디서 그런 대회가 열리는지에 대한 정보도 부족하고, 설령 알게 되더라도 본인의 실력에 자신이 없어 대회 참여가 망설여질 수 있기 때문입니다. 사실 이런 문제는 비단 데이터 사이언스뿐 아니라 모든 분야에서 초심자들이 겪는 공통적인 문제라고 생각합니다. 하지만 다행히 데이터 사이언스 분야에는 컴피티션을 활성화시키고 초보자들에게 공부할 거리도 많이 제공해주는 유용한 플랫폼들이 있습니다.


1. 캐글(Kaggle)

출처 : 캐글(Kaggle.com)

데이터 사이언스 컴피티션 중 가장 크고 유명한 플랫폼을 하나 뽑으라면 누구든 캐글(https://www.kaggle.com/)이라는 플랫폼을 떠올릴 것입니다. 캐글은 전 세계에서 가장 유명한 데이터 사이언스 경진대회 플랫폼이며 그에 따라 가장 활발하게 경진대회가 열리기도 하며, 경진대회를 여는 기업들의 이름값이 가장 높기도 합니다. 특히 캐글의 경우 2017년 구글에 인수되어 구글과 관련된 다양한 데이터를 쉽게 만나볼 수 있는 곳이기도 합니다. 그리고 캐글은 단순히 많은 경진대회를 개최하는 것뿐 아니라 회원끼리 특정한 데이터 사이언스 문제에 토론을 하거나, 초보자가 실력을 상승시킬 수 있도록 많은 교육 콘텐츠도 제공하고 있어 경진대회가 아니더라도 활용도가 높은 플랫폼이기도 합니다.


다만, 수상을 목적으로 경진대회 참가를 원하는 사람이 있다면 캐글에서 개최되는 경진대회의 벽은 높게 느껴질 수 있습니다. 전 세계에서 가장 유명한 데이터 사이언스 컴피티션 플랫폼인 만큼 전 세계에서 가장 많은 참가자가 참여하고 있으며, 그 참가자들 속에서 고수를 찾아보는 것도 어려운 일이 아니기 때문입니다. 대신 이러한 캐글에서 꾸준히 수상하게 된다면 엄청난 명예가 따라오게 됩니다. 그리고 상금 역시 당연히 여타 플랫폼들과 비교했을 때 가장 큰 규모를 자랑합니다.


2. 데이콘(Dacon)


캐글이 전 세계에서 가장 인기가 많은 데이터 사이언스 컴피티션 플랫폼이라면 국내에는 데이콘(https://dacon.io/)이라는 플랫폼이 있습니다. 플랫폼의 전체적인 콘셉트와 구성은 캐글과 비슷합니다. 다만, 앞서 언급하였듯 전 세계적으로 인기 있는 플랫폼이라고 볼 수는 없으며 국내 기업들과 참가자 위주로 많은 대회가 진행되고 있습니다. 물론 글로벌한 규모를 자랑하는 것은 아니지만 국내에서는 가장 큰 경진대회 플랫폼이라고 볼 수 있으며 시간이 흐를수록 그 명예가 커져가는 플랫폼 중 하나입니다. 또한 캐글과 마찬가지로 데이콘 역시 특정한 문제에 대한 토의나 코드 공유 등의 문화가 발전해있어 초보자 입장에서 접근하기 좋은 플랫폼 중 하나입니다.


추가적으로 국내의 많은 학생들이 캐글보다는 데이콘 플랫폼을 통해 데이터 사이언스 컴피티션을 시작하는 경우가 많습니다. 여기에는 다소 현실적인 이유가 담겨있는데, 캐글의 경우 모든 대회 및 토의가 영어로 이루어지는 반면 데이콘은 모든 과정을 한국어로 진행할 수 있기 때문입니다. 영어에 자신이 없거나 데이터 사이언스를 이제 막 공부하기 시작해 영어로 된 용어에 어색함을 겪고 있다면 데이콘 플랫폼이 매우 좋은 해결책이 될 수 있습니다.


여러 경진대회를 참여하다 보면 자연스레 실력 상승을 느끼실 수 있습니다.



결국 어느 정도 실력에 자신이 있는 사람이나 데이터 사이언스 공부를 이제 막 시작하는 학생이나 컴피티션 참여는 훌륭한 기회가 될 수 있습니다. 개인적으로 수상을 하면 엄청난 명예가 쏟아지고, 수상하지 못하더라도 다른 참가자의 코드를 참고하고 스스로 문제를 해결해보며 실력을 늘릴 수 있기에 밑져야 본전인 좋은 공부 방법이라고 생각합니다. 또한 본문에서는 길게 언급하지 못했지만 다양한 기업이 제시하는 다양한 문제를 직접 풀어볼 기회가 있다는 것은 그 무엇과도 바꿀 수 없는 값진 기회입니다. 물론 데이터 사이언스를 공부하고자 할 때 경진대회에 참여를 한다고 모든 것이 해결되는 것은 아닙니다. 다음 데이터 사이언스에 관심 있는 사람에게 추천하는 3가지 활동 2편에서는 조금 더 이론적으로 데이터 사이언스를 공부하는데 필요한 내용들을 살펴보도록 하겠습니다.

매거진의 이전글 스마트하게 머신러닝 적용하는 법
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari