상금과 명예를 동시에 얻자. 데이터 분석 경진대회
*이 글은 MD에서 데이터 전문가로의 커리어 변신을 꿈꾸는 평범한 문과생의 현재 진행형 도전기입니다. 좋아요와 공유, 댓글로 글쓴이에게 힘을 주세요!
이전 글 보러 가기 -> (링크)
빅데이터, 데이터 사이언스는 아직까지 신비한 안갯속에 둘러 쌓여 있다. 많은 사람들은 이 기술이 마치 마법처럼 작동하기를 기대한다. 영화에 나오는 것처럼 인공지능이 주인의 명령 한 두 마디를 듣고 순식간에 서버 해킹에 성공하는 상상을 하기도 한다. 이 역시 불가능한 이야기는 아니다. 다만 2019년 지금, 현실에서 만날 수 있는 데이터 사이언스는 조금 다르다.
위 그림은 사람들이 생각하는 데이터 사이언스와 실제 데이터 사이언스의 차이를 보여준다. 설명하자면 다음과 같다.
내 고객들은 내가 마법을 부리는 줄 알고 우리 엄마는 내가 과학자인 줄 안다. 친구들은 브래드 피트가 주연한 야구 소재 영화 <머니볼>처럼, 내가 분석으로 무언가 대단한 성과를 내는 줄 안다. 반면 나의 남편은 나를 컴퓨터 앞에 그냥 앉아있는 줄 안다. 그리고 나는 스스로 굉장히 예술적이고 창의적인 걸 한다고 생각하지만, 실제로 내가 하는 일은 코딩이다. (proc sql;은 SQL 프로시저다.)
실무 경력은 아직 없지만, 조금씩 공부를 해나가며 내가 느끼는 것도 이와 비슷하다.
조금 더 재밌는 게 있다. 캐글이나 데이콘, 빅콘 테스트와 같은 데이터 분석 경진대회다. 주로 의뢰자는 정부나 기업이다. 해결을 원하는 문제의 내용과 함께, 의뢰자가 보유한 데이터가 올라와 있다. 게다가 상금도 걸려있다. 참가자들은 개인 혹은 팀으로 참가해서 자신이 알고 있는 모든 방법을 동원해 문제를 해결한다. 얼마나 잘 해결했는지에 따라 랭크가 매겨지고, 우승자는 명예와 돈을 동시에 얻을 수 있다. 마치 중세 시대를 배경으로 한 판타지 게임의 용병 시스템과 비슷하다.
구글이 인수한 캐글의 첫 번째 문제는 '타이타닉 생존자를 예측하라!'였다. 티켓 넘버, 성별, 나이, 동승자의 구성 등의 정보를 기반으로 생존과 사망의 여부를 예측하는 머신러닝 모델을 만드는 이 대회는 큰 반향을 일으켰다. 많은 사람들이 게시판으로 의견을 나누고 함께 해결책을 찾았다. 이제는 비슷한 대회들이 우리나라에서도 많이 열린다. 얼마 전 데이콘 9회 문제는 상점의 업종과 과거 매출을 기반으로 미래 매출을 예측하는 문제였다. 핀테크 기업 '펀다'는 신용점수가 낮거나 담보 제공을 하지 못하는 우수 상점들에게 금융 기회를 제공하고자 문제를 의뢰했다.
미래를 예측하는 것은 모든 인간 활동의 핵심이다. 대부분의 학문은 과거의 사례를 기반으로 보편적인 원리를 도출하고, 이를 기반으로 미래를 대비하는 목적을 가지고 있다. 그렇기 때문에 데이터 분석은 전혀 새로울 것이 없는 개념이다. 다만 달라진 것은 데이터의 양과 종류다. 과거와는 비할 수 없을 만큼 크고 다양한 데이터가 매일매일 어딘가에 쌓이고 있다. 이 말인즉슨, 과거에는 감히 고려하지 못했던 변수를 이제는 고려할 수 있다는 이야기다.
우리가 다리의 역학 구조를 이해하지 않고도 다리를 건널 수 있는 것처럼, 빅데이터는 알게 모르게 우리의 삶을 윤택하게 만들 것이다. 몰라도 예전처럼 잘 살 수 있다. 다만 배움의 기회가 다양한 지금, 데이터 분석을 배워보는 건 어떨까. 현실을 있는 그대로 이해하고, 기계의 힘을 빌려 미래를 보다 정확히 예측할 수 있는 기회가 열렸다.
지금 바로 여기에 있다.