미국 샌프란시스코에 본사가 위치한 캐글(Kaggle)은 세계 최대의 데이터 과학자 및 머신러닝 엔지니어 커뮤니티를 위한 플랫폼이다. 2010년에 설립되었고, 2017년 3월에 구글의 모회사인 알파벳에 인수되어 현재 구글의 자회사로 편입된 캐글은 사용자가 데이터 셋을 찾아서 게시하고, 웹기반 데이터과학 환경에서 모델을 탐색 및 구축 하고, 다른 데이터과학자와 머신러닝 엔지니어와 협력하여 데이터과학 과제를 해결하는 경쟁에 참여할 수 있다. 금융 분야에서 가장 유명하고 흥미로눈 과거 사례는 역시 헤지펀드인 투시그마가 제시한 과제였다. 투시그마에서 제시한 과제는 뉴스분석 컨텐츠를 사용하여 주가성과를 예측하기였다.(Using News to Predict Stock Movement) 이 대회에서는 두가지 데이터 소스를 기반으로 향후 주가 수익률을 예측하는 것이었다. 2,927개 팀이 참가하여 총 10만 달러의 상금을 두고 겨루었다. 1위상금은 25,000달러, 2위 20,000달러, 3위 15,000달러, 4위~7위: 10,000달러가 제공되었다.
데이터사이언스 경진대회를 통해 돈을 벌수도 있지만, 돈은 덤이고 실력을 쌓고 경험을 쌓기 위해 데이터과학자 뿐만 아니라 데이터를 사용해서 트레이딩하는 트레이더에게(Data-Driven Trader)도 많은 도움을 줄 수 있다. 현재, 캐글은 13,000개가 넘는 데이터 셋을 보유하고 있으며 예술, 기후, 사회문제, 경제금융을 다루는 광범위한 데이터셋을 공개하고 있다.특히, 재무와 투자를 다루는 학생 및 실무자에게 캐글 데이터셋이 매우 유용하다. 또한, 파이썬 및 R에 능통한 경우 데이터 작업 및 데이터과학 포트폴리오 구축을 위해 역동적인 환경을 제공된다. 마지막으로, 데이터 기반의 의사결정을 위해 데이터과학자 및 투자자들이 데이터를 종합적으로 분석하고 다양한 분석 도구를 활용하여 전 세계사람들과 협업할 수 있는 능력을 갖춘다면 정확하고 정보에 근거한 투자결정을 내릴 수 있는 진전을 갖추게 될 것이다.
현재 여의도 위워크(WeWork)에 입주해 있는 데이콘은 카카오와 데일리금융그룹에서 근무했던 김국진 대표가 2018년 7월에 설립한 국내 최초의 데이터 경진대회와 교육을 제공하는 플랫폼회사이다. 데이콘이라는 의미는 ‘데이터 커넥트(DATA-CONNECT)’라는 뜻으로 데이터 사이언스를 통해 개인과 기업을 연결한다는 의미이다. 데이콘의 경진대회를 통해 기업은 기술획득의 기회를 가지며, 개인은 데이터 경쟁을 통해 우수한 인력으로 인정받는 계기가 된다. 현재 KB금융그룹과 함께 스미싱 문자 사기패턴(스미싱: 문자메시지(SMS)와 피싱(Phishing)의 합성어로 개인 금융정보 탈취)을 발견해 고객들의 피해를 방지하기 위한 “금융문자 분석 경진대회”가 진행되고 있다.
이번 경진대회는 참가자들이 개발한 AI분석 알고리즘이 KISA한국인터넷진흥원에 접수된 금융기관 사칭 문자를 얼마나 잘 잡아내는지 그 성능을 비교해 순위를 결정하는 방식으로 진행된다. 문자분석 알고리즘이다 보니 역시 자연어 처리(NLP) 알고리즘에 관심있는 데이터사이언티스가 유리하다고 보인다. 총상금 2,000만원이며 학생, 일반인 등 모두가 참여할 수 있다.(위 금융문자 분석 경진대회 URL참조)