brunch

You can make anything
by writing

C.S.Lewis

by 아이린 Feb 15. 2018

데이터 사이언티스트 되는 법 (2)

선형대수, 스파크.. 됐고 실제 프로젝트로 재밌게 배워보자!

이번 글은 특히 데이터 사이언티스트로 해외 취업에 관심이 있으신 분들께 도움이 될 것 같습니다. 데이터 사이언스 프로젝트를 시작하여 공유하고, 네트워킹을 하는 방법까지 소개합니다. 



3. 프로젝트를 시작하자


코딩의 기초를 배우며 흥미로운 질문에 답할 수 있고, 당신의 데이터 사이언스 기술을 뽐낼 수 있는 프로젝트를 시작해야 한다. 프로젝트가 복잡할 필요는 없다. 예를 들어 슈퍼볼 승자의 규칙을 찾기 위한 데이터 분석도 좋다. 중요한 것은 흥미로운 데이터를 찾고, 데이터를 기반으로 한 질문을 하고, 코드를 통해 그 질문에 답하는 것이다. 데이터를 찾는데 도움이 필요하다면 이 포스팅을 읽어보면 도움이 될 것이다.


대부분의 데이터 사이언스 일은 데이터 클리닝부터 시작한다.


프로젝트를 만들 때, 다음을 기억하자:

대부분의 데이터 사이언스 일은 데이터 클리닝부터 시작한다.

가장 흔한 머신러닝 기술은 linear regression이다.

시작하는 것이 중요하다. 당신이 지금 하고 있는 프로젝트가 임팩트가 없는 것처럼 느껴진다 해도 시작한다는 것에 큰 의미가 있다.


프로젝트를 시작하는 것은 실제 데이터 사이언스 업무에 대한 이해와 기술 향상을 도울 뿐만 아니라 미래 구직시 필요한 포트폴리오를 만들 수 있다는 장점이 있다. 혼자 프로젝트를 설계하는 데 도움이 될 만한 상세한 가이드라인은 다음 글들을 참고하자.

데이터로 스토리 텔링 하기

머신러닝 프로젝트


작은 규모의 프로젝트를 완성한 후, 더 깊이 있게 파고들 특정 관심 분야를 찾으면 좋다. 나는 이 과정에서 주식 시장 예측에 도전했다. 아주 조금의 파이썬 기초 지식으로도 시작할 수 있고, 매달 혹은 매주 단위로 실제 거래를 할 수 있었다. 기술이 증가함에 따라 더 복잡한 문제를 설정하고 한층 더 정교한 예측이 가능해진다.


그 외에 해볼 수 있는 프로젝트에는 이런 것들이 있다:

건강 관련: 수기로 나의 건강 관련 데이터를 수집하여 분석하고, 추가로 연관성 있는 데이터나 예측 가능한 요소들을 더할 수 있다.

NBA 게임 승자: 수기로 득점을 기재하고 예측한 후, 계속 데이터를 추가하여 예측의 정확도를 높일 수 있다.


또 다른 데이터 사이언스 프로젝트의 예시: 이 지도는 미국 내의 다양성의 정도를 보여준다.


4. 결과를 공유하자


결과를 공유하자 몇 개의 프로젝트를 완성했다면 이제 공유할 차례다. 프로젝트를 다른 사람들이 볼 수 있도록 깃허브에 올리면 좋다. 프로젝트를 업로드하는 것에는 다음과 같은 장점이 있다:

데이터 사이언티스트 업무에서 실제로 하게 되는 데이터를 분석한 결과를 가장 잘 표현할 수 있는 방법에 대해 생각해 볼 기회가 된다.

프로젝트에 대한 피드백을 받을 수 있다.

구인 중인 회사에서 당신의 프로젝트를 볼 수 있다.

(역: 개발자 커뮤니티에서 많이 들어보셨죠? 깃허브에 대해 궁금하시다면? 알기 쉽게 소개한 영상입니다.)


블로그에 공유하는 것 역시 좋은 방법이다. 블로그에 포스팅 함으로써 나는 이런 것들을 얻었다:

리쿠르터들의 연락을 받는다.

개념을 한층 더 깊이 있게 이해할 수 있다. 가르침은 최고의 배움의 방법이기도 하다.

인맥을 쌓을 수 있다.


블로그에 올리기 좋은 포스팅 주제는 다음과 같다:

데이터 사이언스와 프로그래밍의 개념 설명하기

내가 했던 프로젝트 소개 및 이를 통해 얻은 인사이트 공유하기

데이터 사이언스 공부 과정 공유하기



5. 다른 사람으로부터 배우자


온라인에서 이름을 알리기 시작했다면 다른 데이터 사이언티스트들과 교류를 시작해보자. 오프라인에서 만날 수도 있고, 온라인 커뮤니티 활동을 통해서도 교류할 수 있다. 몇몇 괜찮은 온라인 커뮤니티를 소개한다.

/r/datascience

DataTau

Quora

Kaggle


나는 데이터 사이언스를 공부하며 Quora와 Kaggle에서 활발하게 활동했는데 이런 점이 좋았다:

함께 공부할 사람을 찾을 수 있다.

기회를 발굴할 수 있다.

다른 사람에게 배움으로써 지식을 강화할 수 있다.


관심 분야에 오랜 경력이 있는 데이터 사이언티스트와 실제로 만날 기회가 있는 오프라인 모임에는 meetup을 통해 참가할 수 있다.



6. 한계를 넘어 도전하자


기업들은 비용을 절감하거나 고객 만족을 높일 수 있는 날카로운 통찰력을 가진 데이터 사이언티스트들을 원한다. 그렇기 때문에 새로운 질문을 찾고, 답하고, 더 복잡하고 해결하기 어려운 문제를 찾고, 또 해결하는 과정을 통해 끊임없이 배워야 한다. 1, 2달 전 프로젝트를 보고 일말의 부끄러움도 느껴지지 않는다면 당신은 한계를 넘어 도전하고 있지 않고 있는지도 모른다. 끊임없이 발전하고, 그 발전을 업무에 반영해 나가야 한다.


한계를 넘어 도전하는 방법은 다음과 같다:

익숙한 데이터보다 더 큰 범위의 데이터를 분석해보자.

사전 지식이 없는 분야에 대한 프로젝트를 진행해 보자.

프로젝트 속도를 높여보자.

다른 사람에게 이전에 했던 프로젝트에서 한 일을 가르칠 수 있는지 확인해 보자.


 글을 마치며


데이터 사이언스를 배우는 것은 결코 쉽지만은 않다. 그렇기 때문에 스스로를 동기 부여하고 즐길 수 있는 상태를 유지하는 것이 더욱 중요하다. 끊임없이 프로젝트를 시작하고 그 결과를 공유하는 과정에서 전문성을 키움과 동시에 원하는 데이터 사이언티스트 타이틀을 얻게 될 것이다.



이미지니어는 문과 출신 개발자가 직장인을 대상으로 하는 6주 과정의 온라인 코딩 교육입니다. 인문학도 출신, 종합상사 해외영업을 하던 평범한 대한민국 직장인이 퇴사하고 처음 배운 코딩 기술로 어느덧 4년 차 개발자가 되었습니다. 국내 스타트업, 프리랜서, 디지털 노마드를 거쳐 현재는 싱가포르에서 금융권 개발자로 일하고 있습니다. 처음 프로그래밍을 배우던 그때 그 시절 막막함이 여전히 생생합니다. 100여 개의 온라인 강의를 들으며 익힌 가장 효과적인 개발 공부 방법을 문과생의 언어로 알려드릴게요. 결코 쉽지 않은 길이지만, 끝까지 따라오시면 내 손으로 서비스를 만드는 진짜 ‘개발자’가 되어있는 자신을 발견하실 거예요.


개인 프로젝트 만들며 재밌게 웹, 안드로이드, 아이폰 개발 강의를 수강하시려면,

이미지니어: https://www.imagineer.io/

강사 마르코의 더 많은 이야기를 보시려면,

브런치: https://brunch.co.kr/@imagineer

페이스북: https://www.facebook.com/imagineer.io/


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari