선형대수, 스파크.. 됐고 실제 프로젝트로 재밌게 배워보자!
수많은 선행 과목을 통해 전통적인 방법으로 데이터 사이언스를 공부하며 강한 회의감을 느낀 Vik Paruchuri (Dataquest 창업자)가 프로젝트 기반으로 관심 있는 분야의 실제 문제를 해결하며 보다 즐겁게 공부하며 데이터 사이언티스트가 될 수 있는 방법을 소개합니다. (원글 https://www.dataquest.io/blog/how-to-become-a-data-scientist/)
데이터 사이언스는 지금 가장 화두에 있는 분야이며, 데이터 사이언티스트들에 대한 수요 역시 폭발적이다. 데이터 사이언티스트들은 자율 주행 자동차 제작부터 이미지를 분석해 자동으로 구분하는 일까지 (모든 것을 가능케한다. 이렇게 다채로운 흥미로운 일들을 가능케 하는 데이터 사이언스가 유망한 커리어로 각광받는 것은 어찌보면 당연한 일이다.
이 글을 읽고 있는 당신은 아마도 데이터 사이언티스트가 되는 방법에 관심이 있을 것이다. 약간의 검색을 해보았다면 “선형 대수를 배워라”로 시작해 5년 후에는 “스파크를 배워라”라는 가이드를 잔뜩 보았으리라. 데이터 사이언스를 공부할 무렵, 나 역시 그런 가이드를 따르기 위해 노력했으나 이내 어떠한 실질적 데이터 사이언스 기술도 익히지 못한 채로 흥미를 잃곤 했다. 책 뭉치를 건네며 다 읽어오라는 선생님과 같은 가이드 속 학습 방법은 결코 흥미를 불러일으키지 못했다.
“5년 안에 데이터 사이언티스트 되기” 가이드의 가장 큰 문제점은 이미 데이터 사이언스 분야의 전문가가 된 사람들에 의해 “내가 지금 하고 있는 업무를 하려면 어떤 공부를 해야 하지?” 하는 고찰 아래 쓰였다는 점이다. 스스로 새로운 무언가를 배우기 위해 어떤 고통이 따르는지, 또한 허들을 넘어서기 위해 어떻게 스스로를 동기부여해야 하는지를 잊은 채로 말이다.
데이터 사이언스 공부를 하면서 내가 관심 있는 문제에 대해 공부할 때 가장 효과적으로 배울 수 있다는 사실을 깨달았다. 그래서 나는 체크리스트에 적힌 그대로 배우기보다 실제 데이터를 활용해 프로젝트를 만드는 것에 집중하기로 결심했다. 이 방법은 동기부여뿐만 아니라 데이터 사이언티스트로서 실제 업무에 임할 때 나의 모습을 선명하게 상상할 수 있게 도와주었다.
이 글에서 데이터 사이언티스트가 되는 여정에 대해 소개하고자 한다. 결코 쉽지만은 않겠지만, 기존의 방식보다 훨씬 즐거우리라 확신한다.
데이터 사이언스의 매력은 실제 데이터와 코드로 “어떤 비행 편이 정각에 출발할지 예측 가능할까?”부터 “미국 정부는 학생 당 교육예산으로 얼마를 쓰고 있을까?” 까지 다양한 범주의 흥미로운 질문에 답을 찾을 수 있다는 점이다. 질문하고 대답을 찾기 위해서는 분석적 사고를 키울 필요가 있다. 분석적 사고를 키우는 최고의 방법은 신문 기사로 시작하는 것이다. “달리기는 당신을 더 똑똑하게 만들까?” 혹은 “당은 정말 몸에 나쁠까?” 와 같은 기사를 찾아보자.
함께 생각해보자:
- 본문에서 제시된 데이터를 바탕으로 어떻게 결론에 도달했는가?
- 한층 더 깊이 조사한다면 어떻게 설계할 수 있을까?
- 원본 데이터를 가지고 있다면 추가로 어떤 점에 의문을 가질 수 있을까?
“미국의 총기 사고” 혹은 “도널드 트럼프를 지지하는 온라인 커뮤니티들” 과 같은 기사들은 분석의 기초가 되는 원본 데이터를 제공하고 있다. 이와 같이 원본 데이터를 구할 수 있는 기사의 경우 데이터를 다운로드하여 엑셀로 열어보자
이런 것들을 해보자:
- 데이터를 다운로드하여 엑셀로 열어보자 눈으로 훑어봤을 때 특정 패턴을 찾을 수 있는지 살펴보자 데이터가 기사 본문의 결론을 뒷받침하고 있는가?
- 동의하거나 동의하지 않는 이유는 무엇인가?
- 주어진 데이터를 통해 추가로 대답할 수 있는 의문점에는 어떤 것이 있을까?
아래 사이트들에서 데이터 기반의 기사를 찾을 수 있다 (영문):
- Vox
몇 주 간 기사를 읽으며 질문하고 대답을 찾는 과정이 즐거웠는지 곰곰이 생각해보자. 데이터 사이언티스트 되기라는 긴 여정을 끝까지 완수하기 위해서 이 분야에 대한 열정은 필수다. 데이터 사이언티스트는 끊임없이 질문하고, 수학적 모델과 데이터 분석 도구를 활용하여 답을 찾는 사람들이다.
만약 데이터를 보고 질문하는 과정이 즐겁지 않다면, 데이터와 당신이 좋아하는 분야의 공통분모를 찾아보자. 예를 들어 당신은 추상적으로 질문을 떠올리는 과정은 싫어하지만, 건강 혹은 교육 관련 데이터를 분석하는 것은 좋아할지도 모른다. 나는 개인적으로 주식 시장 데이터에 관심이 많아서 시장 예측을 위한 모델을 만드는 일에 열정을 갖게 되었다. 다음 단계로 넘어가기 전에 반드시 데이터 사이언스가 정말 당신이 관심 있는 분야인지 짚고 넘어가자. 아무리 강조해도 부족하다. 만약 뚜렷한 열정이 없는 채로 데이터 사이언티스트가 되는 것 자체를 목표로 한다면, 배움을 위해 몇 개월씩 투자할 수 없을 것이다.
질문하는 법을 배웠다면 이제 답을 도출하기 위한 기술을 배울 차례다. 나는 파이썬으로 프로그래밍 언어의 기본을 배울 것을 추천한다. 파이썬은 규칙적인 문법을 가진 프로그래밍 언어로 초심자에게 추천된다. 또한 복잡한 데이터 분석뿐만 아니라 머신러닝, 딥러닝 등에도 사용되는 등 활용도가 높다. 많은 사람들이 언어 선택을 두고 고민하는데,
다음과 같은 점을 염두에 두면 좋다:
- 데이터 사이언스는 질문에 대한 답을 찾고 비즈니스에 가치를 더하기 위한 것이지, 데이터 분석 도구가 중요한 것이 아니다.
- 문법을 익히는 것보다 프로그래밍의 개념을 익히는 것이 더 중요하다.
- 실제 데이터 사이언티스트 업무에서 중요한 것은 프로젝트를 수립하고 공유하는 것이므로, 이 방식으로 배우는 것이 좋은 시작이 될 것이다.
중요한 것은 모든 데이터 분석 도구를 익히는 것이 아니라, 프로젝트를 시작할 수 있을 정도의 기술을 배우는 것이다.
이 곳에서 시작해보자:
- Dataquest: 파이썬과 그리고 NBA 득점과 같은 흥미로운 데이터를 분석하며 데이터 사이언스에 관한 기본 지식을 익힐 수 있다.
- Codeacademy: 파이썬 기초 지식과 프로그램을 만드는 방법에 대해 배울 수 있다.
- (역: Imagineer: 인문학도 출신 현직 개발자에게 한국어로 알아듣기 쉽게 파이썬을 배울 수 있다!)
핵심은 기초를 배우고 난 후에 지난 몇 주 동안 당신이 떠올린 질문들에 대한 답을 내기 시작하는 것이다. 이 과정에서 배움을 공고히 함과 동시에 포트폴리오를 만들 수 있다.
(계속)
프로젝트를 시작하고 결과를 공유해 데이터 사이언티스트가 되기까지, 다음 글에서 계속됩니다.
이미지니어는 문과 출신 개발자가 직장인을 대상으로 하는 6주 과정의 온라인 코딩 교육입니다. 인문학도 출신, 종합상사 해외영업을 하던 평범한 대한민국 직장인이 퇴사하고 처음 배운 코딩 기술로 어느덧 4년 차 개발자가 되었습니다. 국내 스타트업, 프리랜서, 디지털 노마드를 거쳐 현재는 싱가폴에서 금융권 개발자로 일하고 있습니다. 처음 프로그래밍을 배우던 그때 그 시절 막막함이 여전히 생생합니다. 100여 개의 온라인 강의를 들으며 익힌 가장 효과적인 개발 공부 방법을 문과생의 언어로 알려드릴게요. 결코 쉽지 않은 길이지만, 끝까지 따라오시면 내 손으로 서비스를 만드는 진짜 ‘개발자’가 되어있는 자신을 발견하실 거예요.
웹, 안드로이드, 아이폰 개발 강의를 수강하시려면,
이미지니어: https://www.imagineer.io/
강사 마르코의 더 많은 이야기를 보시려면,
브런치: https://brunch.co.kr/@imagineer
페이스북: https://www.facebook.com/imagineer.io/