brunch

You can make anything
by writing

C.S.Lewis

by 마케터 S Jul 23. 2021

데이터 사이언스, 어떻게 시작하면 좋을까

How to Start Learning Data Science

요즘 올라오는 에디터 직군 채용을 보면 데이터 분석 능력을 요구하는 데가 많다. 이 요구에 대해 너무나도 당연하다고 생각한 것이 에디터야 말로 데이터를 분석해야 어떤 콘텐츠가 인기 있을지를 파악할 수 있기 때문이다. 그렇게 GA나 구글 서치 콘솔을 통해 사용자가 어떻게 유입되는지 보고, 어떤 기사가 인기 있을지 파악하는 것에 대해 흥미를 갖게 됐고, 관련해 인프런에서 양승화 데이터 분석가의 강의도 듣는 중이다. 그러다 미디엄(Medium)의 'Geek Culture'에서 데이터 사이언스 초보자에 관련된 글을 번역, 정리해봤다. 


(잘못 해석한 부분이 있다면 편하게 말씀 주시면 감사하겠습니다.)




데이터는 요즘 유행하는 말이나 다름없을 정도로, 여기저기서 많이 이슈가 되고 있다. 그도 그럴 것이, 데이터 사이언스는 그동안 산업에서 중요한 분야로 인식돼왔기 때문이다. 데이터 사이언스 분야에서 일하길 원하는 취업준비생이라면 대학에 가지 않아도 여러 플랫폼과 소스를 통해 학습할 수 있고, 학위도 취득할 수 있다. 상당수의 블로그와 기사는 데이터 사이언스 학습자가 배워야 하는 다양한 프로그램의 온라인 과정과 학습 프로그램을 강조하고 있는데, 중요한 것은 올바른 학습 자료와 교육학 과정이다. 무엇보다 이것들이 지식을 쌓는 데 중요한 역할을 하기 때문에 여러 가지 정보와 지침을 토대로 특정 플랫폼을 사용해 학습을 시작해야 한다. 이 글은 데이터 사이언스 교육과 관련된 특정 온라인 플랫폼과 과정을 안내하는 내용이 아니다. 데이터 사이언스를 시작하는 방법과 이 분야를 잘 이해하기 위한 몇 가지 필수 요소에 초점을 맞췄다. 모든 학습자는 개념을 이해하기 위한 자신만의 방법론을 갖는 것이 좋으며, 특히 데이터 사이언스를 학습하는 데 있어 단일화된 접근법은 없다는 것을 유념해야 한다. 


데이터 사이언스를 시작하는 것은 어렵지 않다. 자기 계발에 대한 끊임없는 탐구에 대한 동기부여만 있으면 된다. 적절한 자료, 소프트웨어, 학습 방법과 함께 데이터 사이언스 공부를 쉽게 시작할 수 있다. 


초보자를 위한 시작 

1) 파이썬, R을 이용한 프로그래밍 스킬  

데이터 사이언스는 수학, 통계, 프로그래밍 기술과 개념을 조작해 데이터로 인사이트를 얻는 분야다. 프로그래밍 스킬은 수학적, 통계적 스킬과 함께 기본이기 때문에 파이썬이나 R 같은 프로그래밍 언어, 특히 파이썬이 R보다 더 인기 있고 유리하기 때문에 어디서나 일반적으로 사용되는 두 가지 프로그램에 정통해야 한다. 


2) 자신에게 맞는 학습 과정을 선택하고 프로그래밍 오류를 두려워하지 않는 것 

학습 교재의 경우 지망생들은 자신과 가장 잘 맞는 것을 선택하면 좋다. 어떤 사람은 온라인 강의 학습이 편하다고 생각하고, 어떤 사람은 교과서 학습 과정을 선호할 수 있다. 또한, 프로그래밍 개념을 배우기 위해선 선택하는 지식 소스가 무엇이든 연습을 절대 잊어선 안 된다. 연습을 통해 코드를 입력하고 검색할 수 있어야 한다. 학습 과정에서 오류를 발견할 수밖에 없다. 특히 프로그래밍에 있어선 오류를 얻고 디버깅하지 않고서는 개념을 흡수하기 어렵다. 따라서 코드를 연습할 플랫폼이 있어야 한다. 온오프라인에서 사용 가능한 여러 플랫폼과 소프트웨어 입력, 문제 해결 및 오류 디버깅을 통해 하나의 프로그래밍 기술을 도입할 수 있다. 


3) 주피터 랩을 통한 프로그래밍 연습 그리고 수학, 통계와 같은 개념 공부에 집중하는 것 

온라인 입문 과정이나 교재를 선택한 후 학습자는 주피터 랩에서 좋은 프로그래밍 연습과 함께 학습을 시작할 수 있다. 또한, 개발 언어와 접촉하기 위해 파이썬을 이용한 간단한 수학적 문제 모델링도 권장된다. 프로그래밍을 배우면서 변수, 루프, 객체, 함수, 파이썬의 몇 가지 필수 라이브러리와 툴은 다양한 데이터 분석 단계의 중심이기 때문에 광범위한 범위의 연구가 필요하다. 하지만 데이터 사이언스를 본격적으로 하기 위해서는 개념 공부를 끝내는 것만큼 좋은 방법이 없다. 데이터 사이언스 마니아들은 아마 평생 동안 배우고자 할 것이다. 따라서 프로그래밍과 모델링 문제를 학습하는 동안 수학과 통계 기술을 동시에, 그리고 자주 학습해야 한다. 통계 개념은 기계 학습 모델의 중심이기 때문이다. 


4) 데이터 분석 프로젝트를 직접 맡아서 진행해보기 

그러므로 결의를 갖고 학습을 계속해야 한다. 또한 여러 분야에서 학습을 적용해봐야 한다. 연구한 데이터 분석 기법을 적용할 수 있는 Kaggle과 같은 다양한 퍼블릭 도메인에서 다양한 종류의 데이터셋을 무료로 이용할 수 있다. 프로젝트를 직접 도맡아 작업하는 것은 개인 능력을 향상해 줄 것이고, 이 프로젝트는 데이터 사이언스 경력에 있어 추가적인 장점이 될 것이다. 또한, 프로젝트는 우리가 잘하지 못하는 부분을 개선하는 단계에 대해 엄청난 인사이트를 제공하기 때문에 좋은 피드백 도구가 될 수 있다. 


5) 숙련된 데이터 사이언티스트가 수행한 코드를 살펴보고 동기부여받기 

자기주도 학습은 모든 것을 스스로 배워야 한다는 것을 의미하지 않는다. 숙련된 데이터 사이언티스트가 수행한 코드를 살펴보면 학습에 대한 동기부여를 받을 수 있다. 이는 알고리즘을 작성하는 동안 어디서 무엇을 해야 하는지 깨닫는 데 큰 영향을 줄 것이다. 따라서 알고리즘을 처음부터 구축하는 데 도움이 된다. 다른 사람들이 행한 코드를 따르는 것 또한 오류 수정에 큰 도움이 된다. 오류 수정은 이미 언급했듯 누구나 배우는 방법이다. 


안락지대에 머무르지 않고, 점점 더 많은 난관을 극복하고 스스로 레벨을 높여야 하기 때문에 난이도를 높이는 것은 중요하다. 새로운 개념 사용, 새로운 기술, 오류 발생, 디버깅, 대규모 데이터셋 작업, 알고리즘 작업 속도 향상, 초보자 작업 속도 향상 등 모든 것이 데이터 사이언스 학습 성장에 도움 될 수 있다. 


무엇보다 중요한 것은 기본 능력

이 글은 데이터 사이언스를 시작하기 위한 표준 방법론이나 규칙을 설명하지 않는 대신 어디로 가야 할지, 무엇을 해야 할지 모르는 데이터 사이언티스트 초보자를 위한 간단한 안내서 역할을 한다. 학습을 시작하는 건 어려워 보일 수 있지만 연습을 습관화하고 동기부여를 받는 것은 이 광활한 분야에 진입하기 위한 필수 조건이다. 기본 능력을 습득한 후, 인턴십을 해보는 것은 숙련도와 전문성을 높일 수 있는 좋은 기회가 될 것이다. 배움을 멈추지 않는 것이 관건이다. 


        

매거진의 이전글 브랜드 이미지는 색에 의해 결정된다
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari