brunch

You can make anything
by writing

C.S.Lewis

by 라모 Oct 03. 2021

데이터, 대체 뭐부터 공부했을까


  아무리 맨 땅에 헤딩이라 하더라도, 모든 일에는 시작이 있는 법이다. 데이터 사이언스 그리고 데이터 분석. 직업을 바꿔보려는 시도는 많은 사람들이 하지만 막상 내가 시작하려고 하면 '데이터 사이언스 3개월 완벽 정복' 이런 코스 외에는 어떤 것을 해야할지 감도 잡히지 않는다. 기획자에서 데이터 분석가로 커리어를 변경할 때 필자가 느꼈던 고민이었으며, 현재 데이터 사이언스쪽으로 커리어를 확장시키려는 시점에도 남아있는 고미거리이다. 물론 커리어를 변경함에 있어 깔끔하고 필수적인 코스들을 소개해주는 사람들도 분명 있을 것이다. 필자 또한 책을 읽으며, 인터넷을 돌아다니며 그런 글들을 보기도 했다. 하지만, 그런 글들을 모두 따라가 보기에는 너무 어렵다고 느끼거나, 첫 시작을 어디에서 끊어야할지 고민하고 있는 사람이 있다면 '다다익선'이라고, 여기에서 열심히 고민했던 사람의 이야기를 하나 더 얻어가는 것도 나쁘지 않을 것이란 생각이 든다. (필자 또한 정확하지 않은 정보나 분류가 있을 수 있다. 첫 시작의 참고점으로만 삼기를 추천한다.) 


분석 툴/언어를 배워봅시다


  데이터 관련 업무로 변경을 하려는 사람들이 가장 처음 접하게 되는 것이 바로 분석툴과 분석에 사용되는 언어일 것이다. 가장 많은 강의가 시중에 나와있기도 하고, 일단 데이터를 다뤄야 하니 가장 쉽게 눈에 띄는 영역이기도하다. 물론 업무에 있어서 필수 역량 중 하나인 것은 분명하다. 


1. Python 

파이썬 강의를 총 3개 정도 들었을 때 깨달았다. 개발을 하기 위해 주로 사용하는 것과 데이터를 다루기 위해 사용하는 것이 약간은 다르다는 것을. 아무래도 개발자 출신이 아니었을 뿐 아니라 프로그래밍 언어라는 것을 다뤄본 경험이 없었기에 겪었던 문제였다. '파이썬 기초' 와 같은 제목의 강의보다는 '파이썬으로 데이터 다루기, 파이썬으로 00분석 해보기'와 같은 강의를 추천한다. 파이썬 기초는 말 그대로 개발을 하기 위한 기초를 다룰 가능성이 높기 때문이다. 필자는 Coursera에서 Python 강의를 하나 수강했었고, 그 이후에는 머신러닝 책을 가지고 스터디를 하면서 문법, 주로 사용되는 라이브러리 등을 익힐 수 있었다. 


2. R 

여전히 통계 분석과 데이터 관련 프로젝트에 많이 사용되는 R. 주로 사용할건 아니었기 때문에 많은 시간을 투자하지는 않았었다. 하지만, 통계 분석을 하기에는 좋을 것이라는 생각을 했었고, 업을 바꿀 때는 여러가지를 다룰 수 있는 것이 플러스가 될 것이란 생각을 했다. 동일하게 Coursera에서 통계쪽 강의로 하나를 수강했었다. 


3. Matlab

Matlab은 기억에 많이 남는다. 머신러닝 강의를 들으면서 실습을 했었는데, 여러 알고리즘을 실제로 구현해보는 강의였기 때문이다. 머신러닝이라는 것의 기저는 모두 수학이다. 그냥 관련 패키지만 가지고 실습을 해본다면 알고리즘이 어떤 식으로 짜여져있는지, 어떤 원리로 돌아가는지 생각해볼 기회를 갖지는 못했을 것 같다. 클러스터링과 그래디언트함수 등을 실제로 코딩을 해보면서 알고리즘 이해도를 많이 높일 수 있어서 기억에 남는다. 물론 이런 원리를 알기위해 배우는 것은 비효율적인 것 같다. 배워서 생긴 파생효과였지만, 굳이 목록에 넣지 않아도 되지 않을까 싶다. 


4. Scala (spark)

scala는 spark를 사용하기 위해 배웠다. 막상 업무를 시작하고보니 대량의 데이터를 가공하고 사용해야 하는 경우가 생겼는데 팀에 spark를 사용하시는 분들이 많아서 같이 업무를 하기 위해 배운 것이었다. scala는 기초적인 문법만 udemy에서 수강했고, 이어서 spark 강의를 수강했다. 가장 최근에 들은 강의라 제목이 아직 남아있다. 'DataFrames Basics'라는 시리즈 강의였고, 가장 기초 강의는 'Spark 3.0 & Big Data Essentials with Scala' 였다. 데이터 엔지니어들도 spark를 사용하는 경우가 많으셔서 강의를 들은게 협업 할 때 도움이 많이 되었다. 




인프라를 배워봅시다


공교롭게도 이전회사와 현재 일하는 회사 모두 AWS 를 사용했다. 이전회사는 GCP도 함께 사용했고, 현재회사는 온프레미스 DB도 사용하고 있지만 공통적으로 클라우드환경에서 업무가 이루어졌다. 일을 시작하면서 가장 많이 느낀 점은, 굉장히 협업을 많이 해야한다는 것이었는데 이 협업은 서비스 관련된 것, 인프라 관련된 것이 주였다. 서비스 관련하여서는 개발자에게 문의를 할 수도 있고, 권한이 있다면 소스코드를 볼 수도 있었지만 인프라 관련해서는 구조를 알지 못하니 커뮤니케이션을 하는 것 조차 어렵다는 생각이 들 때가 있었다. 지식을 키우자는 목적으로 AWS 관련된 공부를 했다. 별다른 공부는 없었고, AWS 에서 공식적으로 제공해주는 인터넷강의를 들었다. 각 서비스의 목적과 역할을 아는 것 만으로도 업무를 하는데에 큰 도움이 되었다. AWS 뿐 아니라 여러 환경에 대한 지식은 갖춰봐야겠다는 생각이 들었다. 
(좋은 방향이나 강의가 있다면 댓글로 추천 부탁드립니다.) 



분석가라면 SQL과 BI툴을 필수로 가져갑시다


데이터 사이언스쪽 보다 분석가로 커리어를 시작했다면 SQL과 BI툴 역량은 필수로 보는 곳이 많다. 물론 BI툴만 다룰 수 있다고 채용을 해주는 케이스는 매우 적을 것이란 생각이 든다. 현재 재직중인 회사에서도 BI툴만 다뤄본 분석가는 거의 채용하지 않으며, 다른 곳의 JD를 보더라도 필수지만 부가적인 역할처럼 내거는 곳이 많기 때문이다. 꼭 갖춰야 하는 역량 중 하나인 것은 확실하기에 한 가지 정도는 다룰 수 있도록 배워두는 것을 추천한다. SQL은 특정 DB에 맞춰 문법을 배워두면 다른 쿼리엔진에서도 충분히 동일한 함수나 기능을 찾아가며 업무를 할 수 있다. BI 툴도 많은 툴이 있지만 기본 원리는 대부분 동일하므로 한 가지 정도만 능숙하게 다룰 수 있을 정도면 괜찮을 것이란 생각이 든다. (필자는 mysql 을 처음에 배웠고, Tableau 사용법을 익혔는데 결국 sql은 지금까지 약 4개의 다른 종류를 사용했고, BI툴도 두 가지를 추가로 사용하게되었다. 다른점이 있기때문에 새롭게 배워야하는 부분도 있었지만, 하나를 제대로 해두니 새로운 것을 다룰 때 문제는 되지 않았던 것 같다.) 



개념을 확장시키기 위한 방법


심화된 업무와 지식을 위해서는 새로운 것을 끊임없이 접해야한다. 당역한 방법이지만 필자가 사용한 것은 '강의' 그리고 '스터디 였다' 

Machine Learning에 대한 기초 개념을 잡기 위한 강의로는 Coursera의 Machine Learning (Andrew ng) 강의를 추천한다. 가장 기초적인 개념들을 잡고 가기에 최적의 강의라는 생각이 든다. 이 강가 스터디를 하고 논문을 찾아 볼 때 도움을 많이 주었다. 아예 개념이 없는 상태라면 더더욱 적합한 강의라는 생각이 든다. 비교적 과거에 나온 강의임에도 여전히 많은 사람들이 수강을 하고 있기 때문에 실습을 하닥 문제가 생기더라도 도움을 받기도 용이하다. 들으면서 새로운 스터디와 공부할 거리를 찾아보는 것도 좋을 것 같다. 


스터디는 생각보다 많은 곳에서 활성화되어있다. 포털의 카페나 카카오톡 오픈채팅에서도 쉽게 찾을 수 있고, 워낙 자료를 잘 정리해두는 블로그들도 많은데 그런 곳에서 우연한 기회로 좋은 스터디를 찾게 될 수도 있다. 최근에는 '빅데이터 분석기사'라는 국가공인자격증이 생겨서 이론과 실습을 처음 해보는 사람들도 스터디를 많이 찾는 것을 볼 수 있다. 모두 첫 단계에서 시작하는 경우가 많아서 아예 기초지식이 없는 상태라면 이런 스터디에서 첫 시작을 해보는 것도 좋을 것 같다. 문제의 퀄리티와 별개로 여러 이론을 공부하기에 '빅데이터 분석기사'도 좋은 선택이라는 생각도 든다. 무엇이든 기회를 만들어서 스터디를 해보자. 






커리어를 변환하는 과정에서 언제 어떤 것을, 어떤 순서로 배웠는지 궁금한 사람들도 있을 것 같다. 

필자는 이전 회사에서 기획일을 하면서 SQL, BI, Python 기초 강의를 수강했었다. 통계쪽은 전공 덕분에 지식이 있었고, 이런 지식을 활용할 수 있는 툴을 익히는데에 초점을 맞췄다. 


데이터쪽으로 커리어를 변경한 이후에 Python, scala를 더 배웠고, Machine learning 공부를 시작했다. 그리고 일을 하는 중간에 필요에 의해 AWS 공부를 했다. 전향 전에 결심을 했던 부분도 있지만 오히려 일을 하면서 공부해야 할 분야가 더 명확하게 보였던 것 같다. 역시 사람은 뭐라도 시작을 해봐야한다. 


여전히 공부하고 싶은 것은 많고, 모르는 것도 많다. 대학원에 진학하려는 이유도 이 때문이다. 그곳에 가면 공부할 새로운 것들이 더 많이 보일 것이란 확신이 든다. 대학원이 나를 책임져준다기 보다는, 새롭게 부딪히는 많큼 생각지 못한 것을 볼 가능성이 더 높아지기 때문이다. 아직 가야할 길이 멀다. 새롭게 시작하는 우리들끼리 정보도 나누고 힘을 나누며 성장을 해나갔으면 좋겠다는 생각이 든다. 



작가의 이전글 데이터 사이언스, 일과 대학원 일단 시작하기
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari