아무것도 모르는 내가 데이터 분석을 공부한 방법
데이터 분석을 공부해야겠다고 마음먹은 것은 PM 2년 차인 2020년이었습니다. 사실 대학을 다닐 때까지만 해도 저는 수학과는 거리가 먼 사람이라고 생각했어요. 고등학교 시절에 수리 영역과 씨름할 때, 대학교를 가면 더 이상 수학과 마주하지 않아도 된다는 사실을 위안 삼아서일까요. 대학 교양 수업도 가능하면 수학이나 과학과 관련이 없는 과목을 들었습니다.
수학을 멀리하던 제 삶에 숫자들이 슬금 머리를 내민 것은 대학원 때였습니다. 정량 리서치 결과를 논문으로 쓰기 위해선 통계를 공부해야 했죠. 그때까지만 해도, 논문 쓰는 데 필요한 기본 통계 지식과 SPSS 쓰는 방법만 배우면 끝일 거라고 생각했습니다.
입사 후 1년이 지났을 때, 불운하게도 사수 매니저님이 다른 팀으로 이동하자마자 급하게 처리해야 할 프로젝트가 생겼습니다. 그때의 제가 허둥지둥했던 가장 큰 이유는 어떤 데이터가 어느 DB에 어떻게 담겨 있는지 몰랐기 때문이었습니다. 데이터를 효율적으로 추출하고 정리하는 방법은 당연히 몰랐고요. 타 부서에 데이터 추출 협조를 요청하고, 끝날 줄 모르는 수동 데이터 정리 업무로 저의 2020년 한 분기가 통째로 날아갔습니다. 지금도 쓰라린 기억입니다.
다시는 그렇게 고생하고 싶지 않아 2021년 2월부터 2022년 8월까지 약 1년 반 동안 데이터 분석을 차츰차츰 공부했습니다. 그동안 서로 다른 선생님과 플랫폼의 강의를 다섯 개 들었습니다. 지금까지 배운 것을 현업에서 특별히 쓸 일이 없다가, 2022년 8월 새로운 프로젝트에 투입되며 드디어 실무에서 SQL과 파이썬을 사용하게 되었습니다. 이제 실무 사용 경험이 있으니 지금까지의 데이터 분석 학습을 한 번 정리해보려고 합니다.
IT 업계에서 문과 출신으로 일하며 저와 비슷한 고민을 하는 분들이 계실 거라고 생각합니다. 그분들을 위해 이 글에 저의 데이터 분석 학습 기록을 담았습니다. 꼭 PM이 아니더라도 데이터 공부를 어디서부터 시작하면 좋을지 고민하시는 분께도 도움이 될 거예요. :)
2021년 2월~3월
Coursera (코세라)에서 강의 두 개를 수료했습니다.
1) Python for Data Science, AI & Development
2) Databases and SQL for Data Science with Python
수강한 지 오래돼서 기억이 뚜렷하지 않은데, 무난했습니다. 일주일 무료로 듣고 괜찮아서 유료로 1개월 수강했습니다.
- 단점: 저는 강의보다 실습이 많은 수업을 좋아하는데 코세라는 실습 플랫폼이 잘 되어있지 않았습니다. IBM 강의라 데이터 분석 수업에서 일반적으로 사용하는 주피터 노트북이 아닌 IBM 플랫폼을 사용해야 해서 불편했던 기억이 납니다.
- 장점: 링크드인에 certificate을 추가할 수 있어서 좋았습니다. 뭔가 더 성취감이 느껴진달까. (ㅎㅎ) 그 밖의 장점이 기억이 안 나네요.
2021년 11월
2주 사외교육 (mySUNI CDS 양성 과정- Python & Machine Learning)
회사에서 지원해준 사외교육으로 무려 2주간 파이썬과 머신러닝을 배웠습니다. 엘리스 강의 플랫폼을 사용한 화상 강의였습니다. 9시부터 5시까지 강의를 들었고 매일 퀴즈가 있었습니다. 출결과 성적으로 패스/논패스 결과가 회사에 전달돼서 더 열심히 했습니다.
- 장점: 강사 분께서 열정적으로 가르쳤습니다. 실시간 강의라 모르는 건 바로 질문할 수 있어서 편했어요. 2주간 몰입해서 배우니까 혼자 공부할 때보다 집중해서 학습할 수 있습니다.
- 단점: 2주가 생각보다 짧아서 진도를 정말 빨리 나갑니다. 기초가 없는 상태에서 강의를 따라가려면 꽤 벅차더라고요. 강의만 듣고는 진도 나간 내용을 온전히 내 것으로 만들기 어렵습니다. 강의 중에는 혼자 학습할 시간이 충분하지 않으므로 강의를 들은 후에 자습에 오랜 시간을 투자해야지만 효과를 볼 수 있습니다. (그래도 혼자 공부할 때보다는 많이 배울 수 있어요. 혼자 할 때는 학습 코스도 몰라서 헤매는데 강의는 선생님만 따라가면 돼서 편리합니다.)
<조금 더 자세한 학습기>
2022년 2~3월
DataCamp
- Python Fundamentals Track
- SQL Fundamentals Track
HackerRank
- SQL (Intermediate) Certificate
2021년 11월에 2주나 투자해서 배운 내용을 실무에 써먹을 일이 없으니 금방 잊을 것 같아, 온라인 학습 사이트를 찾았습니다. 외국에서 많이 사용한다는 DataCamp와 HackerRank를 사용했습니다. DataCamp는 강의 + 실습을 제공하는 유료 플랫폼이고 HackerRank는 다양한 코딩 퀴즈를 제공하는 무료 플랫폼입니다.
저는 아직 초보라 DataCamp가 도움이 되었습니다. 강의 분량은 짧고, 퀴즈나 실습이 많아서입니다. 실습 플랫폼 UI/UX도 깔끔합니다. DataCamp는 한 달 유료 수강했는데, 파이썬보다는 SQL 수업을 중심으로 들었습니다. HackerRank의 경우, SQL 퀴즈는 그럭저럭 풀 수 있었지만 파이썬은 저의 비루한 실력으로는 풀 수 없는 문제가 너무 많더라고요. 파이썬은 조금 더 공부하고 도전해야겠다고 생각했습니다.
<조금 더 자세한 학습기>
2022년 5월
4일 사외교육 (mySUNI CDS 양성 과정- Deep Learning Basic)
회사의 지원으로 4일간 딥러닝을 배웠습니다. 엘리스와 비슷한 방식의 화상 강의였습니다. (멀티캠퍼스였던 것으로 기억합니다.) 마찬가지로 강사님이 무척 친절하고 열정적으로 강의해서 좋았습니다.
- 단점: 수업 내용이 기억에 잘 남지 않습니다. 지금 혼자서 딥러닝 프로젝트를 해보라 하면 잘 못 할 거예요. 4일 안에 딥러닝을 심도 있게 배우기는 어려웠어요. 개념만 익히고 기본적인 실습만 진행했습니다.
- 장점: 현재 담당하는 AI 서비스의 엔진이 만들어지는 과정을 구체적으로 배울 수 있어서 좋았습니다. 추상적인 개념으로만 알고 있던 AI의 학습 과정을 train과 test set을 나누고 평가하는 코드로 확인하니 이해하기 더 쉬웠습니다.
<조금 더 자세한 학습기>
2022년 7월
코드잇 데이터 사이언스 입문
코드잇 수업은 회사에서 지원하는 온라인 강의여서 수강을 시작했습니다. 마찬가지로 공부했던 것을 잊지 않고 익숙해지기 위해 수업을 듣기로 했습니다.
- 장점: 강의만 놓고 보면 코드잇이 지금까지 들었던 온라인 학습 플랫폼 중에 가장 퀄리티가 높습니다. 강의 자료를 쉽게 이해할 수 있도록 구성한 것도 눈에 띄었고, 특히 헷갈렸던 내용을 다시 한번 짚어주는 페이지도 있는 등 강의 자료가 친절하게 구성되어 있었습니다.
- 단점: 실습 부분이 약간 아쉬웠습니다. DataCamp에 비해 실습이 적습니다. 또한, 실습 난이도가 서서히 높아지지 않고, 갑자기 어려워지는 경향이 있습니다. 강의마다 실습(퀴즈) 난이도가 천차만별인 점도 조금 아쉬웠습니다.
<조금 더 자세한 학습기>
앞으로 강의보다는 실무 중에 하면서 배우는 것이 조금 더 많지 않을까요? 새롭게 배운 내용은 위 링크들에 연결된 티스토리 블로그에도 꾸준히 업로드 중입니다.
혹시 이 외에도 초심자에게 좋은 데이터 분석 공부 사이트가 있다면 댓글로 공유해주세요! :)
독자 분께 이 글이 도움이 되었길 바라며 이만 마무리하겠습니다.