문과생이었던 데이터 분석가 현직자가 전하는 독학 tip
안녕하세요. 저는 아이디케이스퀘어드에서 데이터 분석가로 근무 중인 David라고 합니다.
데이터 과학의 booming에 따라서 많은 문과생(특히, 경영학을 전공하신)분들께서 데이터 과학자/분석가로서의 커리어를 꿈꾸시는 것으로 압니다.
그러나, 그 꿈을 이루기 위해 첫 발을 내딛고 싶지만 배경지식이 전무하신 분들이 대다수이며, 결국은 인터넷에서 열심히 광고하는 몇몇 IT 관련 학원들에 고액의 학원비를 지불해가며 반년에서 일 년 정도의 시간을 허비하게 되는 경우가 많습니다.
저는 인문계/상경계 분야를 졸업하고 현재 데이터 분석가로서의 커리어를 막 시작하게 되었습니다.
같은 길을 힘겹게 걸어가고 계실 랜선 학우분들에게 조금이나마 도움이 되고자 이러한 글을 적습니다.
(아래 글은 문과생 한정입니다. 제가 문과 출신이다 보니 이공계열에서 준비하시는 분들은 해당사항이 없을 가능성이 큽니다.)
물론 제가 뭐라고 학원에서 가르치시는 대기업 출신 강사분들이 이렇다 저렇다 할 수 있겠느냐만은, 사실 학원에서 요구하는 고액의 학원비가 과연 그만한 값어치의 지식을 가르치느냐 묻는다면 그렇다고 하지는 못할 것 같습니다.
보통 요새 데이터 과학 가르친다고 하는 학원의 데이터 과학 코스 커리큘럼을 보면 대강 이러한 식입니다.
"먼저 데이터 과학이 뭔지 알아야겠지? 데이터 과학은 데이터 가지고 이런저런 일을 하는데, 이게 황금알을 낳는 거위이고 4차 산업시대에 꼭 필요한 인재가 되려면 꼭 배워야 해. 그럼 더 복잡한 걸 배우기 전에 먼저 기본적인 통계학(경영통계학 수준의 통계학)이랑 수학이론(미적분과 선형대수학 기초) 정도만 짚고 넘어가 볼까? 이 정도 배웠으면 이제 본격적인 분석방법론을 배울 수 있어! 회귀분석, 군집분석, 로지스틱 분석, 신경망, SVM 등이야! 이름만 들어도 뭔가 데이터를 잘 분석해줄 것 같지 않니?!(실제로 이렇게 말씀하시지는 않겠지만…) 자, 이제 배웠던 지식을 실제로 적용해보자! iris 데이터셋과 Boston housing price 데이터셋에 회귀 모델과 분류 모델을 적용해 보는 거야! 자, MSE와 Accuracy가 굉장히 낮게 나왔네?! 이것으로 여러분은 데이터 과학을 배웠어요!"
(과장 주의)
이러한 마케팅을 들으면 취업에 목마른 문과생들은 꼴까닥 넘어갈 수밖에 없습니다.
하지만, 이러한 커리큘럼에는 다음과 같은 이유(+α)로 인해 한계가 존재합니다.
- 당장 회귀분석 하나만 하더라도 통계학과/경제학과 등에서 고학년 때 한학기 내내 듣는 수업이며, 그 수업에서조차 모든 걸 다 배우지는 못한다. 모델에 대한 깊은 이해 없이는 실무에서 튜닝이 불가능하다.
- 실제 실무에서 마주할 데이터셋은 examplary dataset들과는 전혀 다르다. 정제도 안 되어있고, 맹목적으로 방법론을 적용하기가 어렵다.
- 예를 들어, 새로운 모델이 학계에서 등장했다고 치자. 라이브러리화 되기까지 편하게 앉아서 기다리는 사람이 되고 싶은가? 아니면 논문의 수식과 직관을 이해하며 코드화할 수 있는 사람이 되고 싶은가?
따라서 국비지원이나 학원 등의 과정을 밟고 싶다면, 이미 수학/통계학적으로 기초가 탄탄하신 분들께서 데이터 과학을 하기 위한 언어를 배우고 싶다거나, 그러한 과정에서 우수학생으로 선발된 경우 학원에서 주선하는 기업과의 직접적 취업연계를 노리시는 경우라면 도움이 많이 되시지 않을까 싶습니다.
(*기초가 아예 없는 경우라면 학원으로 직행하는 건 정말로 비추입니다.)
그렇다면, 문과생들은 데이터 과학 배우기를 포기해야 할까요?
대부분의 문과생들은 수학이라고는 19살 이후로 쳐다보지도 않은 경우가 많을 텐데, 당장 혼자서 수학 공부에 어떻게 뛰어들 수 있을까요? 고등학교 때 수학부터 공부해야 하는 걸까요?
먼저 한 가지 짚고 넘어가자면, 문과생으로서 데이터 분석가/과학자가 되고 싶다는 건 이미 본인이 스스로 고난의 길을 선택했다는 말과 동일합니다. 남들은 몇 년 앞서 배우고 시작하는 걸 땜빵(?) 하기 위해서 그만큼의 어마어마한 노력을 들여야 하고, 시간과 재정적 여유가 있다면 1~2년 정도의 휴학과 대학원 진학까지 필요할지도 모릅니다.
그럼에도 불구하고 "나는 죽어도 꼭 데이터 사이언티스트가 되고 싶다!"라고 한다면, 기초수학 체력을 쌓는 것이 너무나도 중요합니다. 데이터 과학자가 되기 위해서 필수적인 수학/통계학 지식은 보통 다음과 같습니다.
• 이공계열 기본 수학: 다변수 미분 적분학(보통 대학교에서 미분 적분학(2)이라는 이름으로 배움), 선형대수학
• 수리 통계학(기초통계학 아님)- 확률과 확률변수, 확률분포, 샘플링, 추론 등에 대한 엄밀한 수학적 정의
• 회귀분석-일반 회귀모형에 대한 이해
• 기타 수학 지식(꼭 필수는 아닐 수도 있으나 알면 손해는 절대 안봄. 특히 논문을 읽거나 수학적 직관이 필요할 때)- 최적화 이론, 미분방정식, 해석학, 집합론
사실 이 모든 것들을 문과생 혼자서 공부한다는 건 너~무나 벅찬 일입니다.
따라서 다음과 같은 옵션들을 고려하는 것이 좋습니다.
(1) 대부분의 학교는 학교에서 제공하는 기초수학 과목들이 있습니다.
특히나 미분/적분 학과목은 공대가 있는 학교라면 무조건 기초과목으로 개설되어 있으며, 인문/사회계열 전공자도 원한다면 들을 수 있을 가능성도 있습니다.
다만, 미분 적분학 수업의 경우 고등학교 수준의 기초적 미분 적분학 지식을 필요로 하는 경우가 대다수입니다
(애초에 이과생들이 고등학교 때까지의 미적분 지식을 갖추고 있다고 가정하고 시작하는 수업인지라...).
기초적인 지식을 쌓기를 원하시는 경우에는 다음 글에서 설명드릴 과정들을 적극 활용하시는 편을 추천합니다.
그리고 선형대수학의 경우는 선수과목이 없는 수학 과목입니다.
무엇보다도 그 어떠한 외부 강의도 결코 학교에서 교수님들께 직접 배우는 강의만큼은 못하다는 사실을 아셔야 합니다. 타과 학생이라서 못 듣는다고 하면 청강이라도 할 수 있게 해달라고 들이밉시다.
(2) 만약에 학교에서 관련학과 복수전공이 가능하다면, 적극적으로 활용하도록 합시다.
저희 학교 같은 경우에는 산업공학과가 있는데, 해당 과의 대부분의 강의들이 공업수학부터 이수해야 다른 과목을 들을 수 있기 때문에 결론적으로 기초 쌓기에 상당한 도움이 됩니다.
'데이터 마이닝' 등의 수업을 들을 수 있는 학과라면 좋습니다. 통계학과라면 베스트라고 생각합니다.
각 학교 커리큘럼마다 다르겠지만, 커리큘럼이 '컴퓨터공학'에 가깝게 구성되어 있다면 비추합니다.
예) 나는 데이터 분석 배우고 싶은데 C++과 JAVA를 가르친다.
데이터 과학자는 수학적으로 모델링하는 사람들이라는 사실을 항상 기억해야 합니다.
사실 이 부분은 특히나 국비지원 관련 프로그램/학원을 통한 학습을 고려하신다면 과정을 선택하실 때 주의 깊게 보셔야 합니다. 데이터 분석가 키운다는데 자바 가르치고 있으면 건너뛰는 편이 좋습니다.
이번 포스팅 시리즈에서 제가 제일 강조하고 싶은 부분인데요. 사실 이 부분부터 영어의 중요성이 강조됩니다.
뜬금없이 왜 영어냐구요?
다음 글에서 이어갈 이야기인데, 인터넷 상에서 무료로 풀려 있는 질 좋은 학습 교재의 양이 영어에 비해서 한글이 너무나도 초라할 정도로 작습니다.
반면, 내가 영어로 된 강의/대학교 교재를 어느 정도 받아들일 수 있는 수준이 된다면 인터넷에서 얻을 수 있는 지식의 양은 정말로 방대합니다.
심지어 난이도/단계별로 스스로 커리큘럼을 짜는 것도 어느 정도 가능합니다.
오늘 글에서는 문과생이 어떻게 데이터 분석/과학을 공부해야 좋을지 큰 그림을 그려보았습니다.
다음 글에서는 제가 개인적으로 준비하면서 큰 도움이 되었던 learning source들을 공유해드리고, 어떻게 커리큘럼을 짜는 것이 좋을지 공유드리도록 하겠습니다.
다음 글에서 만나요!
실무자를 위한 데이터 자동 분석 솔루션, 하트카운트 사용해보기
여기를 클릭해주세요.
하트카운트 뉴스레터 구독하기는 여기를 클릭해주세요.
하트카운트 로그인(계정 생성)은 여기를 클릭해주세요.
하트카운트 도입, 견적 및 구축 문의는 여기를 클릭해주세요.
(협업 문의는 support@idk2.co.kr로 부탁드립니다.)
하트카운트 데모 비디오는 여기를 클릭해주세요.
여기를 클릭하여 데이터 분석/시각화 커뮤니티 '데이터 히어로'에 참여하세요.