brunch

You can make anything
by writing

C.S.Lewis

by 박경아 Nov 29. 2021

1년 안에 AI 빅데이터 전문가가 되는 법

2020년 하반기부터 파이썬 문법도 배우고 라이브러리도 익히고 캐글 경진대회에 답안도 제출해 보고 머신러닝 알고리즘 등을 혼자 공부해 왔지만 조금 더 빨리 효율적으로 하지 못했을까 하는 반성도 드는 시점이다.


올 한해 빅데이터를 공부하면서 읽은 책들이 있는데 '세상을 읽는 새로운 언어, 빅데이터' (조성준), '빅데이터는 어떻게 마케팅의 무기가 되었나' (윤미정), '마케터가 알려주는 돈이 되는 빅데이터 분석' (강지은) 등이다. 그리고 그 가운데 하나가 바로 또 '1년 안에 AI 빅데이터 전문가가 되는 법' (서대호)이다.


이 책은 혼자 데이터 사이언스 공부를 시작하면서 어떻게 하면 AI 빅데이터 전문가가 될 수 있는 지, 앞으로 무엇을 공부해야 하는 지 참고하기 위해 구입했다. 저자는 한양대 산업공학과 석사를 졸합하고 현재

AI 빅데이터 분석회사를 운영하고 있다고 한다. 이공계 베이스이긴 하지만 본인도 c나 c++ 같은 언어는 어려웠고 R과 파이썬을 통해 데이터 분석을 시작했다고 한다.


6개월 전에 이 책을 읽을 때는 한참 배워도 배워도 헷갈리는 파이썬 기본 문법과 라이브러리를 익히고 마케팅 활용사례 등을 공부했던 시점이였는데 지금 다시 읽어보니 무엇을 공부해야 하는 지와 함께 데이터 사이언티스트라는 직업이 앞으로 어떨지, 어떻게 포지셔닝해야 할 지 그런 부분들도 새롭게 눈에 띄인다.



데이터 사이언티스트 과연 유망직종인가?


데이터 사이언스를 공부하며서도 과연 이 공부를 통해 새로운 커리어를 시작하거나 창업할 수 있을까? 이런 의문이 여전히 드는 게 사실이다. 난 마케팅 분야의 경력을 살려 여기에 전문성을 둔 데이터 사이언티스트가 되고 싶은 데 작년에 클래스 101의 제안을 받아 '마케터를 위한 데이터 사이언스 입문'을 런칭하기도 했다. 어찌됬던 끝까지 열심히 공부해 나갈 생각이다.


저자는 우리나라는 아직 AI 데이터 사이언스 관련 학과도 별로 없고, 있다고 해도 교수님마다 전문분야가 달라서 결국 자신이 스스로 공부해 나가는 게 중요하다고 한다. 그리고 아직 공급보다는 수요가 많아서 1년 정도 제대로 공부한다면 취업 기회가 훨씬 많아질 것이라고 한다. 데이터 사이언스에 있어 적당한 B급 인재만 되어도 다른 분야에 비해 취업이 쉽다는 말이다. 만약 제대로 공부해서 S급 인재(구글 딥마인드의 비공개 코드를 구현하는 등등)가 된다면 그 대우는 상상을 초월할 것이라 한다.


난 개인적으로 앞으로 누구나 데이터에 대한 이해와 데이터를 기본적으로 다룰 수는 있어야 한다고 생각한다. 실무형 인재의 공부이다. 그리고 기업의 문제를 데이터 분석으로 해결하거나 모델링하는 업무를 주로 하는 데이터 사이언티스트, 그리고 인공지능이나 인공지능 플랫폼도 당분간은 대체하지 못할(?) S급 인재로 나눠지지 않을까 생각한다. 내가 S급 인재는 못되어도 내 분야에 있어서는 전문가가 되어야 할 것이다.



꼭 컴퓨터 공학이나 통계학 등 관련학과를 나와야 하나?


데이터 사이언스 공부를 시작하면서 가졌던 가장 큰 고민 중에 하나는 나는 컴퓨터 공학이나 통계학 등 관련 학과를 전공하지 않았다는 것이다. 하지만 저자에 따르면 학과는 크게 중요하지 않다고 한다. 공급도 부족하고 관련학과를 나왔다고 해도 결국 기본적인 내용을 배웠거나 산업 도메인에 대한 경험이 없어서 데이터 사이언티스트로 일하기에 더 공부해야 하는 건 마찬가지라는 것이다. 결국 스스로 공부를 통해 자신의 전문분야를 만들어 가는 게 중요하다고 한다.


건축학과를 나와서 약 1년간 데이터 사이언스를 공부하고 데이터 관련회사에 취업한 사례 등을 들며 사실 취업보다는 창업이나 프리랜서로 일하면 개인적으로 더 많은 수익을 얻을 수 있다고 한다. 저자 역시 동시에 여러 개 프로젝트를 수행하기도 하며 스스로 창업한 대표이자 여러 개 회사에 소속되어 있다고 한다.



어떤 것을 어떻게 공부할 것인가?


파이썬 기본문법과 라이브러리를 익히고 관련 경영학과 마케팅 분야의 책을 읽으며 앞으로 무엇을 더 공부해야 하는지?에 대한 답을 찾아보고자 했다.


1) 데이터마이닝의 기본이해와 활용사례

데이터 분석 방법론 및 알고리즘에 대한 이해인데, 내용도 많고 이해해야 할 알고리즘도 많다. 특히 나도 머신러닝을 한 번 훑터보면서 선형대수학의 벡터 연산이나 벡터 기하학을 모르면 원리를 이해할 수 없는 알고리즘들도 있어서 답답했던 경험이 있다.


저자는 나중에 데이터 사이언티스트로써 하이퍼 파라미터를 수정하고 모델의 구조를 수정, 여러가지 알고리즘을 결합하는 등 응용해서 사용하기 위해서는 처음 공부할 때 각 알고리즘의 동작원리를 차근차근 이해하고 넘어가야 한다고 한다.  수식을 유도하고 증명하는 과정이 이해하기 어렵다면 우선은 어떤 동작부분에서 어떤 수식이 왜 쓰인다 정도를 이해하고 넘어가자.


저자가 추천해 준 책은 '데이터마이닝 개념과 기법'이라는 책인데 대학교 교재로 쓰일 법한 두꺼운 책으로 입문자가 보기엔 다소 어려워보일 수 있을 것 같다. 참고로 이 책에서 저자가 각 단계별로 추천해 주는 책들은 다소 오래되고 입문자가 보이겐 어려워 보인다는 생각이 들었다. 무엇을 왜 공부해야 하는 지만 참고하고 교재는 본인 상황과 스타일에 맞게 선택하면 될 것 같다.



사실 나도 입문자에게 딱 맞는 쉬운 책은 발견하지 못했는데 머신러닝 알고리즘 자체가 선형대수학 등 어느 정도의 수학적 개념을 필요로 하기 때문이다. 나 역시 두터운 책과 그리고 인터넷으로 일일히 찾아가며 머신러닝을 한 번 훑터보았는데 최근에 발견한 자료료 앤드류 응(Andrew Ng) 교수의 쿄세라 머신러닝 강의가 시간이 걸리기는 해도 체계적일 같다는 생각에 추천해 본다. 참고로 앤드류 교수는 스탠퍼드 대학 교수로 구글 동영상에서 캡쳐한 이미지 자료로 컴퓨터에게 고양이과 개의 사진을 인식시킨 딥러닝 프로젝트로 유명하다.


2) 실질적으로 도움이 되는 최소한의 자격증

실력에도 도움이 될만한 자격증으로 데이터 분석 자격검증(ADP/ADsP), SQL 자격검증, 경영빅데이터분석사 등을 추천한다. 데이터 분석 자격검증은 준전문가, 즉 2급이면 충분하며 데이터 분석 전반에 대한 이론과 R 언어 기초를 배우는 효과도 있다고 한다. SQL 자격검증 역시 공부하면서 SQL 쿼리를 다루는 기본 내용을 익힐 있다


모두 전공자라면 1~2주, 비전공자라면 1달 정도  시간이 걸릴 것 같다고 하는데 교재와 기출문제집 한권이면 충분하다고 한다.


3) 코딩

저자는 R을 먼저 배우기 시작했는데 R이 배우기 쉽고 데이터 시각화가 더 이쁘게 되지만 결국 대용량 자료를 다루고 다양한 라이브러리를 제공하는 파이썬을 더 많이 쓴다고 한다.


저자는 파이썬을 배우기 위한 방법으로 학원보다는 독학을 추천하는 데 역시 입문용으로 몇 가지 책을 추천한다. 개인적인 경험으로는 파이썬을 배우는 것이 영어 문법을 배우는 것과 수학을 배우는 것 그 어디 사이인 것 같다. 왜냐하면 이 언어가 어떤 로직으로 어떻게 말해야 하는 지 배우는 것은 영문법을 배우는 것 비슷하고, 실제 예제나 파이썬 프로그램을 짜다보면 그 개념들을 활용해 문제를 해결해야 하기 떄문이다. 한 가지 답은 없다... 그래서 개념을 잘 이해해야 하고 예제도 풀어보아야 한다.



4) 수리통계학

입문자에게 필요한 수리 통계학은 대학교 교과과정 정도로 상세히 알 필요는 없다. 빅데이터 분석 알고리즘을 이해할 만큼의 선형대수학과 통계학을 공부하면 된다고 한다.


저자가 추천하는 방법은 기본서를 읽으면서 이해하고 이해가 안되면 인터넷에 찾아보고 생각도 해보고 그래도 안되면 그냥 넘어가라는 것이다. 절대 이해하는 것이 중요하지 외우는 게 중요한 게 아니다. 앞서도 말했지만 수리통계학을 공부하는 목적은 머신러닝 알고리즘을 더 잘 이해하기 위해서이다.


나는 얼마 전부터 패스트캠퍼스 AI 데이터 사이언티스트 과정을 국비과정 수업으로 시작했는데 아직 본격적으로 공부를 진행하진 않았지만 강사님이 추천해 주신 선형대수학 사이트도 공유해 본다.


5) 딥러닝

아직 딥러닝 공부를 한 적이 없지만 저자가 입문자에게 추천하는 방법은 일단 책으로 공부하고 그리고 홍콩 과기대 교수로 재직중인 김성훈 교수의 강의(모두를 위한 머신러닝/딥러닝)를 추천한다. 그 다음으로 조금 더 깊숙한 내용을 다루면서 예제 코드도 다루는 '밑바닥부터 시작하는 딥러닝' 책을 추천한다.


https://hunkim.github.io/ml/


그리고 다양한 딥러닝 코드를 실행하기 위해 텐서플로우, 케라스, 파이토치 등 딥러닝 라이브러리 가운데 하나 정도를 공부하면 된다고 한다.



* 새로운 책 소식

얼마 전 제가 쓴 '챗GPT로 마케팅 데이터 분석하기: 고객 리뷰 분석에서 매출 예측까지'가 출간되었습니다! 이 책에서는 챗GPT를 활용해 자연어로 데이터를 쉽게 분석하고, 시각화하거나 예측 모델링까지 도전할 수 있는 다양한 방법들을 소개하고 있습니다. 비전공자분들은 챗GPT의 도움을 받아 보다 효율적으로 데이터 분석을 시작하고 발전해 나갈 수 있는 좋은 기회가 될 것입니다. 관심 있는 분들은 한 번 살펴봐 주세요!


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari