brunch

You can make anything
by writing

C.S.Lewis

by 조영현 Oct 06. 2020

현대판 노예로 살지 않는 하나의 방법

매일 월요일마다 출근하지 말자!

4차 산업혁명이 항상 키워드로 대두되고 있는 현실에 그러면 전통적인 전문직이 아닌 앞으로 점점 더 촉망받는 직업은 무엇일까?


<하버드 비즈니스 리뷰>에서는 21세기의 가장 섹시한 직업으로 데이터 과학자를 뽑았다. 미국 직장 평가 사이트 글래스도어가 미국 최고의 직업 50위를 매년 발표하는데 2015년부터 2019년까지 4년 연속 데이터 과학자가 1위를 차지했다. 불과 10여 년 전만 해도 듣지 못했던 데이터 과학자가 빅데이터 산업이 새로운 동력으로 떠오르면서 급부상하고 있는 것이다. 


아마존은 2000년 대 초 고객 구매 패턴을 분석한 '맞춤 추천 서비스'를 내놨고 이는 넷플릭스, 유튜브에서도 널리 사용되고 있다. 구글은 빅데이터를 활용한 독감 예측 시스템, 지진 예측 시스템 등을 내놓고 있다.

현재 데이터 과학자를 원하는 기업은 많지만 공급은 부족하다. 통계와 컴퓨터 공학에 능숙해야 할 뿐만 아니라 경영, 경제, 인문학, 지식도 필요하다. 이제 데이터 과학자를 AI 빅데이터 전문가로 소개하겠다.


AI빅데이터 전문가란 누구인가

복잡한 대량의 데이터를 구조화하고 분석하는 일을 한다. 우리가 매일 사용하는 문자, 뉴스 댓글, 상품 후기 같이 실시간으로 쌓이는 데이터를 활용해 무궁무진한 성과를 만들어 낸다. 데이터를 분석해 인사이트를 발견하여 비즈니스가 앞으로 나아갈 방향을 제시해 주기도 한다. 더 나아가 데이터 학습을 통해 인공지능 모델을 만들어 완전 자동화 시스템을 제시할 수도 있다. AI 빅데이터 전문가는 기업 최고 의사 결정에 핵심적인 역할을 수행한다. 단순한 노동 IT인력이 아니라 데이터를 통해 의사 결정을 수행하는 경영자적 역할을 하는 것이다. 


앞에서 말했다시피 기업이 필요로 해서 취업하기가 매우 쉽고 선택지도 넓어 다른 직군에 비해 상대적으로 좋은 대우를 기대할 수 있다. 또한 적당한 B급 전문가 정도만 되어도 기업이 모셔가는 분위기라 더욱 유리하다. 그럼에도 불구하고 AI 빅데이터 전문가에 대한 국내 기업의 대우는 선진국의 연봉과 비교할 수 없을 정도로 낮기 때문에 국내의 고급인력이 해외로 유출이 심해지는 상황이다.


작가는 공급인력이 절대적으로 부족한 지금이 최적기이고 블루오션이라고 한다.


그렇다면 학원이 답일까?

저자는 국비 지원을 받아 학원에서 빅데이터 개발자 양성 과정을 들었지만 수업시간의 대부분을 자바 프로그래밍 기본, html, 자바스크립트, 스프링을 배우는 데 썼고 실제론 파이썬을 더 많이 사용하기 때문에 하나도 도움이 되지 않았다고 한다. 그리고 수업도 교재에 나온 내용을 강사가 읽다시피 설명하고 교제에 있는 예제 문제를 학생들에게 풀게 하는 식으로 수업시간을 대부분 할애했지만 현실은 예제 같이 정제된 데이터로 주어지기 않기 때문에 더 쓸모없다고 느꼈다고 한다. 그런데 서울 강남, 종로의 전통 있고 유명한 학원들이 다 이랬고 현재도 그다지 달라진게 없어서 더욱 추천하지 않는다고 한다.


sns에서 광고하는 인터넷 광고들도 코딩에만 집중하고 수업시간도 1주에 7-8회 출석하지만 온전히 기억하는 사람도 적어서 필요성을 더 못 느꼈다고 한다.


AI 빅데이터 전문가가 되기 위해서는 수리 통계학적 지식, 코딩 능력, 경영학적 서술 능력을 두루 겸비해야 한다. 그렇다고 학원 입장에서 수리 통계학과 선형대수학을 가르칠 수도 없다. 수업시간은 정해져 있고 학생들의 수준도 천차만별이기 때문이다


실전에서 데이터 분석을 할 땐  목적에 부합하는 모델을 직접 선택하고 적용해야 하는데 이를 결정하는 것은 자신이다. 자신이 해당 데이터와 분석 목적에 가장 부합하는 모델을 선택해야 하는데 이때 수학적, 통계학적 지식이 있어야 어떤 모델을 선택할지 알 수 있다. 때에 따라서 모델을 변형하거나 결합하기도 해야 하는데 이런 지식이 없으면 할 수도 없다.


그리고 학원에서 코딩을 배워도 예쁘게 정제된 데이터만 접하다가 실제로 뒤죽박죽인 데이터를 접하게 되어 당황만 가득히 느끼게 될 것이다. 학원은 답이 아니라고 한다.


그렇다면 자격증의 커리큘럼을 따라갈까?

자격증 취득은 곧 전문가로 인정받는 가장 확실하고도 빠른 수단으로 여겨졌지만 AI 빅데이터 관련 자격증은 거의 없다. 2020년부터 빅데이터 분석 기사 자격시험이 처음으로 시행된다고 하니 어쩌면 다행일 수 있다. 하지만 알고리즘에 대한 깊은 이해와 데이터를 다룰 수 있는 코딩 능력을 자격증이 채워주지 못한다. 그리고 실전에서는 예제 데이터처럼 예쁘게 데이터가 주어지지 않고 텍스트, 오디오, 이미지와 같은 비정형 데이터가 즐비하기 때문에 자격증 취득이 실무에는 거의 도움이 되지 않는다.


하지만 저자는 자격증은 그저 맛보기 정도로 생각하고 공부하는 것은 도움이 된다고 본다.


그렇다면 학교는 어떨까?

정부의 지원으로 관련 학과가 많이 개설되고 있지만 평균적으로 한 학기에 15-16주 하는 수업을 첫 주는 오리엔테이션, 2주는 시험으로 사용하여 12-13회 수업을 할 수 있기 때문에 절대적으로 시간이 부족하다. 또한 대학원까지 진학해 본 저자는 '데이터 마이닝', '경영 빅데이터 분석' 등등의 이름으로 기본적인 이론과 실습을 하기 때문에 모든 수업이 다 기본 개념만 훑고 넘어가는 식이라고 했다. 그리고 "어떠한 방법론이 있는데 이 방법론은 이러한 문제에 유용하다 그래서 이러한 문제가 있을 때에는 해당 방법론을 쓰면 된다. 예제 코드와 예제 데이터가 PPT에 있으니 한번 각자 복사 붙여 넣기 해서 실습해봐라"와 같다고 이야기한다.


또한 AI 빅데이터가 비교적 신학문이라서 예전에 학교생활을 한 교수들은 해당 내용을 잘 모른다. 스탠퍼드 강의 교안을 그대로 다운로드하여서 수업하거나 파이썬 예시 코드를 붙여 넣기라도 하는 식으로 제시하는 교수들도 많다. 이 사정을 알고 있는 대학 측에서도 교수를 구하려 했으나 국내 대학의 대우가 너무 열악해서 거절당하고 국내에서는 신임 교수를 구하지 못해 기존의 타과 교수들로 AI 대학원 수업 커리큘럼을 짠다고 한다.


또한 AI 빅데이터라는 학문 안에도 수많은 세부 학문이 나눠져 있고 실전에서 제대로 활동하는 전문가들은 자기만의 스페셜 분야가 있다. 교수들이 흔히 말하는 연구분야인 것이다. 특히 AI 빅데이터는 산업 전반적인 모든 분야에 적용이 가능하기 때문에 그 세부 항목의 종류가 엄청나다. 그런데 과연 이러한 세부 연구 분야 하나하나를 학부나 대학원 수업 시간에 알려줄 수 있을까? 불가능하다. 시간도 한정적이고 학생마다 연구하고 싶은 분야도 제각각이기 때문이다. 또 가르치는 교수도 자신의 연구분야 이외에 다른 연구 분야에 대해서는 잘 모른다. 따라서 전문적인 지식을 학부나 대학원 수업에서 함양하기는 불가능하다.


저자는 대학원 시절 궁금한 것을 교수님께 물었지만 이에 대해서 모두 몰랐다. '물론 교수님의 연구분야였으면 답할 수 있었겠지만 딱 맞는 사람을 찾기가 쉬운가?'라고 저자는 반문한다.


렇다면 회사에 들어가는 것은 어떨까?

회사 특성상 아무리 AI팀, 데이터 분석팀에 들어가도 단순 반복 업무는 피할 수 없다. 회의록 작성, 영수증 처리 같은 자질구레한 일부터 제안서 작성, PPT 만들기와 같은 일이 엄청 쏟아질 것이다. AI 빅데이터 관련 공부를 하거나 일을 하고 싶지만 실질적으로 이런 곳에 시간을 쏟다 보면 시간이 많지 않다. 그리고 회사에 들어가면 고참급 사원들이 마치 과외 선생님처럼 AI 빅데이터 알고리즘을 알려주고 코딩 기술을 전수해줄 거라 생각하면 큰 오산이다. 그럴 만한 사람도 별로 없고 당신의 과외 선생님이 되어 줄 시간이 없을 것이다. 결국은 혼자 맨 땅에 헤딩을 해야 한다. 


AI 빅데이터 전문가는 말 그대로 자기만의 전문 분야가 있어야 한다. 그러려면 당연히 자신의 흥미와 적성에 맞는 분야를 집중 연구해야 하는데 회사에 취업하는 순간 자신의 의지와는 상관없이 회사가 주는 분야의 업무를 해야 한다. 하기 싫은 분야 연구는 마지못해 억지로 하는데 주변에 알려주는 사람도 없다면 얼마나 답답할까

또한 당신이 원하는 기술을 익힐 수도 없다. 내가 원하는 언어로 코드를 짜고 싶어도 팀원 간에 협업을 요구하기에 특정 언어로 맞추어서 일을 하는 경우가 많다. 


결국은 회사의 이윤 창출에 도움이 되는 연구 또는 기술에 당신이 맞추어질 뿐이다. 그래서 회사에 의존해선 안된다.


그렇다면?

재미가 있으려면 역시 단순 암기보다 공부하며 깨닫는 즐거움이 있어야 하지만 학원이나 학교에서 배우는 교육은 이러한 방식이 되기 어렵다. 학교에서는 한 학기에 12-13회 수업, 학원은 6-8회 수업이 전부인데 온갖 배경의 사람들을 앉혀놓고 한 명 한 명 제대로 이해시키며 AI 빅데이터 공부법을 전수하기란 불가능하다. 어쩔 수 없이 대략적인 알고리즘에 대한 설명과 해당 알고리증이 동작하는 예제 코드를 전달해주는 게 전부다. 물론 이렇게 하며 개론적으로 알고 예쁘게 포장된 예제 데이터에 대해서는 모델을 돌려볼 수 있지만 이것이 전문가가 되게 하는 걸까?


결국은 스스로 공부하는 힘을 길러야 한다!




저자가 추천하는 빅데이터 공부법

기본적인 AI 빅데이터의 개념부터 등장 배경, 특성, 저장 및 처리 기술들에 대해서 한번 쭉 훑어보아야 한다.


외우지 말고 읽고 넘어가자. 여기서 파생된 AI의 등장 및 다양한 활용 사례들도 살펴볼 수 있다. 또한 기계학습, 딥러닝에 대한 간단한 개념과 그 안에 종류가 어떤 게 있는지 정도를 살펴볼 수도 있다. 그 다음에 다양한 활용 사례들을 보면서 실제 비즈니스 환경에서 어떻게 적용되고 있는지도 알 수 있다. 실제 분석 케이스들을 보면서 분석 결과를 이런 식으로 시각화하고 이런 식으로 보고서를 작성하는구나를 느낄 수도 있다.


이런 공부가 잘 되어있어야 재미도 있고 추후에 실제 분석을 하고 결과를 도출할 때에 어느 정도 모방해서 매끄럽게 결과 보고서를 작성할 수 있다.


처음 공부를 시작할 땐 책으로 공부하자

강의나 논문은 중요한 AI 빅데이터 첫 단추에 대한 내용을 잘 알려주지 않기 때문이다. 바로 알고리즘에 대한 세부 설명이나 코딩에 대해서 알려줄 것이다. 초보자 입장에선 많이 어렵기 때문에 책을 고를 때에는 코딩이나 구체적인 알고리즘에 대한 설명이 없는 책을 골라야 한다. 즉 AI 빅데이터의 기본 개념, 저장 및 처리 방식, 활용 사례, 기본적인 분석 기법 등을 망라한 책이 좋다. 그냥 소설 보듯 훑고 지나가면 되지만 이 부분이 실제 현장에서 문제를 발견하고 데이터를 이용한 문제 해결 아이디어를 도출할 때 가장 도움이 된다.


<빅데이터 기초: 개념, 동인, 기법>(시그마프레스) - 이론적인 기술보다는 기업에서 빅데이터에 왜 관심이 있는지, 어떠한 비즈니스 문제를 해결하는 데 도움이 되는지, 이를 위해 기업은 전략적 · 전술적 관점에서 무엇을 해야 하는지, 그리고 톱 매니저, 현업 부서, IT 부서 각자의 역할과 책임은 무엇인지에 대해 기술한다. 후반엔 빅데이터 저장과 분석에 대한 기본적인 개념과 종류들을 간략히 살펴본다.


<인공지능 시대의 비즈니스 전략>(더퀘스트) - AI 기술의 근본이 되는 기계학습의 콘셉트를 쉽게 전달하고, 기업 임직원들에게는 AI 기수를 어떻게 활용하면 비즈니스와 업무에 실질적인 도움이 될지를 구체적으로 이야기한다,


<빅데이터가 만드는 제4차 산업혁명>(북카라반), <빅데이터 비즈니스 이해와 활용>(위즈 하임), <빅데이터 분석과 활용>(학지사) - 이 책들 모두 AI 빅데이터가 실제 세계적인 기업들에서 어떻게 활용되고 어떤 식으로 성과를 도출하고 있는지를 보여준다. 유명하고 성과가 잘 나온 이러한 활용 사례들을 읽어보면서 사고를 넓히고 현장에서 비슷한 문제가 발생했을 때 모방하는 능력을 키워야 한다.


좀 더 깊이 들어가서 실제 데이터 분석 원리와 각 알고리즘에 대해서 알아보자

학교에서도 이 부분을 가르치고 있지만 전반적으로 모든 방법론, 알고리즘을 다 살펴보아야 하기 때문에 양이 많아서 잘 다루지 못한다. 그래도 어렵지 않아서 혼자서 공부해도 절대적인 공부 시간만 확보한다면 충분히 공부할 수 있다.


이 단계에서는 깊이 있게는 아니더라도 꽤 많은 부분을 다방면으로 알아야 한다. 프로그래밍 코드를 숙지해야 하거나 각 알고리즘 원리를 수학적으로 증명, 유도할 필요가 없다, 읽고 이해하고 넘어가면 된다. 조금 이해가 안 돼도 다음으로 넘어가도 된다. 


데이터에 대한 이해가 우선 필요하다.

데이터의 종류는 명목 데이터, 이진 데이터, 순서 데이터, 이산/연속형 데이터가 있다. 명목 데이터는 사물의 기호나 이름과 같은 데이터고 이진 데이터는 0과 1로 이루어진 데이터다. 순서 데이터는 상중하처럼 등급이나 계급이 있는 데이터고 숫자 데이터는 절대 영점을 가지고 있으면 비율 척도 데이터, 없으면 등간 척도 데이터로 나뉜다. 정수형이냐 연속형이냐에 따라서 이산/연속형 데이터로 나누어지기도 한다. 매우 간단한 내용이지만 우리가 분석할 데이터들은 모두 이와 같이 구분할 수 있다. 또한 데이터 유형에 따라 어떠한 분석이 사용되는지 간단히 짚고 넘어가면 좋다. 데이터에 대한 기술 통계도 알아야 한다. 평균, 중윗값, 최빈값, 표준편차와 같은 기초 통계들의 개념과 각 기초 통계들이 어떠한 상황에 쓰여야 데이터를 잘 요약, 표출할 수 있는지 알아야 한다.


데이터 전처리 기술을 익혀야 한다.

보편적으로 많이 사용되는 데이터 전처리 기술들을 읽히고 실제 분석 시 필요한 기술들을 골라서 쓸 수 있어야 한다. 데이터 정제 (결측치 제거 또는 대치, 노이즈 제거), 데이터 통합 (중복 데이터 처리, 복사, 단위 통합), 데이터 축소 (주성분 분석, 속성 선택법), 데이터 변환 (데이터 정규화, 비닝)과 같은 기술들을 익혀야 한다.

각 기술들을 왜 써야 하고 어떠한 상황에 쓸 수 있고 어떠한 방식으로 작동하는지 충분히 숙지해두어야 실제 데이터 분석 시에 자유자재로 구사할 수 있다. 


데이터 분석 알고리즘을 공부해야 한다.

많은 알고리즘이 있기 때문에 빠르게 하나씩 이해하고 넘어가는 게 중요하다. 연관관계 분석, 상관관계 분석, 빈발 패턴 분석, 클래스 분류 분석, 클러스터 분석, 회귀 분석, 아웃라이어 분석 등이 있다. 기본적으로 어떻게 동작하는지 그 원리도 이해해야 다음번에 응용할 때 써먹을 수 있다. 구체적인 알고리즘들을 논문이나 구글에서 검색하기는 번거롭기 때문에 두꺼운 책 한 권을 사서 한 번에 전부 독파하는 게 훨씬 효율적이다. 왜냐하면 알고리즘 수가 꽤 많기 때문에 얇은 책을 사면 중간중간에 빠지는 알고리즘이 적지 않기 때문이다.


보고 이해하는 정도만 되면 충분하기 때문에 연습문제를 풀어볼 필요는 없다.


<데이터 마이닝 개념과 기법>(에이콘출판) - 무려 900페이지에 달해 꽤 두껍지만 이 한 권만 제대로 이해하고 넘어가도 다른 책을 볼 필요가 없을 정도로 많은 내용을 담고 있다. 특히 각 알고리즘을 예제 데이터로 설명해주기 때문에 알고리즘 동작 원리를 쉽게 이해할 수 있다.


<패턴인식>(교보문고) 또는 <데이터 마이닝 기법과 응용>(한나래) - 알고리즘에 대한 수학적인 설명을 자세히 서술한 점이 장점이다. 역시 연습문제를 풀어볼 필요는 없다.


앞에서 언급한 책들은 각 방법론, 알고리즘을 설명하고 간단한 예제 데이터로만 어떻게 동작하는지 알려준다. 하지만 실제 빅데이터 상황에서 쓰인 사례들을 하나씩 살펴보는 것도 큰 도움이 된다. 실제 현장 데이터를 접했을 때 어떤 방법론, 알고리즘을 쓸지 판단할 수 있기 때문이다. '어떤 방법론, 알고리즘이 어떤 실제 빅데이터 사례에서 쓰였는데 지금 내가 분석할 상황과 비슷하니 비슷하게 나도 이 방법론, 알고리즘을 써야지!'라고 판단해야 한다. 이런 감을 익히려면 사례들을 봐야 하는데 사례를 다룬 경우가 책에선 없어서 특정 방법론, 알고리즘이 어떤 방식으로, 어떠한 상황에 쓰였는지를 제안하는 논문을 추천한다. 특정 알고리즘을 고안하거나 제안하는 어려운 논문 말고.


저자는 <지능정보연구>, <한국경영과학회지>, <Information Systems Revies>를 주로 보고 해외 저널은 <IEEE Access>, <IEEE Transactions on Big Data>를 본다고 한다.

관련 저널을 선택할 땐 정보시스템학 계열의 저널을 선택하는 게 좋다고 한다. 수학, 통계학, 컴퓨터 공학, 산업 공학 계열은 특정 알고리즘을 고안해서 제안하는 논문이 대부분이지만 정보시스템학 계열 논문들은 실제 비즈니스 환경에 효과적으로 적용된 사례를 보여주고 해석하려는 특성이 있다.


실력을 높이기 위해 자격증을 준비하라

자격증 취득을 위해서가 아니라 실력을 높이기 위해서 공부하다가 자격증도 따면 좋다는 마인드를 가져야 한다는 사실이다. 자격증도 별로 있지 않고 딴다고 해도 별로 인정받지 못한다. 


저자가 추천하는 자격증은 한국 데이터 산업 진흥원의 '데이터 분석 자격검정', 'SQL 자격검정'과 <한국경제>에서 시행하는 '경영 빅데이터 분석사' 그리고 한국산업인력공단의 '사회조사분석사 필기 시험'이 있다


해당 자격증을 따려면 시행처에서 제작하고 지정한 교재로 우선 한 번 살펴보아야 한다. 그런 다음 시중에 나와있는 기출문제, 예상 문제집을 한 두권 정도 풀면 자격증 취득하는 데에는 큰 문제가 없다. 

자격증을 취득하는데 부담이 없지만 취득보다 취득하는 과정에 더욱 집중해야 한다.


자격증 취득을 위해 제작하고 만든 교재이기 때문에 잘못된 내용이나 필요 없는 내용은 전혀 찾아볼 수 없기 때문에 실무에 꼭 필요한 방법론, 알고리즘을 배울 수 있다. 또한 AI 빅데이터를 위한 경영학적 지식, 방법론 및 알고리즘에 대한 지식, 코딩 지식을 한꺼번에 익힐 수 있다. 얕게 훑는 수준이지만 모두 살펴볼 수 있다는 것이 장점이다. 


'데이터 분석 자격검정'의 교재 <데이터 분석 전문가 가이드>(한국데이터베이스진흥원)와 '경영 빅데이터 분석사'의 교재 <경영 빅데이터 분석사>(한경아카데미)를 보면 빅데이터 분석에 대한 꽤 많은 부분을 익힐 수 있다.

빅데이터에 대한 이해부터 경영학적인 측면에서 어떠한 분야에 어떤 빅데이터 분석이 활용되고 있는지, 데이터의 수집, 전처리 및 저장 기술로는 무엇이 있는지, 각 분석 방법론 및 시각화 방법으로는 무엇이 있는지, R코드로는 어떻게 구현되는지까지 나온고 수학적인 내용은 거의 나오지 않는다. 그러나 시험 범위가 R로 제한되어 있다.

<SQL 전문가 가이드>(한국데이터베이스진흥원)도 좋다. DB 모델링과 쿼리, 최적화에 대한 내용을 꽤 많이 담고 있다. 


'사회조사분석사'는 굳이 실기시험까지 칠 필요는 없다. SPSS 툴을 다루는 시험인데 AI 빅데이터 공부와는 거리가 멀다. '조사방법론 1'은 사회과학적 연구 방법론 및 설문지 작성에 관한 것이기 때문에 건너뛰어도 좋다. '조사방법론 2'와 사회통계 부분은 꽤 도움이 된다. 조사방법론 2는 샘플링, 측정, 데이터 속성에 관해서 다룬다. 사회통계 부분은 기초 통계, 확률, 가설에 대해 다루고 마지막에 통계분석에 대해 다룬다.


이 같은 자격증 공부들의 큰 장점은 빠르고 쉽게 공부를 할 수 있다는 것이다. 그냥 이해하고 넘어가면 된다.

준전문가, 2급 정도만 따두면 된다. 어차피 전문가, 1급을 따도 인정받을 수 있는 곳은 많지 않다.


특히 '데이터 분석 자격검정' , '경영 빅데이터 분석사' 같은 시험은 매우 많은 내용이 중첩되고 다른 자격증도 마찬가지라 한 번에 몰아서 공부하는 것이 좋다. 


Python과 R은 기본이다.

최근 AI 빅데이터 관련한 라이브러리들은 거의 파이썬과 R에 집중되어있다. 파이썬은 빠르고 딥러닝 라이브러리가 풍부한 반면 R은 배우기가 더 쉽고 예쁘게 시각화하는 데 더 유리하며, 기본적인 통계 분석 라이브러리가 더 많다. 더 빠르고 딥러닝 라이브러리가 풍부하고 더 나아가 솔루션으로 개발까지 가능한 파이썬을 배워두는 게 더 좋고 R은 보고서 작성 분석용이나 비교적 소량의 데이터로 기본 통계분석을 돌릴 때 사용하면 좋다.


<파이썬 라이브러리를 활용한 데이터 분석>(한빛미디어)

<파이썬으로 데이터 주무르기>(비제이퍼블릭)

<빅데이터 분석 도구 R 프로그래밍>(에이콘출판사)

<R라뷰>(더알음)


이 책들을 보면서 코드를 일일이 타자에 치기보단 코드를 그냥 이해하고 넘어가는 수준으로 공부하자


수리 통계학을 공부해야 한다

사실 최근에는 라이브러리들이 잘 되어 있어서 함수만 외우면 개념을 모르더라도 간단한 결과 도출은 할 수 있다. 그러나 분석을 하다 보면 파라미터를 수정해주거나 경우에 따라서는 모델 자체를 변형해야 하는 경우가 꽤 있는데 그러려면 알고리즘의 개념과 원리에 대해 알아야 하고 수학은 당연히 필요하다. AI 빅데이터 분석을 위해서 가장 많이 쓰이는 수학은 수리 통계학과 선형대수학이다. 


입문자가 수리 통계학을 공부하려면 미적분을 먼저 알아야 한다. 100강 이상 되는 수리 통계학 강의를 보기보다 책을 보면서 수식이 나오면 연습장에 그대로 따라 적으면서 이해를 하고 이해가 안 되면 조금 더 생각하거나 인터넷에서 해당 개념을 찾아본다. 절대 수식은 외우지 않는다.

각 챕터별 연습문제가 나오면 연습 문제 해답을 펼쳐 놓고 이해하면서 그대로 답을 연습장에 적는다. 이때에 증명이나 유도하라는 문제는 건너뛴다. 예제 데이터 세트를 주고 값을 구하라는 문제 위주로 빠르게 살펴본다. 저자는 <수리 통계학 개론>(경문사)를 추천한다.


딥러닝을 공부해야 한다

전통적인 데이터 마이닝 방법론과 딥러닝을 비교했을 때 훨씬 정확도가 높은 것을 통해 더욱 딥러닝에 대한 관심도 높아질 것이므로 딥러닝도 공부해야 한다. 

딥러닝을 공부하기 위해서는 이론을 먼저 익히고 프로그래밍 언어 실습을 하면 된다. 

저자는 이론을 공부하기 위해 < 딥러닝 제대로 시작하기>(제이펍)를 추천한다.

입문자들에게 경사 하강법, 역전파법, 각종 활성화 함수들에 대해서 수식으로 자세히 설명해 주기 때문이다.

또는 홍콩 과기대 교수로 재직 중인 김성훈 교수가 올린 강의를 인프런에서 무료로 듣는 것도 추천한다. 

그리고 <밑바닥부터 시작하는 딥러닝>(한빛미디어)을 통해 깊게 공부하는 것을 추천하고 딥러닝을 구현하기 위한 라이브러리 중 케라스를 이해하기 위해 <케라스 창시자에게 배우는 딥러닝>(길벗)을 추천한다.


RDB부터 공부해야 한다.

RDB는 우리말로 관계형 데이터베이스인데 아직 대세는 RDB이므로 배워야 한다. 

RDB를 배우면서 Update, Insert, Select, Delete SQL 쿼리와 Where, Join 문 정도는 외워야 한다. 왜냐하면 간단한 프로젝트들은 대부분 AI 빅데이터 전문가에게 DB 구축 및 데이터 적재까지 맡긴다. 따라서 처음부터 테이블을 생성하고 데이터를 하나하나 Insert까지 해야 하는 상황이 꽤 많이 발생한다. 이런 일들에 잘 대처하기 위해서라도 개념을 잘 알고 있어야 한다. 즉 AI 빅데이터 전문가가 되기 위해서는 어느 정도 중급자 수준 이상의 RDB에 대한 지식이 있어야 한다. 물론 너무 큰 프로젝트이면 전문가를 부르면 되기 때문에 신경 안 써도 된다. 


현재 순위로 보았을 때 1-4위인 RDB와 5위인 NO- SQL인 몽고 DB만 배우면 된다.


RDB를 배울 때 <Database Concepts>(Pearson Education)을 쓰자. 이 책으로 기본적인 개념을 다 알 수 있고 영어로 되어 있는 단점이 있다. 


몽고 DB는 <몽고디비 인 액션>(제이펍)으로 공부하면 된다. 



지금까지 AI 빅데이터 전문가가 되기 위해서 각종 이론과 프로그래밍 코드 능력을 연마했지만 이를 제대로 연습하려면 역시 실전 프로젝트를 직접 수행해봐야 한다. 

하지만 당신이 현업에 종사하는 회사원이 아닌 이상 실전 데이터로 연습해볼 수 있는 기회는 흔치 않다. 그리고 현업에 종사한다고 해도 회사에서만 주는 프로젝트의 데이터만 접할 확률이 크다. 


그렇다면 다양한 데이터로 연습하며 실력을 키울 수 있는 방법은 캐글 경연대회가 있다. 

주어지는 데이터 세트는 가상의 데이터 세트가 아니라 실제 비즈니스 환경에서 도출되는 데이터 세트이고 세트에 대한 자세한 설명과 문제 설명까지 주어진다. 처음엔 게시판을 보고 사람들의 도움을 받을 수 있다. 

또한 플랫폼에는 지금까지 열리고 끝났던 경연대회들이 플랫폼에 계속 적재되어 있어서 엄청나게 많은 실전 데이터 세트와 솔루션들이 그대로 저장되어 있고 원하는 사람은 누구나 이것들을 자유자재로 연습할 수 있다.


즉 의지만 있으면 굳이 회사에 입사하지 않아도 다양한 데이터 세트로 웹상의 수많은 사람들과 협업하면서 연구하고 실력을 키울 수 있는 것이다. 그런데 이런 데이터 세트가 CSV형태로 예쁘게 정제되어 있어 RDB나 NO-SQL에서 쿼리를 통해 데이터를 임포트하고 정제하는 과정을 기대할 수 없다. 


회사에 입사하거나 대학원에 진학하기 전에 다양한 분야를 공부해보아야 자신만의 전문 분야를 만들 수 있으므로 캐글 경연대회에서 각 연구분야의 데이터 세트를 직접 만져보면서 실제로 자신에게 흥미가 있는지 느껴보는 게 가장 효율적이다. 꼭 인기 있는 것을 찾는 게 아니라 자신의 흥미에 맞는 부분을 찾는 게 더 중요하다. 만약 흥미 있는 부분이 비인기적이면 부 연구분야로 삼아야 한다. 주 연구분야는 사회가 요구하는 인기 분야이면서 다른 사람들보다 자신이 경쟁력을 가질 수 있는 분야여야 하기 때문이다. 전문가라고 할 수 있을 때 찾는 사람들이 많도록 말이다.


연구분야를 설정할 때 기술적인 측면에서 자신이 재미있고 이해가 잘 되는 분야로 선정한다. 개수는 서너 개 정도로


전문 분야가 생겼으면 서적으로 공부하자

논문을 찾기엔 번거로움이 있어서 책으로 공부하는 게 제일 좋지만 국내엔 책이 별로 없어서 아마존에서 영어 원서를 찾아야 한다. 번역서는 더 잘 이해가 안 되는 경우가 있기 때문에 원서를 찾는 게 정신 건강에 더 좋다고 한다. 책을 고를 때엔 해당 연구 분야에 대한 자세한 설명이 있는 꽤 두꺼운 책을 골라야 한다. <수학의 정석>처럼 역할을 할 수 있도록 하는 것이다. 최대한 상세 알고리즘에 대한 설명이 많고 자세한 수학적 설명이 있는 책을 선택하고 수학적 설명의 이해를 돕기 위해 예제 세트가 함께 있는 것을 고르자.


또한 자신의 관심 있는 언어로 연구 분야의 사례를 설명해 놓은 책을 준비하면 좋다.


이렇게 준비해야 논문을 읽을 준비가 된다. 논문을 읽고 이해하는 것 자체가 진정으로 학자의 길로 들어서는 첫 길목과 같다. 그리고 논문은 새로운 아이디어가 떠오르면 바로 페이퍼로 게재하기 때문에 독자 입장에서는 최신 방법론, 알고리즘을 더욱 빠르게 습득할 수 있다. 책은 시간이 많이 걸리기 때문에 구식 정보인 느낌이라서 더욱 논문을 가까이해야 한다.

논문이라는 것이 원래 이전에 있었던 아이디어들을 적층한 다음 그 위에 더 새로운 아이디어를 얹은 것으로 많이 읽을수록 전문성이 높아지고 새로운 아이디어가 떠오를 가능성도 높아질 것이다. 그리고 기억에 남을 수 있도록 따로 정리를 해야 한다. 저자는 논문 맨 앞에 해당 논문의 핵심을 간단히 적어 놓기도 하고 정말 유용하겠다 싶으면 아이디어 노트에 적어 논다고 한다.


논문은 구글 학술 검색에 치거나 대학교 도서관 포털을 이용하거나 SCI-HUB을 이용하면 구할 수 있다. 논문을 제대로 고를 려면 인용수가 많은 논문을 읽고 게재 연도가 최근인 논문을 고르고 선행 연구 부분이 자세하게 나와있는 것을 골라 선행 연구의 논문을 보는 것이 있다.


책으로도 공부해보았고 캐글에서도 어느 정도 분석을 해본 후 제대로 프로그래밍 언어 실력을 키우고 싶은 사람들은 실전 프로젝트를 다수 경험해 보는 것도 좋다. 회사에 취업하여 3-6개월 공부한다는 마음으로 실제 프로젝트를 해보는 것도 좋다. 또는 프리랜서로 활동하여 프로젝트를 할 수도 있고 자신이 직접 데이터를 수집해서 자체 프로젝트를 수행해볼 수도 있다. 예를 들어 웹크롤링을 이용해 SNS 텍스트 데이터를 수집해서 텍스트 마이닝 프로젝트를 해볼 수 있고 사이트에서 사진을 추출해서 이미지 분석 프로젝트를 해볼 수도, 동영상을 다운받아 영상처리 프로젝트를 해볼 수도 있다.


논문을 보면서 아이디어가 생기면 그것을 논문으로 작성하여 이름을 알려보자

아무리 자신의 아이디어라도 먼저 등록되어 있으면 소용이 없으므로 논문을 쓰기 전 선행 연구를 중요시해야 하고 기존 문헌들을 분석한 후 연구 트렌드와 연구가 부족한 부분을 연구하는 메타분석을 한 논문이 있다면 최근의 연구 동향을 빠르게 파악할 수 있다. 그럼 연구 동향에 맞춰 연구를 하면 된다.


AI 빅데이터 분석을 위한 대부분의 알고리즘들은 프로그래밍 언어상 이미 라이브러리가 잘 되어 있기 때문에 결과가 쉽게 나오고 그런 결과는 획일화되어 있어 경쟁력을 갖기 어렵다. 그래서 저자는 라이브러리 함수에서 저절로 이루어지던 것을 하나하나 직접 코드로 작성하면서 원리와 절차를 하나하나 밟아가는 노력을 꼭 해야만 경쟁력을 갖출 수 있다고 말한다.


또한 두 개 이상의 알고리즘을 순차 결합 또는 동시 결합을 통해 새로운 방법론을 제안할 수 있으므로 굳이 하나만 생각해서 만들겠다고 생각하지 않아도 된다고 한다.


논문을 올릴 때에도 너무 많이 연구가 되었으면 이미 다른 사람이 썼을 확률이 크므로 15-30개 정도의 논문이 있는 키워드를 골라야 한다.




AI 빅데이터에 대해 공부를 마쳤으면 이제부터는 자신을 브랜딩해야 한다. 즉, 자기 자신을 얼마나 잘 알리느냐에 따라 가치가 올라갈 수 있다. 평가할 수 있는 기준이 없기 때문에 자기 하기 나름인 것이다. 자기가 스스로를 얼마나 잘 포장하고 알리느냐에 따라 전문가로 인정받을 수도 있고 못 받을 수도 있다. 


우선 자신이 대단하다고 생각해야 한다. 만약 스스로에 자신이 없으면 어떤 타인이 가치 있게 여길까?

만약 자신감이 없다면 "나는 대단하다. 나는 미친놈이다"라고 외치자

자신감을 가질 때 직관과 통찰력이 생기고 창의적, 분석적인 사고를 함양할 수 있다. 당신이 생각하는 것이 여러 정답 중 한 가지 정답이 된다고 굳게 믿어야 한다.


아무리 뛰어나도 세상이 모르면 허사이기 때문에 각종 SNS 및 온라인 플랫폼을 최대한 활용하여 전문성을 최대한 어필하자. 블로그 또는 홈페이지를 만들어 전문적인 글을 주기적으로 올려라


나 자신이 중소기업 팀이 할 수 있을 정도의 역할을 할 수 있어야 진정한 능력자로 평가될 수 있다. 관련 DB, 서버, UI 같은 지식들은 중급자 수준만 될 정도로 공부해놓으면 엄청난 시너지 효과를 발휘한다.


저자는 이렇게 책을 쓰면서 미래를 계획하는 사람들에게 기회를 준다는 점에서 메신저의 삶을 살 수 있어 기쁘다고 하였다. 필자도 사람들에게 선한 영양력을 끼치면서 함께 살아갈 수 있는 사람이 되고 싶다고 생각하였다.


우리의 자존감은 외적인 요소들에 의해 높아지기보다는 나 자신의 믿음, 신념에 의해서 높아진다. 예를 들어 대기업 공기업 사원, 명문대 출신이라고 자신의 존엄성이 올라가지 않는다. 우리는 우리가 하고 싶은 것들, 자신의 인생에서 성공이라고 생각하는 가치를 이루어 내야 자존감을 얻을 수 있다.


저자는 대기업에 들어갔을 때 명문대 출신인 사람들을 보았지만 매일같이 시달리는 회의, 데일리 보고서, 야근, 회식에 건강을 잃고 이직 또는 그만두고 싶다는 소원을 가지고 살아가는 사람들을 보며 스펙 중심으로 살던 삶을 놓았다고 한다. 그리고 남들은 취업할 때 진로를 찾기 위해서 여정을 펼쳤고 남들은 대기업을 선택할 때 중소기업을 선택하여 실력을 늘렸다. 그래서 AI 빅데이터 전문가가 되었고 한 회사에 소속되어서 매일 같이 출퇴근에 시달리는 월급의 노예가 될 필요가 없게 되었다. 현재 영혼 없이 넋이 나간 얼굴로 휴대폰만 쳐다보고 있고 한 달 동안 영혼을 팔아서 겨우 200-400만 원 버는 사람들에게 저자는 

그 돈에 당신의 영혼을 팔아서는 안 된다. 당신보다 더 가치 있고 소중한 것은 없다. 결코 현대판 노예로 살아서는 안 된다. 푼돈과 현재의 시간을 맞바꾸지 마라. 시간을 잃는다는 것은 미래를 잃는 것과 같다. AI 빅데이터 전문가가 되어 영혼을 파는 일을 이제 멈춰라




남들과 비교하기보다 어제의 나와 비교하자! 
'나는 미친놈이다. 나는 대단하다. 나는 똑똑하다. '라고 되새기면서 긍정적인 말로 나를 만들자.
'나보다 명예가 높은 사람들은 단지 나이가 많기 때문에 그 자리에 있는 것으로 생각해 겁먹지 말자'
아침에 일어나고 자기 전에 명상으로 맑은 정신으로 나의 목표를 뚜렷이 하자
항상 감사하다는 마음을 가지자. 매일 감사하기에도 삶은 짧다
더 이상 우물쭈물하지 말자. 일단 해보자
작가의 이전글 에이트 EIGHT
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari