brunch

매거진 독서노트

라이킷 7 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 변재현 Jul 28. 2024

독서노트 : 1년 안에 AI 빅데이터 전문가가 되는 법

4차 산업혁명 시대의 최고의 직업

https://m.yes24.com/Goods/Detail/87473319

1년 안에 AI 빅데이터 전문가가 되는 법 - 예스24

“지금이 비전공자도 인생을 바꿀 수 있는 최고의 적기다!”연봉 1억 이상, 기업이 모셔가는 데이터 과학자의 공부 전략!AI와 4차 산업혁명의 흐름을 타고 새롭게 떠오르는 직업이 바로 빅데이터

m.yes24.com

2020년 2월에 출간된 『1년 안에 빅데이터 전문가가 되는 법』을 읽었습니다. 이 책은 빅데이터 전문가로서 커리어를 시작하고 싶은 사람들이 어디에서부터 공부를 시작하고, 어떻게 전문성을 키울 수 있는지 알려주는 책입니다. 출간 후 4년 이상 지났지만, 여전히 인사이트를 주는 내용들을 일부 발췌하였습니다.

<AI 빅데이터 전문가란?>

AI 빅데이터 전문가는 복잡한 대량의 데이터를 구조화하고 분석하는 일을 한다. 현대 사회에서는 무한히 많은 데이터들이 홍수처럼 쏟아지고 있다. 우리가 매일 사용하는 문자 메시지, 뉴스 댓글, 상품 후기, SNS 피드들이 모두 하나하나의 데이터가 될 수 있다. 또한 IoT 센서의 발달로 사람이 사용하는 모든 기기에 센서가 장착되어 실시간으로 데이터를 받아볼 수 있다

이제 데이터는 분야를 막론하고 어디서나 보편적으로 쏟아져 나오며 이를 활용하고 대응할 수 있는 능력을 가진 기업만이 살아남을 것이다. 또한 양질의 데이터가 많을수록 뛰어난 모델을 생성할 수 있어 데이터가 곧 부와 직결될 것이다.

한편으로는 데이터에 대한 부익부 빈익빈 현상이 가속화될 수 있다. 양질의 AI 빅데이터 모델을 갖춘 구글, 아마존과 같은 거대 플랫폼에 고객이 몰리면 더욱 이러한 거대 플랫폼에 데이터가 집중되어 점점 더 좋은 모델이 나올 수밖에 없다. 미래는 데이터 확보가 기업의 중요 경쟁 분야가 될 것이다. 그리고 이러한 데이터를 이용해 우수한 모델을 만들고 인사이트를 도출할 다수의 AI 빅데이터 전문가가 필요할 것이다.

<AI 빅데이터 전문가가 되려면?>

만약 제대로 공부해서 스스로의 가치를 S급 AI 빅데이터 전문가로 무장한다면 그 대우는 상상을 초월할 것이다. 실제로 딥마인드와 애플 논문의 비공개 코드를 구현했던 울산의 한 학부생이 졸업 후 연봉 3억 이상에 채용된 사례도 있다.

특히 수학, 통계학, 경영학 지식까지 함께 함양해야 하는 AI 빅데이터 전문가의 특성상 일반 학원에서 코딩 몇 줄 배운다고 절대 전문가가 되지 않는다. 조금 더 자세히 살펴보자. 우선 대학교 과정을 보면 AI 빅데이터 관련 학과는 거의 전무한 상황이다.

데이터 전처리 및 가공 능력은 당연히 필수적이다. 또한 수학, 통계학적 지식이 있어야 이를 응용해 가공된 데이터로 모델을 만든다. 이러한 과정은 다 코딩으로 이루어지는데 파이썬Python, R, 스파크Spark와 같은 언어들이 주로 쓰인다. 각 언어마다 각기 장단점이 있기에 한 가지 언어를 알기보다는 최소 두 개 이상은 구현하는 게 좋다.

분석을 마친 이후에는 결과를 더 잘 알아보기 위해 시각화를 해야 한다. 분석 결과를 보고서로 작성할 때에는 인문학적 언어 능력, 경영학적 능력도 필요하다. 분석 결과를 자동화 솔루션으로 제작하기 위해서는 웹 개발 능력까지 필요하다. 마지막으로 사람들 앞에서 결과를 전할 때에는 뛰어난 의사소통 능력까지 요구한다. 이렇듯 다방면에 엄청나게 많은 지식과 능력이 있어야 AI 빅데이터 전문가로서 어필할 수 있다. 따라서 기업은 말단 사원급을 원하는 게 아니라 최소 과장이나 팀장급 중간 관리자를 원하고 있다

<AI 빅데이터 전문가 프리랜서>

AI 빅데이터 전문가 프리랜서는 현재 굉장히 적다. AI 빅데이터 인력 자체가 많지가 않고 그나마 있는 인력도 어떠한 단체에 소속되어 있는 경우가 많다. AI 빅데이터 전문가들은 대부분 석박사급 인력인데 이들 대다수가 대학원 랩실에 묶여 있다. 대학원에서 교수가 맡기는 프로젝트만 진행해도 바빠 개인적인 프로젝트를 받을 시간이 없다

내 경우에는 100~300만 원 정도 되는 단가의 프로젝트를 한 달에 열 개 넘게 할 때도 있었다. 들어오는 프로젝트의 성격은 매우 다양하다. 대학원 연구실에서 논문 데이터 분석 의뢰를 받는 것부터 공공 기관 자문 보고서, 광고홍보 대행사 SNS 텍스트 데이터 분석, 게임 업체의 게임 데이터 분석, 센서 제작 업체의 센서 데이터 분석, 쇼핑몰의 고객 로그 데이터 분석 또는 고객 상품 추천 서비스, 정부 과제 컨설팅, 정부 과제 용역 등 너무나 다양한 프로젝트를 받는다

기존 알고리즘의 재사용이 가능하다 마지막으로 데이터 분석 알고리즘의 특성상 몇 가지 반복적으로 많이 쓰이는 알고리즘들이 있기 때문에 복사가 가능하다. 즉 A 프로젝트에서 수행한 코드를 조금만 바꾸어서 B 프로젝트에 적용해서 쓸 수 있다는 것이다. 데이터 마이닝 책을 보면 몇 가지 알고리즘이 공통적으로 보인다.

예를 들어 지도 학습, 비지도 학습이 있고 지도 학습에는 분류 분석, 회귀 분석이 있으며 비지도 학습으로는 군집 분석, 연관 규칙이 있다. 그리고 그 아래 세부 알고리즘을 살펴봐도 몇 개 안 된다. 요새 많이 쓰이는 딥러닝도 DNN에서 파생된 RNN, LSTM, CNN, GAN 등 몇 개 쓰이는 알고리즘 안에서 계속 되풀이된다.

그러면 어떻게 전문가로 인정받을 수 있고 어떻게 나 자신을 전문가로 포장할 수 있을까? 자기 PR이 가장 중요하다. 어떻게 자기 자신을 포장하느냐에 따라 전문가로 인정받을 수 있다. 물론 컴퓨터나 수학 관련 학과를 나왔다든지, 석박사 학위가 있으면 유리하다. 하지만 그것이 전부가 아니다. 스펙은 사실상 본인이 꾸미고 만들기 나름이다. 나는 이러한 스펙으로 나 자신을 AI 빅데이터 분석 전문가로 어필한다.

<전문가로서 경력을 쌓아가는 방법>

당신의 전문성을 주변에 최대한 어필하라. 인스타그램 등 SNS 프로필에 자신의 이력과 전문성을 어필하는 글을 올려라. 자신의 블로그 또는 홈페이지를 만들고 전문적인 글을 주기적으로 올려라. 자신을 전문가로 소개하는 명함을 만들고 만나는 사람마다 주어라. 크몽, 오투잡 등 각종 프리랜서 플랫폼에 이력을 올리고 홍보하라. 일거리를 받으면 높은 품질로 완성하고 고객에게 추천 및 평을 써달라고 요청하라. 고객에게 받은 추천, 평가들을 소중히 간직하며 마케팅, 홍보용으로 사용하라.

위의 과정을 그냥 따라하면 어느덧 사람들이 당신을 전문가로 인정해주기 시작할 것이다. 그 순간부터는 순식간에 당시의 입지가 올라갈 것이다. 정말로 회사를 안 다녀도 될 정도로 여기저기서 강연, 컨설팅, 제안서 작성, 분석 의뢰 제의가 들어올 것이다. 그다음부터는 당신의 눈높이에 맞는 일을 적절히 선별하기만 하면 끝이다.

앞에서도 말했지만 AI 빅데이터 전문가가 되기 위해서는 수리통계학적 지식, 코딩 능력, 경영학적 서술 능력을 두루 겸비해야 한다. 그래서 가장 섹시한 학문이고 전문적인 분야이기도 하다. 여기서 경영학적 서술 능력은 배제하더라고 수리통계학적 내용이 수업에 전혀 없다는 것은 사실 문제가 있다.

그렇다면 왜 수리통계학적 지식이 중요할까? 실제 실전에서 데이터 분석을 하게 되면 목적에 부합하는 모델을 직접 선택하고 적용해야 한다. 학원에서는 어떤 모델을 쓰라고 직접 알려주지만 실전에서는 알려주는 선생님이 없다. 자신이 해당 데이터와 분석 목적에 가장 부합하는 모델을 선택해야 하는데 이때 수학적・통계학적 지식이 있어야 어떤 모델을 선택할지 알 수 있다. 때에 따라서는 모델을 조금 변형하거나 여러 모델을 결합해 분석할 때도 많은데 수학적・통계학적 지식이 전혀 없으면 이러한 작업이 이루어질 수 없다.

<현실 속 데이터는?>

자격증 공부할 때는 예쁘게 데이터가 주어졌는데 실전 데이터들은 다 왜 이러냐고 푸념할 수 있다. 하지만 앞으로 점점 더 예쁜 데이터들은 찾아보기 힘들 것이다. 온라인과 SNS 플랫폼의 발달로 이미지, 동영상, 텍스트와 같은 비정형 데이터가 엄청나게 많이 쌓이고 있다. 이러한 비정형 데이터들은 말 그대로 정형화되어 있지 않은 데이터다. 즉, 규격화되어 있지 않은 제멋대로인 데이터인 것이다.

따라서 전문가가 일일이 전처리 과정 또는 규격화 과정을 거쳐야 한다. 사물인터넷의 발달도 데이터 전처리 작업에 더 큰 부하가 걸리게 할 것이다. 사물인터넷 센서에서 실시간으로 나오는 데이터들은 기기의 오작동으로 생긴 결측치 데이터, 이상 데이터, 시간 규격이 맞지 않는 데이터 등의 수많은 문제가 발생할 수 있다.

또한 같은 기계라도 날씨와 고도에 따라 센서 값이 조금씩 다를 수도 있다. 이런 것을 다 반영해 규격화하고 정규화하는 과정이 필요하다. 센서 데이터 같은 경우는 초단위로 데이터가 계속 들어오기 때문에 대용량 데이터에 속한다. 따라서 아파치 하둡이나 스파크를 이용해서 처리해야 하는 경우도 발생한다. 하지만 이런 것들은 자격증을 취득한다고 배울 수 있는 것이 아니다.

<비정형 데이터 분석의 사례>

비정형 데이터(비정형 정보; unstructured data, unstructured information)는 미리 정의된 데이터 모델이 없거나 미리 정의된 방식으로 정리되지 않은 정보를 말한다. 이에 따라 전통적인 데이터베이스의 레코드, 필드 형태의 폼으로 저장하기가 불가능하다. 연구조사에 따르면 전체 데이터 중 약 80퍼센트 이상이 비정형 데이터로 이루어져 있다. 즉, 비정형 데이터를 잘 처리하고 분석하는 능력이 AI 빅데이터 분석가의 핵심 능력으로 평가받을 수 있다.

가장 전형적인 비정형 데이터로 텍스트가 있다. 텍스트 데이터는 신문, 잡지, 책과 같은 전통적으로 방식과 더불어 페이스북, 인스타그램, 트위터와 같은 SNS 기록, 이메일, 인터넷 기사 댓글 등에서 엄청나게 많이 생성된다. 특히 SNS 기록이나 댓글은 여러 사람의 의견을 반영하고 있어 빅데이터 분석에 널리 활용되고 있다.

이러한 비정형 데이터를 이용해 많은 인사이트를 도출할 수 있다. 대표적으로 온라인 쇼핑몰 리뷰를 예로 들어보자. 쇼핑몰의 입장에서 고객의 상품 리뷰는 대단히 중요한 사항이다. 하지만 상품별 모든 리뷰를 일일이 읽어보고 평가하기가 쉽지 않다. 또한 신규 고객의 입장에서도 이전 고객들의 리뷰를 다 읽어보기가 현실적으로 어렵다. 일단 리뷰의 개수가 많아지면 혼자서 이를 다 읽고 기억할 수가 없기 때문이다. 이럴 때에 비정형 데이터 분석을 이용해 빠르게 인사이트를 도출할 수 있다.

<수업만으로는 전문가가 되기 어렵다>

그런데 과연 이러한 세부 연구 분야 하나하나를 학부나 대학원 수업 시간에 알려줄 수 있을까? 절대로 불가능하다. 수업 시간 자체도 부족하고, 학생 수도 너무 많고, 각 학생마다 연구하고 싶은 분야도 제각각이라 불가능하다. 또한 가르치는 교수도 자신의 연구 분야 이외에 다른 연구 분야에 대해서는 잘 모른다. 따라서 실전에서 활동하기 위한 특정 연구 분야에 대한 전문적인 지식을 학부나 대학원 수업에서 함양하기는 불가능하다.

석사, 박사 과정을 하면서 대학원 랩실에 들어가면 그나마 한두 개의 연구 분야에 집중할 수도 있다. 하지만 이도 어려운 게 AI 빅데이터를 연구하는 랩실 자체가 국내에 얼마 없고 들어간다 하더라도 교수의 연구 분야가 내가 연구하고 싶은 분야와 일치하기도 쉽지 않다. 결국 랩실에 들어가면 교수가 하라는 연구 분야를 억지로 하든지 아니면 자신이 연구하고 싶은 분야를 스스로 공부할 수밖에 없는 것이다.

개인적인 경험상 대학원 랩실에 들어가면 각종 잡무에 시달리느라 공부할 시간이 얼마 없다. 교수의 운전기사 노릇부터 각종 서류 작업 처리, 랩실 청소, 수업 조교일, 교수 수업 자료 준비, 각종 세미나 참여 등으로 개인적으로 공부할 시간이 얼마 없다. 내가 경험한 랩실뿐만 아니라 내 주위의 다른 랩실 친구들도 모두 경험하고 있는 것들이다.

<자신만의 전문분야>

AI 빅데이터 전문가는 말 그대로 자기만의 전문 분야가 있어야 한다. 특정 세부 분야에 대해서 깊이 파고, 그 분야의 대가가 되어야 하는 것이다. 그러려면 당연히 자신의 흥미와 적성에 맞는 분야를 집중 연구해야 하는데 회사에 취업하는 순간 자신의 의지와는 상관없이 회사가 주는 분야의 업무를 해야 한다. 심지어 그 분야에 대해서 알려주는 사람도 없이 혼자서 맨땅에 헤딩하면서 해야 한다.

나는 내가 원하는 언어로 코드를 짜고 싶어도 팀원 간에 협업을 요구하기에 특정 언어로 맞추어서 일을 하는 경우가 많다. 사실 언어는 한두 개 정도만 하면 된다. 코딩 능력이 AI 빅데이터 전문가로 인도하는 것은 아니다. 개인적으로 파이썬, R 정도면 충분하다고 생각한다. ‘스파크’는 배우면 좋지만 굳이 공들여 배울 필요는 없다.

또는 자신이 직접 모델을 수정, 개량해볼 수도 있다. 이는 바로 논문 게재로도 이어질 수 있어 뿌듯함이 배가될 수 있다. 하지만 학원이나 학교에서 “어떤 알고리즘은 어떤 상황에 쓰인다”, “실제 사례로 무엇무엇이 있다”, “예제 코드는 이것이다” 등에 대해 듣고 끝나는 수준은 전혀 재미가 없을 것이다. 사실 이런 건 구글만 검색해도 다 나온다. 구글 위키백과에 검색만 해도 알고리즘에 대한 개괄적인 설명은 충분히 읽을 수 있다

결론적으로 자신이 편하고 쉬운 게 무엇인지 파악하고 그것만 하면 된다. 이런 과정을 계속 하다 보면 자신에게 맞는 공부법 및 분야를 발견할 수 있고 이를 계속 갈고닦으면 전문가가 되어 있을 것이다.

AI 빅데이터 전문가가 되기 위해서는 실제 산업 현장에서 나오는 데이터를 이용해 분석해야 한다. 또한 높은 정확도와 예측력을 지니는 모델을 고안하기 위해서 더욱 머리를 짜내야 한다. 이 모든 과정이 평소에 공부할 때 개념과 원리에 집중해야 할 수 있는 부분이다. 실제 현장에서 전문가들이 분석할 때 완전히 새로운 모델 또는 알고리즘을 만들어내지는 않는다. 다들 기존에 있었던 알고리즘에서 시작해서 어떻게 하면 산업 현장의 문제를 데이터를 활용해서 풀 수 있을지 고민한다.

<비즈니스 현장의 문제해결>

마지막으로 전문가에 요구되는 가장 중요한 능력 중에 하나가 비즈니스 현장의 문제를 인식하고 데이터가 주어졌을 때 주어진 데이터로 어떻게 비즈니스 문제를 풀 것인가 고민하는 능력이다. 흔히 문제 인식은 데이터 분석의 첫 단추로 불리고 가장 중요한 선행 단계로 분류된다. 이 단계에서 큰 숲을 잘 정리하고 세부적으로 데이터 분석을 실행해나가야 한다. 그렇지 않고 제대로 된 문제 인식 없이 처음부터 이상한 방향으로 분석을 시작하면 아무리 분석을 열심히 해도 실제 비즈니스 현장에는 쓸모가 없다.

예를 들어서 제조업 분야의 AI 빅데이터 분석 프로젝트를 진행한다고 해보자. 제조업 종사자가 아니면 사용하는 용어도 생소하고, 데이터를 이해하기 위해서는 데이터의 흐름 파악이 필요한데 이는 해당 제조업의 공정 흐름이 파악되어야 하는 부분이다. 따라서 우선 해당 비즈니스 도메인에 대해서 빠르게 이해하고 해당 도메인이 처한 문제점 및 목표점을 파악해야 한다. 그런 다음에 주어진 데이터를 이해하고 분석 모델을 세우기 위한 데이터 및 알고리즘을 제시해야 한다. 그다음 단계가 구체적인 코딩, 분석, 결과 해석 단계가 될 것이다.

데이터 마이닝에서 주로 배우는 기계학습을 이용한 분류, 회귀, 군집 또는 연관 규칙, 빈발 패턴 분석, 아웃라이어 분석과 같은 것들은 대단히 어려운 수학적인 지식이 필요한 게 아니다. 또한 어차피 프로그래밍 언어에서 라이브러리 함수가 수행해주기 때문에 직접 수학 공식을 풀거나 증명할 필요도 없다. 읽어보고 이해한 다음에 바로 넘어가면 된다. 대부분 이해가 되겠지만 혹여나 몇 가지 이해가 안 되더라도 크게 문제가 없다.

우선은 그냥 넘어가도 된다. 이 단계에서는 깊이 있게는 아니더라도 꽤 많은 부분을 다방면으로 알아야 한다. 프로그래밍 코드를 숙지해야 하거나 각 알고리즘 원리를 수학적으로 증명, 유도할 필요는 없다. 읽고 이해하고 넘어가면 된다. 조금 이해가 안 돼도 다음으로 넘어가도 된다. 아무튼 절대적인 공부할 시간만 확보한다면 혼자서 공부할 수 있는 단계다. 대부분의 대학의 데이터 마이닝 개론 수업이 이번 장에서 설명할 단계를 다루는데 개인적인 의견으로는 혼자서 공부하는 게 더 꼼꼼히 살펴볼 수 있어 좋다고 생각한다.

<데이터에 전처리 기술>

다음으로는 가장 중요한 내용 중 하나인 데이터 전처리 기술을 익혀야 한다. 데이터 분석에서 가장 오랜 시간과 에너지가 요구되는 부분이 전처리 부분이다. 보편적으로 많이 사용되는 데이터 전처리 기술들을 익히고 실제 분석 시 필요한 기술들을 골라서 쓸 수 있어야 한다. 데이터 정제(결측치 제거 또는 대치, 노이즈 제거), 데이터 통합(중복 데이터 처리, 복사, 단위 통합), 데이터 축소(주성분 분석, 속성선택법, 샘플링), 데이터 변환(데이터 정규화, 비닝)과 같은 기술들을 익혀야 한다.

어떤 기술들을 무조건 해야 한다는 법칙은 없지만 각 기술들을 왜 써야 하고 어떠한 상황에 쓸 수 있고 어떠한 방식으로 작동하는지 충분히 숙지해두어야 실제 데이터 분석 시에 자유자재로 구사할 수 있다. 여기에서 수학적인 내용은 아예 필요 없거나 간단한 지식 정도만 필요하다. 물론 주성분 분석 같은 경우는 고유 벡터, 고유 값에 대한 지식이 필요하다. 선형대수학을 공부하지 않았으면 사실 이해가 안 될 수도 있는 부분이다. 하지만 큰 문제는 없다. 이해가 안 되더라도 주성분 분석이 어떠한 상황에 쓰이고 왜 쓰이는지만 알면 된다. 어차피 실제 구현은 프로그래밍 언어 라이브러리상 함수가 다 해주기 때문이다.

<분석 알고리즘>

데이터 분석 알고리즘 다음으로는 실제 분석 알고리즘에 대해서 공부를 해야 한다. 꽤 많은 분석 알고리즘들이 있기 때문에 빠르게 하나씩 이해하고 넘어가는 게 중요하다. 연관관계 분석, 상관관계 분석, 빈발 패턴 분석, 클래스 분류 분석, 클러스터 분석, 회귀 분석, 아웃라이어 분석 등이 있다. 또한 각 분석들을 세부적으로 살펴보면 수많은 알고리즘이 있다. 예를 들어 클래스 분류 분석은 의사 결정 나무, 서포트 벡터 머신, 베이즈 분류, 랜덤포레스트, 배깅, 부스팅, KNN, 피드포워드 신경망, 퍼지 세트 등 수많은 알고리즘이 있다.

목적은 다 같은 클래스 분류이지만 각 알고리즘이 지니는 목적과 장단점이 서로 다르기 때문에 알아두어야 한다. 또한 기본적으로 어떻게 동작하는지 그 원리도 이해해야 다음번에 응용할 때 써먹을 수 있다. 구체적인 알고리즘들을 논문이나 구글에서 검색해가며 찾아보기에는 꽤 번거롭다. 따라서 두꺼운 책 한 권을 사서 한 번에 전부 독파하는 게 훨씬 효율적이다. 왜냐하면 알고리즘 수가 꽤 많기 때문에 얇은 책을 사면 중간중간에 빠지는 알고리즘이 적지 않기 때문이다.

실제 현장 데이터를 접했을 때 어떤 방법론, 알고리즘을 쓸지 판단할 수 있기 때문이다. 물론 각 방법론, 알고리즘의 목적 및 장단점만 이해하고도 현장 데이터와 맵핑할 수 있다면 좋겠지만 그렇게 할 수 있는 전문가는 많지 않다. 보통은 ‘어떤 방법론, 알고리즘이 어떤 실제 빅데이터 사례에서 쓰였는데 지금 내가 분석할 상황과 비슷하니 비슷하게 나도 이 방법론, 알고리즘을 써야지!’라고 판단하는 전문가가 더 많다. 이러한 감을 익히려면 다양한 사례를 먼저 읽어보아야 한다. 예를 들어 논문을 쓰더라도 먼저 선행 연구를 하게 되는데 이전에 비슷한 사례들을 기반으로 내가 쓸 논문이 조금 더 공헌하는 게 있으면 그것이 논문이다.

<수학이 필요한 경우>

분석을 하다 보면 파라미터를 수정해주거나 경우에 따라서는 모델 자체를 변형해야 하는 경우가 꽤 있다. 그러려면 무엇보다 알고리즘의 개념과 원리에 대해서 알아야 하는데 당연히 수학이 들어가기 마련이다. AI 빅데이터 분석을 위해서 가장 많이 쓰이는 수학은 수리통계학과 선형대수학이다. 사실 선형대수학도 공부해야 한다. 하지만 수학을 싫어하는 사람들에게 선형대수학까지 강요할 수는 없으니 그나마 조금 쉽고 더 기본이 되는 수리통계학이라도 배우면 좋을 듯하다.

그러면 수리통계학이란 무엇인가? 위키백과를 찾아보면 “통계학의 수학적 이론으로 확률모형, 통계적 추정 이론과 검정 이론, 계산 알고리즘의 성질 등을 탐구하는 학문”이라고 나와 있다. 내가 생각하는 수리통계학은 확률과 분포에 대해서 많이 다루는 학문이다. 그리고 이러한 확률과 분포가 실제 데이터 마이닝 알고리즘에 굉장히 많이 쓰이고 있다.

<데이터 분석 논문을 읽어야 하는 이유 + 작성 팁>

논문을 읽고 이해하는 것 자체가 진정으로 학자의 길로 들어서는 첫 길목과 같다. 논문은 책과 달리 저자들이 새로운 아이디어가 떠오르면 바로 페이퍼로 게재하기 때문에 독자 입장에서는 최신 방법론, 알고리즘을 더욱 빠르게 습득할 수 있다. 반면 책은 연구자가 한 가지 아이디어가 떠오른다고 바로 출간할 수 없다.

논문 다독으로 진정한 한 분야의 전문가가 되자 어느 정도 많이 논문을 읽어야 진정한 한 분야의 전문가가 될 수 있을까? 소위 공학 박사 학위 논문을 쓰려면 연구 분야에 관한 논문을 1,000개 읽어야 한다는 말이 있다. 과학적으로 입증된 사실은 아니지만 다수의 학자, 교수들이 공감하는 말이다. 그만큼 논문을 많이 읽는 게 중요하다.

왜냐하면 결국 전문가라는 게 남들보다 많이 알고, 많은 아이디어를 지니고 있는 사람인데 그만큼 많이 알려면 남들의 지식과 아이디어를 많이 읽고 참고해야 하기 때문이다. 그래야 비슷하지만 조금 변형된, 혹은 같지만 새로운 분야에 적용한, 또는 몇 가지 방법론 및 알고리즘을 혼합한 새로운 아이디어를 도출할 수 있다. 이는 남의 아이디어를 베끼는 표절과는 다르다.

논문이라는 것이 원래 이전에 있었던 아이디어들을 적층한 다음 그 위에 더 새로운 아이디어를 얹은 것이다. 그래서 항상 논문에는 선행 연구 부분이 있는 것이다. 즉, 무에서 유를 창조하는 것은 없다. 다른 사람들이 쌓아놓은 지식 위에 내가 조금 더 지식을 쌓으면 그것이 논문이고 그것이 새로운 아이디어다. 많이 읽을수록 당신의 전문성이 높아지고 새로운 아이디어가 떠오를 가능성도 높아질 것이다.

논문은 많이 읽으면 읽을수록 좋다. 그렇다고 무작정 1,000개를 그냥 읽기만 하면 될까? 그러면 아마 1000개를 다 읽었다고 하더라도 기억이 나지 않을 것이다. 따라서 나름대로 읽으면서 따로 정리를 해야 한다. 나는 크게 세 가지 방법으로 정리한다. 내가 하는 방법을 추천하자면 우선 논문을 한 개 읽으면 다 읽고 나서 논문 맨 앞표지에 해당 논문의 가장 핵심적인 아이디어를 간단히 몇 줄로 요약한다. 이렇게 해두면 나중에 해당 논문이 무슨 내용인지 기억하기 위해 처음부터 볼 필요가 없다.

또한 논문을 읽다가 이 아이디어는 정말로 요긴하게 쓸 수 있겠다 생각하는 것은 나만의 아이디어 노트에 따로 정리해둔다. 마지막으로 인용이 많이 되었거나 해당 연구 분야에서 핵심적인 아이디어를 제안했던 논문들은 따로 워드 테이블로 정리해둔다. 테이블은 간단히 저자, 제목, 연도, 연구 목적, 연구 방법 정도로 정리하면 된다. 그리고 정리할 때에는 따로 노란 봉투에 넣어두든지, 노트를 만들든지, 테이블을 만들든지 무조건 연구 분야마다 분리해야 한다.

또는 메타분석을 한 기존 논문을 읽으면 최근의 연구 동향을 더욱 자세히 빠르게 파악할 수 있다. 메타분석이란 기존 문헌들을 분석한 후 연구 트렌드와 연구가 부족한 부분을 연구하는 방법이다. 따라서 자신이 연구하려는 연구 분야에 대해서 메타분석을 한 논문이 있으면 그야말로 고마운 일이다. 그냥 그 논문 하나만 읽어도 논문 안에 모든 것이 정리되어 있다.

논문을 작성하기 위해서는 데이터 분석 실험이 있어야 하는데 그러려면 데이터 수집이 필수다. 만약 프로젝트를 수행한 이력이 있고 프로젝트를 위임한 기관에서 동의해주었다면 해당 프로젝트 데이터 분석 결과를 논문으로 쓰는 게 가장 좋다. 데이터 자체도 상당히 큰 경쟁력이라, 희소하고 좋은 품질의 데이터만 있어도 논문을 쓸 수가 있다. 왜냐하면 해당 도메인의 데이터로 분석을 도출한 기존 연구가 없으면 이 또한 새로운 공헌이 될 수 있기 때문이다.

그러나 프로젝트를 수주할 만한 경력도 없는 초보자들은 데이터를 스스로 찾는 수밖에 없다. 가장 좋은 방법은 웹상에서 데이터를 가져오는 것이다. 우선 웹크롤링을 통해서 수집할 수 있다. 특히 텍스트 마이닝 분야로 논문을 쓸 때에는 웹크롤링만으로도 매우 다양한 논문을 쓸 수 있다. SNS, 웹 포털에 실시간으로 너무나 많은 글들이 올라온다. 주제만 바꾸어 검색하고 크롤링하면 새로운 데이터가 될 수 있다. 또한 자신이 쓰려는 연구 주제에 대해서 공신력 있는 연구 기관이 테스트 데이터 세트로 제작한 데이터가 있을 수 있다.

<자기 홍보>

그러면 홍보는 어디에다 하면 될까? 각종 SNS 및 온라인 플랫폼을 최대한 활용해야 한다. 당신의 전문성을 최대한 어필하라. 인스타그램, 링크드인, 카카오톡 프로필에 자신의 이력 또는 전문성을 알릴 수 있는 글을 올려라. 자신의 블로그 또는 홈페이지를 만들고 당신 분야의 전문적인 글을 주기적으로 올려라. 자신을 전문가라고 소개하는 명함을 만들고 만나는 사람들마다 주어라. 크몽, 오투잡, 위시켓과 같은 각종 프리랜서 플랫폼에 이력을 올려라. 그리고 AI 빅데이터 분석 관련한 컨설팅, 코딩, 보고서 작성을 해주겠다고 홍보하라.

AI 빅데이터 분석 관련 일을 하다 보면 다양한 작업 의뢰를 받게 된다. 핵심은 주어진 데이터로 AI 빅데이터를 적용한 모델을 생성해서 인사이트를 도출하는 것이지만 방법이나 산출물의 형태가 매우 다양하다. 예를 들어 가장 단순한 형태로는 엑셀의 CSV 형태로 데이터를 주고 이를 이용해서 분석한 결과를 리포트 형식으로 제출하는 것이다. 주로 학교 논문이나 마케팅 회사에서 시장조사를 원할 때 이러한 형식의 용역을 준다.

<자존감>

흔히들 자존감을 능력 있는 사람만 가질 수 있는 거라 생각한다. 그래서 내가 자존감이 높은 이유도 내가 학력이 괜찮고 능력이 좋아서 그렇다고 주변 사람들이 말하곤 했다. 하지만 자존감은 능력에 비례하지 않는다. 나 자신을 대단하다고 생각하고 항상 좋아하고 행복한 것을 도전하며 살면 자연히 능력이 그에 따라오게 되어 있다. 즉 자존감을 먼저 가지면 능력은 자연스레 수반되는 것이다.

특히 AI 빅데이터 전문가는 자존감을 갖기에 최적의 직업이다. 전문가가 부족하기에 조금만 노력하면 얼마든지 전문가로 발돋움할 수 있고 일할 수 있는 포지션도 워낙 다양해 자신이 원하는 형태로 일하기도 쉽기 때문이다. AI 빅데이터 전문가가 되기로 마음먹었다면 자존감을 높여라. 그리고 세상이 원하고 강요하는 삶이 아니라 자신이 행복할 수 있는 방식으로 일을 해라. 당신을 원하는 곳이 워낙 다양하기에 충분히 그럴 만한 자격이 있다. 취업 안 해도 괜찮다. 월급의 노예로 살 필요가 없다.

나는 AI 빅데이터 전문가다 나는 항상 마음속으로 외치는 버릇이 있다. ‘나는 미친놈이다’, ‘나는 대단하다’, ‘나는 똑똑하다’와 같은 긍정적인 말을 항상 반복해서 외친다. 두려울 때마다 더 외친다. 사회적으로 지위가 높은 사람들과 미팅을 할 때에는 더더욱 외친다. 아무리 사회적으로 지위가 높다 해도 단지 나보다 나이가 많아서 저 위치에 있는 것이지 내가 더 대단하다고 마음먹고 만난다. 이러한 자세는 자신감으로 나타난다. 그리고 자신감에서 우러나오는 말들을 듣고 다른 사람들이 나를 전문가로 인정해주기 시작한다.

keyword