brunch

You can make anything
by writing

C.S.Lewis

by 알바트로스 May 26. 2022

AI 부트캠프에서 얻은것들

DT(디지털 트랜스포메이션) 시대에 살아남기

1. 디지털 트렌스포메이션


빅데이터, AI, 클라우드 컴퓨팅, IoT(사물 인터넷), Web 3.0... 이들 단어의 공통점은 무엇일까? 바로 이들 모두 DT(Digital Transformation)에 빼놓을 수 없는 필수 요소들이라는 점이다. '디지털 전환'을 뜻하는 DT라는 말은 어휘 그대로 '모든 것을 디지털화' 한다는 의미를 내포한다.



이해를 돕기 위해 위의 단어들을 지나치게 단순화(oversimplify) 해서 설명해 보겠다. SNS와 e-commerce를 비롯한 온라인 생태계의 확장과 각종 센서의 발전(IoT)으로 데이터가 주체할 수 없을 정도로 쌓여 만들어 진 것이 '빅데이터'다. 그렇게 쌓여가는 빅데이터를 보관하는 여러 기술을 망라한 것이 바로 '클라우드 컴퓨팅'과 'Web 3.0'이며, 그렇게 확보한 데이터를 컴퓨터가 스스로(혹은 약간의 사람의 도움을 받아) 분석하고 의미있는 결론을 도출하게 도와주는 것이 바로 'AI(Artificial Intelligence)'인 것이다. 이 모든 과정을 거쳐서 세상 모든 것들을 숫자화 즉 디지털화 하겠다는 것이 바로 ‘DT(Digital Transformation)’다.


데이터를 저장하고 가공하여 분석하는 기술이 발달하면서 우리는 그야말로 '모든 것'이 디지털화 되는 시대에 살고 있다. 음악(작곡), 언어(번역 및 감성분석), 영상(cctv와 자율주행)은 컴퓨터가 수치화 하여 이해하기 비교적 수월한 분야로, 꽤나 오래전부터 인간의 전유물이 아닌것이 되었다. 이제 인공지능 작곡가와 번역사는 더 이상 전혀 새롭지도 참신하지도 않다. 최근 코로나로 핫해진 '메타버스'나 '비대면'이라는 키워드는 '공간'과 '만남'이라는 개념마저 데이터로 바꿀 수 있는지 시도하고 있다. 다음은 무엇일까? 혹시 우리가 먹는 음식이나 시원한 공기나 냄새도 데이터화 할 수 있지는 않을까? 이론상 DT(Digital Transformation)의 영역과 정도에는 제한이 없는 것 같다.


지금도 살고있고 앞으로도 살게될 '디지털 트랜스포메이션'의 시대를 이해하고, 그 속에서 나만의 영역을 구축하고 기회를 잡고 싶었다. 그래서 AI와 빅데이터라는 새로운 분야를 공부하기 시작했고, 이제 어느덧 4개월이 넘는 시간이 흘렀다. AI 부트캠프에서 공부를 하며 Python을 통한 데이터 전처리 및 EDA,통계학과 선형대수학,데이터엔지니어링,머신러닝(ML),딥러닝(DL) 등 데이터를 저장하고 가공하여 궁극적으로 원하는 곳에 활용하기 위한 폭넓은 지식을 배우며, 'AI 빅데이터 전문가'로 발돋움할 최소한의 준비를 마친 것이다.


2. 네번의 프로젝트


지난 4개월동안 나는 총 네번의 프로젝트를 진행하였다. 첫번째 프로젝트에서는 주어진 '글로벌 게임시장의 판매현황 데이터셋'을 통해 게임시장의 현상황를 분석하고, 앞으로 글로벌 게임 시장에서 성공하기 위해서는 어떤 장르와 성격의 게임을 출시하면 좋을지 제안했다. 해당 프로젝트에서는 데이터 EDA와 전처리(결측치 확인및 제거, 데이터 가공 등)를 거쳐 데이터를 시각화 하는 과정을 주로 다루었다.


두번째 프로젝트에서는 머신러닝(Machine Learning) 모델을 사용하여 평소 관심있는 분야였던 '스타트업 성공예측 모델'을 만들었다. 첫번째 프로젝트에서와 마찬가지로 EDA, 전처리, 데이터 시각화 과정을 거쳐서 이진분류 머신러닝 모델인 Xgboost와 Randomforest를 활용하여 특정 기업의 '성공','실패'를 예측하는 간단한 모델을 만들었다. 이 과정에서 스타트업 기업에서 일하면서 획득한 도메인 지식을 통해 나름의 가설을 세워보았고,  모델의 예측 결과와 '특성 유사도(Feature Extraction)'를 통해 도출된 결과와 비교해 보았다.


Project 2 : SHAP을 활용한 Feature Extraction


세번째 프로젝트에서는 필요한 데이터를 직접 클라우드 베이스 SQL 응용 프로그램에 저장하여 '데이터 파이프라인'을 구축해 보았고, 평소 개인적으로 관심있던 'AI 당뇨병 예측'을 주제로 간단한 앱을 만들어 배포까지 해보았다. 이 과정을 통해 Docker, Heroku, Flask 등 다양한 앱의 사용법을 익힐 수 있었고, 직접 머신러닝 모델을 구현하여 앱을 배포하면서 의미있는 결과를 도출해낼 수 있었다.


Project 3 : 데이터 파이프라인 개요


마지막으로 네번째 프로젝트에서는 딥러닝(Deep Learning)과 '인문학'의 만남을 주제로 프로젝트를 진행했다. 딥러닝 분야에서는 자연어 처리로 널리 알려진 NLP(Natural Language Processing)를 통해 저명한 철학자들의 문장 약 30만개의 감성분석(Sentiment Analysis)를 시행하였고, 철학자들의 문장을 컴퓨터가 인식할 수 있도록 불용어 처리와 lemmatization 등의 전처리를 거친 후 Tf-idf를 통해 벡터화를 진행한 후 코사인 유사도(Cosine Similarity)를 통해 사용자의 기호에 맞는 유사한 철학자를 추천해주는 추천시스템을 만들어보았다.


Project 4 :  간단한 추천 시스템


3. 얻은것들


지난 4개월간 프로젝트와 학습에 몰입했던 경험은, 다소 모호하고 뜬구름 잡는 소리처럼 느껴질 수 있는 빅데이터와 AI라는 영역을 훨씬 더 간결하고 실존적인 무언가로 만들어 주었다. 이제 나는 원하는 데이터를 스스로 수집해서 저장하고 가공하여 활용할 수 있게 되었고, 인공지능이 할 수 없는 것들과 할 수 있는 것들을 구분할 수 있게 되었다.


AI/빅데이터 전문가의 출발선에 선 나는 무엇을 할 수 있을까? 확실한 것은 모든 것이 디지털화 되어가는 시대에 일어나는 일들을 단순히 나와는 상관없는 먼 세계의 일이라고 방관하며 수동적으로 살아가기 보다는 변화를 구체적으로 상상하고 느끼며 그 속에서 기회를 포착하는 짜릿한 삶을 살아가고 싶다는 것이다. 

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari