가을 & 겨울학기: 본격적인 데이터 분석과 머신러닝 시작하기
지난 글을 통해 제가 들었던 보스턴대학교의 MSBA 과정 여름 학기 수업을 소개해 드렸는데요. 이번에는 가을, 겨울학기에 어떤 수업을 들었는지 함께 나누어 보려고 합니다. 가을학기 때는 4과목을 수강했고요. 봄 학기가 시작하기 전 겨울에는 인텐시브 코스로 1과목을 수강했습니다.
우선 Introduction to Data Analytics, 즉 데이터 분석 입문 수업입니다. 여름 동안 파이썬 기초를 다졌다면 이제 본격적으로 파이썬을 활용하여 데이터를 분석하고 인사이트를 찾는 연습을 하는 과정입니다. 탐색적 데이터 분석, Exploratory Data Analysis를 주로 배운다고 생각하시면 됩니다. 이때 가장 중심적으로 배우는 것은 파이썬의 pandas 패키지와 각종 데이터 시각화에 쓰이는 matplotlib과 seaborn입니다. 우선 판다스는 데이터를 읽어 들이고 분석하기 용이하게 정리하는데 최적화된 라이브러리입니다. matplotlib와 seaborn은 막대그래프, 원그래프, 박스 그래프 등 다양한 종류의 그래프를 만드는 라이브러리인데요. 만들 수 있는 그래프의 종류도 다양하고 색상, 그래프 요소 등 디자인도 자유롭게 할 수 있어서 많이 쓰이는 시각화 툴입니다. 팀 프로젝트에서는 이런 라이브러리들을 이용해서 실제 데이터를 분석해보고 이를 통해 비즈니스의 특징을 파악하고 전략까지 수립하는 실습을 진행합니다.
두 번째는 Supervised Machine Learning 수업입니다. 인공지능, AI.. 요즘 매일같이 뉴스나 신문에서 볼 수 있는 말이죠? 기본적인 데이터 분석을 배웠다면 이제 한 층 더 심화된 영역인 머신러닝에 대해 배웁니다. 머신러닝은 인공지능의 한 분야로 기계가 스스로 데이터를 학습해 그 안에서 패턴을 찾아내는 ‘기계학습'을 가리키는 말인데요. 가을학기에서는 이 머신러닝을 2개의 코스를 통해 익힙니다. 첫 번째는 Supervised Machine Learning (우리 말로는 지도 기계학습 정도로 번역할 수 있을 것 같네요) Supervised Machine Learning는 학습의 결과, 쉽게 말하면 함수의 y 값이 정의되어 있습니다. 즉 입력값과 결괏값이 모두 있는 데이터를 활용해 기계가 학습하는 것입니다. 컴퓨터가 각각의 데이터의 독립변수와 종속변수 사이의 관계를 학습하여 처음 보는 독립변수의 조합을 가지고 종속변수를 예측하는 거죠. 이 수업에서는 지도 학습에 사용되는 다양한 알고리즘의 간략한 원리를 이해하고 R이라는 프로그래밍 언어를 활용해 직접 모델을 구축하는 과정까지를 익힙니다. (R은 통계학자들이 개발한 프로그래밍 언어로 앞으로 배울 비즈니스 실험 등의 수업에서도 사용될 예정입니다.)
세 번째 수업은 Unsupervised Machine Learning, 즉 비지도 학습 수업입니다. 비지도 학습은 입력값만 있는 기계학습인데요. 여러 입력값들을 학습하여 패턴을 발견하는 것이 비지도 학습의 목표입니다. 비지도 학습은 군집분석 (clustering), 데이터 축소 (dimensionality reduction), 연관분석 (association rule analysis) 등에 사용됩니다. 비지도 학습 수업에서 또 다른 큰 축을 차지하는 영역은 자연어 처리 (Natural Language Processing)입니다. 실제 비즈니스 환경에서 수집되는 데이터는 어떤 형태일까요? 엑셀 시트처럼 깔끔하게 정형화된 데이터면 정말 좋겠지만 현실은 그렇지 않습니다. 많은 데이터들이 사실 글, 이미지, 동영상 등 수리적으로 쉽게 나타낼 수 없는 비정형 데이터입니다. (쇼핑몰 리뷰를 생각해보세요. 고객이 남기는 후기 글, 별점, 사진 등 정말 다양한 형태의 데이터가 모여있죠?) 그중 많은 분량을 차지하는 언어 데이터를 분석하는 다양한 방법을 배웁니다.
가을학기의 마지막 수업은 Business Experiment입니다. 기업이 가격, 알고리즘, 제품의 특성 등 어떤 의사결정을 할 때, 그 결정의 바탕에는 합리적인 근거가 필요합니다. 요즘에는 많은 기업이 실험을 통해 선택지가 경영적으로 어떤 효과가 있는지를 가늠해 보는데요. 예를 들어 마케터라면 온라인 광고 캠페인을 진행할 때, 여러 광고 문구 중 어떤 문구가 가장 많은 고객의 클릭을 만들어 내는지를 분석하여 캠페인의 효과를 증대하기 위한 전략을 세울 수 있겠지요. 이 수업에서는 비즈니스 실험을 설계할 때 유의해야 하는 점, 실험을 통해 수집한 데이터를 통계적으로 분석하는 법을 배웁니다. 이 과정에서 우버, 에어비앤비 등 실제 기업들의 케이스 스터디는 물론, 조별로 직접 실험을 설계하고 데이터를 수집하여 분석하는 팀 프로젝트 또한 진행했습니다. 개인적으로는 가장 흥미로웠던 수업입니다. 아무래도 한국에서 스타트업에 재직할 때는 이런 비즈니스 실험을 전문적으로 해 본 구성원이 없다 보니 단순히 CPC나 CPA를 비교하는 것이 전부였는데요. 이 수업에서는 단순 비교에서 더 나아가 이 수치가 실제로 통계적으로 유의미한 것인지, 더 의미 있는 결과를 얻기 위해서는 실험을 어떤 규모로 진행해야 하는지 등 제가 현업에서 배우지 못했던 내용도 학습할 수 있었습니다.
이렇게 4과목으로 가을학기를 마무리한 후 새해까지 짧은 방학을 가졌는데요. 방학을 보낸 후, 2022년 1월은 winter intensive semeter로 시작했습니다. 이 기간에는 Data Ethics, 데이터 윤리에 대해 짧고 굵은 수업을 진행했습니다. 아마존이 효율적인 채용을 위해 AI를 도입했으나, 이 AI가 남자 지원자들만 우대한 이야기. 다들 한 번씩 들어보셨지요? 이처럼 저희가 다루는 데이터와 인공지능 알고리즘에는 여러 윤리적 이슈들이 있습니다. 차별, 프라이버시 침해, 머신러닝의 불투명성 등 어떤 윤리적 문제들이 있고 이런 문제들을 어떻게 조금이나마 방지를 할 수 있을지 생각해보는 시간입니다.
이렇게 가을학기 그리고 겨울 인텐시브 코스를 간단히 소개해 드렸는데요. 비슷한 분야 진학을 준비 중인 분들께 조금이나마 도움이 되었기를 바랍니다. 그리고 수업 내용은 매년 교수진에 따라 바뀔 수 있다는 점 꼭 유념해 주세요. 혹시 수업에 대해 궁금한 점이 있으신 분은 댓글로 남겨주시면 제가 아는 선에서는 최대한 답변드리도록 할게요. 그럼 저는 조만간 마지막 봄 학기 수업 소개와 함께 돌아오도록 할게요.