5주차 - 탐색적 데이터 분석 및 파이널 프로젝트
국비지원교육 데이터분석 강의가 어느덧 마지막 주차에 돌입했다. 처음 시작했을 때는 새로운 것을 배운다는 기대 절반 그리고 내가 이걸 제대로 이해할 수 있을까 하는 불안감을 절반쯤 안고 출발했는데, 그래도 잘 짜여진 커리큘럼과 강사님의 자세한 설명 덕분에 여기까지 올 수 있었던 듯 싶다. 마지막 5주차인 만큼 실제 데이터를 활용하여 탐색적 데이터 분석과 파이널 프로젝트를 진행했다.
EDA는 Expoloratory Data Analysis의 약자로 탐색적 데이터 분석이라는 의미다. 데이터 분석의 문외한으로써 가장 낯설고 신기한 영역이었고, 동시에 그만큼 데이터 분석 전문가들의 심정을 이해할 수 있는 영역이었다. 비전문가로서 막연히 상상했던 데이터 전문가의 업무란 상당히 많은 부분이 자동화되어 있기 때문에 사람이 개입하는 부분은 매우 적을 것이라고 생각했다.
그런데 얕은 수준이니마 EDA에 대해 배워보니 이런 내 생각이 틀렸음을 알게 됐다. 결국 데이터를 이해하고 분석하는 것은 사람의 몫이었고, 분석하고자 하는 데이터의 성격이나 종류, 데이터 분석을 통해 얻고자하는 정보에 따라 천차만별 달라진다는 점이 매우 흥미로웠다. 어찌보면 데이터 분석 전문가 각자의 노하우와 역량이 발휘되는 영역이라고 할 수 있다.
그래서 나 역시 어설프나마 데이터 분석 전문가들과 마찬가지로 EDA를 따라해봐야 했고, 3가지 실제 케이스를 놓고 아래와 같은 부분을 중점적으로 고민해야 했다.
분석의 목표 - 해당 데이터를 보고 어떤 인사이트를 이끌어 내고 싶은지?
분석 방법론 - 데이터에 대한 여러가지 특성을 어떻게 파악하는지?
분석을 위한 프로그래밍 - 이 때까지 배운 오픈소스 라이브러리들을 사용하여 EDA를 어떻게 수행하는지?
EDA를 위한 실습 케이스는 총 3가지였다. 캐글에서 찾을 수 있는 스타벅스 고객 설문 데이터 샘플과 역시 캐글에서 찾을 수 있는 머신러닝&데이터 사이언스 사용자 설문조사 자료, 그리고 우리나라 공공 데이터 포털에서 찾을 수 있는 소상공인시장진흥공단의 상가, 상권 정보 자료다.
단순히 샘플 데이터가 아니라 실제의 데이터를 사용해서 실습한다는 점이 매우 만족스러웠다. 특히 3번째 실습 자료인 공공 데이터 포털의 상권 자료는 실제 현업에서도 자주 참고하는 자료이기 때문에 앞으로 실제 업무에서 데이터 분석이 필요하다고 할 때 그 과정과 결과에 대해 경험해본 것이 큰 도움이 되리라 생각한다.
대망의 파이널 프로젝트는 실습용 데이터였던 스타벅스 고객 설문 데이터를 이용해 EDA를 진행해보는 것이었다. 지금까지 배운 데이터 분석의 방법론과 파이썬의 프로그래밍 및 라이브러리에 대한 지식을 총 동원해야하는 내용인 만큼 빈말로라도 쉽다고는 할 수 없었지만 매우 깊이 있는 내용이었고, 지금까지의 교육 과정을 되짚어볼 수 있는 과제였다.
이렇게 2022년의 마지막을 빅데이터 분석 강의와 함께 개인적으로는 매우 의미있게 마무리하게 됐다. 진짜 전문가에 비하면 이제 겨우 첫발을 내딛은 비전문가 햇병아리지만 언젠가는 배운 지식을 현업에서 사용해보고 싶다는 생각이 들었다. 그와 더불어 처음 접해본 아주아주 매력적인 프로그래밍 언어, 파이썬도 계속 공부해보고 싶다는 생각이 드는 강의였다. 2023년에도 무언가 계속 배워나가는 사람으로 남고 싶다.
#패스트캠퍼스 #내일배움카드취업 #국비지원교육 #K디지털기초역량훈련 #빅데이터분석첫걸음시작하기 #데이터분석강의 #새벽공부 #공부일기 #자기개발