출퇴근길에 공부하는 머신러닝
이번 매거진의 이름은 "출퇴근길에 공부하는 머신러닝"이다. 이를 통해서 머신러닝의 Regression Problem(회귀 문제), Classification Problem(분류 문제), xXplainable Method, Clustering(클러스터링), Dimensionality Reduction(차원 축소), Anomaly Detection(이상 탐지) 알고리즘에 대해서 학습할 예정이다. 오늘은 알고리즘을 알아보기 이전에 왜? 머신러닝이 필요한지, 머신러닝이 산업에서 어떻게 활용되고 있는지, 간략한 머신러닝 프로세스는 어떻게 되는지 살펴보도록 하겠다.
우리 인류는 유례없는 인구급증, 여기에 집집마다 있는 컴퓨터와, 모두의 손에 들려 있는 휴대폰, 산업에 쓰이는 수많은 센서, 그리고 거대 플랫폼 등을 통해서 쏟아져 나오는 빅데이터 시대를 마주했다. 이러한 빅데이터를 잘 활용할 수 있다면, 엄청난 인사이트를 얻을 수 있을 것이다. 그래서 데이터를 정제하고, 원하는 분석을 위한 알고리즘을 통해서 학습을 통해 결과를 도출한다. 이는 각 국가와, 각 기업의 경쟁력이 되었다.
물론 그렇다고 머신러닝이 만능은 아니다. "대량살상수학무기"를 통해서 알 수 있듯이 누가, 어떻게 활용하느냐에 따라서 결과는 달라지게 된다. 생성형 AI가 쏟아져 나오는 지금도, 어떤 데이터를 넣었는지, 그리고 알고리즘을 어떻게 구현하였는지, 성능평가를 어떻게 하는가에 따라서 그 결과는 달라질 것이다. 즉, 생성형 결과에 가치가 반영된다는 것이다. 그래서 머신러닝이 필요하지만 한편으로 AI의 노예가 되지 않기 위해 항상 신경을 써야 할 것이다.
머신러닝은 다양한 산업 분야에서 광범위하게 활용되고 있다.
헬스케어 : 환자 데이터와 의료 영상을 분석하여 병 진단, 질병 예측 및 치료 방안을 제시
금융 : 사기 탐지, 신용 점수 예측, 주식 시장분석 등에 사용
소매 : 고객 선호도 분석, 재고 관리, 추천 시스템 개발 등에 활용
자동차 : 자율 주행 차량의 센서 데이터 분석 및 경로 최적화
에너지 : 에너지 소비 패턴 예측, 에너지 최적화 등에 활용
마케팅 : 고객 세분화, 타깃 마케팅, 광고 효과 예측
제조 : 제품 품질 예측, 공정 최적화, 장비 고장 예측
물론 이외에도 더 다양한 분야에 활용될 것이지만 대표적인 부분만 소개를 하였다.
머신러닝의 프로세스는 다음과 같다.
우선 문제를 정의한다. 그리고 그 문제를 해결하기 위한 데이터를 수집하고, 해당 데이터를 전처리 하게 된다.
데이터 전처리의 경우는 누락된 값, 이상치, 중복 데이터등을 처리하는 데이터 클렌징, 번주형 변수를 수치형으로 변환하거나, 텍스트 데이터를 벡터로 변환하는 데이터 변환, 모든 피처의 스케일을 동일하게 맞추어 학습 성능을 향상하는 데이터 정규화/표준화가 있다.
그리고 이어서 데이터의 특성과 패턴을 파악하기 위해서 다양한 시각화 및 통계적 방법을 사용하고, 데이터에 맞는 모델을 선택하여서 알고리즘을 사용하여 데이터를 학습시킨다.
이렇게 학습된 모델을 교차 검증을 통해서 일반화의 성능을, 테스트를 통해서 모델의 성능을 평가한다.
평가의 결과가 좋지 못하다면 하이퍼파라미터 튜닝, 피처 엔지니어링 등을 통해서 모델의 성능을 최적화시키고 최적의 모델이 만들어졌을 때 배포를 하게 된다.
자 이제 대략적으로 머신러닝이 왜 필요한지, 어떻게 활용되고 있는지, 프로세는 어떻게 되는지 살펴보았다. 다음 시간부터는 본격적으로 머신러닝 알고리즘에 대해서 소개를 하도록 하겠다.