brunch

You can make anything
by writing

C.S.Lewis

by 더슬로우 Mar 23. 2022

[아무튼 린AI] 지도학습

Lean AI

매일 스타트업과 브런치. 180 day


오늘날 디지털 환경에서는 인공지능의 많은 기능이 마케팅에서 핵심적으로 활용된다. 마케팅 목적의 다양한 머신러닝 학습 알고리즘(지도학습, 비지도 학습, 준지도 학습, 강화학습, 딥러닝 등)을 이해한 , 각각의 AI학습 방법이 마케팅이 어떻게 적용될  있는지 알아본다.


recipe 268. 지도학습

지도학습 알고리즘은 적절하게 라벨링된 데이터셋을 이용해 예측 모델을 만들어내는 훈련 방식이다. 함수에 입력된 변수가 개별적인 출력값을 가지므로 새로운 데이터를 분류하거나 라벨링하는 데 적합하다. 일반적으로 사용되는 지도학습 알고리즘으로는 '스팸 메일 분류'가 있다. 입력 변수에서 나온 개별적인 출력 변수로 '스팸'과 '스팸 아닌' 메일을 분류하는 것이다. 분류뿐 아니라 자주 사용되는 지도학습 알고리즘으로 '회귀분석'도 있다.    


출처: https://ellun.tistory.com/106

1. 지도학습의 역할 - 분류 vs 회귀

지도학습에서는 레이블링된 훈련 데이터를 학습하여 모델을 만들고, 레이블링 되지않은 테스트 데이터를 모델에 적용하여 입력된 데이터에 대해서 맞는 답을 찾는다고 앞서 설명하였습니다.


이 때 레이블링된 답이 어떤 형태인지에 따라 모델은 분류 또는 회귀의 방법으로 답을 예측합니다. 먼저 이전 글에서 언급한 개와 고양이 사진 구분의 예시의 경우에는 레이블링된 값(출력값)이 딱딱 떨어지게 서로 구분되는 경우입니다. 이렇게 데이터의 값이 A냐 B냐, C냐 이런 식으로 서로 완전히 구분되면 이것을 범주형 데이터라고 하며, 이렇게 레이블링된 값(출력값)이 범주형 데이터인 경우 학습한 모델은 각각의 값을 구별해 내는 '분류(Classification)'의 역할을 수행합니다.



2. 회귀 분석(선형 회귀(Linear Regression), 로지스틱 회귀(Logistic Regression))

선형 회귀와 로지스틱 회귀는 비교적 간단하면서도 현재에도 데이터 분석이나 연구에 많이 활용되고 있는 알고리즘입니다. 먼저 선형 회귀의 아이디어는 꽤 직관적인데 아래 그림과 같이 임의로 분포한 데이터들을 하나의 직선으로 일반화시키는 것입니다.



많은 자연현상이나 사회현상이 어떠한 요인에 대해 1차 함수 형태로 정비례하는 경우가 많다는 것을 예전 시대의 사람들도 경험적으로 이해하고 있었기 때문에, 지금까지 모아온 데이터들을 통해 두 변수 사이의 관계를 하나의 함수로 일반화하여 미래에 발생할 값을 예측하고자 개발되었습니다.


무려 1800년대까지 거슬러 올라가는 유서깊은 데이터 분석의 원조 격이라고 할 수 있는 방법으로, 영국의 인류학자인 프랜시스 골턴(Francis Galton)이 부모와 자식간의 키 관계를 연구한 사례가 역사적으로 널리 알려져 있으며, 그 경향이 극단적으로 튀는 방향이 아니라 평균적인 수치로 '회귀'한다는 데서 회귀분석이라는 용어가 탄생하게 되었습니다.


이렇게 회귀분석을 데이터의 경향성을 잘 보여주는 직선을 긋는 알고리즘이며, 이 때 아무렇게나 선을 긋는 것이 아니라 최대한 데이터가 선으로 부터 벗어나지 않도록 그어야 좀 더 정확한 경향성을 나타낼 수 있을 것입니다. 따라서 각 데이터 별 값과 직선까지의 거리 분산을 최소화 하도록 직선의 모양을 결정합니다. 이것을 최소제곱법(OLS : Ordinary Least Square)이라고 부르며, 선형 회귀는 최소제곱법을 이용해서 회귀식(직선을 나타내는 1차 함수)을 만드는 것이라고 할 수 있습니다.


프랜시스 골턴의 사례와 비슷한 예시를 들어보면 어떤 연구자가 어린이들이 키가 자라는데 관계되는 요인들이 어떻게 영향을 미치는지 조사하고자 회귀분석을 활용하기로 하고, 아동별로 하루에 음식을 섭취하는 칼로리, 하루에 평균 운동시간, 유전적 요인인 아버지와 어머니의 키 데이터를 확보하였습니다. 그러면 선형 회귀를 통해 다음과 같은 관계식을 얻게 되는 것입니다.


아동의 키 = (0.2 x 칼로리) + (0.1 x 운동시간) + (0.4 x 아버지 키) + (0.4 x 어머니 키) + 0


이렇게 회귀식을 통해 입력되는 값에 따라 최종적인 아동의 키를 예측할 수 있게 되는 것입니다. 위의 식에 따르면 아동의 키에 영향을 주는 입력값 별 가중치가 부모님의 키가 0.4로 유전적인 영향이 가장 강한 것으로 추론할 수 있고 영양상태와 운동시간는 가중치가 각각 0.2, 0.1로 둘 중에는 영양상태가 좀 더 키에 영향이 있다는 것을 시사해줍니다.


이렇게 회귀식은 우리가 이해하기 쉬운 형태로 도출되기 때문에 입력값과 출력값과의 관계를 쉽게 파악할 수 있다는 큰 장점이 있습니다.


하지만 회귀식을 통해 도출되는 아동의 키(출력값)는 실제와는 완전히 똑같을 수는 없고 약간의 차이가 발생하게 되는데, 회귀분석으로 만들어진 모델(회귀식, 1차함수)이 학습한 데이터와 차이가 작을수록 더 정확한 모델이 되고 그렇지 않은 경우 오차가 커지게 됩니다.


또한 선형 회귀는 1차 함수 형태로 나타나기 때문에 출력값이 연속형일 경우에만 적용할 수 있고, 개와 고양이 같이 범주형 데이터에는 적용할 수 없습니다. 그리고 데이터가 1차함수의 형태로 분포해 있지 않으면(2차 함수, 로그 함수 등) 정확성이 떨어집니다. 회귀 분석은 역사가 오래된 만큼 다양한 응용 기법이 있어서 1차 함수 형태로 분포해 있지 않아도 데이터 변환을 통해 직선 형태로 바꿔서 적용할 수 있긴 합니다.  


그 응용기법 중 하나로 로지스틱 회귀(Logistic Regression)이 있는데, 출력값이 범주형 데이터일 경우 사용할 수 있는 방법입니다.



로지스틱 회귀는 로지스틱 함수를 회귀식으로 사용하기 때문에 붙여진 명칭으로, 로지스틱 함수는 오른쪽 위의 빨간색 선과 같이 최소값과 최대값이 특정한 값으로 수렴하고 그 사이는 S자 커브 모양으로 굴곡이 진 모양의 함수를 말합니다. 최소값과 최대값이 수렴하기 때문에 범주형으로 완전히 분리된 값을 구분하기 좋다는 특징이 있습니다.


위의 그림과 같이 출력값이 0과 1로 완전히 분리된 데이터의 경우, 선형 회귀를 하면 파란색 선과 같이 부정확하게 나타나지만, 로지스틱 회귀를 사용할 경우 빨간색 선과 같이 0과 1로 명확하게 구분하는 것을 볼 수 있습니다.


이렇게 회귀분석으로 학습한 모델은 데이터를 분류하거나 일반화하는 데 하나의 선을 활용한다고 이해하시면 되겠습니다.


출처: https://ellun.tistory.com/106 [Ellun's Library]

https://ellun.tistory.com/103?category=276044 가볍게 읽어보는 머신러닝 개념 및 원리 - (2) 지도학습 알고리즘(회귀분석, 의사결정나무, SVM)


특정 요인에 기인한 사용자의 반응을 예측할 수 있는 로지스틱 회귀는 시장조사 도구로서 중요한 역할을 한다. 예를 들어, 고객의 건강 상태를 통해 제품 구매 여부를 예측할 수 있다.



3. K-최근접 이웃 알고리즘(K-NN)

모든 사례가 유사한 측정값을 가진다는 가정하에 수치적 결과를 예측하는 알고리즘이다. K-NN은 사용자 유치 전략이 효과적인지 판단하는 데 사용한다. 고객의 이웃이 구매할 만한 제품 정보를 바탕으로 고객의 신제품 반응을 예측할 수 있으며, 기존 고객과 신규 고객의 반응을 비교해보는 것도 가능하다.


4. 서포트 벡터 머신(SVM)

마케팅에서는 미래나 시스템에 대한 올바른 예측이 항상 필요하다. 서포트 벡터 머신이 그 역할을 한다. 일종의 지도 학습 모델로, N방향 공간에서 초평면을 찾고 데이터 지점을 개별적으로 분류한다. 데이터 마이닝, 지능형 소프트웨어 에이전트, 대량 생산모델, 자동화 모델과 같이 새로운 환경에 대한 결과를 예측할 떄 SVM은 매우 중요하다.



보다 자세한 내용은

출처: Lean AI 에서.    



목표일: 180/365 days

리서치: 268/524 recipes

매거진의 이전글 [아무튼 린AI] API 활용

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari