데이터를 분석하는 방법들에 대하여

지도 학습, 비지도 학습, 준지도 학습은 무엇일까?

Sep 16. 2022

처음 데이터를 담당 업무를 하게 되었을 땐 마음이 가뿐했다. 워낙 요즘 대세이고 어디든 다 쓰이는 분야라 막연히 재미있을 것 같았다. 막상 본격적으로 기획 업무를 진행하니 뭘 분석한다고 하는데 그게 진짜 가능한 일인지 의구심이 들고, 어떻게 가능한 것인지 스스로 납득이 안되기 시작했다. 그러면서 현실적으로 어떻게 가능한지 알아보기 시작했다. 학교 다닐 때도 잘 안 보았던 머신러닝 피피티 파일을 이제야 찬찬히 보게 되다니.... 데이터를 학습한다고 하지만 학습하는 알고리즘은 무척 다양하다. 그 여러 가지 방법들을 추상화한다면 크게 3-4가지로 함축할 수 있다.

데이터를 학습하는 가장 대표적인 방법

수많은 데이터를 학습하는 방법으로 크게 '답'을 알고 분석하는 방법과 '답을 모르는 상태'에서 분석하는 방법으로 나누어진다. '답'을 알고 찾는 방법은 이미 인간이 모범 답지를 알고 있는 상태에서 데이터를 학습시키는 것이다. 모범 답지를 알고 있는 상태의 분석은 비교적 단순하다. 계속 문제를 풀고 정답을 확인하면서 오답을 줄여나가는 것이다.

데이터 분석 관점으로 다시 이야기한다면 정답은 라벨링, 문제는 데이터셋, 문제를 풀면서 예측하는 것을 라벨 예측이라고 할 수 있다. 만약 나는 토마토, 오렌지를 아는 상황에서 기계가 어떤 사진이 토마토인지 오렌지인지를 자동으로 분류해야 한다는 가정을 해보자. 기계는 수많은 데이터들이 입력받으면 자동으로 라벨을 붙이게 되고 이게 '토마토'가 맞는지, '오렌지'가 맞는지 아닌지를 훈련한다. 계속 훈련에 훈련을 거듭해 예측한 값이 정답인 '토마토'나 '오렌지'와 동일하도록 맞춰 나간다. 이렇게 '답'을 알고 찾아 나가는 방식을 '지도 학습 방식(Supervised Learning)'이라고 한다.

지도 학습 방식은 크게 분류(Classification)와 회귀(Regression)'로 나뉠 수 있다.

분류는 '토마토', '오렌지'라는 정답지를 갖고 맞는지 아닌지 훈련을 하면서 많은 데이터를 분류해 나갈 수 있다. 분류를 하면 데이터의 종류를 예측할 수 있다.

회귀는 산발적인 데이터의 분포를 훈련에 의해 가장 잘 나타내는 '선'을 찾는다. 그러면 어떤 데이터가 입력되어도 그 데이터를 예측할 수 있게 된다. 즉 회귀는 데이터의 연속된 값(숫자)을 예측할 수 있다.

또 다른 분석 방법은 답을 모르는 상태로 분석하는 것이다. 답을 모르는 상태에서 분석하는 방법은 정답을 모르기에 정답을 자유롭게 만들어갈 수 있다. 즉 열린 정답지로 분석을 할 수 있다. 기계는 정답은 알 수 없지만 데이터 간 유사성을 가지면 그 '유사성'이 정답이라고 유추할 수 있다. 정답은 맞을지 틀릴지 모르겠으나 숨겨진 구조나 패턴을 찾을 수 있다. 정답이 없으니 예측 정확도와 같은 검증도 하기가 어렵다. 하지만 열린 정답으로 자유롭게 유사성 별 데이터를 묶을 수 있다. 이렇게 '답'을 모르고 분석해나가는 방식을 '비지도 학습 방식'이라고 한다.

비지도 학습 방식에는 크게 클러스터링이 있다. 데이터의 유사도를 갖고 분류를 하는 방식으로 유사도는 데이터의 속성에 따라 임의로 분류된다. 예를 들어 모양에 따라 클러스터링이 될 수도 있고 색깔에 따라 클러스터링이 될 수도 있다.

유사도를 갖고 분류를 하다 보면 데이터 간의 클러스터링 정도에 따라 밀도를 확인할 수 있다. 데이터 군들이 많이 분포되어있구나, 혹은 적게 분포되어 있구나를 추정해 볼 수 있다.

데이터의 특징을 갖고 여러 차원으로 변환을 시켜볼 수도 있다. 시간, 공간 개념의 차원으로 데이터를 치환하여 생각해 볼 수도 있고 문제가 무엇이냐에 따라 또 다른 차원을 적용할 수 있다. 복잡한 분석 차수를 줄일 수도 있고 다차원으로 변환하여 검토해 볼 수도 있다.

분류와 클러스터링이 뭐가 다른가

언뜻 보면 지도 학습 방식의 분류와 비지도 학습 방식의 클러스터링이 비슷하게 보일 수 있다. 차이는 '정답지'가 처음부터 있는가 없는가의 차이다. 즉 지도 학습 방식에서는 이미 정답지를 알기에 새로운 데이터가 그 정답지가 맞는지 아닌지만 확인하면 된다. 반면 클러스터링은 정답지를 모르는 상태이다. 데이터들끼리 속성을 보고 유사점을 찾아 나가는 방식이다. 그래서 정답지를 모른 채 데이터의 특성을 파악하기 위해서는 클러스터링이 필요하고 새로운 데이터가 앞으로 무엇을 할 것인지를 예측하기 위해서는 분류의 방식을 따른다고 할 수 있다.

가장 대표적인 분석 방법은 각각의 특징이 명확하기에 장단점도 분명하다. 그래서 10여 년 전부터 아마존, 넷플릭스 등등 데이터를 다루는 유수의 기업들은 이러한 분석 방법을 새롭게 보완해 나가고 있다. 과연 이들은 어떤 분석 방법으로 다른 기업에 비해 비용은 적게, 수많은 데이터를 효율적으로 분석해 나가는 것일까? 다음 글에서는 각 분석 방법의 장단점과 대체하는 방법들을 찾아나가야겠다.

keyword

매거진의 이전글통계 시험 끝, 계속 공부를 하는 이유데이터는 어떻게 돈이 될 수 있을까매거진의 다음글