지도 학습과 비지도 학습의 중간 어디쯤
크게 데이터를 분석하는 방법에는 지도 학습과 비지도 학습이 있다. 각 방법마다 장단점이 아주 명확하다. 먼저 지도 학습은 정답을 아는 상태에서 맞는지 아닌지를 계속 확인하고 또 확인을 해야 하니 시간이 오래 걸린다. 학습 데이터의 양도 무척 많아야 예측 정확도가 올라가게 된다. 하지만 그만큼 정답을 아는 상태에서 학습이 들어가니 예측 정확도는 학습을 할수록 높아진다. 검증을 하는 것도 용이해 신뢰성이 비교적 높다.
비지도 학습의 경우 정답을 모르는 상태로 정답을 찾아야 하니 설사 클러스터링이 되어도 그게 맞는 정답인지 확신할 수가 없다. 즉 학습 결과에 따른 분류 기준에 대한 신뢰성이 낮거나 장담할 수 없다. 정답이라고 나온 값들에 대해 검증을 하기도 어렵다. 즉 정확히 몇% 의 예측 정확도가 나타나는지 정량적 지표로 나타내기가 어렵다. 하지만 정답이 없이 유사한 데이터들끼리 자체적으로 결합을 하면서 지도 학습 방법에 비해 속도가 빠른 편이다.
이렇게 지도 학습과 비지도 학습의 장단점이 명확하다 보니 어떻게 하면 수백만 건의 데이터를 효율적이게 처리할 수 있을까에 대한 고민을 하게 되었다. 그렇게 나타난 분석 방법이 '준지도 학습'이다. 준지도 학습은 지도 학습과 비지도 학습의 혼용하여 만들 기술이다. 먼저 지도 학습과 으로 학습된 데이터를 한차례 거른 다음 비지도 학습을 통해 빠르게 유사한 데이터들을 클러스터링 해주는 방법을 취한다. 이렇게 먼저 지도 학습을 한 뒤 비지도 학습을 진행하는 경우도 있고, 병렬적으로 학습을 진행하는 경우도 있다. 반대로 비지도 학습을 통해 데이터들 간 클러스터링을 해주고 나서 지도 학습으로 분류를 해주는 경우도 있다. 가장 대표적으로 '구글 포토'가 준지도 학습을 진행하는 예시라고 볼 수 있다.
시스템이 알아서 클러스터링도 하면서, 동시에 사람이 라벨도 지정하는 구글 포토
디지털카메라로 사진 찍는 것이 취미라 어느덧 수백만 장의 사진이 쌓이게 되었다. 영원히 사진을 보관하고 싶어 구글 포토 클라우드를 활용하기 시작했다. 처음에는 저장 용도로 사용했지만 구글 포토는 사진을 검색하는데 기대 이상으로 훌륭했다.
구글 포토에 수백만 장의 사진을 올렸더니 알아서 사진 속 얼굴을 보고 그룹핑을 해주고 있었다. 내 얼굴을 누르면 내 얼굴만 사진으로 쭈욱 보여주는 형태이다. 우리 집 고양이 사진만 보고 싶어 'cat'이라고 입력하니 알아서 고양이 사진들만 분류되었다. 우리 집 고양이의 이름은 '그냥이'인데 이름까지는 맵핑이 되지 않았다. 사진 제목을 '그냥이'라고 바꾼 채 업로드를 해보았다. 검색창에 '그냥이'를 넣어보니 그냥이 사진들이 추출되었다. 즉 시스템이 알아서 대량의 사진들 간 패턴을 분석해주기도 하면서 동시에 내가 따로 설정한 파일 이름을 검색해주고 있었다.
'사랑'과 같은 감정적이고 추상적인 단어 역시 분류가 되고 있었다. 이런 추상적인 단어의 결괏값은 모호할 수 있는데 사람이 한번 필터링을 해주는 방법을 써야 한다. 대부분의 경우 레이블 즉 분류를 하는 기준이 없는 경우들이 많다. 세상은 고양이, 강아지, 책, 사과와 같이 명사로만 이뤄지진 않았기 때문이다. 추상적이고 언어로 설명하기 모호한 경우가 많기에 분류 기준을 만들기에 무리가 있다. 그래서 처음에는 시스템도 분류를 해주고 사람도 분류를 하는 방식을 혼용하는 것으로 볼 수 있다.
아마존에서는 약 15년 전부터 준지도 학습을 통해 데이터를 학습해 기존 데이터 분석에 비해 1/40 속도로 향상된 결과를 끌어올리고 있다. 일일이 사람이 수작으로 분류기준 즉 라벨링을 한다면 시간 소요가 발생한다. 연결되는 기기가 많아질수록 데이터의 양은 늘어갈 수밖에 없어 라벨링을 하는 시간이 절대적으로 소요될 수밖에 없다. 시간을 단축하면서 예측 신뢰도도 높일 수 있는 방법으로 활용되고 있는 방법 중 하나이다.
어떤 데이터를 집어넣느냐에 따라 분류가 잘 될 수도 있고 여전히 예측 정확도가 떨어지는 결괏값이 나올 수도 있다. 이미 데이터를 학습시키는 과정에서 공정성이 결여된 데이터들로 학습되어 인사시스템에 오류가 발생하거나 부정적인 챗봇이 개발되는 사례도 비일비재하다. (https://brunch.co.kr/@uxuxlove/187) 결국 데이터를 수집하고 분석하는 과정에서 개입되는 인간은 일종의 '게이트 키퍼' 역할로서 발생되는 오류를 최소화해 나가는 것이 필요하다. 오류는 많은 경우 의도보다 무지에서 발생한다. 수집에서 분석, 활용까지 일련의 과정 속에서 가짜들을 기술로서, 문해력으로서 걸러낸다면 어느덧 우리는 진짜배기 정보로부터 인사이트를 도출할 수 있지 않을까 생각해본다.