인공지능, 빅데이터, 머신러닝… 요즘 들어 많이 언급되는 단어입니다.
앞선 글 ‘번역의 대명사 플리토, 데이터를 말하다’에서 말했듯, 인공지능은 인간의 뇌처럼 스스로 학습할 수 있게 만들어진 시스템을 말합니다. 인간이 다양한 자료로 학습하여 지식을 얻는 것처럼 인공지능 또한 데이터를 토대로 학습이 필요하죠. 머신러닝은 인공지능을 학습시키는 방법 중 하나입니다. 일련의 알고리즘을 통해 학습된 인공지능은 대량의 데이터를 분석해 그 의미를 읽고 전체 패턴을 읽을 수 있게 됩니다. 기계가 어떻게 데이터를 처리할지 그 목적에 따라 분류(classification), 클러스터링(clustering), 예측(prediction) 등의 결과를 이끌어낼 수 있죠.
이번 글에서는 크게 두 가지로 나누어진 머신러닝의 방법을 살펴보고, 언어 데이터가 머신러닝에 활용된 예도 함께 살펴보도록 하겠습니다.
지도 학습은 기계가 데이터를 어떻게 해석하는지 파악할 수 있도록 정답을 전달하며 학습시키는 방법입니다. 데이터에 태그나 해설을 달아 기계가 답을 찾을 수 있게 하는 방식이라 input과 output이 확실하죠. 동물 사진을 수만, 수십 만장을 반복하여 보여주면서 어떤 동물인지 가르쳐주고 학습시키는 방법입니다. 이러한 지도 학습은 어떤 결과가 필요한지에 따라 분류(Classification)와 회귀(Regresssion) 두 가지로 구분됩니다.
분류는 주어진 데이터를 카테고리로 분류하는 것을 말합니다. 어떤 메일이 스팸메일인지 아닌지를 구분하는 이진 분류(Binary Classification)와, 언어를 입력했을 때 한국어, 영어, 중국어 등 다양한 옵션에서 어떤 언어인지를 분류하는 다중 분류(Multi-label Classification)가 있습니다.
회귀는 데이터의 특징을 기준으로 결과를 예측하는 것으로, 패턴이나 트렌드 등을 파악할 때 많이 사용됩니다. 지하철역과의 거리에 따른 집값을 예측하거나 공부 시간에 따른 시험 점수를 예측하는 문제 등이 그 예입니다.
대량의 고품질 데이터를 확보해 지속적으로 학습을 진행할수록 더 똑똑한 인공지능을 만들 수 있지만, 이 학습 방법을 위해서는 데이터의 라벨링을 위한 인간의 힘 또한 필요로 하겠죠.
비지도 학습은 지도 학습과 달리 정답을 알려주지 않습니다. 정답 없이 입력한 데이터만 있기 때문에 답을 찾기보다는 패턴이나 특성을 발견해내는 학습 방법입니다. 동물 사진을 비지도 학습으로 분류할 경우, 기계가 사진을 보고 어떤 동물인지 알지는 못하더라도 다리가 2개인 동물, 4개인 동물 등 주요 특징별로 분류를 하게 되겠죠.
비지도 학습은 대표적으로 군집화(Clustering)가 있습니다. 흔히 볼 수 있는 뉴스 그룹핑이나 쇼핑몰 내 상품 추천 시스템이 비지도 학습에 따른 결과입니다.
지도 학습은 텍스트에 해설을 다는 방식으로 기계를 꾸준히 학습시킬 수 있지만 방대한 양의 데이터가 필요하고 시간이 많이 걸린다는 어려움이 있습니다. 하지만 비지도 학습은 학습할 데이터만 있으면 스스로 학습하기 때문에 편리해 보이지만, 결과에 대한 가이드가 없어 기대와 다른 결과를 내놓을 수도 있는 것이 단점입니다.
인공지능 번역 엔진의 경우 먼저 지도 학습의 방식으로 학습시킵니다. 영어 A 문장에 대응하는 한국어 문장 B를 함께 묶어 학습용 데이터로 사용하고, 언어쌍별로 묶인 방대한 양의 데이터를 학습시켜 번역 엔진의 정확도를 향상시키는 것이죠. 번역 엔진을 일정 수준 이상 학습시킨 후에 비지도 학습 또한 활용하기도 합니다.
이렇게 상세하게 살펴보면 어렵게 느껴지지만 사실 머신러닝은 우리에게 매우 친숙한 기술입니다.
언어가 사용되는 머신러닝의 예를 살펴볼까요?
검색 키워드를 입력했을 때, 관련성 높은 결과를 보여주는 검색 엔진
이메일에서 이벤트를 파악해 자동으로 모바일, 웹 캘린더에 생성되는 알림
기계 번역기의 번역 결과들
문서나 단어를 분석해 철자나 문법 오류를 찾아주는 기능
사용자의 반복적인 행동에 대한 학습을 통한 스마트폰의 자동 예측 기능
이 밖에도 문자 인식, 자동 번역, 챗봇 등 자연어 처리 분야와 음성 인식, 필기 인식, 텍스트 마이닝, 상품/서비스 추천 등의 정보 검색 엔진 등 활용 범위가 굉장히 넓죠.
머신러닝에서 중요한 것은 무엇일까요? 좋은 학습 알고리즘을 선정하는 것도 물론 중요하지만 학습 교재인 ‘데이터’가 중요합니다. 데이터가 인공지능의 정확도, 성능을 좌우하기 때문이죠.
인공지능 학습용 데이터의 속성이자 특징을 ‘4V’라고 하는데요.
첫째로 데이터의 양이 많아야 하고 (Volume), 둘째로 데이터가 다양해야 합니다(Variety). 셋째는 속도(Velocity)인데 이는 데이터의 생성과 저장, 처리 과정이 빨라야 한다는 의미입니다. 마지막은 정확성(Veracity)으로 수집한 데이터가 분석할 가치가 있을 만큼 정확해야 합니다. 여기에 가치(Value)를 더해 ‘5V’라 하기도 합니다.
플리토는 인공지능 학습을 위한 고품질 언어 데이터를 공급합니다. 25개 언어의 데이터를 집단지성 플랫폼을 통해 빠르게 수집하고, 언어 수준이 검증된 사용자들로부터 수집하기 때문에 데이터의 정확도 또한 높죠. 한국감리원 조사 결과 정확도 99.8%의 언어 데이터를 보유하고 있습니다. 머신러닝을 위해 텍스트, 이미지, 음성 등의 언어 데이터가 필요하다면 플리토에게 문의해보시는 것은 어떨까요?
플리토와 모비인사이드의 파트너쉽으로 제공되는 기사입니다.