기술스크랩
머신러닝의 학습방법은 크게 세 가지로 분류된다. 지도학습은 입력 값이 주어지면 입력값에 대한 라벨을 부여하는 방식으로 이루어지지만, 이를 위해 무수히 많은 양의 데이터와 각 샘플별 라벨링이 필요하다는 점에서 많은 시간과 비용을 필요로 했다. 이에 비해 비지도학습은 라벨링되어 있지 않은 데이터를 군집화하여 패턴이나 형태를 도출하도록 한다. 강화학습은 분류되어야 할 데이터셋이 따로 존재하지 않고, 데이터셋이 있더라도 라벨링이 되어있지 않아 인공지능이 보상을 받는 학습방식으로, 알파고와 같은 딥러닝 분야에서 활발히 적용되고 있다.
자기지도학습이란, 비지도학습방식의 일종으로서 라벨링되지 않은 데이터셋을 활용하여 인공지능이 스스로 분류작업을 수행하도록 한다. 스스로 태스크를 설정하여 모델을 학습한다는 점에서 기존의 비지도학습방식과 차이가 존재하며, 인터넷상 크롤링을 통해 수집할 수 있는 텍스트, 이미지, 비디오 등 다양한 종류의 데이터셋을 활용할 수도 있다. 머신러닝에 있어 인공지능 모델의 정확도는 모델의 규모에 비례하여 증가하곤 한다. 모델이 확장되기 위해서는 대량의 데이터를 필요로 하지만, 라벨링된 데이터를 지속적으로 확보하기 위해서는 많은 비용이 요구된다는 단점이 있었다. 자기지도학습은 라벨링되지 않은 학습 데이터만 확보하더라도 모델의 규모를 증가시킬 수 있으며 이에 따라 정확도 역시 향상시킬 수 있다는 장점이 있다.
자기지도학습의 핵심은 Pretext Task에서 Downstream Task로의 이행이다. Pretext Task란 라벨링 없는 데이터들을 활용하여 정의된 새로운 문제를 의미한다. 해당 태스크를 학습하며 데이터셋에 대한 이해를 증진시킨 이후 Downstream Task에서 해당 접근 방식을 적용하여 문제를 해결하는 일련의 과정을 자기지도학습으로 이해할 수 있다. 자기지도학습방식의 목적은 Downstream Task의 해결인 만큼, 후자의 성능으로 모델을 평가하게 된다.
자기지도학습은 Self-Prediction과 Contrastive learning이라는 두 가지 방식으로 이루어진다.
1. Self-prediction
Self-prediction은 하나의 데이터 샘플 내에서, 데이터의 일부를 활용해 나머지 부분을 예측하는 방법이다. 최근 데이터를 활용하여 미래를 예측하는 방식이 가장 대표적이며, 크게 네 가지 방법으로 나뉜다.
Autoregressive generation 모델은 기존의 행동을 분석하여 미래의 행동을 예측하며, 언어와 같이 방향성이 존재하는 데이터라면 회귀 모델링을 활용한다. WaveNet, GPT, PixelCNN 등이 해당 방식을 활용한 모델이다. Masked generation 모델은 정보의 일부를 마스킹한 뒤, 마스킹 되지 않은 부분을 통해 관련된 정보를 예측하는 방식이다. 이를 통해 과거정보뿐 아니라 앞뒤 문맥을 파악할 수도 있다. 특히 랜덤 마스킹을 통해 마스킹되는 범위가 계속 변화할 경우 다양한 사이즈의 모델로 학습이 가능해진다. 관련 모델로는 메타의 BERT가 있다. Innate relationship prediction은 데이터샘플에 segmentation이나 rotation 등이 이루어지는 때에도 본질적인 정보는 동일할 것으로 간주하여 예측하는 방식이다. 주로 이미지 데이터를 대상으로 활용되는데, 예를 들어 한 이미지에서 어떠한 rotation이 적용되었는지 예측하거나 순서를 분류하는 방식이 있다. 단독으로 활용하기도 하지만, contrastive learning에 추가하여 보조적인 역할로 쓰이기도 한다. 마지막으로 Hybrid self-prediction은 앞서 서술된 다양한 방식을 결합한 모델이다.
2. Contrastive Learning
Contrastive learning은 데이터 샘플들 간의 관계를 예측하는 태스크를 수행하며, 유사한 샘플들 간 거리를 가깝게 하고 유사하지 않은 샘플들 간 거리는 멀게 하는 것이다. 유사 여부의 기준이 되는 데이터셋을 anchor라고 한다. anchor와 유사한 샘플을 positive point로, anchor와 positive pair를 이룬다. 반대로 anchor와 유사하지 않은 샘플은 negative sample로서 anchor과 negative pair를 이룬다. Contrastive 학습방식은 다양한 관점들로부터 공통된 정보를 추출하고자 하는 목적을 가진다. 예를 들면 고양이 이미지에 노이즈를 추가한 이미지와 원본 이미지가 있을 때, 두 이미지 간 공통된 정보에 해당하는 고양이 부분만 학습대상으로 인식되며, 그 외의 배경이나 노이즈는 학습과정에서 고려되지 않는다.
contrastive learning의 성능에는 positive sample과 negative sample의 선정방식이 큰 영향을 미친다. Positive pair는 augmentation 기법들을 활용하여 원본을 변형시키거나, 하나의 데이터에 대한 상이한 관점을 취하는 방식으로 선정된다. 한 데이터셋 내에서 anchor이 아닌 샘플들은 negative pair로 여겨지며 negative sample 개수가 많을수록 효과적으로 representation collapse를 방지할 수 있다. 최근에는 Contrastive learning보다 self-prediction 계열의 masked prediction 모델들이 fine tuning 성능이 더 높다는 연구결과들이 발표되고 있으나, 태스크와 데이터셋 사이즈마다 성능의 우위는 상이하다.
Universal Speech Model
최근 오픈 AI의 대규모 인공지능 모델 'GPT'가 공개됨에 따라 생성형 AI에 대한 관심이 높아지고 있다. 구글 역시 2022년 11월 세계 각국의 언어 1,000개를 지원하는 인공지능 모델을 선보일 것을 예고한 바 있으며, USM은 구글의 ‘1,000개 언어 이니셔티브’를 현실로 이끌 첫 기술이 될 것으로 보인다. 구글은 전 세계적으로 7000개 이상의 언어가 사용되고 있는 데 반해, 텍스트 기반의 AI 모델 훈련은 온라인에 노출되는 소수의 언어에만 유효하기에 세계적 소통의 다양성을 반영하지 못할 것이라고 판단하였다. 이에 따라 전 세계적으로 가장 많이 사용되는 1000가지 언어를 지원하는 AI 모델을 구축해 각 지역 사회 내 소외된 사람들을 더 많이 포용하겠다는 포부를 밝힌 바 있으며, '유니버설 스피치 모델(Universal Speech Model, USM)'을 개발했다.
USM은 400여 개 이상의 언어를 지원하며, 구글은 계속적으로 지원 언어를 확대하고자 음성 데이터를 확보하려는 노력 중에 있다. 현재까지 USM은 300개 이상의 언어를 1,200만 시간 분량과 280억개 이상의 문장을 통해 학습해 왔으며, 영어와 중국어 주요 언어부터 2,000만 명 미만이 사용하는 소수 언어까지 다양한 종류의 목소리와 문장이 활용되었다고 한다.
인공지능의 언어 학습은 데이터셋 확보 자체도 까다로울 뿐 아니라, 레이블 지정에도 많은 비용이 소모된다. 나아가 데이터를 원활하게 받아들일 수 있도록 지속적으로 이루어지는 알고리즘의 개선이 학습 과정에 영향을 미쳐서는 안 된다. 새로운 목소리나 문장을 접해도 이전과 같은 방식으로 받아들이는 유연성까지 필요로 하는 것이다.
USM의 학습 과정은 총 세 단계로 나뉘어 진행되었다. 가장 먼저 이루어진 ‘BEST-RQ’ 단계는 전체 훈련의 80%를 차지하였으며 이 과정에서 가장 많은 자원이 투입되었다. 해당 자기교사학습과정에서 USM은 별도의 라벨의 지정 없는 1,000만 시간 분량의 300여개 언어 음성 데이터를 학습하였다. 두 번째 단계에서는 라벨 지정 작업을 하지 않은 목소리 데이터, 라벨 지정 작업을 한 200만 시간 분량의 목소리 데이터와 문장 데이터 280억 개를 학습하였다. 이 과정에서 목소리 인코더와 문장 인코더를 합치는 알고리즘을 적용하여 모델의 품질을 향상시켰다. 마지막 단계에서는 Downstream Task를 수행하며 USM의 미세 조정이 이루어졌다. 즉, USM의 정확도는 라벨링 작업을 하지 않은 대규모 다국어 데이터 세트를 이용한 사전 학습 이후, 라벨이 적은 데이터 세트를 활용하여 미세조정 과정을 거치며 향상될 수 있었으며 이후 새로운 언어 데이터에도 효과적으로 적응할 수 있게 된 것이다.
유튜브의 자동 자막 생성은 USM을 활용하여 이루어지고 있다. USM의 성능을 파악하고자 제시된 73개 언어 음성 데이터는 언어당 3000시간 미만의 분량만 있을 정도로 소규모였음에도 불구하고 USM은 평균 30% 미만의 단어 오류율을 기록했다. 구글은 전 세계의 정보를 체계화하여 접근성을 확대하고자 하는 목표를 이룰 수 있는 방법으로서 USM의 중요성을 강조하고 있으며, 1,000개 언어 이니셔티브를 구축할 토대로서 해당 언어 모델을 지속적으로 개발해 나갈 것으로 보인다.
구글의 USM은 과거부터 미래를 모두 아우를 수 있는 기술이라고 여겨진다. USM은 소규모의 언어 데이터셋에 대해서도 낮은 오류율을 보이며 인공지능을 통한 언어 장벽의 극복 가능성을 보여준 만큼 세계적으로 소통의 편의성을 증대할 수 있을 것임에 틀림없다. 나아가 해당 기술은 사라진 언어를 대상으로도 적용될 수 있을 것으로 생각된다. 데이터셋을 확보하기만 한다면 더 이상 사용되지 않는 언어라 하더라도 인공지능을 통한 연구가 가능할 것이다. 나아가 미래의 가상현실 기술에서도 USM이 접목될 수 있을 것으로 생각되고, 실제로 구글과 메타는 VR기술에 있어 언어 AI모델을 적용할 것이라는 계획을 발표한 바 있다. 따라서 USM이 고도화된다면 세계적인 소통의 편리성을 넘어 과거와 미래까지 그 활용 범위가 확장될 수 있을 것으로 보인다.
1. 인공지능의 도래는 예술, 감정 등 인간의 고유한 영역으로서 인식되어 왔던 다양한 분야의 대체가능성에 대한 논란을 야기하고 있다. 언어를 활용한 의사소통 역시 인간의 고유한 능력으로서 간주되어 왔으며, 최근 디지털 사회로의 이행이 가속화됨에 따라 음성 기반의 의사소통에서 텍스트 기반의 의사소통으로의 전환이 이루어지고 있다는 점을 감안한다면 보다 발전된 언어 AI모델의 등장은 의사소통의 방식을 어떤 방식으로 변화시키게 될까? 혹은 이러한 변화가 인간 삶의 방식에 있어 어떠한 영향을 미치게 될까?