생성형 AI, 딥러닝, 트랜스포머, 퓨샷 러닝, 자기지도학습
챗GPT의 기본적 개념을 이해한다면, 챗GPT 뿐 아니라 생성형 AI가 우리의 삶과 산업에 미칠 변화를 더 잘 예측할 수 있을 것이다. 특히 알고리즘이 이전 알고리즘의 어떤 한계를 극복하는 방향으로 발전해 왔는지를 아는 것은 미래 인공지능이 어떤 방향으로 흘러갈지에 대한 인사이트를 제공할 수 있다. 비전공자도 이해할 수 있도록 챗GPT의 배경 기술을 두 차례에 나누어서 작성한다.
MIT Technology Review는 2023년 주목할 10대 기술 중 하나로 생성형 AI로 꼽았다. 생성형 AI는 기존 데이터나 모델을 기반으로 새롭고 독창적인 콘텐츠를 만드는 AI다. 생성형 AI가 만드는 콘텐츠에는 텍스트는 물론 이미지, 오디오, 코드, 영상, 시물레이션 등이 포함된다. 이제 누구나 컴퓨터 프로그램에 약간의 명령어만 작성하면 새롭고 독창적인 텍스트와 일러스트를 만들 수 있는 생성형 AI 시대가 열렸다. 가장 유명한 생성형 AI가 바로 우리가 알고 있는 OpenAI의 챗GPT다. 이 외에도 그림을 생성하는 OpenAI의 Dall-E와 Stability AI의 Stability AI 역시 대표적인 생성형 AI다. 생성형 AI는 창작물 작성뿐 아니라 마케팅 및 광고, 엔터테인먼트 등 다양한 영역에서 활용될 수 있으며 새로운 기회를 창출할 수 있는 잠재력을 지닌 빠르게 진화하는 분야다.
생성형 AI는 데이터의 패턴과 관계를 학습한 다음 해당 정보를 기반으로 새롭고 유사한 예제를 생성한다. 예를 들어, 텍스트 생성 모델은 대규모 텍스트 코퍼스를 학습한 다음 해당 지식을 사용하여 새롭고 일관된 문장이나 스토리를 생성한다. 챗GPT는 초거대 생성형 AI 모델로 자연어 처리(NLP)와 딥러닝을 기반으로 한다. 초거대 모델이라는 이름이 내포하듯 범용 인공지능 (AGI, Artificial General Intelligence)을 추구하며 방대한 양의 데이터를 미리 학습시킨 모델이다.
챗GPT의 모델은 명시적인 감독 없이 데이터의 패턴을 학습하는 비지도 학습이라는 딥러닝 기법을 사용하여 대규모 텍스트 데이터 코퍼스를 학습한다. 챗GPT를 이해하기 위해서는 딥러닝, 트랜스포머, 퓨샷 러닝, 자기주도학습 그리고 클라우드 컴퓨팅 기술을 이해할 수 있어야 한다. 어렵고 복잡한 내용이 될 수 있기에 핵심 기술만 최대한 쉽게 설명해 보고자 한다.
NLP는 머신러닝을 사용해서 텍스트와 데이터를 처리하고 생성하는 인공지능의 한 분야다. 여기에는 감정 분석, 기계 번역 및 텍스트 생성과 같은 작업들이 포함되는데 이를 위해 알고리즘을 통해 인간의 언어를 분석하고 이해하며 생성하는 것이 필요하다. 통계와 기계 학습 알고리즘을 통한 텍스트 분석과 의미 추출을 바탕으로 대규모 텍스트 말뭉치를 학습하여 단어와 단어 사이의 패턴과 관계를 학습한다. 챗GPT 또한 텍스트 분류, 텍스트 생성, 요약 등 다양한 NLP작업을 수행한다. 챗GPT는 특히 OpenAI의 대규모 언어 모델 (Large Language Model, LLM)인 GPT-3를 기반으로 하기에 일반 자연어 처리 모델보다 높은 성능을 보인다. 대규모 언어 모델은 전통적 언어 모델보다 높은 성능을 자랑하며, 데이터 규모가 커지면서 기존에 풀 수 없었던 문제를 해결할 수 있는 장점을 갖고 있다.
챗GPT는 GPT-3.5를 기반으로 하는 대화형 에이전트로 챗GPT를 이해하기 위해서는 GPT를 알아야 한다. GPT는 Generative Pre-trained Transformer의 약자로, 딥러닝을 통해서 스스로 언어를 생성하고 추론하는 것이 가장 큰 특징이다.
머신러닝은 사람의 지시 없이도 데이터 패턴을 학습하는 모델을 의미하다. 딥러닝은 머신러닝의 방법 중 신경망을 통해 인공지능을 만드는 기술이다. 딥러닝으로 학습한 인공지능은 사람이 답을 알려주지 않아도 스스로 배우고 답을 찾는다. 알고리즘을 통해 데이터를 학습하고 학습한 내용을 기반으로 판단을 하거나 예측을 하는 머신러닝과 차이가 존재한다. 예를 들어 특정 사진이 개인지 고양이인지를 판별한다고 하자. 머신러닝은 각 사진의 특성을 기계에 입력시키고 학습시킴으로써 정답을 도출했다면, 딥러닝은 알고리즘이 직접 찾아낸 특징을 반영하여 실제값과 출력값 차이를 최소화하는 가중치를 찾아 나간다. 이 가중치를 파라미터(매개변수)라고 한다. 학습 데이터가 많을수록 그리고 가중치인 파라미터가 많을수록 실제값과 AI의 출력값의 오차가 줄어들고 정답에 근접한다.
딥러닝의 가장 큰 챌린지는 대량 데이터의 처리였다. 2017년 구글이 발표한 '트랜스포머' 알고리즘은 이 문제를 해결했는데, 트랜스포머의 병렬화로 대규모 데이터셋을 학습할 수 있게 된 것이다. 트랜스포머 이전의 데이터를 순차적으로 처리하는 순환신경망(RNN, Recurrent neural network)으로는 어려웠던 대규모 데이터 학습이 가능해진 것이다.
RNN은 앞뒤 단어와의 상관관계만을 순환적으로 고려하기 때문에 문장이나 대화가 길어지면 앞 단어의 정보를 잃어버리는 장기 의존성(long-term dependency) 문제가 발생한다. 트랜스포머는 RNN의 이런 한계를 극복하는데, 문장에서 한 단어와 다른 단어들과의 연관 관계를 계산한다 (Attention 혹은 Self-attention 메커니즘). 이로 인해 떨어져 있는 단어들의 의미까지 감지하며 맥락과 의미의 학습이 가능하다. 이에 따라 트랜스포머 알고리즘은 데이터를 순차적이 아니라 병렬적으로 처리함으로써 학습 속도도 향상할 수 있었다. 엔비디아에 따르면, 일반 AI 모델의 학습 연산능력이 2년 간 25배 증가한 것 대비, 트랜스포머 모델 이후에는 2년간 약 275배 성장했다.
기업들은 경쟁적으로 트랜스포머 모델을 개발 중이다. 오픈AI의 GPT-3, 구글의 BERT와 AlphaFold, 페이스북의 RoBERTa 등이 여기에 해당한다.
Generative Pre-trained Transformer가 의미하듯 GPT-3는 사전 훈련된 모델이다. 특정 태스크만 가능한 것이 아니라 언어 전반에 대한 사전 훈련 후, 미세 조정(fine tuning)을 통해 번역, 글쓰기 등 다양한 태스크 수행이 가능하다. 미세 조정을 위해서 대량의 데이터 학습이 필요한데, 소량의 데이터로 모델을 재학습하는 것이 퓨샷러닝 (few-shot learning)이다. 새로운 태스크 데이터를 몇 건만 사용하고, 모델 전체를 몇 건의 데이터에 맞게 업데이트한 후 새로운 태스크를 수해하는 방식이다. 퓨샷러닝은 자기지도학습 (self-supervised learning)을 기반으로 진행된다. 전통적인 지도학습은 사람이 직접 라벨링 한 데이터를 기반으로 정답을 찾았다. 반면 자기지도학습은 라벨링 된 데이터 없이 주어진 데이터만을 활용하여 다른 데이터를 예측하고 스스로 학습해나간다. 자기지도학습은 많은 비용이 소요되는 어노테이션 작업이 생략되었다는 장점이 있다. 이로 인해 더 빠르게 AI를 활용할 수 있다.
다음 글에서는 InstructGPT와 ChatGPT에 적용된 인간 피드백형 강화학습(RLHF, Reinforcement Learning with Human Feedback)을 다룬다.
ChatGPT로 인한 비즈니스 변화, AI시대에 살아남기 위한 산업별 ChatGPT활용법과 바로 써먹는 ChatGPT 꿀팁을 연재합니다.
챗GPT(ChatGPT)와 생성 AI에 관련된 더 자세한 이야기는 도서 "챗GPT 거대한 전환 - 알에이치코리아(RHK)"을 참고해 주세요. 50개의 생성형 AI 기업과 서비스 분석과 인사이트가 담겨 있습니다.
https://product.kyobobook.co.kr/detail/S000201225687