산업계에서는 다양한 목적에 따라 여러 생성형 AI 모델을 개발하고 적용하고 있다. 특히, 언론기사, 소설, 리뷰 작성 등의 분야에서 자연어 생성 기술이 활발히 사용되고 있고, 이 중 대표적인 모델로는 대규모 언어 모델(Large Language Model, LLM)이 있다.
대규모 언어 모델(LLM) 구조
대규모 언어 모델(LLM)과 생성형 AI는 딥러닝의 일부로서, 다양한 언어 문제를 해결하기 위해 훈련됩니다. 이 모델들은 컴퓨터가 인간의 언어를 이해하고 생성하는 능력을 갖게 한한다.
텍스트 분류: 대규모 언어 모델(LLM)과 생성형 AI는 주어진 텍스트를 다양한 카테고리로 분류하는 데 사용될 수 있다. 예를 들어, 뉴스 기사를 스포츠, 정치, 경제 등의 주제로 자동으로 분류할 수 있다.
질문응답: LLM과 생성형 AI는 질문에 대한 정확한 답변을 생성하는 데에도 사용된다. 예를 들어, 사용자가 질문을 입력하면 이 모델은 주어진 문맥에서 가장 적절한 답변을 생성할 수 있습다. 이를 통해 검색 엔진, 가상 비서 등에서 질문에 대한 답변을 제공할 수 있다.
문서요약: 대규모 언어 모델(LLM)과 생성형 AI는 긴 문서를 간결하고 요약된 형태로 변환하는 데에도 사용될 수 있다. 이를 통해 사용자는 긴 문서를 읽지 않고도 핵심 내용을 파악할 수 있다. 문서 요약은 정보 검색, 문서 분석 등 다양한 분야에서 유용하게 활용될 수 있다.
텍스트 생성: LLM과 생성형 AI는 주어진 문맥에서 새로운 텍스트를 생성하는 데에도 사용된다. 예를 들어, 이 모델은 소설, 시, 기사, 논문 등 다양한 형식의 텍스트를 생성할 수 있습니다. 이를 통해 창작 작업, 자동 글쓰기 등 다양한 분야에서 활용할 수 있다.
이러한 방식으로 대규모 언어 모델(LLM)과 생성형 AI는 다양한 언어 문제를 해결하고, 인간의 언어 이해 및 생성 능력을 컴퓨터에게 부여하는 데에 활용된다.
LLM은 대규모 언어 데이터를 학습하여, 주어진 맥락에서 가장 확률이 높은 단어들을 순차적으로 예측하고, 그로부터 연관성 있는 문장을 생성하는 AI 모델이다. 하이퍼클로버와 네이버의 협업, OpenAI의 챗GPT, 그리고 구글의 제미나이이 등이 이를 챗봇 형태로 제공하여, 비전문가도 쉽게 사용할 수 있도록 하고 있다.
1). 클로버X
https://clova-x.naver.com/
2). 챗gpt
https://chat.openai.com/
3). 구글 제미나이
https://gemini.google.com/app
이들 서비스는 주로 Q&A, 요약, 번역 등의 목적으로 활용되며, 사용자의 생산성 향상에 기여하고 있다. 또한 이미지 생성 분야에서도 텍스트나 이미지 입력을 기반으로 고품질의 이미지를 생성하는 기술이 확산하고 있다.
이를 위해 확산 모델을 활용한 다양한 서비스가 등장하고 있는데, 그 예로는 OpenAI의 DALL-E3, Meta의 Make-a-scene, Google의 Imagen, 그리고 Adobe의 Generative-Fill 등이 있다.
확산(Diffusion) 모델
확산 모델은 원본 데이터에 노이즈를 추가하고, 그 노이즈로부터 원본 데이터를 복원하는 과정을 통해 새로운 데이터를 생성하는 AI 모델이다.
확산(Diffusion) 은 최초로 소개된 2015년의 모델인 최초 Diffusion Model과 2020년의 후속 논문인 DDPM(Denosing Diffusion Probabilistic Model)으로 나뉩니다.
확산(Diffusion) 모델은 입력 이미지에 Noise가 서서히 확산되는 과정을 통해 이미지를 변형시키는 모델입니다. 이 모델에서는 Forward Diffusion Process와 Reverse Diffusion Process 두 가지 단계로 구성됩니다.
- Forward Diffusion Process에서는 입력 이미지에 고정된 정규 분포(가우시안 분포)로부터 생성된 Noise가 추가됩니다. 이 과정에서 입력 이미지에 Noise가 점진적으로 더해지면서 이미지가 변형됩니다.
- Reverse Diffusion Process에서는 학습된 정규 분포로부터 생성된 Noise 이미지를 입력 이미지에서 뺍니다.
이 단계에서는 Reverse Diffusion Process에 사용되는 Noise 생성 확률 분포의 평균과 표준편차를 업데이트하며 학습이 진행됩니다. 이를 통해 Reverse 단계에서 생성된 결과 이미지가 입력 이미지의 확률 분포와 유사해지도록 학습됩니다.
최초 Diffusion Model(2015년), Maximum Log-likelihood Estimation(MLE)을 사용
DDPM(2020년, Denosing Diffusion Probabilistic Model)에 해당되며, CNN계열의 UNet모델 사용
이미지에서 최종 입출력 이미지가 같은 이유는 설명을 위한 이미지일 뿐이며, 실제 Noise 생성 시에는 가우시안 분포에서 항상 다른 값이 샘플링된된다. 따라서 생성되는 이미지는 계속해서 변화하며, 학습 데이터에 따라 Reverse Diffusion Process로부터 생성된 결과 이미지도 다를 수 있다.
음성 및 음원 생성 분야에서는 분위기, 장르, 길이 등의 언어적 입력 외에도 유사 음악, 악보, 미디 음악, 코드, 템포 등의 입력을 통해 새로운 음악을 생성하는 서비스가 등장하고 있다. 예시로는 Google의 MusicLM, Meta의 MusicGen, Stability AI의 Stable Audio 등이 있다. 또한, 작성된 텍스트와 사람의 목소리 샘플을 활용해 AI 목소리로 내레이션이나 노래를 생성하는 서비스도 나왔다.
1). Google의 MusicLM
2). Meta의 MusicGen
3). Stability AI의 Stable Audio
비디오 생성 분야에서는 아직도 주제의 일관성, 깜박임 등의 기술적 문제가 남아 있지만, 딥러닝 기술의 발전으로 이미지 합성과 스타일 전이가 실시간으로 가능해지면서, Meta AI research의 Make-a-video와 같은 직관적이고 높은 성능의 비디오 편집 도구가 제공되고 있다. 또한, 코딩 프로세스 최적화나 자동화, 코드 작성 보조 등을 위한 코드 생성 서비스 분야에서는 Microsoft의 Copilot, Amazon의 CodeWhisperer, Open AI의 Sora, Google의 Lumiere 등의 서비스가 있다.
1). Meta AI research의 Make-a-video
2). Microsoft의 Copilot
3). Amazon의 CodeWhisperer
4). Open AI의 Sora
5). Google의 Lumiere
사용자의 입력을 통해 사물의 외형과 텍스쳐를 생성하여 3D 모델링, 공간 환경 구성, 디지털 휴먼 제작 등의 메타버스 서비스(관광, 교육, 제조, 국방, 엔터테인먼트 등)와 CAD 서비스 분야에서도 활용되고 있다.
다음 시간에는 생성형 AI 학습 단계에서의 저작권에 대해 이야기해보겠습니다.
웹툰교육 문의 카카오톡채널
찾아오시는 길
https://naver.me/GaMUNGqg
웹툰스쿨 아카데미 유튜브채널
https://www.youtube.com/@bestwini