웹툰AI 창작과 기술

< 2회 : 대규모 언어 모델(LLM)과 적용 모델 >

Feb 26. 2024

산업계에서는 다양한 목적에 따라 여러 생성형 AI 모델을 개발하고 적용하고 있다. 특히, 언론기사, 소설, 리뷰 작성 등의 분야에서 자연어 생성 기술이 활발히 사용되고 있고, 이 중 대표적인 모델로는 대규모 언어 모델(Large Language Model, LLM)이 있다.

대규모 언어 모델(LLM) 구조

대규모 언어 모델(LLM)과 생성형 AI는 딥러닝의 일부로서, 다양한 언어 문제를 해결하기 위해 훈련됩니다. 이 모델들은 컴퓨터가 인간의 언어를 이해하고 생성하는 능력을 갖게 한한다.

텍스트 분류: 대규모 언어 모델(LLM)과 생성형 AI는 주어진 텍스트를 다양한 카테고리로 분류하는 데 사용될 수 있다. 예를 들어, 뉴스 기사를 스포츠, 정치, 경제 등의 주제로 자동으로 분류할 수 있다.

질문응답: LLM과 생성형 AI는 질문에 대한 정확한 답변을 생성하는 데에도 사용된다. 예를 들어, 사용자가 질문을 입력하면 이 모델은 주어진 문맥에서 가장 적절한 답변을 생성할 수 있습다. 이를 통해 검색 엔진, 가상 비서 등에서 질문에 대한 답변을 제공할 수 있다.

문서요약: 대규모 언어 모델(LLM)과 생성형 AI는 긴 문서를 간결하고 요약된 형태로 변환하는 데에도 사용될 수 있다. 이를 통해 사용자는 긴 문서를 읽지 않고도 핵심 내용을 파악할 수 있다. 문서 요약은 정보 검색, 문서 분석 등 다양한 분야에서 유용하게 활용될 수 있다.

텍스트 생성: LLM과 생성형 AI는 주어진 문맥에서 새로운 텍스트를 생성하는 데에도 사용된다. 예를 들어, 이 모델은 소설, 시, 기사, 논문 등 다양한 형식의 텍스트를 생성할 수 있습니다. 이를 통해 창작 작업, 자동 글쓰기 등 다양한 분야에서 활용할 수 있다.

이러한 방식으로 대규모 언어 모델(LLM)과 생성형 AI는 다양한 언어 문제를 해결하고, 인간의 언어 이해 및 생성 능력을 컴퓨터에게 부여하는 데에 활용된다.

LLM은 대규모 언어 데이터를 학습하여, 주어진 맥락에서 가장 확률이 높은 단어들을 순차적으로 예측하고, 그로부터 연관성 있는 문장을 생성하는 AI 모델이다. 하이퍼클로버와 네이버의 협업, OpenAI의 챗GPT, 그리고 구글의 제미나이이 등이 이를 챗봇 형태로 제공하여, 비전문가도 쉽게 사용할 수 있도록 하고 있다.

1). 클로버X

https://clova-x.naver.com/

CLOVA X

무한한 가능성을 여는 새로운 대화의 시작

https://clova-x.naver.com/

?src=%22https%3A%2F%2Fssl.pstatic.net%2Fstatic%2Fclovax%2Fopen-graph%2Fog.png%22&type=ff500_300

2). 챗gpt

https://chat.openai.com/

3). 구글 제미나이

https://gemini.google.com/app

‎Gemini - 대화를 통해 아이디어를 강화하세요

Bard가 Gemini로 바뀌었습니다. Google AI의 도움을 받아 글을 쓰고, 계획하고, 학습해 보세요.

https://gemini.google.com

이들 서비스는 주로 Q&A, 요약, 번역 등의 목적으로 활용되며, 사용자의 생산성 향상에 기여하고 있다. 또한 이미지 생성 분야에서도 텍스트나 이미지 입력을 기반으로 고품질의 이미지를 생성하는 기술이 확산하고 있다.

이를 위해 확산 모델을 활용한 다양한 서비스가 등장하고 있는데, 그 예로는 OpenAI의 DALL-E3, Meta의 Make-a-scene, Google의 Imagen, 그리고 Adobe의 Generative-Fill 등이 있다.

확산(Diffusion) 모델

확산 모델은 원본 데이터에 노이즈를 추가하고, 그 노이즈로부터 원본 데이터를 복원하는 과정을 통해 새로운 데이터를 생성하는 AI 모델이다.

확산(Diffusion) 은 최초로 소개된 2015년의 모델인 최초 Diffusion Model과 2020년의 후속 논문인 DDPM(Denosing Diffusion Probabilistic Model)으로 나뉩니다.

확산(Diffusion) 모델은 입력 이미지에 Noise가 서서히 확산되는 과정을 통해 이미지를 변형시키는 모델입니다. 이 모델에서는 Forward Diffusion Process와 Reverse Diffusion Process 두 가지 단계로 구성됩니다.

- Forward Diffusion Process에서는 입력 이미지에 고정된 정규 분포(가우시안 분포)로부터 생성된 Noise가 추가됩니다. 이 과정에서 입력 이미지에 Noise가 점진적으로 더해지면서 이미지가 변형됩니다.

- Reverse Diffusion Process에서는 학습된 정규 분포로부터 생성된 Noise 이미지를 입력 이미지에서 뺍니다.

이 단계에서는 Reverse Diffusion Process에 사용되는 Noise 생성 확률 분포의 평균과 표준편차를 업데이트하며 학습이 진행됩니다. 이를 통해 Reverse 단계에서 생성된 결과 이미지가 입력 이미지의 확률 분포와 유사해지도록 학습됩니다.

최초 Diffusion Model(2015년), Maximum Log-likelihood Estimation(MLE)을 사용

DDPM(2020년, Denosing Diffusion Probabilistic Model)에 해당되며, CNN계열의 UNet모델 사용

이미지에서 최종 입출력 이미지가 같은 이유는 설명을 위한 이미지일 뿐이며, 실제 Noise 생성 시에는 가우시안 분포에서 항상 다른 값이 샘플링된된다. 따라서 생성되는 이미지는 계속해서 변화하며, 학습 데이터에 따라 Reverse Diffusion Process로부터 생성된 결과 이미지도 다를 수 있다.

음성 및 음원 생성 분야에서는 분위기, 장르, 길이 등의 언어적 입력 외에도 유사 음악, 악보, 미디 음악, 코드, 템포 등의 입력을 통해 새로운 음악을 생성하는 서비스가 등장하고 있다. 예시로는 Google의 MusicLM, Meta의 MusicGen, Stability AI의 Stable Audio 등이 있다. 또한, 작성된 텍스트와 사람의 목소리 샘플을 활용해 AI 목소리로 내레이션이나 노래를 생성하는 서비스도 나왔다.

1). Google의 MusicLM

https://google-research.github.io/seanet/musiclm/examples/

MusicLM

https://google-research.github.io/seanet/musiclm/examples/

2). Meta의 MusicGen

https://musicgen.com/

MusicGen - Advanced AI Music Generation

https://musicgen.com/

3). Stability AI의 Stable Audio

https://www.stableaudio.com/

Stable Audio - Generative AI for music & sound fx

https://www.stableaudio.com/

비디오 생성 분야에서는 아직도 주제의 일관성, 깜박임 등의 기술적 문제가 남아 있지만, 딥러닝 기술의 발전으로 이미지 합성과 스타일 전이가 실시간으로 가능해지면서, Meta AI research의 Make-a-video와 같은 직관적이고 높은 성능의 비디오 편집 도구가 제공되고 있다. 또한, 코딩 프로세스 최적화나 자동화, 코드 작성 보조 등을 위한 코드 생성 서비스 분야에서는 Microsoft의 Copilot, Amazon의 CodeWhisperer, Open AI의 Sora, Google의 Lumiere 등의 서비스가 있다.

1). Meta AI research의 Make-a-video

https://makeavideo.studio/

Make-A-Video by Meta AI

A state-of-the-art AI system generates high-quality videos from text prompts

https://makeavideo.studio/

2). Microsoft의 Copilot

https://www.microsoft.com/ko-kr/microsoft-copilot

Microsoft Copilot | Microsoft AI

AI의 새로운 시대가 도래했습니다. Copilot을 통해 보다 생산적으로 일하고 효율성을 높이며 새로운 성장 기회를 찾으세요.

https://www.microsoft.com/ko-kr/copilot

3). Amazon의 CodeWhisperer

https://aws.amazon.com/ko/codewhisperer/

AI 코드 생성기 - Amazon CodeWhisperer - AWS

https://aws.amazon.com/ko/codewhisperer/

4). Open AI의 Sora

https://openai.com/sora

Sora: Creating video from text

https://openai.com/sora

5). Google의 Lumiere

https://lumiere-video.github.io/

Lumiere - Google Research

Space-Time Text-to-Video diffusion model by Google Research.

https://lumiere-video.github.io/

사용자의 입력을 통해 사물의 외형과 텍스쳐를 생성하여 3D 모델링, 공간 환경 구성, 디지털 휴먼 제작 등의 메타버스 서비스(관광, 교육, 제조, 국방, 엔터테인먼트 등)와 CAD 서비스 분야에서도 활용되고 있다.

웹툰교육 문의 카카오톡채널

https://pf.kakao.com/_qxcPjs

웹툰스쿨

웹툰스쿨은 작가데뷔나 취업이 가능하도록 가이드하며, 작품의 프로듀싱을 지원합니다.

http://pf.kakao.com/_qxcPjs

%EC%9B%B9%ED%88%B0%EC%8A%A4%EC%BF%A8%EC%9D%B4%EB%AF%B8%EC%A7%80.jpg?type=w1

찾아오시는 길

https://naver.me/GaMUNGqg

웹툰스쿨 만화학원 : 네이버

https://m.place.naver.com/place/1846851536/home

웹툰스쿨 아카데미 유튜브채널

https://www.youtube.com/@bestwini

웹툰스쿨 아카데미

"어떻게 그릴 것인가?" 이전에 "어떻게 플롯 구조에 맞게 배치하고 완급을 조절할 것인가?" 스토리가 재미없어도 웹툰에 맞춰진 다양한 연출기법을 통해 재미 요소와 서사성 있는 작품 만들기 웹

https://www.youtube.com/channel/UCzLs159_OTzR51VMAmrM80w

keyword

박연조 소속 비즐 직업 만화가

웹툰 창작자 및 교육가

구독자 38

매거진의 이전글웹툰AI 창작과 기술