Generative AI(생성형 AI)란 무엇인가요

간략한 소개

Sep 11. 2023

> generative AI(생성형 AI)은 무엇인가요?

생성형 AI는 우리가 입력하는 소스의 내용에 따라 텍스트, 사진, 비디오, 코드, 데이터, 3D 렌더링 등의 우리가 원하는 다양한 형태의 결과물을 만들어주는 모델 혹은 알고리즘을 의미합니다. 주로 자연어를 입력받아 적절한 컨텐츠를 제안해 주는 형태로 많이 사용하고 있습니다. 예를 들면 ChatGPT와 같은 자연어를 기반으로 한 AI를 들 수 있습니다. 그러나 더욱 많은 분야에서 자연어 뿐만 아니라 다양한 입력 데이터를 받고 원하는 형태의 데이터를 생성해낼 수 있도록 합니다.

> 작동 원리는 어떻게 되나요?

생성형 AI는 패턴이나 구조를 식별하기 위해 인공 신경망을 사용합니다. 이는 기존의 데이터를 새롭고 독창적인 것으로 만들어 줍니다. 생성형 AI는 방대한 양의 데이터를 GAN 프레임워크 같은 딥러닝 시스템을 사용합니다.

주요 사용 모델은 아래와 같습니다.

- GAN(Generative Adversarial Networks)

우리 말로는 적대적 생성 신경망이라고 해석 할 수 있습니다. 실제에 가까운 이미지나 사람이 쓴 글 등 여러가지 가짜 데이터를 생성합니다. GAN은 이렇게 생성한 가짜 데이터들과 실제 정답 데이터들을 비교해 나가면서 실제 데이터와 가장 유사한 데이터를 생성하게 됩니다. 이렇게 생성된 데이터는 정해진 label이 없기 때문에 Un-supervised learning이라고 생성모델이 분류됩니다.

- AE(Auto-Encode)

입력과 출력이 같은 구조로써, 중간에 Bottleneck Hidden Layer를 활용하여 Encode와 Decode를 수행합니다. 몇 가지 예가 있습니다. 이미지를 생성하는 방법이 있습니다. 꽃 이미지에 훈련된 인코더는 다양한 색상이나 모양을 가진 새로운 꽃 이미지를 생성할 수 있습니다. 특히나 초해상도 이미지를 생성하는 데 사용할 수 있습니다. 그리고 MIDI 파일을 인코딩 및 디코딩하여 새로운 음악을 생성할 수 있습니다. 학습된 잠재 공간에서 포인트를 샘플링함으로써 입력 데이터와 유사하지만 약간의 변형이 있는 새로운 음악을 생성할 수 있습니다. 또한 학습된 잠재 공간에서 샘플링하여 새러운 문장이나 단락을 생성할 수 있습니다. 자동 인코더는 입력 데이터의 기본 구조를 학습하여 텍스트 번역이나 요약에도 사용할 수 있습니다.

- VAE(Variational Auto-Encode)

VAE는 Auto-Encoder의 확장 버전으로, 입력 데이터의 차원을 축소시켜 잠재변수(latent variable)를 학습하는 알고리즘입니다. 일반적으로 Auto Encoder는 입력 데이터를 인코딩하여 저차원의 잠재변수를 만들고 디코딩하여 복원된 출력을 만들어냅니다. VAE의 예제로는 MNIST 숫자 이미지 생성이 있습니다. VAE를 학습시켜 잠재변수를 만들고 이를 이용하여 새로운 숫자 이미지를 생성할 수 있습니다.

> Generative AI(생성형 AI) 모델을 평가하는 방법은 무엇입니까?

다음 3가지의 특징을 확인할 수 있습니다.

1. 품질: 사용자와 직접 상호작용을 하는 경우 고품질 출력을 갖는 것이 중요합니다. 예를 들어 음성 생성에서 음성 품질이 좋지 않으면 이해하기 어렵습니다. 마찬가지로 이미지 생성 시 원하는 출력은 실제 이미지와 시각적으로 구별할 수 없어야 합니다.

2. 다양성: 좋은 생성 모델은 생성품질을 떨어뜨리지 않고 데이터 분포에서 소수 모드를 포착합니다. 이는 학습된 모델에서 원하지 않는 편향을 줄이는 데 도움이 됩니다.

3. 속도: 많은 대화형 애플리케이션에서는 실시간으로 텍스트, 이미지 결과를 얻을 수 있도록 속도가 빠르기를 원합니다.

> 왜 generative AI(생성형 AI)가 핫해졌을까요?

그 이유에는 OpenAI의 chatGPT와 DALL-E가 큰 역할을 하였습니다. 이 기능들은 생성형 AI가 새로운 컨텐츠를 만들게 합니다. 심지어는 컴퓨터 코드, 에세이, 이메일, 소셜미디어 캡션, 이미지, 시, 엑셀 포뮬러도 몇 초안에 생성합니다. 이 기능들은 사람들이 지금하고 있는 일들의 변화를 예고하였습니다.

ChatGPT는 지난 몇 년동안 어마어마하게 유명해졌습니다. 누적된 사용자수는 일주일에 백만명 이상에 달합니다. 많은 회사들이 이 분야에 뛰어들고 있습니다. 예를 들면 구글, 마이크로소프트, Anthropic 등이 ChatGPT를 뛰어넘는 서비스를 제공하기 위해서 고군분투하고 있습니다. 많은 사람들의 일상의 프로세스에 맞추어 더욱 통합되는 과정이 필요하고 또한 더욱 많은 기업들이 새로운 기능들을 제공하게 될 것입니다. 이는 사람들의 일상 생활의 변화를 제공하는 방향으로 계속해서 시장이 커질 것입니다.

> ChatGPT와 DALL-E?

GPT는 generative pretrained transformer를 의미합니다. 최근 가장 관심을 많이 받고 있는 AI라고 할 수 있습니다. ChatCPT는 현재 버전 3.5를 무료로 챗봇 형태로 제공합니다. 우리는 자연어로 된 질문을 던지고 웬만한 수준의 질문에서는 적절한 답을 제공받을 수 있습니다. OpenAI는 ChatGPT를 2022년 11월에 공개했고 현재까지 가장 성능이 좋은 AI 챗봇이라고 평가받고 있습니다. 컴퓨터 코드, 대학 수준의 에세이, 시, 그리고 적당한 농담까지도 할 수 있는 수준입니다. 이와는 다르게 DALL-E는 자연어를 입력하면 그에 맞는 적절한 이미지를 출력해줍니다. 아주 많은 분류된 이미지들이 학습되어 있습니다. 그리고 이렇게 불려진 이미지를 변형하여 원하는 결과를 출력해 줍니다. 예를 들면 ‘dog riding a motorcycle’과 같은 요청을 할 수 있습니다. 그러면 개와 모터사이클을 자연스럽게 합성하여 제공합니다. 또한 기존의 이미지에서 변형을 줄 수도 있습니다. DALL-E 홈페이지에서는 모히칸 머리를 한 모나리자를 예를 들었습니다.

>Generative AI(생성형 AI)의 방향성은 어디로 향하는가?

최근까지도 생성형 AI의 주요 트렌드는 더 큰 모델을 가지고 스케일을 키우고 더많은 데이터를 활용하는 데 있었다. 물론 이것은 더 좋은 결과를 가지고 오기는 했지만 대형 기업의 주도하게 이루어지는데 한계가 있었다. 더 크기가 크거나 많은 데이터에 훈련된 모델이 어떻게 확장되고 있는지 확인할 수 있습니다. 그러나 최근에는 더 큰 모델을 사용하기 보다는 더 많은 영역별 데이터를 활용하여 훈련한 작은 모델이 더 큰 범용 모델보다 성능이 뛰어난 경우가 많은 경우를 알 수 있었습니다. 따라서 “구체적인 조언을 원할 때는 가장 똑똑한 사람이 아니라 도메인 전문가에게 도움을 요청”하는 것이 더 적절하다는 방향성도 제시되고 있습니다. 이는 아직까지 모든 분야에 검증된 것이 아니기 때문에 향후 어떠한 방향으로 흘러갈지 지켜봐야 할 것입니다.

> AI 모델들의 한계는 무엇일까? 어떻게 잠재적인 문제를 해결할 것인가?

현재 진행형으로 개발되고 있는 AI모델들은 아직까지 너무 새롭기 때문에 길게 발생, 예측할 수 있는 효과나 문제를 발견하지는 못하고 있습니다. 따라서 이를 사용하는데에 있는 위험요소는 일부에 불과하고 알려지지 않는 요소가 많습니다. 특히나 그럴듯한 결과를 내놓기 때문에 발생 할 수 있는 위험인 비윤리적인 요소, 성별, 인종 등 무수한 편견이 포함될 가능성이 있습니다. 생성형 AI는 이런 부분 때문에 모욕적이거나 저작권이 있는 콘텐츠를 게시하는 것들과 관련된 평판 및 법적 위험을 감수해야 합니다.