비주얼 GPT란 무엇일까?
Microsoft는 최근 Visual ChatGPT라는 모델을 개발하여 AI 분야에서 선두를 달리고 있다. 이 모델은 ChatGPT, 트랜스포머, 컨트롤넷, 스테이블 디퓨전 등의 다양한 VFM을 하나로 통합한 것으로, 사용자 간 더 나은 커뮤니케이션을 위한 채팅 기능뿐만 아니라 시각적 콘텐츠 생성 및 수정 기능도 제공한다. 이로 인해 언어적 장벽을 허물고, 보다 효과적인 커뮤니케이션을 가능하게 한다.
이미 DALL-E 2나 웜보 드림과 같은 AI 이미지 생성기가 있지만, Visual ChatGPT는 커뮤니티에서 엄청난 인기를 끌고 있다. 이 모델은 ChatGPT의 대화 및 추론 능력과 VFM의 시각적 이해력 및 제작 기술을 결합하여 AI 분야에 큰 도움이 될 것으로 기대된다.
다음 링크를 들어가면 GitHub 리포지토리를 확인해 볼 수 있다.
Visual ChatGPT는 ChatGPT, 트랜스포머, 컨트롤넷, 스테이블 디퓨전 등의 VFM을 결합하여 만들어진 새로운 AI 모델이다. 이 모델은 채팅을 통해 비주얼 콘텐츠를 생성할 수 있도록 한다.
ChatGPT는 현재 자체적으로 이미지를 처리하거나 생성할 수 없다. 그러나 Visual ChatGPT 모델을 사용하면 시스템에서 이미지를 생성하고 수정하며, 잘라내기 기능 등 다양한 작업을 수행할 수 있다.
정리하자면 다음과 같은 특징들을 연구원들을 찾았다.
- Visual ChatGPT는 텍스트뿐만 아니라 이미지도 생성하고 수신할 수 있다.
- Visual ChatGPT는 여러 단계를 거치며, 복잡한 시각적 문의나 편집 지시를 처리하기 위해 여러 AI 모델이 협업하는 기능을 제공한다.
- 연구진은 테스트를 통해 Visual ChatGPT가 시각적 기초 모델을 활용하여 ChatGPT의 시각적 기능을 쉽게 조사할 수 있다는 사실을 발견했다.
"시각적 기초 모델(VFM)"이라는 용어는 일반적으로 컴퓨터 비전에서 사용되는 기본적인 알고리즘들의 그룹을 가리키며, 이러한 방법들은 표준 컴퓨터 비전 기술을 인공지능 애플리케이션에 적용하는 데 사용된다. 또한, 이러한 방법들은 더 복잡한 모델들의 기초가 될 수도 있다.
쉽게 말해 시각적 기초 모델은 사진 속에 있는 동물, 사람, 사물 등의 사물을 인식하는 컴퓨터 프로그램이다. 이 모델은 많은 사진을 학습하여 수행하는데, 이를 통해 사진을 보며 새로운 정보를 학습하는 우리와 마찬가지로 시각적 기초 모델도 사물을 인식하는 방법을 습득한다.
사진 속 사물을 인식하거나 보기 좋다고 생각되는 새로운 사진을 만들 수도 있다. 마치 컴퓨터 안에 정말 재능 있는 화가나 사진작가가 있는 것과 같다.
사용자: 안녕하세요?
Visual GPT: 안녕하세요! 저는 비주얼 채팅 GPT입니다. 다양한 텍스트 및 시각 관련 작업을 도와드리기 위해 왔습니다. 무엇을 도와드릴까요?
사용자: 그림 그리는 걸 좋아하는데 잘 못하는데 도와주실 수 있나요? 사과를 그리는 것처럼.
Visual GPT: 물론 사과를 그리는 것을 도와드릴 수 있습니다. 제가 생성한 이미지는 다음과 같습니다: image/a3454226.png
사용자: 이미지 그리기
Visual GPT: 수신됨. 무엇을 알고/작동하고 싶으신가요? 이미지/dcd3af54.png를 사용하여 대화창에 이 이미지를 표시할 수 있습니다.
사용자: 이미지/dcd3af54.png는 내가 사과와 술잔을 스케치한 것인데, 개선할 수 있도록 도와줄 수 있어?
Visual GPT: 스케치를 기반으로 새 이미지를 생성했습니다. 새 이미지는image/569b_scribble2image_dcd4af54_dc4af54.png로 저장됩니다.
사용자: 안녕하세요?
Visual GPT: 안녕하세요! 저는 비주얼 채팅 GPT입니다. 다양한 텍스트 및 시각 관련 작업을 도와드리기 위해 왔습니다. 무엇을 도와드릴까요?
사용자: 좋아 보이네. 이미지/569b_scribble2image_dcd3af54_dcd3af54.png를 수채화 그림으로 만들 수 있어?
Visual GPT: 예. 텍스트 도구를 사용하여 이미지를 사용하여 입력한 내용을 바탕으로 수채화 그림을 생성합니다. 새 이미지는 image/0849_pix2pix_569b_dcd3af54.png로 저장됩니다.
사용자: 와우, 정말 아름답네요. 이 배경이 어떤 색인지 알려주실 수 있어?
Visual GPT: 이미지/0849_pix2pix_569b_dcd3af54.png의 배경색은 파란색입니다.
사용자: 정답. 이 그림에서 이 사과를 제거한 다음 이미지를 설명해 줄 수 있어?
Visual GPT: image/2ca6_remove-something_0849_dcd4af54.png에는 이제 파란색 배경의 음료수 잔이 포함됩니다. 이미지/2ca6_remove-something_0849_dcd3af54.png
사용자: image/2ca6_remove-something_0849_dcd3af54.png의 테이블에 여전히 그림자가 있는데, 테이블을 검은색 테이블로 바꾸도록 도와주실 수 있어?
Visual GPT: 테이블을 검은색 테이블로 교체했습니다. 이미지가 image/7d6_replace-something_2ca6_dcd3af54.png로 저장됩니다.
대화를 이어나가면서 원하는 이미지를 생성하는 것은 작가나 디자이너와의 대화와 비슷하다. 이러한 형식으로 진행하면 원하는 이미지를 더욱 자연스럽고 명확하게 만들 수 있다.
Visual ChatGPT의 개발은 채팅을 통해 시각적 콘텐츠를 생성 및 수정할 수 있는 기능을 제공함으로써 AI 분야에서 중요한 진전을 이루었다. 이 새로운 모델은 ChatGPT의 대화 및 추론 능력과 VFM의 시각적 이해 및 제작 능력의 강점을 결합하여 다양한 분야에 유용한 도구가 될 것으로 보인다.
전반적으로 Visual ChatGPT는 AI 개발에 있어 중요한 진전이며, 앞으로 이 기술이 어떻게 발전해 나갈지 지켜보는 것도 흥미로워 보인다. 어느 작가가 비쥬얼 GPT를 이용하여 작품을 제작하고, 이 작품이 현대미술 전시회에 빨리 등장할 것 같은 생각이 든다.