brunch

You can make anything
by writing

C.S.Lewis

by 이승필 Mar 14. 2023

마이크로소프트 비주얼 GPT 등장

비주얼 GPT란 무엇일까?


VisualGPT 등장

Microsoft는 최근 Visual ChatGPT라는 모델을 개발하여 AI 분야에서 선두를 달리고 있다. 이 모델은 ChatGPT, 트랜스포머, 컨트롤넷, 스테이블 디퓨전 등의 다양한 VFM을 하나로 통합한 것으로, 사용자 간 더 나은 커뮤니케이션을 위한 채팅 기능뿐만 아니라 시각적 콘텐츠 생성 및 수정 기능도 제공한다. 이로 인해 언어적 장벽을 허물고, 보다 효과적인 커뮤니케이션을 가능하게 한다.


이미 DALL-E 2나 웜보 드림과 같은 AI 이미지 생성기가 있지만, Visual ChatGPT는 커뮤니티에서 엄청난 인기를 끌고 있다. 이 모델은 ChatGPT의 대화 및 추론 능력과 VFM의 시각적 이해력 및 제작 기술을 결합하여 AI 분야에 큰 도움이 될 것으로 기대된다.


다음 링크를 들어가면 GitHub 리포지토리를 확인해 볼 수 있다.



Visual ChatGPT란?

출처: Microsoft

Visual ChatGPT는 ChatGPT, 트랜스포머, 컨트롤넷, 스테이블 디퓨전 등의 VFM을 결합하여 만들어진 새로운 AI 모델이다. 이 모델은 채팅을 통해 비주얼 콘텐츠를 생성할 수 있도록 한다.


ChatGPT는 현재 자체적으로 이미지를 처리하거나 생성할 수 없다. 그러나 Visual ChatGPT 모델을 사용하면 시스템에서 이미지를 생성하고 수정하며, 잘라내기 기능 등 다양한 작업을 수행할 수 있다.


정리하자면 다음과 같은 특징들을 연구원들을 찾았다.


- Visual ChatGPT는 텍스트뿐만 아니라 이미지도 생성하고 수신할 수 있다.


- Visual ChatGPT는 여러 단계를 거치며, 복잡한 시각적 문의나 편집 지시를 처리하기 위해 여러 AI 모델이 협업하는 기능을 제공한다.


- 연구진은 테스트를 통해 Visual ChatGPT가 시각적 기초 모델을 활용하여 ChatGPT의 시각적 기능을 쉽게 조사할 수 있다는 사실을 발견했다. 



Visual foundation models (VFMs)이란?

출처: Microsoft

"시각적 기초 모델(VFM)"이라는 용어는 일반적으로 컴퓨터 비전에서 사용되는 기본적인 알고리즘들의 그룹을 가리키며, 이러한 방법들은 표준 컴퓨터 비전 기술을 인공지능 애플리케이션에 적용하는 데 사용된다. 또한, 이러한 방법들은 더 복잡한 모델들의 기초가 될 수도 있다.


쉽게 말해 시각적 기초 모델은 사진 속에 있는 동물, 사람, 사물 등의 사물을 인식하는 컴퓨터 프로그램이다. 이 모델은 많은 사진을 학습하여 수행하는데, 이를 통해 사진을 보며 새로운 정보를 학습하는 우리와 마찬가지로 시각적 기초 모델도 사물을 인식하는 방법을 습득한다.


사진 속 사물을 인식하거나 보기 좋다고 생각되는 새로운 사진을 만들 수도 있다. 마치 컴퓨터 안에 정말 재능 있는 화가나 사진작가가 있는 것과 같.



Visual ChatGPT 사용법 & 작동원리

출처: Microsoft

사용자: 안녕하세요? 


Visual GPT: 안녕하세요! 저는 비주얼 채팅 GPT입니다. 다양한 텍스트 및 시각 관련 작업을 도와드리기 위해 왔습니다. 무엇을 도와드릴까요?


사용자: 그림 그리는 걸 좋아하는데 잘 못하는데 도와주실 수 있나요? 사과를 그리는 것처럼.


Visual GPT: 물론 사과를 그리는 것을 도와드릴 수 있습니다. 제가 생성한 이미지는 다음과 같습니다: image/a3454226.png


사용자: 이미지 그리기


Visual GPT: 수신됨. 무엇을 알고/작동하고 싶으신가요? 이미지/dcd3af54.png를 사용하여 대화창에 이 이미지를 표시할 수 있습니다. 


사용자: 이미지/dcd3af54.png는 내가 사과와 술잔을 스케치한 것인데, 개선할 수 있도록 도와줄 수 있어? 


Visual GPT: 스케치를 기반으로 새 이미지를 생성했습니다. 새 이미지는image/569b_scribble2image_dcd4af54_dc4af54.png로 저장됩니다.


출처: Microsoft

사용자: 안녕하세요? 


Visual GPT: 안녕하세요! 저는 비주얼 채팅 GPT입니다. 다양한 텍스트 및 시각 관련 작업을 도와드리기 위해 왔습니다. 무엇을 도와드릴까요?


사용자: 좋아 보이네. 이미지/569b_scribble2image_dcd3af54_dcd3af54.png를 수채화 그림으로 만들 수 있어? 


Visual GPT: 예. 텍스트 도구를 사용하여 이미지를 사용하여 입력한 내용을 바탕으로 수채화 그림을 생성합니다. 새 이미지는 image/0849_pix2pix_569b_dcd3af54.png로 저장됩니다. 


사용자: 와우, 정말 아름답네요. 이 배경이 어떤 색인지 알려주실 수 있어? 


Visual GPT:  이미지/0849_pix2pix_569b_dcd3af54.png의 배경색은 파란색입니다. 


사용자: 정답. 이 그림에서 이 사과를 제거한 다음 이미지를 설명해 줄 수 있어?


Visual GPT: image/2ca6_remove-something_0849_dcd4af54.png에는 이제 파란색 배경의 음료수 잔이 포함됩니다. 이미지/2ca6_remove-something_0849_dcd3af54.png


사용자: image/2ca6_remove-something_0849_dcd3af54.png의 테이블에 여전히 그림자가 있는데, 테이블을 검은색 테이블로 바꾸도록 도와주실 수 있어?


Visual GPT: 테이블을 검은색 테이블로 교체했습니다. 이미지가 image/7d6_replace-something_2ca6_dcd3af54.png로 저장됩니다. 


대화를 이어나가면서 원하는 이미지를 생성하는 것은 작가나 디자이너와의 대화와 비슷하다. 이러한 형식으로 진행하면 원하는 이미지를 더욱 자연스럽고 명확하게 만들 수 있다.



마무리


Visual ChatGPT의 개발은 채팅을 통해 시각적 콘텐츠를 생성 및 수정할 수 있는 기능을 제공함으로써 AI 분야에서 중요한 진전을 이루었다. 이 새로운 모델은 ChatGPT의 대화 및 추론 능력과 VFM의 시각적 이해 및 제작 능력의 강점을 결합하여 다양한 분야에 유용한 도구가 될 것으로 보인다.


전반적으로 Visual ChatGPT는 AI 개발에 있어 중요한 진전이며, 앞으로 이 기술이 어떻게 발전해 나갈지 지켜보는 것도 흥미로워 보인다. 어느 작가가 비쥬얼 GPT를 이용하여 작품을 제작하고, 이 작품이 현대미술 전시회에 빨리 등장할 것 같은 생각이 든다.


작가의 이전글 완벽한 제품 출시 시기는 어떻게 정할까?
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari