brunch

You can make anything
by writing

C.S.Lewis

by 키르히아이스 Jun 21. 2024

이미지 생성 AI의 발전 수준은 어디까지 와있을까?

스탠퍼드 AI Index Reprt 2024 분석 #5

 오늘 살펴볼 분야는 우리 실생활과 가장 연관성이 깊은 이미지 생성 분야이다. 

AI로 생성된 해리포터 이미지의 변천사(출처: 스탠퍼드 AI Index Report 2024)

이미지 생성 AI인 미드저니에 의해 생성된 해리포터의 변천사를 한번 보자. 처음엔 2차원에서 그린 것 같은 느낌이지만 갈수록 디테일이 살아나고 있는 게 보인다.   

이미지 생성 모델의 성능을 인간이 측정한 결과(출처: 스탠퍼드 AI Index Report 2024)


텍스트를 입력해 이미지를 생성하는 AI모델을 테스트한 결과 역시 DALL-E모델이 압도적인 성능인 것이 보인다. 다만 이것은 생성된 이미지가 입력한 텍스트와 얼마나 부합되는지 평가한 것이고 독창성, 현실성, 미학적 평가는 다르다.   

입력한 텍스트에 부합하는 정도, 이미지 품질, 미학적, 독창성 등 각 지표별 최우수 모델(출처: 스탠퍼드 AI Index Report 2024)


 위 표를 보면 이미지와 텍스트가 얼마나 부합하는지, 이미지 품질은 어떤지, 미학적, 독창성은 어떤지 모두 평가하여 최우수 모델을 표시했다. 여기서 드림 라이크 포토리얼이란 모델이 최고 점수를 받는 게 보인다. 처음 보는 모델이라 찾아보니 Dreamlike.art 사에서 Stable Diffusion 1.5를 기반으로 제작한 모델이라고 한다.  홈페이지도 있으니 방문해 보길 바란다.


 텍스트로 3D이미지를 생성하는 툴도 있는데 MVDream이라는 툴이다. 스탠퍼드에서 소개하는 만큼 주목할만하다는 얘기인데 캘리포니아 대학 샌디에고 연구진이 개발했다고 한다.

오픈소스로 공개되어 있는 상태인데 몇 가지 시연 이미지가 올라와있다. 자세히 보니 중국연구진이 만든 툴로 미국 내 중국 연구진의 수준이 상당히 높다는 것을 알 수 있다.


1) 지시 이행(Instruction Following)

이미지를 보고 사용자의 지시를 받아 수행하는 것을 말하는데 일상생활에서 긴요하게 쓰일 수 있는 기술이다.

592가지 과제세트로 진행한 테스트에서 GPT-4는 인간기준선에 도달했다.

이미지 지시이행에 대한 벤치마크 테스트 결과(출처: 스탠퍼드 AI Index Report 2024)


2) 편집

편집도구 없이 텍스트만으로 이미지를 편집하는 것도 AI 분야에서 인기인데 이와 관련된 모든 툴에서 성능 향상이 일어나고 있다. 스탠퍼드 보고서에서는 그중 몇 가지 툴을 소개하고 있다.

첫 번째는 컨트롤 넷이라는 도구이다. 이 도구는 스테이플 디퓨전이라는 이미지 생성 AI모델을 기반으로 만든 것으로 보다 세부적인 제어가 가능하도록 하였다.

간단한 구도만 입력하면 이미지를 생성할 수 있는 툴(출처:https://github.com/lllyasviel/ControlNet?tab=readme-ov-file)

입력은 아주 간단한 구도 스케치에 불과하지만 여기서 텍스트를 입력하자 다양한 이미지를 뽑아낸다. 

간단한 스케치와 텍스트를 입력하여 이미지를 생성(출처: 스탠퍼드 AI Index Report 2024)

위와 같은 식의 진행도 가능하다. 점점 이미지 제작자들의 설자리가 없어지는 것 같아서 안타깝다.

이미지를 주고 콘셉트를 바꿀 수 있다(출처:https://github.com/lllyasviel/ControlNet?tab=r

이미지를 주고 콘셉트만 바꾸는 것도 가능하다. 여기서는 스타워즈의 스톰트루퍼의 강의 스타일로 바꾸고 있다.  

외곽선만 주면 알아서 채색도 가능하다(출처:https://github.com/lllyasviel/ControlNet?tab=readme-ov-file)

이렇게 외곽선만 있는 그림의 채색도 가능하다. 애초에 상세한 선그림도 필요 없고 어떤 자세만 있으면 거기서 여러 그림들을 뽑아낼 수 있다.  

아예 다른 사진으로 이미지를 생성할 수도 있다(출처:https://github.com/lllyasviel/ControlNet/discussions/12).

또 하나 재밌는 툴을 소개하는데 버클리 대학에서 개발한 Instruct-NeRF2NeRF이다.  

<영상: https://instruct-nerf2nerf.github.io>

 이 툴을 이해하기 위해서는 NeRF(Neural Radiance Fields)라는 기술을 먼저 알아야 하는데 다양한 시점에서 3차원 영상을 뽑아내는 기술이다. 매트릭스 영화를 보면 네오가 총알을 피하는 장면이 나오는데 그 장면을 보는 많은 사람들의 입이 떡 벌어졌다. 영화역사를 바꾸는 혁신이었기 때문이다. 이때는 실제로 수십대의 카메라를 놓고 촬영해서 여러 각도의 화면을 뽑아냈다. 하지만 NeRF기술이 있으면 그럴 필요가 없다. 몇 개 각도의 촬영 장면만 있으면 중간에 빠진 각도의 장면을 자동으로 뽑아준다.


 이건 기존의 컴퓨터 그래픽 방식과도 다르다. 컴퓨터 그래픽으로 이것을 처리하기 우해서는 3차원 영상을 만들기 위해 가상의 3차원 공간에 객체를 만들고 질감과 물리법칙, 빛의 굴절까지 계산해 표현한다. NeRF는 그게 아니라 AI를 이용해서 다른 시점의 화상을 추론해 내는 것이다. 이게 나오면 그래픽 업계도 망하게 할 것 같다. 이것을 적용한 예시는 다음과 같다

(출처:https://blog-ko.superb-ai.com/nerf-view-synthesis-for-representing-scenes/)

 이 기술은 3차원의 여러 시점을 제공하는 기술이고 이것을 한 단계 더 발전시켜 사용자의 편집명령을 이행할 수 있도록 한 것이 바로 Instruct-NeRF2NeRF이다. 같은 연구진이 2차원에서 사용자의 편집명령을 적용하는 툴을 개발했는데 그것이 InstructPix2Pix이다.  

2차원에서 이미지의 콘셉트를 자유롭게 변화시킬 수 있다(출처:https://www.timothybrooks.com/instruct-pix2pix)

완성된 Instruct-NeRF2NeRF의 화면은 다음과 같다

(출처:https://instruct-nerf2nerf.github.io).

위 영상을 보면 명령에 따라 변하는 3차원 공간을 볼 수 있다.  이 기술을 구현하는 과정은 미리 여러 방향을 찍어놓은 데이터셋을 만들어두고 그것을 변화시킬 수 있는 한 장의 이미지를 넣어 전체 데이터셋을 학습시킨다. 예를 들어 봄에 찍어놓은 장소로 데이터셋을 만들어 학습시킨 후 가을에 찍은 사진 한 장을 입력하면 나머지 데이터 셋이 모두 업데이트되는 것이다.


이 기술은 테슬라의 자율주행을 위한 비전기술에 활용될 수 있을 것이다. 카메라로 인지한 장면만으로 보이지 않는 곳까지 유추해 내는 기술. 그것이 있으면 센서를 주렁주렁 달지 않아도 인간처럼 공간을 인식하고 미리 대비할 수 있다.


스탠퍼드 보고서는 이미지의 영역을 구분/분할하는 기술도 소개하고 있는데 메타연구원들이 진행 중인 프로젝트로 Segment Anything이라는 것이다. 프로젝트명부터 참 자유분방하다. 우리나라 같으면 이미지 분할 기술이라고 딱딱하게 말했을 텐데 말이다. 기존에는 RITM이란 AI툴이 유명했는데 그것보다 뛰어나다고 한다.  

녹색점이 있는 영역을 구분해 낼 수 있다(출처: 스탠퍼드 AI Index Report 2024)

예시로 나온 이미지를 보면 모호하게 찍은 녹색 점에서 3가지 다른 영역을 뽑아내고 있다. 타조의 경우 한 번은 몸전체 그다음엔 몸통만, 그리고 다음엔 머리만 뽑아낼 수 있다. 


 다음으로 소개되는 기술은 2차원 이미지만 가지고 3차원 이미지를 생성하는 기술이다. 옥스퍼드 연구진이 개발한 리얼퓨전이라는 툴인데 2차원이미지에서 모든 각도의 이미지를 구성하고 이걸로 3차원의 이미지를 재구성한다.

출처: https://lukemelas.github.io/realfusion/)

이 기술은 자동차, 배등의 설계에 사용되기도 좋을 것이고 방위산업이나 기타 시뮬레이션에도 도입하면 효과가 있을 것이다. 3차원 이미지를 만들려면 작업이 많이 필요한데 그것을 훨씬 단축시켜 줄 수 있다.


 3) 동영상 생성

 기존에는 낮은 해상도의 짧은 영상 밖에 안되었지만 최근에는 고품질의 긴 영상도 AI를 통해 생성하고 있다. OpenAI의 SORA라는 모델이 유명하지만 스탠퍼드 보고서에서는 기술적 기반이 된 잠재확산모델(Latent Diffusion Model, LDM)의 논문을 소개하고 있다. 해당 논문으로 구현된 영상은 다음과 같다

(출처:https://research.nvidia.com/labs/toronto-ai/VideoLDM/)

메타 연구진들이 개발한 Emu Video라는 툴도 텍스트와 이미지 기반으로 영상을 만들 수 있다. 데모 몇 가지를 보자

(출처:https://emu-video.metademolab.com/#/demo)

홈페이지에서는 옵션을 선택하면 영상이 곧바로 해당 콘셉트에 맞게 수정된다. 그리고 이미지를 가지고 영상을 만드는 기술도 보여준다. 

(출처:https://emu-video.metademolab.com/#/demo)

아직은 완벽한 고해상도라고 하기는 어렵지만 그런 것은 시간이 해결해 줄 것이다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari