Canny Edge의 재발견

수학적 영상처리와 딥러닝이 서로 만나야 하는 이유.

Nov 24. 2023

stable diffusion 모델을 이용한 text2image 생성모습

저 그림은 ComfyUI라는 새로운 생성AI기반 GUI프로그램을 사용하여 입력한 레나 이미지로부터 Canny Edge 이미지(검은 이미지)를 만들고 그렇게 만들어진 입력이미지에 대한 뼈대(features)로부터 입력과 유사하지만 또다른 새로운 이미지를 만드는 장면입니다.

이때, 새롭게 만들어질 이미지에대한 제어는 파란색 상자안에 적어넣은 텍스트들로 콘트롤이 가능합니다. 즉, 텍스트로 새롭게 만들 이미지에 대한 속성을 어떻게 설명하느냐에 따라 생성되는 이미지는 다양하게 변하게됩니다. 그런 텍스트 입력 작업을 Text Prompting 이라고 부르죠.

텍스트 프롬프팅은 심지어 생성되는 이미지가 유화나 수채화 스타일이 되게 할수도있고, 만화나 애니메이션이 되도록 만들수도 있으며 화질이나 질감도 느껴지게 제어가 가능합니다.

이렇게 말이죠.

생성된 다양한 이미지들

저같은 stable diffusion 초심자도 하루만에 스스로 배워서 이정도 만들수가 있는걸 보면 ...

요즘의 엔드유저용 딥러닝 유틸의 발전이 놀랍네요.

참고로 저 비주얼 프로그램은 ComfyUI 라는 웹기반 앱입니다. Stable Diffusion 모델기반 의 이미지생성 유틸이고 오픈소스입니다. 쉽게 설치가 가능하죠.

m1 맥에서 GPU를 사용하여 계산하는 모습

또한 CPU 뿐만 아니라 GPU를 적극활용하여 연산하기때문에 이전의 Stable Diffusion 프로그램들 보다 이미지생성 속도가 빠르다고 합니다. 15초 정도면 512x512 크기의 이미지 한장을 뚝딱 만들어 주네요. 물론 CUDA 같은 GPGPU를 이용하면 더 빠르고요.

그렇게 만들어진 이미지들은 초상권이 필요없고 이세상에 실물이 없는 이미지들이므로 자유롭게 사용이 가능합니다.

레나 이미지에 대한 Canny Edge맵

이렇게 케니에지 처럼 수학적인 영상처리의 결과물과 Data-Driven 방식의 딥러닝이 만나면 놀라운 결과물의 생성도 가능해지는데요 ..

자유도가 크고 의미론적(semantic)인 텍스트 프롬프트와 Canny edge 같은 자유도가 낮은 시각적인 프롬프트(Visual Prompt)가 서로 밀당하면서 새롭게 만들어질 이미지를 다양화하면서도 특정범주를 넘지 않도록하는 생성 메커니즘 입니다.

물론 거기에는 CLIP이라는 텍스트-이미지를 연결해놓은, 사전에 학습된 멀티모달(multi-modal) 초거대 모델이 있기에 가능한 것이고요.

캐니에지 말고도 sobel edge, depthmap, segmentation mask, thresholding, bbox, pose graph, point, scribble 스케치 는 물론이고 unity등으로 만든 3d 그래픽 이미지 등으로도 생성AI 용 Visual prompting이 가능합니다.

레나 이미지에 대한 depthmap( 깊이정보)

이제, 인공지능에서 멀티모달이 점점 중요해지는 이유가 저런 결과물들을 보면 좀 느껴지시나요?

어찌보면 당연한 접근일겁니다.

이 지구상에서 인간이 가장 지능이 우수하고 그 인간이 태고적부터 멀티모달 방식의 지능으로 성공적으로 생존해 왔기 때문일겁니다.

텍스트와 이미지는 서로 만나야 하고, 수학적 영상처리와 데이타드리븐 딥러닝은 서로 만나야 합니다.

그리고 저런 수학적인 결과물(features)로 내재화시킨 구속조건 이야말로 앞으로 인간의 한계를 뛰어넘을 전산기계지능을 견제할수 있는 하나의 효과적인 장치가 될수 있을지도 모릅니다.

왜냐하면 딥러닝과 달리 수학적의 결과물은 예측이 가능하고., 해석도 가능하며, 제어가 가능하기 때문입니다.

keyword

작가의 이전글유로파 탐사위성에 내이름 넣는법 잡스의 테크노히피즘 vs 샘알트만의 효과적 이타주의작가의 다음글