이상한 그림이죠? 지금 보고계시는 그림은 헤럴드 코헨이라는 작가가 최초로 컴퓨터를 통해 그린 그림입니다. 최근 AI트렌드로 이야기하면 사실 많은 분들이 이야기하는 그림은 이 그림이죠
24년에 '콜로라도 주립 박람회 미술대회'에서 우승을 한 작품이 AI로 그렸다고 놀란이 되었던 사건으로 지금도 뜨거운 감자 중 하나입니다.
먼 저 말씀드리면 저는 AI 분야의 전문가도 아니고 미술사도 전공하지 않아 이에 대한 어떤 화풍을 사용했고 뭐 어떤 미술사적 가치를 지니는지는 다른 분들이 쓴 글을 봐도 정확히 이해가 가지 않습니다.
하지만 이야기할 수 있는 부분은 실 활용자로 수익을 내본 사람으로서 저의 생각과 사례정도는 말씀드릴 수 있을 것 같네요 한번 가보실까요?
예술산업의 진화와 미래 전망 예술은 항상 새로운 도구와 기술의 등장으로 진화해 왔습니다. 처음 소설이 아니라 희곡이 나왔을 때 희곡은 쓰레기라 말한 예술가들이 있었고, 만화가 우리나라에 나왔을 때는 만화를 못 보게 하고 스토리마저도 제한했던 역사가 있죠
우리나라뿐만 아니라 미국에서 비슷한 사례가 있어요 50년대 ~ 60년대에 만화에 대한 규제가 엄격해져 조커가 바보가 된 사례나 일본에서의 '빨간책(赤本)' 또는 '악서(惡書)'라고 부르던 시절, 학부모단체 PTA의 '악서추방운동'과 같은 문화 정화운동까지 오랜 시간 동안 이어온 사례입니다
이제는 만화에서 게임으로 수많은 금지들이 넘어오고 있죠 사실 AI의 도입도 비슷한 진통을 겪고 있습니다.
사실 초기의 AI등장시기에 사람들이 늘 하던 말이 있습니다. "전문직부터 대체될 거고 예술가들은 오래도록 살아남을 거다." 어디서 나온 말인지는 모르겠지만 실제로 유명했던 말이에요 지금 보면 웃기는 말이지만 당시에는 꽤나 사회적으로 인정받는 말이었습니다. 그림 AI의 시작이 1970년대라는 사실만 알아도 저런 말은 조심했을 텐데 말이죠
초기의 AI 그림은 단순히 프로그래밍된 규칙에 따라 형태와 색을 배열하는 실험적인 시도에 불과했으나, 오늘날의 AI는 텍스트 프롬프트 하나로 작품을 만들죠, 뭐 실제로 해보면 수십 수백 줄의 프롬포터를 코딩하듯이 꼼꼼하게 짜야하지만 서도요
이게 어느 정도로 차이가 나냐고요? 그림생성 AI 전문가에게 부탁할 수도 있겠지만 간단하게 한번 GPT로 시켜볼까요?
단순하게 한 줄 사용하면 이런 식으로 나타나지만 세부적으로 프롬프트를 짜보죠
이런 프롬프트 기반으로 세부적인 명령을 내려준다면
이 정도 수준까지도 만들 수 있는 게 현시대의 AI 활용도의 차이입니다. 물론 이것보다 훨씬 더 전문적으로 범위별 지정으로 수정까지 가능한 기능을 추가하고 있는 게 그림전문 AI들의 현 상황입니다
AI가 이 정도까지 도달하자, AI 아트는 창작의 주체성, 저작권, 윤리적 문제와 같은 중요한 질문들을 제기하며 예술의 정의에 대한 철학적 담론을 불러일으키고 있습니다. 실제로 말만이 아니라 정말로 게임에 후기테러를 당하거나 심지어는 신고를 당하고 그림사이트에서는 아예 AI항목을 따로 만들고 있어요
오늘은 이 이야기를 해보죠
코헨 아저씨이야기부터 들어가 볼까요? 1960~1970년대는 AI와 컴퓨터 기술이 예술 창작에 본격적으로 도입되기 시작한 시기로, 이 시기의 대표적인 사례는 영국의 예술가이자 컴퓨터 과학자인 Harold Cohen이 개발한 AARON 프로그램입니다.
AARON은 컴퓨터가 독립적으로 그림을 생성할 수 있도록 설계된 세계 최초의 예술 생성 프로그램 중 하나로, 특정한 규칙 기반 알고리즘을 사용해 패턴과 형상(주로 선과 기하학적 구조)을 생성하는 걸 목표로 뒀죠
이른 그림들을 그리던 녀석인데 AARON 이 녀석은 하드코딩된 규칙과 알고리즘을 통해 형태와 색상을 조합한 녀석으로 솔직히 초등학생이 그런 것 같은 느낌을 지울 수 없습니다.
당시에는 알고리즘은 기본적인 시각적 규칙(예: 선의 연결, 폐곡선 생성, 색상 조화)을 바탕으로 그림을 생성했으며, 생성된 이미지는 인간의 예술적 개입 없이 자동으로 완성했다는 지점에 의의를 두는 분위기니까요 사실 생성해 낸 것만 해도 대단한 게 맞습니다.
뭐 초기 모델이니 ai라 부를 순 없겠죠? AARON 역시 사전 정의된 규칙 내에서만 작동했기 때문에 창작 범위가 제한적이었으니 그냥 일종의 생성형 프로그램이라 부르는 게 맞습니다.
머신러닝이나 데이터 기반 학습을 사용하지 않았고 예술적 창작물이 진화하거나 적응하지 못했으니 일종의 그냥 붓을 대신에 프로그래밍 언어를 활용해 프로그램을 만들었다.라는 거예요 인간 예술가의 개입 없이 그림을 생성했지만, 결과물은 제한적인 스타일과 구도에서 벗어나지 못한 ai의 원류에 가깝다는 거죠.
사실 AARON 외에도 컴퓨터 기술을 활용한 다양한 초기 그래픽 실험이 진행되었습니다
프랙털 알고리즘을 사용해 자연의 기하학적 패턴(예: 나뭇잎, 산맥)을 시뮬레이션한 이미지 생성이 이루어졌죠, 대표적인 예로 Benoit Mandelbrot가 개발한 맨델브로트 집합(Mandelbrot Set)이 있는데 아래와 같이 오히려 과학계에서 개발한 기하학적인 문양들을 다루기도 했습니다. 이게 미술인지는 전공이 아니라 잘 모르겠지만 말이에요, 저도 이거 직접 코딩을 짜봤던 경험이 있는데 생각보다 컴퓨터 용량을 많이 잡아먹어 일정범위만 랜더 했던 기억이 있네요
사실 프렉탈 아트는 예술 창작보다는 과학적 시뮬레이션과 시각적 표현에 초점을 맞췄다는 게 좀 더 정확하겠죠
다른 녀석으로 이 녀석도 있습니다. 특정한 규칙과 수학적 공식에 따라 이미지가 생성되는 방식으로, 예술 창작 과정에서 절차적 생성법(Procedural Generation)을 통해 만든 녀석이죠, 사실 프렉탈 아트보다는 이 녀석을 원류로 보는 시선이 더 많습니다.
지금 보시고 계신 작품은 마이클 놀의 작품으로 그는 "예술가와 프로그래머가 한 인격 안에 결합되어야 한다"는 말을 한 사랍입니다.
기하학적인 반복을 통해 컴퓨터 알고리즘을 통해 일종의 패턴 이미지를 창조하는 것으로부터 예술을 해석한 거죠 이 사람의 영한을 받은 찰스 수리(Charles Csuri)는 스스로를 ‘알고 리스트(Algorist)’라 명명하며 과거의 예술 작품을 새로운 알고리즘 아트로 이어졌죠
그래도 예술에 가까워 보이지 않나요?
그 이후 Karl Sims는 진화 알고리즘과 신경망을 활용하여 가상의 생명체를 시뮬레이션하고, 이 생명체들이 움직임과 행동을 학습하도록 설계한 녀석인데 조금 더 기괴해 보이지만 이런 과정을 거쳤다는 겁니다.
역사는 이쯤 하고 실제 모델을 한번 볼까요?
몇 번이나 보여 드렸지만 2014년 Ian Goodfellow가 제안한 GAN은 AI 그림 생성의 패러다임을 바꾼 중요한 기술입니다. 이 알고리즘은 생성자(Generator)와 판별자(Discriminator)라는 두 개의 네트워크로 구성하여 아래와 같은 형상을 활용합니다.
생성자(Generator): 랜덤 노이즈에서 이미지를 생성 시도
판별자(Discriminator): 생성된 이미지가 진짜 데이터인지 가짜 데이터인지 구분한
결국 생성자는 판별자를 속이기 위해 점점 더 정교한 이미지를 생성하고, 판별자는 이를 구분하기 위해 더 예리해지는 거죠 자체적으로 이과정을 반복시켜 고품질의 이미지를 생성할 수 있게 되는 겁니다.
Diffusion 모델은 GAN의 한계를 극복하기 위해 등장한 기술입니다. 이전에는 비효율 적으로 검사를 하는 과정을 거쳤다면 이 녀석은 노이즈를 점진적으로 제거하며 이미지를 생성하죠
초기에는 랜덤 노이즈가 있는 상태에서 시작해 AI는 노이즈를 거꾸로 제거하며, 점차 정교한 이미지를 복원하는 겁니다. 결국 이 과정에서 이런저런 인지과정을 거치며 결과적으로 고품질의 이미지를 만들 내는 방식이죠 실제로 이것을 역추적해 원본을 찾아낸 사건도 있었어요
DALL·E에서 일부분 활용하긴 하지만, 또 CLIP의 벡터 임베딩 공간(joint representation space)을 같이 쓰거든요 기본적으로 이런저런 걸 복합적으로 활용한다 정도만을 이해하시면 됩니다.
사실 이 이후도 몇 가지 기술적인 사항들이 추가되었는데 세부적인 건, 논문을 보며 어느 정도 완성될 때까지 기다리고 결정했습니다.
너무 변화와 진화가 빨라 따라가기 힘들고, GLIDE모델과 그 이후 모델까지 연구되고는 있는데 이러한 세부방식과 역사는 어느 정도 시장이 안정화되면 그때 다시 보고서를 써보죠 사실 내년이나 내후년쯤에는 깔끔하게 정리된 모델이 나올 것 같기는 합니다.
사실 가장 중요한 파트는 그래서 프롬프트 기반으로 잘해겠죠? 우리는 이 명령이 중요한 거잖아요 세부제작 방식은 넘기더라도 AI 그림 제작에서 가장 주목받는 기술 중 하나는 프롬프트 기반 이미지 생성을 이야기해 보죠. 사용자는 텍스트를 입력하여 원하는 스타일과 내용을 가진 이미지를 생성할 수 있는 이기술은 중요하죠
텍스트-이미지 매핑(Text-to-Image Mapping)
AI는 텍스트와 이미지 간의 관계를 학습한다. 예를 들어, “우주를 날아다니는 고양이”라는 문구를 입력하면 해당 키워드와 연관된 이미지를 생성하는 과정입니다. 사실 다른 글에서 설명드린 토큰화에 이미지용으로 만들겠다 정도로 이해하시면 됩니다.
컨디셔닝(Conditioning)
입력된 텍스트에 따라 특정 스타일, 색상, 구도 등을 제어할 수 있다는 간단한 원리죠, 사용자가 원하는 세부적인 결과를 얻기 위해 중요하게 작동하죠 사실 여기서 중요하게 부정문과 ai 라면사태의 이야기인데 먼저 “우주를 날아다니는 고양이” 프롬프트와 제작과정을 보시고 라면 이야기를 해보죠
현행은 이 위치까지 왔다고 보시면 됩니다 DELL-E가 좋은 모델이긴 하고 코드로 달라고 하면 세부조정이 가능하기는 합니다만 우선은 여기까지 있다고 하고 라면 이야기를 좀 해보죠
카이스트 김주호 교수님 강의영상인데 상당히 재밌습니다. 영문이긴 해도 시간이 되시는 분들은 봐보시길 바라며 시작해 보죠
이전 설명드렸던 gen 알고리즘이 한계를 극복하기 위해 노이즈를 도입했다 말씀드렸죠? gen 알고리즘을 활용한 모델들에게 ‘사람의 손을 그려 달라’는 주문을 입력하면, 데이터를 조합해 가장 명령과 가까운 그림입니다 지금도 이상해요 한번 명령해 볼까요?
사실 세부적인 프롬프트 조정을 거치면 깔끔하게 만들 수는 있는데 한번 손대보죠
조금 기괴한 느낌이 남아있습니다. 얼굴이나 다른 곳 그림을 그리면 문제가 되는 거죠, 세부 생성형으로 개발한 친구들은 이런 현상이 적긴 합니다. novel ai나 플레이그라운드 레오나르도는 그나마 괜찮다는 말이 있고 gpt은 dell e 전문모델은 아니니 일단 이런 문제가 아직 남아 있다 정도로 이야기를 마저가 봅시다.
이문제를 해결하기 위한 방식은 많이 고안되었고 우리 친구들이 한 가지 문제에 당도하죠 바로 라면 그림이야기입니다. 라면을 젓가락을 사용해 먹으라는 명령을 내리면 저렇게 나오는 거예요
당시 한유튜버가 2시간 정도 씨름하는 영상의 일부를 국제 포럼에 사용하셨는데
계속해서 명령어충돌부터 하드코딩을 활용한 방법으로 만든 거죠 그럼 지금 만들면 어떨까요?
22년도 연구 이후 고작 2년 정도 지난 시점에서 이 정도까지 발전한 겁니다. 발전속도가 따라가기 힘들다는 게 무슨 말인지 아시겠죠? 심지어 gpt의 dell e는 전문적으로 튜닝하는 모델이 아님에도 불구하고 말이에요
사실 이글의 첫 시작은 논란사례집을 쓰려고 했는데 기초이야기와 발전사이야기만으로 어느 정도 내용이 찬 것 같아 논란 사례는 다음글에서 다뤄보겠습니다.