brunch

야짤 생성 프로그램으로 알아가는 AI의 세계

"와인잔에 와인이 가득 차 있다."

by 박세환

근래 한 야짤 생성 사이트를 알게 되어 며칠간 신나게 돌려보았더랬다. 그렇게 돌려보며 지금까지 깨닫고 느낀 바를 나열해 보면 대략 다음과 같다.


1. 많은 이들이 경험적으로 시도해 봤음직 한 설명일수록 잘 알아먹는다.

이를테면, "수줍은 표정을 지으며 살짝 다리를 벌린다."이런 일반적인(?) 설명은 프로그램이 쉽게 이해한다. 하지만 "머리에 트레이닝 바지를 뒤집어쓰고 속옷을 오른 팔뚝에 묶은 채로 오리걸음을 한다. 오른쪽 허벅지에 이쑤시개통 뚜껑이 뒤집혀 달려있다."이런 설명은, 아무리 반복해 말해주어도 제대로 알아듣지 못한다. '저런' 설정을 원했던 사례가 여태껏 아무도 없어서 프로그램이 이런 상황을 경험적으로 익힐 기회가 없었기 때문 아닐까 한다.


2. 3D(실사) 모드보다 2D모드에서 조금 더 잘 알아먹는다.

아무래도 이 사이트를 이용하는 다수가 씹덕이다 보니 씹덕 취향에 최적화된 듯하다. (??? : "나는 2D가 아니면 꼴리지 안... 읍읍") 실사모드에서는 구현하지 못하던 장면이 2D모드로 전환했을 때 구현되는 경우가 왕왕 있었다.


3. 두 사람 이상을 제대로 구현해 내는 건 거의 신의 영역으로 보인다.

사실 프로그램은 한 사람 제대로 구현하는 것조차 버거워한다. 아무리 친절하게 설명과 묘사를 해 주어도 신체 일부분은 기괴하게 일그러져 버리는데, 경험적으로 심장으로부터 멀어질수록 이 증상이 심해지는 듯하다.(그래서 보통은 몸통을 가장 잘 묘사한다.) 그런데 하나가 아닌 두 사람을 묘사하려 한다면? 그냥 두 사람의 육신이 일그러진 채로 얽혀서 야짤이 아니라 호러무비의 한 장면이 연출되어 버린다.

AI는 두 사람의 서로 다른 행태를 구분해서 이해하지 못하는 듯하다. 예를 들어 "A는 왼팔을 들고 있고 B는 오른쪽 다리를 구부린다."라고 할 경우 "A와 B"라는 두 주어와 "왼팔 듬, 오른 다리 구부림"이라는 두 동사를 적합하게 연동시키는 능력이 없다는 것이다. 프로그램은 그저 "A사람, B사람, 왼팔 듬, 오른 다리 구부림" 이 모든 걸 무작위로 뒤섞어버린다.

당분간은 그저 한 사람 제대로 묘사하는 것부터 집중해야 할 듯하다.


4. 남자 묘사, 여자 묘사.

프로그램이 아직 익숙지 않았던 시점에선 여자에 비해 남자를 묘사하는 능력이 떨어지는 것 아닌가 생각했었다. 아무래도 이런 프로그램을 활용하는 다수는 남자일 수밖에 없고, 그들이 원하는 게 대부분 여자일 테니 말이다. 하지만 계속 실험(?)을 해 본 결과, 지금은 성별에 따른 묘사능력의 차이가 별로 없다고 보고 있다. 하다 보니 둘 다 비슷비슷한 수준으로 묘사해 내더라.




결론 : 꿈의 생성. 인간의 우뇌를 이해하게 된 기계.

인간의 좌뇌는 논리회로를, 우뇌는 경험회로를 담당한다는 건 익히 알려진 이야기이다. 우리의 꿈이 논리적 옳고 그름의 영향을 전혀 받지 않는 건(ex: 거꾸로 흐르는 시간, 날아다니는 당나귀, etc..), 이 꿈이라는 현상을 담당하는 게 우뇌이기 때문이다. 우리의 우뇌는 논리적 옳고 그름을 떠나 오직 경험적 감각만 가지고서 상상의 세계를 피상적으로 만들어낸다. 그래서 나타나는 한계점은, 경험적 소스가 현저히 부족한 어떤 상황에 대해서는 구현능력이 현저히 떨어진다는 것인데, 커뮤에 종종 나오는 씹덕들의 하소연처럼 초절정 미녀와 응응하려 할 때마다 잠에서 깨버리는 건 이러한 메커니즘이 내포한 한계인 것이다.

그리고 이런 생성형 AI들이 보여주는 모습이 딱 인간 우뇌가 꿈을 구현하는 방식과 유사하다.


지금까지 기계는 오직 좌뇌적 역량만을 가지고 있을 것이라 여겨져 왔다. 논리, 미분적분, 이런 거. 그런데 요즘 말도 많고 탈도 많은 생성형 AI들은 불가능할 것이라 여겨졌던 인간의 우뇌적 역량을 철저하게 따라가고 있다. 논리여부와 일절 상관없이 오직 경험적 소스만으로 부정확하고 피상적인 답을 '유추'해내는 기능을 기계가 드디어 깨닫게 된 것이다!

종종 일그러져 구현되는 이미지들이 마치 꿈속의 한 장면처럼 여겨지는 건, 이 생성형 AI들의 프로세스가 인간의 머릿속에서 꿈이 구현되는 프로세스와 동일하게 작동하기 때문이다. 심지어 더 놀라운 건..


AI에 의해 생성된 이미지에선 아주아주 미세한 수준까지 지적해 주지 않고서야 거의 대부분의 문자들이 일그러지고 망가진체로 묘사되는데 이 역시 인간의 꿈과 같다. 어젯밤 꾼 꿈들을 다들 기억하실지 모르겠는데, 인간의 꿈에서는 문자가 온전하게 표현되지 않는다. 꿈속에서는 수학 계산을 절대 할 수 없는 이유이다.


photo_2025-02-27_00-50-33.jpg


+공이들에서 관련 대화를 나누다 알게 된 사실인데, AI는 "와인잔에 와인이 가득 차 있다."라는 설정을 이미지로 묘사하지 못한다고 한다. 세상천지에 널려있는 와인잔 이미지들이 죄다 절반만 차있기 때문인데, 이는 씹덕 아서플랙들이 꿈속에서 아무리 여자연예인과 XX를 해보려 시도해도 절대 이루어지지 않는 것과 같은 이치이다.




keyword
작가의 이전글'그 분들'은 젤렌스키를 왤케 싫어하냐고?