내 삶을 차리는 독서의 시작
지난 글에 이어 <AI 미래> 3장 '일상을 파고드는 생성 인공지능'을 읽고 밑줄 친 내용을 토대로 생각을 쓴 글입니다.
개괄적인 생성 인공지능에 대한 요약으로 볼 포기말(=문장)입니다.
생성 인공지능의 대표 격인 챗GPT가 텍스트를 생성하는 일을 한다면 달리나 미드저니, 스테이블 디퓨전은 이미지를 생성하고, 소라는 동영상을 생성한다.
인공 신경망이 데이터를 통합적으로 취급한다는 중요한 특징을 눈치채게 해 주는 내용이 이어집니다.
인공 신경망이 학습을 통해서 데이터의 분포에 내재된 패턴을 파악할 수 있다면 텍스트든, 이미지든, 음성이든 뭐든 생성할 수 있다. 이렇게 생성된 새로운 데이터를 샘플이라고 부른다. <중략> 데이터는 그것이 이미지, 사운드, 혹은 그 외 어떤 것이든 적절한 과정을 거친다면 모두 숫자로 변환할 수 있다.
그리고 최근 경향 요약도 덧붙입니다.
최근에는 이런 생성 모델이 크게 2가지로 수렴하고 있는 경향이다. 주로 이미지를 생성하는 데 활용되는 디퓨전 계열의 모델과 주로 텍스트를 생성하는 데 활용되는 트랜스포머 계열의 모델이다.
흥미로운 변환이란 생각이 들었습니다.
이미지 생성 모델이 하는 일은 결국 2D 평면 격자를 구성하는 각각의 픽셀에 들어갈 색을 정하는 것이다.
그리고, 이 내용이 마치 학교에서 수학과 물리를 배워야 하는 이유처럼 읽혔습니다. 아마도 두 아이를 키우는 입장이고 동시에 교양으로 과학 공부를 하는 바탕이 작동했다고 생각합니다.
이미지 생성 모델에 대한 기술적 구분도 설명합니다.
이미지 생성 모델은 기술적으로 구분했을 때 크게 4가지 종류가 있다. 자동 회귀 방식, VAE, GAN, 디퓨전이다. 자동 회귀 방식은 이전 데이터를 기반으로 이미지를 만드는 방식이다.
그중에서 VAE와 GAN에 대한 요약에 대해서도 밑줄을 쳤습니다.
VAE는 오토 인코더의 일종으로 주로 기존 이미지를 압축했다 복원하는 용도로 쓰인다. <중략> 스테이블 디퓨전 모델에선 디퓨전 모델의 보조로 쓰이기도 한다. <중략> GAN 모델은 생성자에서 이미지를 생성하면 판별자에서 이미지를 평가하는 방식으로, 디퓨전 모델이 등장하기까지 생성 모델의 대세로서 큰 인기를 누렸다. 지금은 그때보다 못하지만 그래도 음성 생성 등 다양한 분야에서 유용하게 사용된다.
마지막으로 디퓨전 모델에 대한 설명입니다.
노이즈를 활용하는 디퓨전 모델은 가장 나중에 등장해, 이미지는 물론 많은 멀티모달 데이터의 생성에 활용되는 생성 모델의 대세이다. 현재로서는 이미지 생성 모델의 최종 버전이라고 할 수 있다. 텍스트 생성 모델인 트랜스포머와 함께 생성 AI의 두 기둥 중 하나이다. <중략> 이미지를 확대해서 디테일을 추가하는 업스케일링Up Scaling 모델도 이미지 생성 모델의 일종이다. 이미지 해상도를 높인다는 것은 없던 픽셀을 새롭게 만들어 채우는 과정이 필요한 일이기 때문이다.
노이즈라는 표현을 쓴 부분이 바로 감감적으로 받아들여지지 않았습니다. 아마도 경험 부족에 따른 이해의 한계가 아닌가 싶습니다.
한편, 이미지 생성 모델을 널리 확산한 장본인은 달리입니다.
디퓨전 모델을 활용한 이미지 생성 모델로 첫선을 보인 것이 2021년 1월 공개된 오픈AI의 달리이다.
얼리 어답터와 거리가 먼 저는 최근에야 달리를 쓰고 있습니다. 다음 그림들이 근래 챗GPT를 통해 아마도 달리로 만들어 본 이미지들입니다.
이제는 일부 책 내용을 사용 경험과 엮어서 '그때 느낀 그런 현상'과 연관성을 떠올려 볼 수 있습니다.
아보카도란 개념과 의자란 개념을 합쳐서 아보카도 의자라는 새로운 개념을 만들 수 있게 된 것은 생성 모델의 발전에 있어 매우 중요한 이정표라고 할 수 있다.
또한, 유료 사용자의 이점을 활용하여 순식간에 텍스트 내용을 손과 눈으로 확인합니다. 다음은 챗GPT 4o로 그린 '아보카도 의자'와 '너구리 전기차'입니다.
아래 포기말은 일주일 만에 제 해석이 달라졌습니다.
따지고 보면 인간의 창의성도 모든 것을 새롭게 창작하는 것은 아니다. 기존에 있던 것을 변형하거나 서로 조합해서 새로운 것을 만드는 것이 대부분이다.
아장스망을 공부한 덕분에 차이와 발견이라는 들뢰즈의 개념에 대한 하나의 변형으로 읽을 수도 있습니다. 그래서 쪽인 나로 존재하는 임자가 생각과 물질을 재배치하는 방법을 발견하고 이를 실현하는 것으로 이해할 수 있습니다.
그대로 공감할 수 있는 이야기가 이어집니다.
예전에 SF에서 인공지능은 종종 논리적으로 완벽한 존재로 묘사되곤 했다. 그러나 지금 우리가 보는 생성 인공지능은 결점 하나 없이 완벽하기보다는 인간의 단점까지 닮아 더욱 인간과 비슷한 모습이다.
여기서 파생하여 잘 모를 때 갖는 인간의 보편적 두려움이란 해석을 하게 됩니다. 그리고, 인공지능도 결국 문화와 도구의 일부이고, 자연을 닮거나 인간을 닮을 수밖에 없음을 깨닫게 됩니다.
흔히 LLM으로 알고 있는 내용에 대한 설명입니다.
GPT-3를 비롯한 텍스트 생성 모델은 대부분 '언어 모델'이라고 불린다. 언어 모델은 방대한 텍스트 데이터를 학습하여 언어의 구조와 패턴을 이해하고, 이를 바탕으로 새로운 텍스트를 생성하는 인공지능 모델이다. 최근 주목받는 언어 모델들은 그 규모가 매우 크기 때문에 '대규모 언어 모델' 혹은 '초거대 언어 모델'이라고 부른다. <중략> 대규모 언어 모델의 발전은 2017년 구글에서 발표한 트랜스포머 구조의 등장과 밀접한 관련이 있다. 트랜스포머 구조는 어텐션 메커니즘을 사용하여 문장 내 단어들 간의 관계를 효과적으로 파악하고, 이를 통해 문맥을 이해하고 자연스러운 문장을 생성하는 데 탁월한 성능을 보인다. GPT 계열을 비롯하여 현재 주목받는 대부분의 대규모 언어 모델은 트랜스포머 구조를 기반으로 만들어졌다.
뒤이은 내용은 요즘 부각되는 AI Agent의 구동 기반을 떠올리게 합니다.
챗GPT의 성공 이후 대규모 언어 모델은 인공지능 분야의 핵심 기술로 자리 잡았으며, 미래에는 이를 기반으로 한 차세대 운영체제(OS)까지 등장할 가능성이 있다.
이어지는 내용은 프롬프트 엔지니어링의 부상을 다룬 글입니다.
대규모 언어 모델에 입력하는 프롬프트가 답변의 품질을 결정하는 매우 중대한 요인인 건 어찌 보면 너무도 당연한 일이다.
아마도 저자는 인공지능에 대한 전문성을 맥락으로 '당연한 일'로 보았을 것입니다. 하지만, 저는 다르게 읽을 수밖에 없습니다. 그렇지만, 저 역시 '당연한 일'로 느껴집니다. 일단 프롬프트는 인터페이스이기 때문입니다. 우리가 인공지능을 개체로 보고 소통을 하려면 인터페이스가 필요하고, 그것이 바로 자연어를 기반으로 하는 인터페이스입니다. 그것에 대한 새로운 이름이 프롬프트인 것이죠.
그렇게 보면 다음 문장은 텍스트 생성 모델의 인터페이스 설계니까 너무나 당연한 내용이 됩니다.
인간이 할 수 있는 일은 그저 프롬프트의 내용을 이렇게 저렇게 바꾸어 가면서 조심스럽게 테스트해 보는 것뿐이다.
그리고, 멀티모달로 나아가고 있기 때문에 조만간 다른 방식으로 진화해서 진부한 글로 바뀔 수도 있어 보입니다.
저자 역시 이를 잘 알고 있는 듯합니다.
프롬프트 엔지니어링에는 인간의 심리와 인간의 언어를 잘 아는 것이 단연 유리할 것이다. 대규모 언어 모델은 인간을 모방해서 만들어졌고, 인간이 축적해 온 정보와 지식으로 학습되었다. 대규모 언어 모델은 인간을 비추는 거울 같은 존재라고 볼 수 있다. 인공 지능을 잘 이해하기 위해서는 인간을 잘 이해해야 한다.
어떤 면에서 인공지능은 하나의 혁신적인 미디어로 인류의 자유를 넓혀주는 것이고, 그 형상은 끊임없이 바뀔 것이 분명합니다.
마지막으로 연구자들에게 꽤 중요할 듯하지만, 사용자로서는 제목 수준(?)에서 읽게 되는 내용이 등장합니다.
트랜스포머 구조는 2017년 처음 탄생한 이후로 지금까지 자연어 처리의 왕으로 군림하고 있다. <중략> 그런데 최근에 트랜스포머 구조보다 더 효율적이면서도 비슷한 자연어 처리 성능을 보인다는 새로운 신경망 구조, 맘바Mamba에 관심이 모이고 있다. <중략> 맘바는 선택적 상태 공간 모델Selecive State Space model, SSM에 기반을 둔다. 여기서 '선택적'이라는 말은 어떤 상태를 장기적으로 저장할지, 버릴지를 선택한다는 말이다. 트랜스포머 구조의 어텐션에 상응하는 기능이라고 할 수 있다. <중략> 맘바가 트랜스포머를 대체하는 새로운 구조가 될지, 트랜스포머의 단점을 보완하며 서로 협력하는 구도가 될지는 아직 알 수 없다.
내용이 길어져 다음 글에서 계속하기로 합니다.
(71회 이후 링크만 표시합니다.)
71. 나에게 인공지능이란 무엇인가?
73. 나를 지배한 사고의 틀을 해체하면 만날 또 다른 나
76. 잠재력을 믿고 명확한 비전 수립 이후는 하도록 놔두기
77. 감정을 무시한 대가는 나쁜 관계의 기억으로 쌓인다
78. 돈의 신뢰 작용과 가치를 바라보는 다양한 장면들
79. 스테이블 디퓨전 모델과 GPT의 기반, 트랜스포머 구조
82. 반사적이 아니라 전략적으로 행동하기 위한 선행 조건
83. 효과적인 결과가 나올 수 있도록 내버려 둬야 한다