brunch

You can make anything
by writing

C.S.Lewis

by 안영회 습작 Sep 03. 2024

인공 신경망의 인식 능력과 디퓨전 모델

내 삶을 차리는 독서의 시작

지난 글에 이어 <AI 미래> 2장 '인공지능이란 무엇인가'를 읽고 밑줄 친 내용을 토대로 생각을 쓴 글입니다.


인공 신경망의 인식 능력

인공 신경망의 인식 능력을 다룬 부분에서 밑줄 친 영역은 다음 포기말입니다.

픽셀 단위로 해당 사물이 있는 영역을 나타낼 수 있는 Segmentation(분할)로 발전하였다.

내용을 읽을 때, 최근 아내가 구입한 테슬라 모델 Y를 타면 보게 되는 화면이 떠올랐기 때문입니다.

출처: https://velog.io/@lighthouse97


뒤이어 Generative adversarial network의 약자인 GAN 모델을 설명하는 내용이 이어집니다.

GAN은 한국어로 '생성적 적대 신경망'으로 번역할 수 있다. 여기서 우리의 주목을 끄는 단어는 '적대' 혹은 '적대적'이란 뜻의 'Adversarial'[1]이다. <중략> 적대적이라는 단어는 과연 무엇을 의미할까? <중략> GAN의 이름에 있는 '적대적'이라는 단어는 생성자Generator 신경망과 판별자Discriminator 신경망이 서로 적대적인 관계임을 의미한다. 두 신경망이 경쟁을 하면서 아슬아슬하게 균형을 이루게 되면 결국에는 생성자가 진짜 이미지와 구분할 수 없을 정도로 정교한 가짜 이미지를 만들 수 있게 되는 것이다.

GAN 모델 자체를 이해하고 싶은 마음이 없어 몰입이 되지는 않았지만, 저자가 한 절을 할당해서 설명하기에 따라가 보았습니다. 적대적의 의미를 푸는 내용을 보면서 과거 IT컨설팅 회사를 다닐 때, 클라이언트 조직에서 기획 부서와 품질 보증 부서가 정확하게 '적대적인' 관계로 연말에 평가를 받는 모습을 간접 경험하고 놀라워했던 일이 떠올랐습니다. 더불어서 인간의 발명이라는 것이 고유한 생각이라고 보기 어려운 일종의 발견이란 생각이 들었습니다.  


이러한 저의 연상을 지지하는 듯한 내용도 등장합니다.

GAN의 흥미로운 점은 자연 속에 이미 GAN과 같은 방식의 생물 진화 연상이 있다는 것이다. <중략> 곤충의 의태가 바로 GAN과 같은 방식으로 생겨난 결과이다. 곤충의 의태에서는 나뭇잎이나 나뭇가지의 모습으로 감쪽같이 의태를 하는 곤충이 생성자의 역할을 하고, 곤충을 먹이로 삼는 새들이 판별자의 역할을 한다. 둘의 경쟁을 통해 곤충의 의태 방법과 새의 시각이 함께 진화하는 것이다.

게다가 유사한 내용을 '진화'란 개념으로 설명하는 다큐멘터리를 아이들과 함께 본 시각적 경험이 연상에 더해집니다.


디퓨전 모델

디퓨전 모델은 GAN과 달리 개념을 알고 싶었습니다.

GAN 모델이 생물학적인 방법으로 설명된다면 디퓨전 모델은 통계 물리학에서 건너온 방법이다. <중략> 디퓨전이 뜻하는 '확산'은 사실 자연에서 매우 흔한 현상이다. 하지만 물리학에서 자연의 확산 현상을 다루는 방법은 그리 간단하지 않다. 연기가 공기 중으로 퍼져 나가는 것도 하나의 확산 현상이지만, 개별적인 연기 입자 하나하나를 추적할 수는 없다. 너무 많기 때문이다. 이때 필요한 것이 바로 통계 물리학이다.

작년에 <세상 물정의 물리학>을 읽고 <가치중립적인 과학은 없다!?>를 쓴 덕분에 '통계 물리학'이란 분야가 낯설지 않았습니다. 더불어 '가치중립적인 과학은 없다!?'는 말을 보고 느꼈던 매력이 다시 살아납니다.[2]


한편, <생성 인공지능의 시대가 열리다>에서도 인용했던 책 내용도 떠오릅니다. 나도 모르게 '아무도 세포를 전부 센 적은 없다(No one has counted them all)'는 말이 '개별적인 연기 입자 하나하나를 추적할 수는 없다'와 연결시키고, 훌륭한 추정(a good guess)과 통계 물리학을 대응시키게 되었기 때문입니다.


한편, 노이즈라는 말은 바로 이해할 수 없었습니다.

디퓨전 모델이라는 이름은 원래의 이미지에 노이지를 조금씩 더해 완전한 노이즈가 되는 과정이 있어서 붙여진 이름이라고 볼 수 있다.

그래도 그냥 진도를 나갔습니다. 이미지 복원과 생성을 위한 내부 구성이 다르다는 설명이 이어집니다.

이를 위해서는 텍스트 프롬프트를 조건으로 해서 조건에 부합하는 이미지를 생성하도록 하는 '컨디셔닝Conditioning' 과정이 필요하다. 컨디셔닝은 우리말로 '조건 부여'쯤으로 번역할 수 있을 것이다.

그리고 텍스트에 대응하는 이미지를 알아내는 과정을 위한 모델이 별도로 필요하다고 합니다.

오픈AI가 오픈 소스로 공개한 클립CLIP 같은 모델이 있다. 클립은 텍스트와 이미지를 함께 다루는 멀티모달 모델로 텍스트와 이미지의 상관관계를 학습한 신경망 모델이다.


이어지는 스테이블 디퓨전 모델 이후의 내용은 다음 글에서 다룹니다.


주석

[1] 위키피디아 페이지를 찾아보면 다음과 같이 정의하고 있습니다.

An adversary is generally considered to be a person, group, or force that opposes and/or attacks.

[2] 자연스럽게 <가치중립적인 과학은 없다!?>를 다시 훑어보니 '뒷담화를 권한다'는 말도 매력적입니다. <사피엔스>에서 본 내용도 연상시키고, 저자가 과학 대중화에 나서서 뒷담화를 시도하는 듯도 보여서요.


지난 내 삶을 차리는 독서의 시작 연재

(61회 이후 링크만 표시합니다.)

61. 판단이 부르는 일반화 본능의 무용함 혹은 해로움

62. 판단을 내리지 말고 사실을 있는 그대로 보는 연민의 힘

63. 판단 대신에 TDD를 응용하여 실패를 정의하자

64. 현상태의 정확한 인지가 자연적 학습을 일어나게 한다

65. 선악 구분은 현존에서 벗어난 환각계를 강화한다

66. 무한한 잠재력과 경이적인 내적 지능을 지닌 자신

67. 마치 다른 사람을 응원하듯이 스스로를 신뢰하라

68. 지금은 지금뿐이다

69. 시각적 이미지와 감정적 이미지를 통해 동작을 배운다

70. 전략적 로드맵, KR 그리고 자아 2의 언어

71. 나에게 인공지능이란 무엇인가?

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari