저자 : 김성완
인공지능의 연구 방법론에는 크게 2가지 흐름이 있었다.
추상적인 기호를 논리적으로 조작하는 방법으로 인공지능을 구현할 수 있다고 믿었던 '기호주의'
인간 뇌의 신경망을 흉내 내는 방법으로 인간의 지능을 만들 수 있다고 믿었던 '연결주의'
이 둘은 방법이 이질적인 만큼 서로에 대한 반감도 심했다
1950년대 말 처음으로 세상의 주목을 끈 인공지능 연구 방법론은 연결주의 였다. 연결주의 진영의 최초의 성과물이라고 할 수 있는 신경망 컴퓨터 '퍼셉트론'이 만들어 진것이다.
기호주의 진영의 대부격인 마빈 민스키와 시모어 페퍼트가 1969년 <Perceptrons>라는 제목의 책을 통해서 퍼셉트론의 치명적인 단점을 밝혔기 때문이다. 퍼셉트론이 기본적인 논리연산 중 하나인 XOR 연산을 할 수 없다는 것이다.
1980년대에 접어들어 연결주의 진영에 아주 반가운 일이 일어났다. 최초의 신경망 컴퓨터 퍼셉트론으로 XOR 연산을 수행할 수 잇는 방법이 발견된 것이다. 여러 개의 신경망 층을 학습할 수 있는 '오류 역전파 알고리즘'이었다.
2006년, 딥러닝의 대부 제푸리 힌턴 교수가 3층 이상의 은닉 층을 가진 깊은 신경망을 학습시킬 수 방법을 고안해 내면서 이 무렵부터 '딥러닝'이라는 용어도 생겨났다. 딥러닝은 신경망 층이 깊은(Deep) 심층 신경망을 학습시킨다는 의미이다.
딥러닝 혁명은 통상 2012년이라고 한다.
2013년 말에는 영국의 딥마인드란 회사가 게임들을 스스로 학습해서 플레이할 수 있는 강화 학습 심층 신경망 인공지능 DNQ(Deep Q Nerwork)을 선보이면서 세상을 놀라게 한다.
2016년에는 알파고와 이세돌 9단의 바둑 대국이다. 이세돌 9단이 유일하게 1판을 이긴 것이 오히려 인간이 인공지능을 마지막으로 이긴 놀라운 사건으로 남았다.
딥마인드는 2018년 단백질 생성 인공지능 모델인 알파폴드(Alpha Fold)를 발표했다. 의학 연구에 혁명이 일어 났다.
GAN 모델
2014년 이안 굿펠로우가 처음 발표한 생성적 적대적 신경망 GAN(Generative Adversarial Network)이다.
GAN은 기본적으로 생성자와 식별자라는 2개의 신경망이 절묘하게 균형을 이루는 구조로, 두 신경망이 상호 경쟁을 해야 좋은 품질의 생성결과를 얻을 수 있다. 하지만 균형을 잡는 일이 그리 쉽지 않다. 개발자가 시행착오를 거치며 조정하는 수밖에 없다.
트랜스포머 구조
2017년 구글에서 트랜스포머 구조를 공개했다. 트랜스포머 구조는 본래 기계 번역을 잘하려는 목적으로 고안된 인공 신경망 구조로, 논문제목 'Attention is all you nedd' 에서 짐작할 수 있듯이 어텐션이 중요한 역할을 한다. 어텐션은 메커니즘을 일컫는 말로, RNN 신경망 구조가 긴 문장의 맥락을 잘 파악하지 못하는 문제를 해결하기 위해서 고안된 방안이다.
디퓨전 모델
2020년 무렵, GAN이 압도적인 대세였던 생성모델에도 새로운 움직임이 보이기 시작했다. 바로 디퓨전(Diffusion) 모델이다. 디퓨전 모델은 통계물리학에서 유래한 것으로 기체의 확산 현상에서 따와 '확산'이라는 의미를 가진 영어 단어 'Diffusion'이 이름이 되었다. 디퓨전 모델은 화가가 그림을 그릴 때 전체적인 구도를 잡고 세부적인 묘사로 들어 가는 것과 비슷한 방법이기도 하다.
트랜스포머 구조와 디퓨전 모델은 2개의 기둥이 되어 인공지능이 대세가 되는 데 가장 큰 역할을 하고 있다. 최근에는 아예 이 둘을 합친 DiT(Diffusion Transformer 같은 모델이 등장하기도 했다.
2022년 11월 30일 공개된 텍스트 생성 모델 챗GPT가 가장 큰 반향을 불러 일으켰다.
오픈AI의 달리2는 2022년 3월 25일, 미드저니는 2022년 7월 12일, 그리고 스테이블 디퓨전이 2022년 8월 22일에 오픈 소스로 공개되었다.
이미지 생성 모델
인공지능 연구자들은 달리가 처음 발표된 2021년부터 인공지능의 이미 생성 수준이 일종의 문턱을 넘었다는 것을 알았다. 당시 생성된 이미지들 중에서 특히 주목을 끈 것은 '아보카도 의자'였다. 창작의 가장 첫단계를 달성했다는 점에서 중대한 진전이다.
미드저니 또한 매우 예술적인 느낌의 이미지를 생성하면서 예술가들의 주목을 받았다. 디지털 아트공모전에서 처음으로 우승
스테이블 디퓨전이라는 이름의 모델이 오픈 소스를 표방하며 등장했다. 학습된 생성 모델을 일반 대중에게 완전히 공개한 것은 획기적인 일이었다. 2024년 7월 기준으로 3.0 버전까지 공개된 상태이다. 이번 3.0에서 주목할 점음 디퓨전 모델과 트랜스포머 구조가 합쳐진 디퓨전 트랜스포머 구조를 도입했다는 것이다. 생성 인공지능을 받치는 기둥인 2개의 생성 모델이 합쳐진 셈이다.
대규모 언어 모델
챗GPT는 트랜스포머 구조에 기반한 자연어 생성 모델인 GPT의 발전된 버전이다. GPT-2는 GPT를 10배 키운 것이고, 이를 또다시 100배나 키운 것이 GPT-3이다. 오픈AI는 GPT-3의 크기는 그대로 둔 채 잘 다듬어서 GPT-3.5를 만들었는데, 바로 챗GPT이다. 그리고 2023년 GPT-4를 공개한다.
텍스트, 음성, 비디오 등 다양한 유형의 데이터를 활용할 수 있는 멀티모달(Multi Modal) 성능을 가진 GPT-4o가 출시되며 인간과 자연스런 음성 대화가 가능한 것을 보여 주었다.
챗GPT같은 대화형 인공지능들을 통칭해서 초거대 언어 모델 혹은 대규모 언어 모델 (Large Language Model, LLM)이라고 부른다.
현재 대규모 언어 모델들은 모두 트랜스포머 구조를 기반으로 하고 있다.
트랜스포머 구조
트랜스포머는 크게 2개 부분으로 구성된다.
문자열을 입력 받아서 해석하고 내부적인 표상으로 바꾸는 인코더(Incoder)부분
내부적인 표상으로부터 문자열을 생성하는 일을 하는 디코더(Decoder)부분
기술적으로도 크게 보면
단어나 문장의 의미를 추상적인 고차원 공간에 매핑시키는 워드투벡터(word2vec)모델의 역할
단어들 사이의 맥락을 파악하는 어텐션 매커니즘의 역할이 구분되어 있다
구글이 2018년에 발표한 버트(BERT)
인코더 부분만 떼서 크기를 키웠다. 자연어 처리에 있어서 자연어를 이해를 전문으로 하는 신경망 구조를 만든셈이다.
오픈AI는 디코더만 따로 떼서 크기를 키우고 GPT라는 이름으로 발표했다.
생성 인공지능 활용의 문제점
프롬프트 전문가란 생성 인공지능에 적절한 지시를 내려 원하는 결과를 효과적으로 얻어 낼 수 있는 사람을 말한다. 이들은 단순히 인공지능을 사용하는 것을 넘어, 인공지능의 작동원리를 이해하고 이를 바탕으로 최적으로 프롬프트를 설계할 수 있는 능력을 갖추고 있다.
인공지능의 잠재적인 편향이나 오류를 식별하고 수정하는데 중요한 역할을 한다.
"AI 미래"(저자 김성완) 내용을 정리했습니다. 책을 구매해서 보시는 것을 추천 드립니다.
#AI미래
#김성완