brunch

라이킷 22 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by OOJOO Mar 27. 2024

인공지능 그 시작과 ChatGPT

자연에서 배운 AI

인공지능 그 시작과 ChatGPT

1980년대 로봇 찌빠는 아기공룡 둘리가 나오기 전까지 한국의 만화 캐릭터계를 휩쓸던 초절정 만화였다. 찌빠는 미국에서 제작된 인공지능 로봇으로 지능에 문제가 있어 하자품으로 전락되어 한국에 오게 되었다. 찌빠는 인간처럼 생긴 모습으로 직립보행과 말을 할 줄 아는 인공지능이 탑재된 로봇이다. 그런 만화 속에서만 나오던 로봇이 이제 실제 구현되는 현실이 되었다. 인공지능은 언제 시작되어 무엇이 되고, 세상을 어떻게 변화시킬까.

▣ 인공지능의 등장과 발전 과정

사실 일반인에게 인공지능이 본격적으로 알려지게 된 계기는 2016년 세계 바둑 챔피언 이세돌을 이기면서부터다. 알파고는 수천, 수만 번의 자가 대국을 통해서 스스로 학습하는 방식으로 운영되며 그 과정에 기존과 다른 인공지능 알고리즘이 이용되었다. 알파고는 딥러닝 기반의 심층 신경망과 강화학습인 몬테 카를로 트리 탐색을 결합한 알고리듬을 통해 스스로 학습하고, 인간의 직관의 모방해 수를 예측하며 전략을 세울 수 있다. 그렇게 2010년대부터 신경망과 딥러닝 알고리듬의 발전 덕분에 인공지능 분야에 혁명이 사작될 수 있었다. 딥러닝이 부상되면서 자연어 처리와 음성인식, 이미지 인식 등에서 인간을 능가하는 성능을 보여줄 수 있게 된 것이다.

인간 프로기사와 대국을 둔 알파고로 인해 인공지능에 대한 관심 급증 (달리3로 생성한 이미지)

그렇다면 그 이전의 인공지능은 어땠을까?

인공지능의 시작은 1950년대로 거슬러 올라간다. 당시 AI 연구는 MIT나 카네기 멜론과 같은 대학이나 IBM과 같은 글로벌 테크 기업에서 순수 학문적 탐구와 번역이나 의료, 로봇 등의 특정 영역의 비즈니스 문제를 해결하는 목적으로 진행되었다. 물론 정부에서 군사적 목적으로 훈련 시뮬레이션이나 군사용 무인 지상 차량 개발, 사이버 공격과 방어 목적으로 연구되기도 했다. 하지만 이 시기의 인공지능은 인간의 사고 방식을 기초로 명확하게 규칙을 정의해서, 해당 규칙 기반 하에 개발되었다. 특히 1957년 컴퓨터가 패턴을 인식하고 학습할 수 있다는 개념을 실증적으로 보여준 최초 사례인 퍼셉트론 모델(Frank Rosenblatt에 의해 하드웨어 구현이 이루어진 초기 인공신경망 모델)은 머신러닝과 신경망 초기 연구에 영향을 미쳤다.

그 외 인공지능 연구로 대표적인 것들이 다트머스 회의(1956), ELIZA(1966) 등이 있다. 다트머스 회의는 인공지능 분야의 출범을 알린 역사적 모임으로 공식적으로 최초 인공지능이라는 용어가 사용된 모임으로도 유명하다. 당시 컴퓨터 과학자들과 수학자들 사이에서 거론되던 기계가 인간과 유사한 학습을 해 문제 해결을 하고 자기 개선 능력을 갖출 수 있는지 탐구하는 것을 주제로 회의가 열렸다. 회의는 2개월간 진행되며 기계학습, 패턴인식, 게임이론과 컴퓨터 프로그램이 인간의 언어를 이해할 수 있는 방법에 대한 토론이 이어졌다. 이 회의 덕분에 이후 다양한 AI 연구와 프로젝트로 이어질 수 있었으며 AI 분야에서 사용되는 핵심 개념과 용어의 기초가 마련되었다.

이후 여러가지 인공지능의 분야 중 머신러닝이 1990년대 이후부터 주목받기 시작한다. 1959년 아서 새뮤얼은 체커스 게임에서 컴퓨터가 경험을 통해 학습할 수 있음을 보여주며 머신러닝이라는 용어를 사용했다. 이후 패턴인식, 인터넷 검색엔진(구글의 검색에 머신러닝 알고리듬이 사용), 사기탐지와 신용평가 등에 이용되며 발전했다. 이후 2010년대부터 인공지능 연구에 실제 꽃이 피기 시작했다. 초기 인공지능 연구는 주로 기호주의(symbolic AI) 방식으로 규칙 기반 하에 로직을 설계하여 지식을 처리하는 방식이었다.

지금 주목받는 인공지능의 실질적 시작은 연결주의(connectionism) 방식으로 사람의 뇌가 정보를 처리하고 학습하는 방식을 모방해 이미지를 인식하고, 자연어를 이해하며, 음성을 인식한다. 이같은 연결주의 인공지능 원칙에 기반해 심층 신경망을 사용한 것이 딥러닝이다. 딥러닝은 머신러닝의 한가지 방법론인데 연결주의 방식을 활용하며 2012년에 있었던 이미지 분야의 국제 경진대회인 ImageNet Large Scale Visual Recognition Challenge(ILSVRC)에서 딥러닝 기반 모델인 알렉스넷(AlexNet)이 압도적인 성능으로 우승하면서 주목받기 시작했다. 이 사건은 딥러닝이 이미지 인식을 포함한 다양한 기계 학습 문제에서 기존 방법론을 크게 뛰어넘을 수 있음을 전 세계에 알린 계기가 되었다. 딥러닝 덕분에 연결주의 인공지능과 머신러닝은 2000년대 후반부터 본격적으로 주목받았다. 딥러닝은 인간의 뇌가 뉴런들 사이의 복잡한 네트워크를 통해 정보를 처리하는 것처럼 가상의 뉴런들을 서로 연결해 깊은 신경망을 통해 데이터로부터 학습할 수 있도록 했다. 특히 딥러닝 모델은 가중치 조정을 통해 학습하는데 이는 뉴런간의 연결 강도를 조정하는 인간 뇌의 학습 방식과 유사하다. 딥러닝 덕분에 연결주의 인공지능은 혁명적 발전을 했고, 특히 컴퓨터 비전과 자연어 처리, 음성 인식 등의 여러 AI 응용 분야에서 전례없는 성과가 만들어졌다.

그리고 GPU의 발전 덕분에 신경망 학습에 필요한 복잡한 계산을 빠르고 효율적으로 처리할 수 있게 되었고, 인터넷 확산과 스마트폰의 보급 그리고 기업의 디지털 트랜스포메이션 과정에서 수집된 디지털 데이터의 폭발적 증가는 딥러닝 학습에 필요한 대규모 데이터를 확보하게 해주었다. 이런 하드웨어 발전과 대규모 데이터의 가용성 덕분에 딥러닝은 더욱 발전할 수 있게 된 것이다.

그런 딥러닝과 강화학습을 결합한 모델로 주목받은 것이 알파고이다. 물론 알파고 외에도 자연어 처리에도 응용되어 BERT와 같은 모델들이 등장하면서 텍스트 이해와 생성에 혁신전인 진전이 이루어졌다. 또한, 음성 인식과 생성에도 적용되어 Alexa, 구글 어시스턴트, Siri와 같은 음성 비서 서비스들이 본격적으로 등장하게 되는데 기여하기도 했다.

▣ 인공지능은 어떻게 급성장하게 되었나?

이렇게 2010년대부터 급부상하기 시작한 인공지능은 2023년에 천지개벽할 수준의 거대한 변혁을 맞이하게 된다. 바로 ChatGPT, 미드저니, 코파일럿과 같은 생성형 AI가 등장해 인간만이 할 수 있던 창작 즉 다양한 포맷의 콘텐츠를 생성하고 그 산출물의 품질이 상상 이상의 수준이 되면서 인공지능은 다른 차원의 기술로 급부상되었다.

이런 인공지능의 기반이 된 것은 2017년 "Attention Is All You Need" 논문을 통해 처음 소개된 트랜스포머라는 모델이다. 트랜스포머는 기존 모델과 달리 데이터간의 관계를 효율적으로 모델링해서 특정 중요 정보에 더 많은 ‘주의’를 기울임으로써 데이터 사이의 복잡한 관계와 패턴을 학습한다. 덕분에 자연어 이해와 생성 능력이 크게 향상될 수 있게 되었다. 게다가 트랜스포머 모델은 다양한 크기와 형태의 데이터에 적용될 수 있어 언어 외에 이미지, 음성, 비디오 등의 데이터를 처리하는데도 이용되고 있다. 그렇다보니 지난 1년간 트랜스포머 모델은 다양한 분야와 데이터 포맷에 적용되면서 놀랄만한 성과를 보여주고 있는 것이다.

물론 이런 트랜스포머는 기존의 연결주의, 머신러닝, 딥러닝의 개념을 모두 포함하고 있으며, 특히 딥러닝 방식에 가장 근접한다. 다만 기존과 달리 전체 입력 데이터를 순차적이 아닌 한 번에 처리할 수 있는 병렬 처리 능력과 다양한 영역에 확장 적용 가능하다는 점이 큰 특징이다.

지금의 트랜스포머 모델의 특징을 이해하기 위해서는 기존 인공지능과 다른 점을 제대로 이해할 필요가 있다. 1960년대 MIT 인공지능연구소에서 다양한 색상과 크기의 블록을 인식해 특정한 곳에 이동하라는 것을 인식해 동작하는 인공지능 로봇 팔을 개발하는 연구가 진행되었다. 이 작업을 위해서는 블록의 모양, 크기, 위치를 정확하게 인식해야 하는 것은 물론 그 물체를 바라보는 방향과 그 물체에 비추는 조명의 방향과 조도에 따라 색상과 모양을 정확하게 인지해야 한다. 단순하게 색상을 표현하는 단어를 인식하는 것을 넘어 물체가 상황에 따라 너무도 다양한 방식으로 배치되어 있어 이 현실을 인식하도록 인공지능을 학습시키는 일은 보통 일이 아니었다. 그렇게 현실계를 인식하는 것을 컴퓨터 비전이라 하고, 지금의 인공지능은 진일보해서 이제 사물을 넘어 움직이는 자동차까지 인지하고 앞으로 어떤 방향으로 움직일지도 알 수 있게 되었다. 그런 주변 환경의 시각적 특성을 식벽하고 해석하는 컴퓨터 비전의 최고봉이 바로 테슬라의 AI이다.

이렇게 컴퓨터 비전에 적용된 인공지능을 조금 더 깊게 진단하면, 초기의 AI는 객체의 원형을 이미지의 픽셀과 일치하는 것이 맞춰졌다. 하지만, 물체의 방향이 조금만 달라져도 객체와 이미지 픽셀은 일치하지 않아 제대로 인식되지 않았다. 그래서 객체의 특징에 초점을 맞추는 것으로 발전된다. 일례로, 다섯살 어린아이는 고양이와 강아지를 정확하게 구분할 수 있다. 아이는 두 동물을 구분하는 특징을 알고 있기 때문에 처음 보는 고양이의 품종을 보고도 강아지가 아닌 고양이임을 정확하게 알 수 있다. 하지만, 인공지능에게 이런 특징을 구분해서 고양이와 강아지를 구분하게 하려면, 그 특징이 워낙 복잡하고 다양한 정보를 필요로 하기에 둘 사이의 미묘한 차이를 알려주기 위해서는 데이터의 양이 끝도 없이 늘어나는 문제가 있다.

그래서, 1980년대부터 뇌의 작동 원리와 뇌의 전기 신호가 시냅스에서 어떻게 화학 신호로 변환되어 사람이 사물을 인식하는지에 대해 알게 되었다. 그런 생물학 분야에서의 발견이 인공지능에도 적용되어 뉴럴 네트워크로 이어지면서 기존 인공지능이 머신러닝을 품을 수 있게 된 것이다. 그리고 한 단계 도약할 수 있게 된 것이 딥러닝으로 일종의 심층학습이자 강화학습이다. 우리 인간은 즐거움을 쫓고 고통을 피하려 한다. 뜨거운 난로에 손이 닿으면 손을 재빨리 빼고 다시는 난로에 손을 대지 않는다. 달콤한 사탕과 젤리를 얻기 위해서는 부모의 말을 더 잘들으려고 노력한다. 두뇌는 난로를 만지는 고통과 달콤한 사탕을 얻기 위해 행동에 연결시켜 학습을 한다. 이렇게 직접 경험 기반하에 상벌을 받으며 학습하는 것을 강화학습이라고 한다. 굳이 어떤 방법을 누가 알려주지 않아도 강화학습에 의해 스스로 경험하며 학습하는 것을 인공지능에 접목한 것이 딥러닝이다. 기존에는 어떻게 바둑에서 이기는 것이는지를 일일히 알려주는 지도학습 알고리듬에서 스스로 학습할 수 있도록 바꿔준 것이다.

그런 여러 단계의 기술적 진화가 트랜스포머로 이어지게 되어 생성형 AI 시대가 화려하게 개막될 수 있었던 것이다. 트랜스포머는 기존 인공지능 학습에 무엇보다 ‘데이터간 관계’를 중요한 변수로 고려한다. 그 덕분에 문맥과 맥락을 효과적으로 이해해서 더 중요한 정보를 캡처하고 이를 기반으로 더 나은 품질의 결과물을 생성할 수 있게 된 것이다. 덕분에 우리 인류가 사는 문명을 잘 이해하는 트랜스포머 기반으로 학습한 인공지능(LLM)에 질문을 내리면(Prompt), 질문의 맥락을 이해해서 그에 맞는 답변을 할 수 있는 것이다. 그런 대표적인 생성형 AI 서비스인 ChatGPT에는 GPT-4라는 LLM(Large Lanugage Model)이 사용된다.

그런데, 2023년말부터 LLM은 한 단계 또 기술적 도약을 맞이하게 된다. 바로 LMM(Large Multimodal Model)으로 텍스트 데이터셋 기반으로 학습된 LLM을 넘어 이미지와 오디오 그리고 비디오에 이르기까지 다양한 입력 데이터를 동시 처리하며 이를 통해 생성되는 데이터의 포맷도 다양해지고 있다. 구글 제미나이가 그런 LMM에 최적화된 FM(Foundation Model)이며, 메타의 SAM(Segment Anything Model)은 이미지내 특정 객체를 정확하게 인식하고 분리해낼 수 있도록 해주고, OpenAI가 지난 2월 중순 발표한 Sora는 텍스트 프롬프트 기반으로 영상을 제작해주는 생성형 AI이다.

Meta의 SAM으로 인식된 세상 (출처 : META)

특히 오픈AI의 Sora는 간단한 텍스트만으로도 진짜 촬영한 영상과 같은 고품질의 비디오를 1분 가량으로 제작해 주목받고 있다. 기존의 이미지, 비디오 생성에 적용된 인공지능과의 가장 큰 차이점이라면 비디오 생성 시에 우리가 사는 현실 세상에 대한 물리적 움직임을 이해함으로써 영상 속 오브젝트들의 움직임이 사실적이며 자연스럽다는 점이다. 또한, 그렇게 문맥을 이해해서 영상이 생성될 수 있다보니 사진을 입력해서 해당 사진에 영상 제작을 요청할 수 있고, 다양한 카메라뷰의 관점을 고려해 비디오 생성이 가능하다.

Sora로 생성된 비디오 (출처 : OpenAI)

➯ 상세한 Sora의 샘플 : https://youtu.be/HK6y8DAPN_0?si=wjYhJXfBnqA4Mh3M

▣ 미래의 인공지능

2023년 생성형 AI는 2000년대의 구글 검색, 2010년대의 모바일 SNS처럼 IT 시장에 새로운 변화의 구심점이 되었다. 아니 IT 시장을 넘어 사회와 모든 산업에 AI 기반의 새로운 기회와 위기를 생각하게 해주는 촉매제가 되고 있다. 그 과정에서 빅테크 기업은 물론 거대 기업들은 저마다 LLM을 만들려는 투자에 나서고 있으며, AI를 업무와 사업에 적용하려는 기업 구성원과 프리랜서 아티스트들도 늘고 있다. 또, 오펜하이머의 악몽이 재현될까 두려운 부정적 비판에 정부 규제 목소리도 높아지고 있다. 앞으로의 인공지능은 우리 삶과 사회에 어떤 영향을 가져올까?

AI로 인한 디스토피아 세상 (출처 : 달리3로 생성)

인공지능의 최근 1년은 최근의 10년, 1990년대의 100년과 같을만큼 기술의 발전 속도가 빠르다. 그 과정에서 AI를 개발하고 응용하는 기업들의 도전은 갈수록 거세지고 있다. 더 많은 기업들의 참전으로 경쟁은 치열해지고 있다. 사회와 정부는 너무 빠르게 발전 중인 인공지능이 가져올 디스토피아를 우려하고 있다. 개인은 인류에게 주어진 제2의 불을 어떻게 활용해야 할지 즐겁고도 무서운 고민에 빠져 있다. 그 과정에서 가장 웃고 있는 기업은 이런 AI를 가동하려면 절대적으로 필요한 컴퓨터 인프라, 즉 GPU를 만들어파는 기업이다. 갈수록 고성능화되고 더 다양한 영역에 적용 범위가 확대되어가는 와중에 GPU와 고성능 대역폭의 메모리 그리고 전기 에너지가 필요하기에 관련된 인프라를 제공하는 기업들은 즐거운 비명을 지르고 있다. 물론 거기에는 Cloud 기업도 포함되어 있다.

하지만, 세상은 정과 반이 공존하기에 그 즐거움에 반하는 위기는 찾아올 수 있다. 그렇기에 지속성장에는 그만한 도전적 혁신이 필요하다. 인공지능의 운영을 위해 과도한 컴퓨터 인프라가 필요로 하기에, 이를 최소화하기 위한 대안들도 마련되고 있다. 온디바이스 AI는 AI의 기능을 디바이스 내에 내재화하는 것을 뜻한다. 매번 인공지능을 사용하기 위해 인터넷망을 타고 클라우드에서 프로세싱을 한 후 엣지 디바이스로 오고가는 것은 개인 정보, 기업 보안 문제와 함께 과도한 컴퓨터 자원의 낭비라는 문제를 야기한다. 반면 디바이스 내부에서 AI 칩셋과 sLLM(Small LLM)을 통해 인공지능 기능을 수행하면 2가지 이슈를 해결할 수 있다. 그런 측면에서 앞으로 가벼운 인공지능으로 해결 가능한 것들은 디바이스에 내재화될 것이다. 이미 그렇게 갤럭시 S24가 AI폰으로 출시되었고, Neo QLED 8K TV가 인공지능 텔레비전으로 발표되었다. 또한, 퀄컴은 스냅드래곤8 Gen 3, 삼성은 엑시노스 2400, 애플은 A17 Pro를 스마트폰용 AI 칩셋으로 개발했고, intel은 가우디3, AMD는 Ryzen 8040, nVidia는 RTX 4000 시리즈 슈퍼를 컴퓨터용 AI 칩셋으로 출시했다. 이처럼 다양한 종류의 Edge device용 AI chip이 온디바이스 AI 시장을 개척해갈 것이다.

nVidia의 RTX 4000 시리즈 슈퍼를 탑재한 노트북(출처 : nVidia)

그러면, AI는 더 많은 기기에 스며들게 될 것이다. 기존의 인터넷 기기를 넘어 전자기기와 자동차 그리고 산업용 로봇과 새로운 가사용 로봇에 탑재될 것이다. 인공지능은 냉장고, 로봇청소기 그리고 각종 공장 속 산업용 기계와 새로운 개념의 로봇에 탑재되어 더 나은 편의성을 인류에게 선사할 것이다. 또한, 초자동화되고 초개인화된 서비스의 운영이 가능해질 것이다. 물론 새로운 기기가 만들어져 기존에 체험하지 못했던 새로운 경험을 제공하게 될 것이다. 아이폰 전 디자이너 창업한 Humane은 샘 알트만이 투자한 회사로도 유명한데 여기서 판매하는 AI Pin이라는 웨어러블 AI 디바이스나 CES 2024에서 소개된 Rabbit의 R1이라는 기기, 애플 임원 출신이 만든 브릴리언트 랩스의 Frame 등은 모두 AI를 활용한 새로운 디바이스들이다. 또한, 앞으로 메타의 퀘스트와 애플 비전프로 등의 메타버스 MR 기기에도 인공지능은 제품의 성능과 편의성을 높이는데 핵심 기술이 될 것이다.

Humane의 AI Pin (출처 : Humane)

그렇게 인공지능은 앞으로 컴퓨터와 스마트폰 그리고 기존의 인터넷 서비스를 더욱 증강시키는 것 외에도 인터넷과는 무관했던 기존 기기들과 새로운 기기에 탑재되어 새로운 경험을 제공하게 될 것이다. 30~40년 전에 만화나 공상과학 영화 속에서만 존재하던 인공지능의 꿈이 실현될 수 있는 세상이 되어가고 있다. 영화 HER나 아이언맨의 자비스, 레디플레이어 원과 같은 영화가 현실화될 날이 멀지 않았다.