brunch

You can make anything
by writing

C.S.Lewis

by Grandmer Oct 13. 2024

박태웅의 AI강의 2025

인공지능의 출현부터 일상으로의 침투까지


[ 글을 시작하기 전에 ]


인공지능이 어떤 형태로 발전되게 될 것인지 한 번 예상해 보자. 

AI는 1년여 만에 OS의 지위를 넘보고 있다. 1~2년 안에 거의 모든 소프트웨어들이 어떤 형태로든 인공지능과 연동하는 형태를 갖게 될 것이다. 


오랫동안 왕좌를 지켜왔던 GUI도 인공지능의 등장과 함께 서서히 내려올 준비를 하고 있다. 


맥락인터페이스가 그 자리를 차지하게 될 것이다. AI는 사상 최초로 쓰는 도구가 아닌 함께 하는 도구가 될 것이다. 


멀티모달이 기본이 된다. 인공지능은 기계로 인간의 지능을 만들어보자는 시도이다. 인간의 지능이 책을 읽는 것만으로 만들어지지 않는다면 인공지능도 당연히 텍스트뿐 아니라 이미지, 동영상, 오디오 등을 두루 학습해야 한다. 


작아지고, 빨라지고, 저렴해진다. 인간의 두뇌는 하루에 21와트쯤의 에너지만 주어지면 F=MA, E=MC를 생각해 낼 수 있다. 


매일 수천 가구분의 전기를 쓰고 몇만 대의 비싼 GPU를 써서는 제대로 된 인공지능이라 부르기가 어렵다. 


인간형 로봇인 휴머노이드의 시간이 온다. 휴머노이드가 인공지능과 결합하면서 발전의 속도가 눈부시게 빨라지고 있다. 휴머노이드는 몸을 가진 AI가 될 것이다. 


그럼 인공지능은 어떻게 발전해 왔고 어떤 발전 방향으로 나아가게 될 것인지 알아보도록 하자. 


Ⅰ. 운영체제로서의 인공지능


인공지능이 운영체제의 지위를 넘보고 있다. 


인공지능이 하드웨어 관리를 다 떠맡는다? 그런 건 아니다. 머지않은 장래에 세상의 거의 모든 SW들이 어떤 형태로든 AI와 연동하는 형태로 작동하게 될 것이라는 뜻이다. 


PC에서 돌아가는 모든 SW들이 운영체제 위에서 돌아가듯이, 앞으로는 거의 모든 SW들이 AI와 연동할 것이라는 뜻이다. 


아마도 2025년 말이 되면 AI와 연동하는 SW가 그렇지 않은 것보다 더 많아지게 될 것이다. 


Ⅱ. 맥락 인터페이스


우리가 지금까지 정보를 대하는 방식은 두 가지였다. 하나는 계층적 접근이다. 큰 분류 아래 중분류, 그 아래 소분류 하는 식으로 정보를 정리하는 것이다. 


도서관의 색인이 이런 방식이다. 한국십진분류포에 따라 총류, 철학, 종교, 사회과학 이렇게 대분류를 하고 그 아래 중분류, 소분류를 해나간다. 


찾을 일이 생기면 그 분류표를 따라 점점 내려가서 원하는 책을 만나게 된다. 다른 하나는 키워드 매칭이다. 구글, 네이버 등의 검색엔진이 하는 일이 바로 키워드 매칭이다. 


원하는 자료를 찾기 위해서는 정확한 키워드를 넣어야 한다. 그래서 검색엔진 초창기에는 정보검색사라는 직업이 있기도 했다. 


인공지능의 발전과 함께 새로운 세 번째 방식이 나타나고 있다. 맥락 인터페이스이다. 폴더나 키워드 검색으로도 원하는 문서를 찾지 못할 때가 많다. 


분명히 몇 주 전에 이러이러한 내용의 자료를 읽은 기억이 있는데, 폴더를 다 뒤져도, 생각나는 키워드를 넣고 검색해 봐도 찾지 못한 경험이 있을 것이다. 


내 기억은 믿기 어렵고 키워드는 아주 정확히 겹쳐야 자료를 찾아주기 때문이다. 


오픈 AI, GPT-4, 앤스로픽의 클로드, 구글의 제미나이와 같은 거대 언어 모델들은 말하자면 엄청난 기억력을 가진 어마어마하게 똑똑한 컨설턴트와 같다. 


당연히 맥락을 이해한다. 그러니까 계층적으로 정리를 하지 않아도 아주 정확한 키워드를 던지지 않아도 대강 내가 이러이러한 내용의 자료를 분명히 몇 주 전에 읽었는데 말이야, 도대체 찾지를 못하겠네라고 말하면 바로 그 문서를 찾아 보여준다.

 

문서를 모두 읽고 압축 기억하고 있는 데다, 내가 말하는 게 무슨 뜻인지 맥락을 이해하기 때문이다.

 

그러니 이전처럼 여러 개의 폴더를 만들어서 정확한 키워드를 외우고 있을 필요가 없다. 


어마어마하게 똑똑한 컨설턴트가 내 모든 자료, 그리고 심지어 내가 던진 질문과 자신이 한 답까지 모두 기억하고 있기 때문이다. 


이것이 맥락 인터페이스입니다. 


Ⅲ. 멀티모달


멀티모달은 여러 형태의 정보 형식을 가리킨다. AI에서 멀티모달은 텍스트, 이미지, 음성, 동영상 등 서로 다른 방식으로 표현된 정보를 함께 처리하거나 활용하는 것을 말한다. 


챗GPT는 텍스트만을 입력받고 출력했지만 그다음에 나온 GPT-4는 이미지도 입출력을 할 수 있다. 


물론 이미지 생성은 달리 3를 썼다. 그 뒤에 나온 클로드, 제미나이, 라마 등의 인공지능도 모두 멀티모달이다. 


인공지능에서 멀티모달이 대세가 된다는 것은 무슨 뜻일까? 


우선 인공지능의 쓸모가 크게 올라간다. 글자뿐 아니라 그림과 음악, 동영상까지 함께 만들어준다면 당연히 쓰임새가 커질것이다.


정보가 훨씬 풍부해질 것이다. 인쇄된 자료가 있다면 굳이 그것을 타이핑해서 넣을 필요 없이 이미지를 그대로 입력하면 된다.

 

멀티모달인 인공지능은 당연히 인쇄된 글자들을 읽을 수 있다.

 

자료를 읽을 때는 이 인공지능, 그림을 그릴 때는 저 인공지능, 동영상을 만들 때는 그 인공지능 하는 것처럼 여러 개의 인공지능을 쓸 필요가 없으니 더 편하기도 할 것이다.

 

GPT-4 얘기를 다시 해보자. GPT-4는 앞서 설명한 것처럼 텍스트, 오디오, 이미지의 모든 조합을 입력을 받아들이고 텍스트, 오디오, 이미지의 모든 조합을 출력할 수 있다.

 

응답속도도 아주 빨라서 최소 232밀리 초, 평균 320밀리 초 만에 오디오 입력에 응답할 수 있다.

 

사람의 응답 속도와 비슷하거나 더 빠르다. 인터넷을 통해 서버에 음성을 올리고, 다시 답을 받아오는 속도라고 생각해 보면 정말 엄청난 일이다.

 

이전에는 평균 2.8초~5.4초의 지연이 있었다. 이런 지연이 불가피했던 이유는 이전 모델들이 사람과 대화를 하기 위해서 즉 오디오 입력에 대응하기 위해 세 개의 모델을 함께 써야 했기 때문이다. 


먼저 음성이 들리면 이것을 텍스트로 변환하는 모델이 음성 입력을 문장을 바꾼다.

 

이 문장을 이용해 GPT가 답을 생성하면 그 답을 음성으로 저 노한 하는 모델이 다시 음성으로 바꿔서 출력한다. 


이 세 모델을 함께 구동하느라 그만큼의 시간이 걸릴 것이다. 하지만 GPT-4는 목소리를 바로 입력을 받아 목소리를 생성한다.

 

입출력 자료 자체가 음성이 되니 앞과 뒤의 변환 모델들이 필요가 없어질 것이다. 


이렇게 하면 좋은 점이 또 있다. 정보의 양이 엄청나게 늘어납니다. 실은 음성을 텍스트로 바꾸는 과정에서 아주 많은 정보가 증발한다.

 

음색, 웃음, 노래, 감정, 여러 명의 발화자 등이 모두 사라진다. 음성을 음성으로 바로 처리하는 멀티모달이 됨으로써 인공지능은 엄청난 양의 학습 데이터를 추가로 가질 수 있게 된다.

 

그만큼 더 똑똑해질 수 있게 됐다는 뜻이기도 하다.

 


Ⅳ. 더 저렴하게, 더 빠르게, 더 작게


인공지능을 더 작고 가볍게 만들려는 시도도 대단히 활발하다. 거대언어모델에 빗대어 이런 모델들을 소형언어모델이라 부르기도 한다.

 

이런 흐름을 주도하는 것은 단연 메타다. 메타의 인공지능 라마 3은 세 개의 모델로 출시됐다.


각각 80억 개, 700억 개, 그리고 4천억 개의 매개변수를 가진 모델이다.

 

매개변수가 뭘까? 딥러닝은 인간 뉴런의 작동 원리를 흉내 내서 만든 모델이다.

 

여기서는 아주 단순하게 매개변수는 뉴런과 시냅스 비슷하다고 생각한다. 


그러니까 뉴런과 시냅스가 많을수록 성능이 더 좋아지는 게 당연해 보인다.

 

라마 3의 80억 개, 700억 개는 기존의 거대 언어모델에 비하면 대단히 작은 규모다. 


챗 GPT가 1,750억 개, GPT-4는 1조 8천억 개의 매개변수를 갖고 있다고 알려진 것에 비하면 얼마나 작은지 알 수 있다.

 

이처럼 작은 크기에도 불구하고 라마 3은 여러 평가 지표에서 놀랍게도 챗GPT와 맞먹거나 앞서는 성능을 보여주고 있다.

 


Ⅴ. 매개변수가 작아지면 뭐가 좋아질까?


무엇보다도 제대로 된 온디바이스 AI, 즉 한 대의 PC나 스마트폰에 올릴 수 있는 AI가 가능해진다.

 

챗GPT나 GPT-4 터보처럼 몇천억 개, 조 단위의 매개변수를 가진 거대언어모델들은 크기가 너무 커서 PC나 스마트폰으로 돌리지 못한다.

 

하지만 80억 개 정도의 매개변수라면 돌릴 수가 있다.

 

이렇게 되면 뭐가 좋을까? 매개변수의 숫자가 적으니 당연히 속도가 빨라진다. 무엇보다도 내 데이터를 클라우드에 올릴 일이 없으니 개인정보가 샐 염려도 없다.

 

개인화가 쉬워진다. 중소기업에서도 자사의 데이터들을 다 넣고 인공지능을 맘껏 돌려볼 수 있다는 뜻이 된다. 


에이전트의 시대가 온다. 내 컴퓨터 또는 내 스마트폰에서 돌리면 프라이버시가 보장되니 당연히 내 데이터를 모두 들여다봐도 아무 일이 없게 된다. 그래서 이런 일들이 가능해진다. 


Ⅵ. 인간형 로봇, 휴머노이드


인간형 로봇이 AI와 결합하면서 발전에 가속도가 붙고 있다. 최근 1~2년간의 성과가 지난 10년간의 것과 맞먹는 것처럼 보일 정도다. 


구글 딥마인드 팀이 스탠퍼드 대학과 협업해 만든 알로하라는 로봇을 발표했다. 이 로봇은 모방학습을 한다. 


공개된 동영상을 보면 인간이 로봇의 뒤에서 여러 가지 동작을 가르친다. 평균 50차례 시범을 보이면 85~90퍼센트의 확률로 그 동작을 해내는 데 성공한다고 한다. 


그러니까 가령 백종원 씨가 이 로봇에서 요리를 가르치면 우리는 매번 정확한 레시피대로 똑같은 품질의 요리를 내놓는 로봇을 만나게 된다는 것이다. 


배터리만 충전해 주면 된다. 연구팀은 이 로봇을 오픈소스로 공개했다. 이 로봇의 제작비는 3만 2천 달러에 불과하다. 


부품 설계도, 소스코드, 부품을 살 수 있는 곳까지 모두 공개했다. 누구든 이 로봇을 만들 수가 있다는 이야기이다. 


이 로봇은 전이학습을 한다. 다른 로봇이 익힌 동작을 따로 배울 필요 없이 바로 전달받을 수 있다는 뜻이다. 


그러니까 100대의 알로하 로봇이 제각기 한 동작씩을 익히면 결과적으로 모든 로봇이 100개의 동작을 할 수 있게 된다는 것이다. 


알로하를 오픈소스로 배포했으니 전 세계에 수만 대의 알로하 로봇이 동작하게 된다고 해도 이상한 일이 아닐 것이다. 


그렇게 되면 알로하는 날마다 수만 가지 동작을 익히게 될 수도 있다. 


[ 글을 마치며 ]


인공지능의 발전이 꽤 빠르게 진행되고 있다고 보인다. 


그 이유를 다섯 가지 단계로 나누어서 생각을 해보겠다. 


첫 번째는 반도체의 기술 개발이 인공지능 발전에 가속화를 시켰다.  


인공지능을 활용해서 학습을 시키고자 했던 시도는 이미 꽤 오래전부터 시작되어 왔다. 


그렇지만 효용성을 느낄 만큼 인공지능의 성능이 좋지 못했다. 


인간이 직접 하는 것에 비해서 인공지능이 더 빠르다거나 정확하지도 않았고 효율적으로 사용할만한 작업도 존재하지 않았다. 


그렇지만 현재의 인공지능은 인간보다 빠르게 판단을 내릴 수 있을 만큼 통신이 가능한 상태로 이는 인공지능을 학습시키는 반도체의 발전에서 기인하고 있다. 


두 번째는 인공지능이 활용할 수 있는 데이터의 양이 많아졌다는 것이다. 


모바일 사용이 증가하면서 사람들이 일상생활에서 사용하는 데이터의 축적이 가능해졌다. 


점점 더 많은 앱이 사용되고 활용되면서 우리의 삶이 생활이 모든 데이터로 축적되게 되었다. 


이를 기반으로 인공지능은 더 많은 학습을 할 수 있었고 더 다양한 곳에서 사용될 수 있게 되었다. 


데이터의 양은 결국 인공지능이 더 많은 학습을 할 수 있게 도움을 준 것이다. 


세 번째는 인공지능의 로직 개발이 가속화되고 있다는 것이다. 


인공지능이라는 기술을 탐내지 않는 기업이 없을 정도이다. 


새로운 제품이나 기술이 인공지능이라는 기술과 접목되어 있지 않는 것이 어색할 정도이니 바야흐로 모든 곳에 인공지능이 활용되는 시대라고 보인다. 


다양한 기업에 경쟁적으로 개발에 박차를 가하고 있으니 특허도 많이 나오고 있고 이를 활용하는 기술도 많아지고 있고 거의 모든 곳에서 인공지능을 활용하려는 시도가 많아지고 있다. 


더 많은 개발자의 시도와 노력이 이루어지고 더 많은 도전이 이루어지는 것은 자연스럽게 로직 개발의 가속화를 불러오고 있다고 보인다. 


네 번째는 인공지능의 가치가 높아지고 있다는 것이다. 


아무리 좋은 기술이라고 해도 경제적인 효용성이 없다면 기술 개발이 지속적으로 이루어지기 힘들다. 


하지만 현재 인공지능이 활용되는 곳은 일차적으로 대기업의 고임금 노동자들의 업무이다. 


예를 들어 월스트리트의 펀드매니저들이 나노초 단위로 트레이딩을 하던 것들이 이미 인공지능을 활용하기 시작했다고 한다. 


혹은 아마존이나 알리익스프레스 구글 검색 엔진이나 유튜브, 넷플릭스 등에서도 인공지능을 활용한 유통 큐레이션이 진행되고 있다고 알려져 있다. 


오히려 이제는 인공지능을 활용하지 않으면 핵심적인 업무가 진행이 되지 못할 가능성도 존재하기 때문에 인공지능의 가치가 인정받고 있고 높아지고 있다는 것이다. 


마지막 다섯 번째는 인공지능이 가지고 올 사회적 파급력이다. 


기술의 발전은 단순히 인류 문명의 발전만을 말하지 않는다. 


역사적으로 봤을 때 더 나은 기술을 가지고 있는 국가는 강대국으로의 지위를 가질 수 있었고 기술을 가지지 못한 국가는 결국 종속되는 과정을 반복해 왔다. 


인공지능은 동일한 맥락에서 모든 국가에 반드시 필요한 기술이 될 것이다. 


현재 인공지능 개발에 열을 올리고 있는 국가, 경쟁력 척도를 보게 되면 미국과 중국이 단연 앞서고 있다. 


거의 대부분의 기술에서 미국이 중국과의 격차가 상당했는데 인공지능 분야에서는 중국이 미국과 비슷한 수준까지 올라왔다고 알려져 있다. 


그 이유는 데이터 수집 능력, 알고리즘 개발 능력이 모두 동등 혹은 따라잡을 수 있는 위치에 있기 때문이다. 


한 가지 부족한 것은 반도체 칩의 제조 능력이다. 미국도 완벽하게 가지지는 못했기 때문에 중국을 견제하고 있는 상태이다. 


미국이 완벽하게 견제를 하기도 힘들고 또 중국이 언젠가는 만들어 낼 수도 있지 않을까 하는 상상도 해본다. 


물론 아직 어떤 것도 확실한 것은 없지만 분명 몇 년 내에 그 윤곽이 드러날 것이라고 생각한다. 


인공지능의 발전을 실감하지 못하고 있지만 앞으로 점점 더 많은 곳에서 다양하게 활용할 수 있게 될 것이라고 생각한다. 


지속적으로 관심을 가지고 그 변화를 알아볼 수 있도록 해야겠다. 


참고 도서 : 박태웅의 AI강의 2025 ( 박태웅  )


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari