김명락 대표, 생성형 AI는 곧 초거대 AI

생성형 AI? 초거대 AI!

by 이예지

지난 6월 23일 제60기 경영자 독서모임 MBS 프로그램이 서울과학종합대학원대학교에서 진행됐다. MBS는 매주 월요일 저녁, 경영의 해법과 새로운 통찰을 원하는 경영자들이 한자리에 모이는 독서 모임으로 지난 30년간 누적 회원 수 국내 최대 7,500명을 기록했다.


국내 최대 규모의 오프라인 독서 모임 MBS에서는 지식의 향연이 펼쳐지며 경영·경제·사회·문화·고전·지역 테마 등 각 분야의 저자들에게 직접 강연을 듣고 질문하며, 혼자서는 얻을 수 없는 깊은 경험을 얻을 수 있다.


또한 도서 선정 시 각계 심사위원단의 엄정한 평가를 거쳐 해당 연도에 필요한 도서를 선정함으로써 현재 트렌드뿐만 아니라 앞으로의 트렌드까지 가늠할 수 있어 조직에 필요로 하는 오피니언 리더로서 성장할 수 있는 도약의 시간을 가질 수 있다.

10372_10817_3614.jpg ‘이것이 생성 AI다’ 저자이자 초록기프트(주) 대표, 한국외대 겸임교수인 김명락 대표가 강연 중이다.

제60기 경영자 독서모임 MBS 프로그램 열다섯 번째 강연자로 ‘이것이 생성 AI다’ 저자이자 초록기프트(주) 대표, 한국외대 겸임교수인 김명락 대표가 강연을 펼쳤다. 김명락 대표는 초등학생 때부터 컴퓨터게임 프로그래머로 활동했고, 고등학생 때 핵융합에 대한 언론 기사를 읽은 후 이것이 인류의 미래라고 확신하고 서울대학교 원자핵공학과에 입학했다.


컴퓨터공학을 부전공하며 컴퓨터에 대한 관심을 이어갔고, 대학원에서 현재의 딥러닝(Deep Learning) 기술의 전신인 인공 신경망(Neural Network)을 활용하여 핵융합 장치 안 플라스마의 위치와 모양을 파악하는 연구를 했다.


2002년 초에 대학교 과 친구들과 함께 창업하고, 2003년에는 인터넷 음식 주문 서비스 사업, 2004년에는 현재의 SNS와 유사했던 모바일 블로그 사업을 했다. 이후 LS전선, 티엠씨, 삼성물산에서 근무하면서 사회생활과 비즈니스를 배웠다.


핀란드 알토대학교 경영대학원에서 공부하면서 다시 창업하기 위해 준비한 끝에 2015년 7월에 인공지능 회사를 창업하여 현재까지 운영하고 있다. 한국외국어대학교, 연세대학교, 을지대학교에서 겸임교수로서 인공지능에 대해 강의하면서 인공지능의 저변을 넓히기 위해 노력했다. 창업 초기에는 인공지능을 활용하여 유동 인구 데이터를 분석하는 서비스를 개발했으나 현재는 스포츠 분야의 자체 서비스를 개발해서 사업적으로 성공하기 위해 분투하고 있다.


인공지능을 활용한 서비스를 성공시키기 위한 노력과 함께, 다양한 산업과 고객의 많은 문제를 해결하기 위해 인공지능을 활용한 컨설팅 및 개발을 해왔다. 지난 10년간 인공지능 기술의 트렌드가 딥러닝이 중심이 된 기계학습에서 흔히 생성형 AI라고 불리는 대규모 언어 모델(LLM)로 이어지는 현장의 한가운데에 있었다. 이 경험을 바탕으로 대중이 인공지능을 더 잘 이해하고 유용하게 활용할 수 있도록 ‘이것이 인공지능이다’와 ‘청소년을 위한 이것이 인공지능이다’를 집필했다.


김명락 대표는 “AI 관련 특강을 많이 들으셨을 것 같은데 오늘 제 강의의 차이점을 말씀드리자면 저는 AI로 먹고살고 있다. 초록소프트 회사가 다음 달이면 설립된 지 10년 차가 된다. 지난 10년 동안 많은 일이 있었다. 초록소프트는 투자를 받지 않고 스스로 자립한 회사다. 오늘은 거래 담론보다 AI 생태계가 어떻게 돌아가고 있는지 이야기를 하고자 한다”라며 강연을 시작했다.


이어 그는 “오늘의 주제는 ‘생성형 AI란 무엇인가’에 대한 내용이다. 같은 제목의 책을 작년 가을부터 쓰기 시작해 올해 초에 출간을 했다. 이 책은 4번째로 출간한 책인데 해가 넘어오면서 자연스럽게 LLM이라는 표현으로 넘어가고 있다. 이 책을 쓸 당시에 생성형 AI를 남용하는 게 있어 쓰게 됐다”라며 책을 쓴 배경을 설명했다.

10372_10818_3640.jpg

김명락 대표는 초등학생 때부터 게임을 만들어 37년 동안 코딩을 했다. 그가 대표로 있는 초록소프트는 AI 서비스를 만드는 회사이며 지난 10년 동안 초록소프트만의 자체 AI 서비스를 만들었으며 도메인도 다양하다. 하지만 그는 “여러 회사들의 의뢰를 받아 AI 회사를 만드는 일을 지난 10년 동안 했는데 AI 기술을 이용해 서비스를 만들어 수익 모델을 만드는 것이 굉장히 힘들었다.”


“고객의 기대치도 같이 올라가고 있으며 그 간극을 메우기가 힘들다. 4년 전에 골프 스윙 자세를 스마트폰으로 자세 교정을 알려주는 걸 만들었는데, 그렇게 하기 위해 GPU를 돌리는 게 8천 원이 든다. 지브리 이미지 10장을 돌리면 4만 원이 든다. 4만 원을 오픈AI가 내고 있다. 이것이 현실이다. AI 반도체 성능을 이야기하는데 서비스를 만드는 입장에서 인풋이 엄청나다. 그 이상의 수익을 벌어야 하는데 그것이 현실적으로 쉽진 않다. 챗GPT 무료 버전을 써서 많은 것이 된다. 돈을 지불하지 않고 AI 서비스를 이용할 수 있다고 생각한다. 이렇기 때문에 AI 서비스를 만드는 회사가 엄청난 회사가 아니고서는 다 고전하고 있다.”


“그러다 보니 자연스럽게 AI 관련해서 같이 일하는 협력 회사들과 크고 작은 오해가 있었다. 어느 순간 똑같은 이야기를 계속하고 있어 ‘이것이 인공지능이다’라는 책을 쓰게 됐다. 최근엔 ‘이것이 생성형 AI’라는 책을 썼는데, 이 책을 쓸 시점엔 용어 정리가 필요했었는데 현재는 많이 정리됐다. 마이크로소프트가 투자한 오픈AI라는 회사가 대규모 언어 모델 중 하나인 GPT를 활용해 챗GPT라는 이름의 생성형 AI 서비스를 만들었고, 이 생성형 AI가 초거대 AI이기도 한 것이다”라고 이야기했다.


AI는 판별형 AI와 생성형 AI 두 가지로 나뉜다. 판별형 AI는 사물을 판별하는 것이며, 생성형 AI는 무언가를 만들어내는 것이다. 딥페이크도 생성형 AI와 같다고 보면 된다. 생성형 AI의 본질은 LLM(대규모 언어 모델)이다. 즉, 뼈대로서의 LLM이 있고, 방대한 데이터로 학습한 LLM이 있다. 뼈대로서의 LLM은 가벼우며 용량도 많지 않다.

10372_10819_3652.jpg ‘이것이 생성 AI다’ 저자이자 초록기프트(주) 대표, 한국외대 겸임교수인 김명락 대표가 강연 중이다.

김명락 대표는 “인공지능은 역사가 85년 정도 된다. 이 사이에 크게 3번의 암흑기가 있었다. AI는 수학자, 개발자, 통계학자의 끊임없는 싸움 끝에 나왔다. 수학자는 AI는 답이 없다는 것을 증명해 낸다. 그러면 암흑기가 나오는데 섞기도 하고 여러 가지 시도를 한다.”


“예를 들어 찌개를 끓이는데 맛이 없어 라면 스프를 때려붓는 것이다. AI 개발자는 최대한 성능을 낸다. 무한 반복이 85년 동안 있었는데 1990년대 와서 기계 학습이 앞서나가기 시작했다. 1990년대 중후반부터 뉴럴 네트워크 만능주의에 빠져 2000년대 중반에 한계에 부딪히게 된다. 사망 선고를 받은 뉴럴 네트워크가 딥러닝으로 새롭게 이름을 바꿔서 나타났다. 모든 문제를 딥러닝으로 할 수 있다는 이야기가 있었다.”


“결과 대부분 다 안 됐다. 딥러닝은 기계 학습의 한 빙하였다. 딥러닝을 2019년까지 해보니 들이는 노력에 비해 성과가 잘 안 나는 것이었다. 그래서 초거대 AI를 만들자는 이야기가 나왔다. 범용적인 초거대 AI를 만들어서 해보자는 것이다. 초거대 AI는 옷을 만들기 위해 공장을 차리는 것이다. 이 중간에 LLM이 나타난 것이다.”라고 말했다.


AI가 발전하는 것에 있어 클라우드가 발전하면서 MSP, CSP 역할을 잘했다. 우리가 AI를 만든다고 하는 것은 AI 모델을 만드는 것이다. AI 모델은 통계 모델이다. 양질의 학습 데이터를 만들어 학습시키는 것이다.


AI 모델이 하는 일은 2가지다. 무언가를 예측하거나 무언가를 추천하거나. AI 모델을 만든다고 했을 때 2가지 단계로 나눈다. AI 모델을 학습시키는 것. 이런 식으로 해서 학습이 끝난 AI를 활용하는 게 있다. 2가지 중에 문제가 되는 게 AI 모델을 학습하는 것이다. 기존 CPU로 학습시키면 시간이 많이 든다. GPU를 이용해 처리해 보면 AI 모델 학습시킬 때 더 좋다는 것을 알게 된다. AI 반도체를 통칭하는 NPU가 나타났다.


이러한 모델을 통해 학습시키면 시간이 대폭 절감된다. GPU를 쓰면 반복적으로 학습이 끝난다. 그러다 보니 데이터를 더 많이 쓰게 된다. AI 모델을 학습시킬 때 사회적 비용에 대해서는 간과할 수밖에 없게 됐다. 엄청난 규모의 전력이 소비되고 방대한 데이터 수집이 활용된다. 시중에 나와 있는 모델들은 인터넷상에 확보할 수 있는 모든 데이터가 있다. 그러다 보니 저작권, 개인정보 이슈가 생겨난다.

10372_10820_3744.jpg

자연어 처리에 쓰이던 RNN, LLM에서 2017년 구글 트랜스포머 AI 모델이 됐다. 문장을 각 단어로 분리해 벡터로 바꾸고(워드 임베딩), 각 단어의 순서를 벡터로 바꾼 다음(포지셔널 인코딩)이 된다. 이후 각 단어 간의 중요도를 어텐션 메커니즘으로 계산한다. 방대한 분량의 문장이 모두 벡터화되어 병렬 처리되고, 벡터 계산에 특화된 GPU, AI 반도체를 활용하게 된다.


방대한 언어로 된 데이터를 잘게 쪼개서 벡터로 계산할 수 있는 형태로 소환을 시킨 것이다. 2017년 구글 트랜스포머 AI 모델이 시조새 트랜스포머에서 진화한 BERT, T5, GPT 계열이다. LLM(대규모 언어 모델) 진화도를 보면 밑에서부터 쭉 올라간다. 경험적으로 버튼 계열은 무언가를 분류하거나 인식하는 게 강하다. 구글이 만들고 있는 게 오픈소스가 9개, 오픈되지 않은 게 7개. 익히 아는 글로벌 회사다.


김명락 대표는 “많은 분들이 대규모 언어 모델이라고 이야기하니까 언어와 관련 있다고 오해한다. 챗GPT가 그림도 그려준다. 영상도 만들어주고 대규모 언어 모델 자체는 자연어 처리를 위해 만든 게 맞다. 언어를 해석하거나 만드는 것이. 언어가 전혀 아닌 문제를 언어 문제로 치환하는 것이다.”


“고등학교 수학 시간에 복소수가 있는데 작폭의 문제를 풀려면 복소수 문제로 푼다. 얼핏 보기에 언어와 상관없어 보이는 문제도 다시 본래 해당 분야로 돌리면 된다. 이미지를 언어로 바꾼 것이다. LLM이 언어로 잘 처리할 수 있는 게 중요한 게 인간의 지식은 언어로 표현되어 있다. LLM이 언어를 잘 다룰 수 있다는 건 모든 걸 다 다룰 수 있다는 뜻이다. LLM이 능력을 발휘한다. 연속적인 시간의 흐름을 가질 수 있다.”라고 말했다.


본격적으로 LLM의 한계는 LLM은 잘 알지도 모르면서 다 아는 척하는 신입사원 같다. LLM의 약점을 보완하기 위해 파인튜닝과 검색 증강 생성을 활용하는 방법이 있다. 그러면 내가 원하는 분야에 특화되게끔 그럴듯하게 대답한다.

10372_10821_3752.jpg

두 번째는 LLM의 가장 큰 문제가 말을 지어낸다. 정해진 매뉴얼 안에서만 답하게 하는 것이다. 우리가 고객센터 직원을 채용했을 때 매뉴얼을 주고, 매뉴얼 안에서 찾아지는 걸 답변하고 못 찾겠는 걸 고참에게 보내는 것이다.


LLM의 특수성을 높이는 방법 3가지는 프롬프트 엔지니어링, RAG, 전이 학습이 있다. 의외로 손이 크다. LLM을 이용해 사람을 그리라고 하면 얼핏 비슷한 사람을 그린다. 보면 항상 손가락을 이상하게 그린다. 우리는 무릎이나 뒷꿈치나 허리를 그려도 기대치가 워낙 높아서 어색해진다. 제너럴한 문제를 LLM에게 맡겨도 되지만, 사용자 관점에서 질문을 잘하는 것이다.


LLM을 다양한 분야에서, 일상에서, 삶에서 쓸 때 주니어에서 시니어로 올라가는 사다리가 끊어졌다. 신입사원 시절부터 시니어까지 가야 되는 사람에게는 안 좋다. 백지 상태에서 직접 써보며 겪어서 시니어층까지 도달한다. 그렇게 해서 시니어에 도달한 사람들 입장에서는 LLM을 시키면 군소리 없이 다 한다. 시니어에 도달한 사람들에게는 좋은데 시니어의 포지션이 하늘에서 뚝 떨어지는 것이 아니다.


학생들이 과제, 시험을 챗GPT를 엄청 쓴다. 지금은 너가 이걸 쓰면 학점이 나오겠지만, 길게 보면 직접 경험하고 써야 한다는 이야기를 한다. 주니어 개발자가 하는 코딩은 LLM이 한다. 아키텍처를 그리는 일은 LLM이 못 한다.


만약 지금 LLM에게 천동설이 맞는지 지동설이 맞는지 물어보면 지동설이 맞다고 이야기할 것이다. 타임머신 타고 16세기 갈릴레오 시대에 가서 물어보면 천동설이 맞는다고 이야기할 것이다. 지금 이 현상이 다 지동설이 맞다고 써져 있다. 확률적으로 지동설이 맞는 사람이 많아 지동설이 맞다고 하겠다. 하지만 500년 전엔 천동설이 맞다는 글이 많기에 천동설이 맞다고 할 것이다.


LLM은 다수결의 입장에 선다. 다수결을 따라도 되는 분야에서는 LLM이 중요하지만, 다수결이 아닌 전문가가 필요한 분야에서는 LLM이 안 된다. LLM 때문에 과학기술 발전이 더 늦어질 수 있다고 생각한다. 상상해보면 서로 떨어져 있는 환경에서 서로 독자적으로 할 수 있는데, 오히려 메이저한 것에 독자적인 과학 이론이 서로 경쟁할 수 있었는데 지금은 인터넷+LLM 환경이기에 다 몰아가는 것을 볼 수 있다.

10372_10822_3811.jpg ‘이것이 생성 AI다’ 저자이자 초록기프트(주) 대표, 한국외대 겸임교수인 김명락 대표가 강연 중이다.

AI를 쓰는 입장에서는 여러 가지 선택을 할 수 있다. 다수의 의견을 따라가도 크게 무방하다. 이런 식의 문제가 있고, 반면에 매우 특수한 환경, 일반성을 추구해도 되는 문제는 초거대 AI를 사용할 수 있다. 중간의 LLM은 초거대 AI처럼 처음부터 돈을 많이 들여서 하는 것이 아니고, 내 문제에 맞게 파인튜닝을 하는 것이다. 초거대 AI는 식당을 차리는 것이다. LLM은 중간이다. AI를 이용해서 무언가를 만들어내는 입장에서는, 만들고자 하는 AI 서비스에 필요한 AI 모델이 유료 AI 모델 중에 없고 기계학습이 필요할 만큼 특수하지는 않고 초거대 AI를 직접 만들 수 없다면 LLM이 필요하다.


LLM을 활용하는 3가지 방안에는 AI 기술을 활용하기 전에 문제를 풀 수 있는 상황을 먼저 조성(컨테이너 안에 쌓아 놓은 책들)하는 것과 인터넷 검색보다 구체적인 조사를 하는 것이다. LLM에 전적으로 의존하면 안 된다. 먼저 주도적으로 구상해 LLM을 활용하는 것이다.


끝으로 김명락 대표는 “나중엔 LLM에게 인격, 책임을 부여할 것인지에 대한 이야기도 나올 것이다. LLM이 하는 문제가 많아짐에 따라 LLM의 모습이 바뀌게 되지 않을까 싶다”라며 강연을 마쳤다.


한편, 제60기 경영자 독서모임 MBS 프로그램은 매주 월요일 서울과학종합대학원대학교에서 진행된다.

keyword
작가의 이전글교원·직원을 대하는 원칙? 진정성