brunch

You can make anything
by writing

C.S.Lewis

by 헤르메스JK Oct 18. 2023

생성형 AI는 우리에게 어떤 모습으로 다가올까

- 쩐의 전쟁과 Multi modal -

아이언맨의 인공지능 비서 자비스가 머지않아 현실화?

생성형 AI로 일상생활이나 업무에 어디까지 활용할 수 있을까? 수개월 전까지만 해도 의구심이 많이 들었는데, 최근에는 이런 기능들이 안정적으로 된다면 정말 쓸만하겠다는 확신으로 변했다. 

기존의 Text로 문장이나 이미지, 동영상 생성 기능이 한층 고도화된 것은 물론, 실 생활과 업무에 사용하면 좋을 기능들이 대폭 늘어나고 있다. 


ChatGPT Plus의 GPT-4.0은 그림이나 사진을 업로드하면 이미지만 보고 어떤 내용인지를 설명해 주는데, 사람이 눈으로 보고 설명해 주는 듯한 착각이 들 정도로 정밀해진 것에 놀랐다. 

마트나 음식점의 영수증과 이미지로 된 포스터 등을 업로드해 내용을 요약해 달라고 해 보았다. 아직은 한글 인식률에 문제가 있는 듯하여 일부 품목이나 항목의 내용이 달라, 수정지시를 내렸더니 바로잡아 주기는 했는데, 아직은 사람의 손이 가야 하는 것은 분명하다. 하지만 다른 일을 하면서 부하직원이나 비서에게 바쁠 때 정리하라고 맡겨두고 완성되면 확인하고 수정하여 고치게 하는 것과 유사한 느낌이었다. 


내 ChatGPT Plus에서는 Voice로 대화하는 모드가 생성되지 않아(순차적으로 허용 인원을 확대 중) 직접 사용해보지는 못했지만, 사용 경험담을 보면 한국말로 대화가 가능하여 말상대가 되어주고, 영어회화 연습상대로도 충분하여 만족스럽다고 한다. 유료 온라인 회화에도 영향이 있을 듯하다. 

Text로 입력해서 지시하는 방식에서 말로 지시하는 방식이 조만간 병행될 것 같다.


Chat GPT Plus에 Dall-E 3가 들어오면서 이미지 생성도 많이 편리해졌다. 그야말로 읽고 쓰고 말하고, 찾아주고, 요약해 주고, 정리해 주고, 계획 세워주고, 그림 그리고, 동영상 만들고 수정도 하는 생성형 AI의 멀티모달 시대가 머지않았다는 생각이 들었다.


생성형 AI 고도화와 쩐의 전쟁 

새로 발표되는 모델들은 기존 모델보다 더 정교하고 창의적인 콘텐츠를 생성할 수 있는 고도화된 능력을 갖추어야 한다. 그러기 위해서는 보다 방대한 데이터셋, 텍스트와 코드(프로그래밍 언어)의 결합이 생성형 AI 모델의 가능성을 크게 확장할 수 있는 중요한 기술이다.


기존 생성형 AI는 텍스트, 이미지, 음성, 동영상 등 단일 데이터셋을 기반으로 학습한다. 따라서 특정 분야에 특화된 모델을 개발할 수 있지만, 다양한 분야에 적용하기에는 한계가 있다. 보다 방대하고, 보다 다양하고, 보다 창의적인 생성형 AI를 위해서는 다양한 데이터셋의 결합이 필요하다. 예를 들어, 텍스트와 이미지의 결합을 통해 보다 생동감 넘치는 콘텐츠를 생성하거나, 텍스트와 코드의 결합을 통해 보다 창의적인 콘텐츠를 생성할 수 있다.


이를 위해서는 딥러닝과 머신러닝의 결합을 통해 보다 정확하고 정교한 결과를 도출하거나, 강화학습의 결합을 통해 보다 창의적인 결과를 도출해야 한다. 최첨단 알고리즘의 개발과 적용도 필요하다. Generative Adversarial Network(GAN)의 결합을 통해 보다 정교한 이미지를 생성하거나, Diffusion model의 결합을 통해 보다 다양한 콘텐츠를 생성해야 한다.

GPU, CPU 등 기존의 컴퓨팅 자원 사용에서 AI 전용 칩의 사용을 통해 대규모 데이터셋을 보다 빠르게 처리하거나, 양자 컴퓨팅의 사용을 통해 보다 창의적인 결과를 도출해야 한다.

이러한 개선 및 강화를 통해서 보다 방대하고, 보다 다양하고, 보다 빠르고, 보다 정교하고, 보다 창의적인 생성형 AI를 개발할 수 있기 때문에 투자비는 기하급수적으로 늘어난다.


때문에, 투자 단위가 수백만~천만 달러 수준이던 것이, 이제는 수천만 달러~수억 내지는 수십억 달러까지도 늘어나, 정상의 빅테크 기업이거나 이들로부터 투자를 받은 기업이 아니면 고도화된 생성형 AI 개발이 어려워질 수도 있는 쩐의 전쟁 시대로 전환되고 있다.   


잘 알려진 사실이지만 마이크로소프트(MS)의 OpenAI에 100억 달러, 엔비디아의 2억 7000만 달러, 

아마존이 OpenAI 대항마로 꼽히는 엔스로픽에 40억 달러 투자, 이스라엘의 AI21 랩스는 1억 5500만 달러 투자 유치, 데이터브릭스는 5억 달러 이상 투자 확보, 헬스케어용 생성형 AI 기술을 개발 중인 코르티(Corti) 6000만 달러 투자 확보 소식이 전해지고 있다. ☞ 매일경제 10월 10일 자 기사 (분석업체 피치북 인용)


성장 가능성 투자에서 성공 가능성 투자로 전환? 

생성형 AI의 생태계가 형성되는가 싶더니, 벌써 부익부 빈익빈, 승자와 패자가 나누어지기 시작하는 것 같다. 스피드를 넘어선 파격의 연속이니 라이프사이클이 더 짧아지는 것은 당연한 일이기는 하다. 글로벌 벤처캐피털의 올해 3분기 투자액은 2분기와 비슷하지만, 건수가 2분기보다 29% 줄어, 기술력이 있는 큰 스타트업에 투자가 집중되고 있다고 한다.


ChatGPT-3.5가 2022년 11월 서비스 시작, 인기를 끌면서 생성형 AI 붐이 본격화된 지 1년도 채 되지 않았지만, 생성형 AI Tool을 다양하게 자주 사용해 보고 있는 입장에서 그럴 것도 같다는 생각이 든다. 빅테크 기업들의 신기술이나 신 기능들이 숨 돌릴 틈도 없이 발표되고 있고, 중소 전문기업이나 신규 스타트업 들에서 하루가 멀다 하고 새로운 AI Tool들이 소개되고 있다 보니, 지난번 어떤 툴로 이 이미지를 생성했었지? 하고 기억하는 것조차 어려울 정도이다.


인터넷 즐겨 찾기를 1~2년에 한 번 사이트 정리 하곤 했는데, 지금은 1달 혹은 2달에 한 번은 정리해야 할 정도로 정보가 홍수를 이루고 있다 해도 과언이 아니다. 물론 몇 번 사용해 보면서 자주 사용하게 되는 Tool들이 생겨나고, 1~2번 사용해 보고 쓰지 않게 되는 Tool들이 늘어나다 보니, 체감 상으로 인기 툴들과 그렇지 않은 툴들이 구분되기 시작하는구나 느끼고 있기는 하지만, 통계상으로 벌써 성공가능성의 구분이 예견되기 시작되었다는 것이 놀라울 따름이다. 


스피드 경쟁을 넘어 Multi Modal 경쟁으로

Text, 이미지, 동영상, 음악 생성 등 강점이 있는 영역의 기업들이 나름 선전하면서 고유의 영역을 스피드로 발전시키고 수성도 하는 구도였다면, 이제는 Multi Modal시대가 성큼 다가와서 통합 서비스를 하기 시작하는 기업이 늘어나고 있다. 


빅테크 기업이 Chatbot 중심 서비스에서 API로 기능을 확장하는 것에 멈추지 않고, 직접 기능을 확장하고 있다. OpenAI가 ChatGPT Plus에 Dall-E 3을 접목시켜 이미지 생성을 보강했고, 텍스트와 코드의 결합을 통해 보다 창의적이고 유익한 콘텐츠를 생성할 수 있다.

텍스트를 이해하고 활용하는 능력이 향상되어 질문에 보다 명확하고 유익한 답변을 제공할 수 있으며, 다양한 언어를 번역하는 능력이 향상되어 보다 효율적인 의사소통을 지원할 수 있다.


Bing Chat도 Dall-E 3을 무료로 사용할 수 있도록 접목시켰다. 텍스트 설명을 보다 정확하게 이해하고 구현할 수 있으며, 보다 사실적이고 디테일한 이미지를 생성할 수 있고, 다양한 스타일과 장르의 이미지도 생성할 수 있다


구글 LaMDA의 경우 생성형 언어 모델의 성능을 대폭 개선, 텍스트와 코드의 방대한 데이터셋으로 학습하여 텍스트를 생성하고, 언어를 번역하고, 다양한 종류의 창의적인 콘텐츠를 작성하고, 질문에 답변하는 등의 다양한 작업을 수행할 수 있게 했다고 한다. 직접 구글 바드를 사용해 보니 이전보다 설명의 내용이나 질적인 면에서 비교될 정로로 많이 개선되었다.

딥마인드와 브레인을 통합하여 차세대 LLM인 제미니를 11월에 출시하여 멀티모달 AI로 판도를 일거에 바꾸려고 준비 중이라고 한다.


전문기업들도 Text나 이미지 Only에서 Voice와 이미지, 동영상 생성 등으로 확장, 통합형으로 변화하고 있는 것이 눈에 띄는 현상이다. 아마도 머지않은 시일 내 생성형 AI기업 지형도가 멀티모달 기능과 전문기능으로 대별되어 단순화될 가능성도 있지 않을까 싶다.


Adobe의 Firefly를 보더라도 텍스트를 단순히 이미지로 변환하는 AI 생성 툴 그 이상의 가치를 제공하게 될 것이라면서, Creative Tool 강화를 기반으로 텍스트 기반의 편집, 이미지/영상/3D 등의 다양한 미디어 생성에 활용하게 될 것이라는 Vision을 제시하고 있다.


이미지 편집과 홍보물 제작 전문업체로 인식되는 Canva도 이미지 생성분야를 확장하고 있으며, 동영상 편집은 물론 생성까지도 준비 중이어서 생성형 AI 전문기업으로의 변신을 시도하고 있는 듯하다. 기타 전문기업들도 빅테크 기업들의 멀티모달 서비스에 대응하기 위해 수면 아래서 발 빠르게 움직이고 있을 것으로 추정된다.


확산과 수렴은 여기서도 일어날까?

과거 다양한 검색기능과 서비스 기업이 구글과 Bing으로 좁혀졌듯이 생성형 AI도 거대 빅테크 혹은 신생 빅테크 기업 몇 개로 수렴되면서, 사용자 입장에서는 통합 서비스로 편리함이 향상되지 않을까 생각해 본다. 지금은 Text생성 따로, 번역 따로, 이미지 생성 따로, 음악생성 따로, 동영상 생성 따로 등 기능별로 더 좋고, 편리하고, 저렴한 프로그램을 찾아 유랑하고 있다. 앞으로는 보편적인 기능은 소수의 프로그램에서 One Stop으로 해결하고, 차별성 있고 전문적인 프로그램으로 부족한 부분을 보완해 갈 것으로 기대해 본다. 그것이 소비자에게 득이 되는 방향으로의 변화이기를 바라면서.      

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari