brunch

You can make anything
by writing

C.S.Lewis

by TEN Jan 15. 2024

LMM이 무엇인지 궁금하세요? 제미나이 1이 답입니다!

LMM이 무엇인지 궁금하다면, 고개를 들어 제미나이 1.0을 보라!

안녕하세요, 에디터 SA입니다. 구글의 제미나이 (또는 제미니, Gemini)가 드디어 세상에 공개되었습니다. 제미나이(Gemini)는 차기 LLM으로 처음 세상에 존재를 알렸다가, ‘LMM’이라는 새로운 분류 명칭으로 AI 모델에 새로운 패러다임을 제시한 모델인데요. 지난 10월, AI피드에서 ‘LMM’을 소개하는 콘텐츠를 통해, 제미나이(Gemini)에 대해 간단히 소개해 드리기도 했었지요. :)


▶ 이미지까지 학습한 막강한 존재, LMM이 온다!


2023년이 얼마 남지 않은 시점이었던 12월 6일(현지 시각)에 공개된 제미나이를 살펴보니, 내년도 AI 모델에 있어 가장 격동적인 시기가 되지 않을까 싶습니다. 그래서 이번에는 제미나이로 대표되는 LMM에 대해 공개된 다른 이야기들을 더 준비해 보았습니다. 2개월이 채 되지 않은 시간 동안 또 얼마나 많은 변화가 있었는지, 지금부터 같이 살펴볼까요? 




[ 왜 제미나이가 LMM이냐 물으신다면, LMM이라서 LMM이라고 하였사온데… ]

얼마나 더 똑똑해지려고 그러는지, 참...

 

LMM(Large Multimodal Model)은 기존에 ‘멀티모달 LLM'으로 불렸었는데요. 주류 모델이 될 것이라는 긍정적 전망과 관심이 높아지면서 LMM이라고 이름을 붙여 부르게 되었습니다. 이 명칭을 본격적으로 사용해서 개발 중인 모델을 재정의한 것이 바로 구글이에요. ‘제미나이(Gemini)’는 처음에 차기 ‘LLM’으로 소개됐었답니다. :)


아무래도 구글에서 LMM이라는 명칭을 거듭 사용하게 되니, AI 산업 전반에서 LMM이라는 말의 사용이 점차 확대되게 되었지요. LMM이라는 모델의 시작은 오픈AI에서 한 것이지만, ‘LMM‘과 ‘멀티 모달’이라는 개념을 사람들에게 널리 알린 것은 구글의 공이 크다고 하겠습니다. (bb)


이때부터 사람들의 머릿속에는 제미나이(Gemini)가 곧 LMM이라는 생각이 들 수 있겠지요? 이미 GPT-4V가 존재했음에도, 사람들은 제미나이(Gemini)의 차별점인 ‘이미지와 동영상 학습’을 기반으로 LMM에 대한 개념을 이해하게 되었습니다. 구글이 보유한 (심지어 거대하기까지 한..!) 이미지, 영상 데이터를 기반으로 언어 이상을 응답하는 모델이 곧 LMM이 될 거라는 기대도 단단하게 형성되었겠지요. :)




[ 제미나이 1.0! GPT-4V보다 나은 LMM이라고! ]

구글이 현지 시간으로 23년 12월 6일에 '제미나이(Gemini) 1.0'을 공개했습니다. LMM에 대한 관심과 기대가 안 그래도 높은데, 개발 주체가 구글이라는 점에서 더 많은 이목이 쏠렸어요. 이번에 구글이 공개한 ‘제미나이 1.0’의 특징은 4가지로 정리해 볼 수 있습니다.


Hands-on with Gemini: Interacting with multimodal AI (https://www.youtube.com/watch?v=UIZAiXYceBI)


첫 번째로, ‘제미나이’가 위에서 말씀드렸던 ‘LMM’의 대표 격인 모델이라는 점이에요. ‘제미나이’가 공개되기 이전까지, LLM에 이미지 기능이 일부 추가되는 등 ‘LMM’이라고 정의할 수 있을 정도로 완성된 모델을 찾기는 어려웠는데요. ‘제미나이 1.0’은 텍스트, 코드, 오디오, 이미지, 비디오 데이터를 모두 학습해서, 어떤 유형의 자료를 제시하더라도 그것을 읽고 답 또는 제안을 할 수 있습니다. 제대로 갖춰진 LMM 모델인 거죠. :) 이전에 LLM을 설명할 때에 ‘ChatGPT’를 예로 들었다면, 앞으로는 LMM을 설명할 수 있는 모델로 ‘제미나이’를 제시하게 되겠죠?


‘제미나이 1.0’의 두 번째 특징은, ‘멀티모달 모델’ 하면 떠오르는 ‘GPT-4V’보다 더 나은 성능을 갖고 있다는 점인데요. ‘제미나이’는 프로젝트가 처음 시작될 때부터 구글의 기술력이 얼마나 대단한가를 보여주기 위한 프로젝트였어요. (직접적으로 말하자면, “우리가 오픈AI보다 더 잘하는데?ㅎ”갰지요)


이 프로젝트가 계속되는 동안 다른 기업에서도 멀티모달 기능들을 순차적으로 개발, 적용하고 있긴 했는데요. 구글은 이런 모델들 보다 ‘제미나이 1.0’의 성능이 얼마나 뛰어난지 보여주기 위해, 아예 벤치마크 결과를 공개했어요. ‘제미나이 1.0’이 학술 벤치마크 32개 중 30개에서 GPT-4를 능가했다고 하는데요. 또 수학, 물리학, 역사, 법, 의학, 윤리 등 57개 과목을 조합한 테스트에서도 90%의 정확도를 보여주었다고 합니다. 각 분야의 전문가들보다 훨씬 똑똑한 거죠!




제미나이, 우리 Responsible AI니까, 앞으로 더 책임감 있는 모델로 성장해보자구!


세 번째 특징은 ‘제미나이 1.0’이 바로 ‘Responsible AI’라는 점입니다. ‘Responsible AI’라는 개념이 조금 생소하실 수 있겠는데요. 우리말로 하면 ‘책임감 있는’ AI라는 건데, 안전하고 신뢰할 수 있는 시스템이며 윤리적인 방식으로 개발, 평가 및 배포하는 접근 방식을 가진 AI를 의미합니다. 요 내용은 조만간 ‘AI, 더 쉽게’에서 자세히 설명해 드릴게요.


‘제미나이 1.0’의 마지막 특징은 배포 방식입니다. ‘제미나이(Gemini) 1.0’의 버전이 무려 3개(!)로 나왔답니다. :0 지금까지 배포되었던 타사의 다른 LLM 모델들에게서 3개로 버전이 분화되는 경우는 본 적이 없었는데요. :0 ‘제미나이 1.0’은 울트라(Ultra), 프로 (Pro), 나노(Nano)의 3가지 버전으로 나뉘어 있습니다.


이 버전의 분류 기준은 배포된 모델의 사용성이었는데요. 각자 개발 중인 AI 서비스, 인프라 환경 등을 고려하여 모바일부터 데이터센터까지 커버할 수 있도록 한 것이지요. 이 점은 다음 챕터에서 좀 더 자세히 이야기 나눠 볼게요!




[ AI 모델에 버전이 3개나 있다고? ]

LMM을 위해 이 정도의 데이터센터가 구축되어 있다면,  제미나이 1.0은 울트라 버전을 사용하는 거죠!


앞서 소개해 드린 대로, ‘제미나이 1.0’은 울트라(Ultra), 프로 (Pro), 나노(Nano)의 3가지 버전으로 나뉘어 있습니다. :) 복잡한 작업을 위해 ‘제미나이 1.0’을 사용해야 할 때는 ‘울트라’ 버전을, 울트라 버전보다는 복잡성과 규모 부분에서 부담이 적지만, 확장성을 고려해야 하는 작업이라면 ‘프로’ 버전을 선택하면 됩니다. 온디바이스 AI 작업을 고려하여 상대적으로 가벼운 모델은 ‘나노’ 버전입니다. 


AI 기반 서비스를 개발하는 기업과 개발자들은 기존에 존재하는 모델들을 2차 활용할 때 리소스, 크기 등 여러 가지를 고려해야 했었어요. 오픈 소스로 공개되었더라도, 공개된 소스의 복잡도 때문에 전문성이 많이 요구되는 모델인지 확인해야 한다는 점 역시 중요한 고려 요소였을 거예요. 만약 제미나이 1.0을 사용한다면, 이런 고민을 다소 덜어낼 수 있게 되는 거죠. 3가지 버전으로 기준을 제시해 주니까요. “역시 구글!”이라는 생각이 들게 되는 지점이었답니다. :D




[ 3가지 버전이라더니, 찾아보니까 1개 밖에 없던데요? ]

지금은 이런 온디바이스 기반 AI에 맞춘 제미나이 1.0 나노 버전만 공개된 상태입니다.


‘제미나이 1.0’이 3개 버전으로 출시되지만, 12월 6일(현지 시각)에 모두 공개된 건 아닙니다. 이번에 공개된 모델은 온디바이스 AI 작업을 고려한 ‘나노’ 버전이에요. 나노는 매개변수 별로 1.8B(Nano-1), 3.25B (Nano-2) 두 가지 버전으로 나뉘어 있습니다. 아무래도 AI의 일상화와 가장 가까운 것이 다양한 온디바이스에 AI 모델을 탑재하는 것이고, 이 움직임은 내년부터 두드러지게 나타날 예정이잖아요. 이 내용은 이전에 ‘AI PC’, ‘AI 스마트폰’을 주제로 한 콘텐츠에서 한 번 소개해 드린 적 있었지요?


▶ AI PC, AI 스마트폰 출시 예고! 1인 1 AI 시대가 열릴까?




실용성, 시장 반응 등을 고려하면 ‘나노’가 먼저 공개되는 이유가 있을 것이라는 생각이 듭니다. 제미나이 1.0 나노 모델은 구글의 스마트폰 픽셀 8 프로에도 도입 중이고요. 하지만 기대가 높았던 탓일까요? 아쉬움을 표하는 의견도 있답니다. 구글이 ‘제미나이 1.0’의 핵심이 되는 파운데이션 모델 출시를 내년으로 미뤘거든요. 사실상 3개 버전 중 1개 버전만 공개한 셈이지요. 3개 버전이 분명히 있다고 했는데, 볼 수가 없다니… 당연히 불만스럽고 아쉬울 수 있죠.


프로 모델은 일주일 뒤인 13일에 구글 AI 스튜디오나 구글 클라우드 버텍스 AI의 '제미나이 API'를 통해 공개될 예정이에요. 나노 버전과 달리 매개변수는 공개하지 않았습니다. 구글에서는 챗봇 '바드'에 프로 미세조정 버전을 적용한다고 밝혔는데요. 170개 이상 국가에서 영어로 제공한다는 사실이 추가로 공개되면서 나노 모델만큼 완성도가 높다고 보긴 어렵지 않은가, 하는 의견도 나오고 있답니다.


울트라를 적용한 '바드 어드밴스드(Bard Advanced)'는 내년 초에 나온다고 하네요.




Gemini: Google’s newest and most capable AI model (https://www.youtube.com/watch?v=jV1vkHv4zq8)


구글에서는 신뢰 및 안전 검사, 인간 피드백(RLHF)을 통한 미세 조정 등을 이유로 내세워 ‘울트라’를 내년 초에 일부 테스터들에게 먼저 공개하면서 순차적으로 안정성 높은 모델을 제공하겠다고 했는데요. 어쨌든, ‘제미나이 1.0’의 본 모습이라 할 수 있는 울트라 버전의 정식 출시가 미뤄졌다는 점은 명백한 사실이지요.


이전에 “제미나이가 외국어 능력 등 일부 성능이 부족해서 개발이 지연되고 있다”는 현지 언론 보도가 있었거든요. 그러니 혹시, LMM의 시초로 언급되는 오픈AI의 ‘GPT-4V’를 넘어서지 못한 상태인 건 아닌가, 하는 의심 어린 분석이 나올만한데요. 그러나 이런 소문과 의심이 무성하다는 건, 그만큼 ‘제미나이’가 관심의 중심에 있다는 의미겠지요. AI 산업에 있어 ‘제미나이 1.0’의 공개가 기념비적인 일이라는 점은 부정할 수 없겠네요.




* 주식회사 텐의 콘텐츠를 더 빨리 만나는 방법! 텐의 AI피드를 방문해 보세요!

주식회사 텐 홈페이지



브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari