챗 gpt, 라마, 바드, 제미니 어떻게 준비하고 있을까
2022년 11월 chat GPT 등장 이후 그야말로 기업 간 대규모 언어 모델 전쟁이 시작되었다. 글로벌 기업들은 앞다투어 AI 초거대 모델 구축과 서비스에 무한 경쟁을 전개하고 있다. 이러한 거대 언어 모델은 새로운 기회와 가능성을 제시하고 있다. chat gpt를 시작으로 다양한 언어모델이 발표되고 있지만 특정 도메인이나 주제에 대한 질문에 답하거나 텍스트를 생성하는 등의 특정 작업에서는 최적의 성능을 발휘하지 못하는 경우가 빈번하다. 언어 모델의 전쟁이 시작되면서 단연 주목받게 된 분야가 바로 '파인 튜닝(Fine-tuning)'이다. 파인 튜닝은 사전 학습된 언어 모델의 매개 변수를 업데이트하는 프로세스를 말한다. 특정 작업이나 도메인에 특화된 추가 학습 데이터를 사용하여 모델을 조정하고, 정확하고 관련성 높은 출력을 생성할 수 있도록 한다. 예를 들어 특정 제품이나 서비스에 대한 고객의 질문에 답변할 수 있는 챗봇을 만들려면 해당 제품이나 서비스에 대한 고객 문의 및 응답 데이터 세트에 대해 모델을 파인 튜닝할 수 있다. 이 프로세스를 통해 모델은 해당 도메인에서 사용되는 언어의 패턴과 뉘앙스를 더 잘 이해하고 보다 관련성 있고 정확한 응답을 생성할 수 있어 더욱 중요성이 커지고 있다.
MS, 구글, 메타의 대규모 언어모델 경쟁 현황
메타, 마이크로소프트, 구글 등 빅테크 기업들은 저마다 언어 모델을 개발하며 치열한 경쟁을 벌이고 있다. 메타는 '라마(LLaMA)', 구글은 '바드', 마이크로소프트는 '코스모스 1'이라는 이름으로 각 회사마다 서로 다른 접근 방식으로 대규모 언어모델을 접근하고 있다.
먼저 메타는 2024년 기준 LLaMA2 모델을 중심으로 대규모 언어 모델을 개발하고 있다. 2022년 메타는 한때 '갤럭티카(Galactica)'라는 대규모 언어모델을 공개했다. 이 모델은 약 4800만 개의 교과서, 강의 노트, 백과사전 등의 데이터로 학습한 모델이다. 갤럭티카는 과학적인 측면에서 강조되고 있다는 특징을 지닌다. 하지만 부정확하다는 지적이 나오면서 서비스를 중단하고 2023년 2월 'LLaMA'를 공개하였다.
라마는 텍스트 생성, 수학, 자료 요약 등 많은 가능성을 보여주는 개방형 언어 모델이다. 세계에서 가장 많이 사용하는 언어 20가지의 텍스트를 훈련하면서 사용하였다. 이처럼 메타는 챗봇, 검색 서비스 등 특정 서비스를 출시하는 대시 언어모델 자체를 공개하는 방식을 택하였다. 라마는 여타 LLM과 다르게 오픈소스로 공개되었다. 이는 상업적으로 이용이 가능하다는 점이다. 오픈소스의 챗 gpt나 구글의 '람다'의 경우 소스 코드가 공개되지 않는다. 상업적으로 사용할 때 역시 비용을 지불해야 한다. 하지만 메타의 경우 무료로 오픈소스 공개 방침을 밝혔다는 점이 두드러진 차별점이다.
구글은 '람다'라는 언어 모델을 기반으로 채팅 AI를 개발하였다. 람다는 초거대 AI 연구에 활용되는 '트랜스포머(Transformer) 계열 심층 신경망을 기반으로 개발이 되었다. 이 언어 모델은 광범위한 주제의 지식을 학습하면서 사람처럼 대화하도록 도와준다. 2021년 Google I/O에서 발표한 언어모델 람다는 챗봇과 비슷한 기능을 지니고 있다. 람다는 대화에 집중해 훈련이 되어 자연스러운 대화를 할 수 있고 구체적인 정보를 포함한 답변이 가능하다. 이 람다를 기반으로 만든 것이 '제미나이(GEMINI)'라는 언어 모델이다. '바드'라고 불린 인공지능 챗봇은 2024년 2월 제미나이로 통합되면서 AI 생태계를 만들어가고 있다.
마이크로소프트는 오픈 AI와 전략적 협업을 통해 검색엔진 '빙(Bing)'을 업그레이드하고 있다. 빙에 오픈 AI의 GPT 3.5 업그레이드 버전인 '프로메테우스(Prometheus)'를 장착하였다. 자체적으로도 sLLM 전담팀을 신설해 언어 모델을 개발하고 있다. sLLM은 대규모 언어모델(LLM)에 비해 도입 비용이 적고 연산 작업이 적어 모바일 기기에서도 활용할 수 있다는 특징을 지닌다. MS는 오픈 AI사가 개발한 GPT4와 유사하지만 실행 비용이 저렴한 언어모델을 늘려나가고 있다. 또한 시각과 언어 기능을 갖춘 멀티모달 대형 언어 모델(MLLM) 역시 적극적으로 도입하고 있다. 2023년 3월 코스모스-1을 공개하면서 이미지를 분석하고 질문을 답하고 읽는 멀티모달 모델을 개발하고 있다. 시각과 언어가 결합된 추론을 수행할 수 있는 가능성을 계속하여 탐구해 나가고 있는 단계이다.
2022년 chat gpt가 쏘아 올린 공은 그야말로 대규모 언어 모델 춘추전국시대를 만들어가고 있다. 빅테크 업체들은 AI 패권을 만들고자 지금도 활발히 모델 개발에 앞장서고 있다. 텍스트 기반의 생성은 이미지, 영상을 넘어 3D까지 제작하는 형태가 되고 있다. 과연 앞으로 어떻게 대규모 언어 모델의 패권이 달라질지는 계속해서 지켜볼 필요가 있다.