brunch

You can make anything
by writing

C.S.Lewis

by delight Dec 23. 2023

왜 미스트럴AI의 새 오픈소스LLM을 주목하는가?

학습 차원에서 틈틈이 해외 전문가들이 블로그나 미디어 그리고 책에서 쓴 글을 번역 또는 요약 정리하고 있습니다. 이번 포스팅도 그중 하나고요. 거칠고 오역된 부분이 있을 수 있습니다. 제대로 번역되지 않은 부분은 확인 주시면 반영토록 하겠습니다. 의미 전달이 애매한 일부 문장은 삭제했습니다. 이번 글은 미디엄에 올라온 Tristan Wolff의 글을 정리한 것입니다.


구글이 프레스 투어와 멋진(그러나 완전히 정직하지는 않은) 데모 동영상을 포함해 새로운 "제미니" 모델을 발표한 것과 동시에 조용한 한 혁명이 시작됐을 수 있다.


아직 완전히 출시되지 않았고 모델 기능에 대한 일부 구체적인 것들이 분명치 않은 제미니에 대해 이야기하는 것이 아니다. 대신 X에 최신 언어 모델에 대한 다운로드 링크를 게시한 스타트업 미스트럴 (Mistral) AI에 대해 살펴본다. OpenAI 주력 제품인 GPT-4가 실행되는 것과 동일한 아키텍처를 기반으로 하는 세계 최초 오픈 소스 언어 모델이 공개됐다.


오픈소스 커뮤니티가 왜 이렇게 열광하는지 알아보자.


GPT-4의 오픈소스 대안?

먼저 X에 게시된 다운로드 링크와 그 링크가 연결되는 파일을 살펴보자.


이 모델 파일명을 읽는 것만으로도 개발자들에게는 큰 기쁨이었을 것이다:Mixtral-8x7B-32kseqle

엘론 머스크 다음 아이의 이름이 아니라 새로운 언어 모델 기능을 미리 엿볼 수 있는 이름이다.그리고 다음과 같은 것들이 인상적이다.


컨텍스트 크기는 3만2000 토큰(ChatGPT 표준과 동일)이다.


이 모델 아키텍처는 고도로 전문화된 여러 언어 모델(전문가: Experts)들이 결합된, 이른바  전문가 혼합(Mixture Of Experts)이다. Mixtral의 경우, 각각 70억개 매개 변수를 가진 8명 엑스퍼트들이다: 8x7B


왜 전문가들 혼합(Mixture of Experts)이 중요한가?


90년대 초부터 시작된 이 개념은 GPT-4 성공을 뒷받침하는 것으로 밝혀졌다. 전문가 혼합(MoE)은 단일 모델이 모든 것을 학습하는 대신 하위 모델들 조합을 사용하는 AI 시스템 학습방법이다.


복잡한 문제를 해결하기 위해 여러 전문가가 함께 일하는 팀이라고 상상해보라 이 전문가들을 효율적으로 조율하기 위해 전문가들에게 작업을 할당하는 일종의 팀 리더라고 할 수 있는 게이팅 네트워(gating network)가 별도로 활동한다.


흥미로운 점은 게이팅 네트워크가 한 명의 전문가에게만 의존할 필요 없이 여러 전문가들 인사이트를 결합할 수 있으며, 여러가지 뉘앙스를 갖는 관점들이 문제 해결에 기여할 수 있다는 점이다. Mixtral의 경우, 게이팅 네트워크는 어떤 전문가가 텍스트 예측에 기여해야 하는지 결정한다. 흥미롭게도 Mixtral 현재 메타데이터에 따르면 모델은 각 텍스트 예측에 대해 사용 가능한 8개 전문들 중 2개 전문가에게 자문을 구한다(즉, 각각의 개별 토큰은 두 개 전문화된 하위 모델들 간 상호 작용을 통해 계산된다).


따라서  Mixtral은 가장 진보된 모델 아키텍처 중 하나를 활용해 오픈소스 커뮤니티 판도를 바꿀 수 있는 잠재력을 갖고 있다. 전 세계 많은 개발자가 새로운 AI 모델과 워크플로를 개발할 수 있었던 이미지 생성 AI 표준 레퍼토리인  AI 이미지 모델 Stable Diffusion 출시와 유사하다.


믹스트랄 8x7B는 어떻게 사용하나?

이 글을 쓰는 현재, Mixtral 무료 테스트를 제공하는 플랫폼은 Poe.com와 https://app.fireworks.ai/models 등에서 이용할 수 있다.


조용한 혁명?

구글의 화려한 쇼와는 달리, 미스트랄 AI 출시 전략은 실제로 AI로 작업하는 사람들, 즉 자신의 업무 분야에 적용할 수 있는 공개적으로 접근 가능하고 매우 강력한 AI 모델을 찾는 개발자를 타깃으로 삼은 것으로 보인다. 그리고 MoE가 오픈 소스 공간에 진입하면서 미스트랄은 개발자뿐만 아니라 AI를 실험하고 새로운 창의적 가능성을 모색하는 모든 사람을 위한 조용한 혁명을 시작했을지도 모른다.


작가의 이전글 애플 서비스 사업의 미래와 3가지 비판적 시선
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari