LLM, 너 진짜 핫하다! 하루 하루 달라지는 LLM!

2023년에도 뜨겁더니, 올해에도 여전하군요!

Jan 8. 2024

하루가 다르게 발전하고 있는 LLM 이야기를 안 할 수가 없겠습니다. LLM의 현주소를 소개해 드린 지도 벌써 한 달이 되었는데요. LLM에 대한 재미있는 이야기들을 모았었지요.

이후에도 LLM은 더 나아지고, 새로워졌습니다. GPT-5가 출시를 앞두고 있고, 영상에 대한 분석과 답변을 할 수 있는 모델도 등장했습니다. 추론 속도를 300배까지 향상할 수 있게 됐으며, 더 추론 능력이 뛰어난 sLLM까지 출시된 상황이지요. 정말 어마무시한 속도입니다. :0 앞으로 LLM은 얼마나 더 달라질까요?

오늘은 급속도로 변화를 겪고 있는 LLM에 대한 갖가지 소식들을 모아왔습니다. 지금부터 두 눈 크게 뜨시고 AI에 대한 놀라운 뉴스들을 만나보세요. ;)

[ 구글의 바드, 이제 영상까지 답변해 준다! ]

혹시 유튜브 프리미엄을 이용 중이시라면, 바드의 기능을 일부 이용해 볼 수 있겠습니다 :)

구글의 인공지능(AI) 챗봇 ‘바드(Bard)’에 새로운 기능이 추가되었습니다. 바로 유튜브 동영상에 대한 질문에 답해주는 기능인데요. 수많은 콘텐츠와 데이터를 보유하고 있는 구글에서 낼 수 있는, 구글만이 제대로 해낼 수 있을 법한 기능이라는 생각이 드네요. :)

이제 LLM은 텍스트나 이미지를 이해하고 추론하는 수준을 넘어, 동영상을 이해하고 분석하는 수준까지 되었습니다. LMM을 소개해 드린 지 얼마 되지 않았는데요. 그때는 이미지에 관해서만 이야기했었는데, 벌써 영상까지 커버하는 멀티모달 아키텍처가 나오게 되었네요.

구글의 바드를 사용하면, 특정 동영상을 찾아달라고 요청하거나 검색된 동영상 내용에 대해 질문을 할 수 있습니다. 예를 들면, “주식회사 텐의 11월 23일 행사 영상에서 나오는 장소가 어디야?”와 같이 질문을 하면, 바드가 그 장소를 찾아낼 수 있죠.

유튜브 프리미엄 구독자라면, 앞으로는 새로운 질문 버튼을 이용해 바드 확장 프로그램과 마찬가지로 동영상 내용에 대해 질문하고 요약을 요청하거나 관련 동영상을 검색할 수 있습니다. :D

[ LLM의 추론 속도가 300배 빨라질 수 있다고? ]

자 이제 300배 더 빠르게 계산해 보시지!

최근 LLM에 대한 연구는 비용과 시간을 절감하는 쪽에 초점이 맞춰져 있습니다. 아무래도 LLM의 개발, 운영에 필요한 인프라의 비용이 어마어마하기 때문이겠지요. 인프라를 효율적으로 사용할 수 있는 텐의 AI Pub 같은 솔루션을 사용하는 방법도 시도할 수 있지만, LLM의 효율을 개선하는 방법 역시 좋은 대안이라 하겠습니다. :)

이제 대형언어모델(LLM)의 추론 속도와 비용을 최대 300배까지 줄일 수 있습니다. 신경망에서 추론을 위해 활성화되는 뉴런의 수를 최소화하는 새로운 딥러닝 아키텍처 덕분인데요. 이 아키텍처는 LLM의 기반이 되는 트랜스포머 신경망의 피드 포워드 레이어에서 추론에 적합한 뉴런을 식별해서 계산 부하를 줄입니다.

문장 속 단어와 같이 순차적으로 나열된 데이터를 학습해서 맥락과 의미를 추적하는 모델은 대개 서로 떨어져 있는 데이터 요소들의 의미를 이해하는 '어텐션(attention)' 레이어, 입력 데이터 변환을 담당하는 피드 포워드 레이어로 구성되어 있는데요. ;)

이 중 피드 포워드 레이어는 모든 뉴런과 입력 매개변수의 곱을 계산하는데, 이 레이어에 속한 모든 뉴런이 활성화될 필요는 없다고 해요. 이 점에 착안해서 ‘조건부 행렬 곱셈’ 연산을 도입한 아키텍처가 바로 ‘패스트 피드 포워드’ 아키텍처인 것이죠. 조건부 행렬 곱셈이 무엇인지는 나중에 ‘AI, 더 쉽게’에서 다뤄보도록 할게요.

이 아키텍처의 효과는 구글의 모델 ‘버트(BERT)’를 기반으로 개발한 ‘패스트 버트(Fast BERT)’ 모델에서 확인할 수 있는데요. 기존 버트 모델의 96% 정도의 성능을 ‘A6000' GPU로 단 하루 만에 따라잡았고, 가장 뛰어난 실험 결과에서는 피드 포워드 레이어의 뉴런을 0.3%만 사용한 케이스도 있다고 해요. :0

이 패스트 피드 포워드 아키텍처 네트워크를 LLM에 통합하면 엄청난 가속 가능성이 있다고 하는데요. 예를 들어 'GPT-3'에서 피드 포워드 네트워크는 4만 9,152개의 뉴런으로 구성되지만, 15층 깊이의 FFF 네트워크로 대체할 경우 총 6만 5,536개의 뉴런을 포함하더라도 실제 추론에는 GPT-3 뉴런의 약 0.03%만 사용하게 되는 거죠.

결과적으로 하드웨어와 소프트웨어를 최적화할 수 있고, 그로 인한 시간과 비용도 엄청나게 절감되겠지요. 실제로 추론 속도를 78배까지 향상한 케이스도 있다고 하네요. 만약 더 뛰어난 인프라와 낮은 수준의 알고리즘으로 이 아키텍처를 구현하게 되면, 추론 속도는 300배까지 향상된다고 합니다. 정말 대단하지 않나요? :0

[ sLLM이라는 새로운 모델?! MS의 오르카2 ]

그러니까... 라마한테서 범고래가 태어났다는 겁니다...

마이크로소프트가 새로운 언어 모델인 ‘오르카 2(Orca 2)’를 오픈 소스로 공개했습니다. 이 모델은 70억 및 130억 개의 매개변수를 가진 경량 모델인데요. 5~10배 더 큰 LLM보다 추론 능력은 더 뛰어납니다. 이로써, 언어 모델의 크기가 능력과 비례하지 않는다는 사실이 입증된 것이지요. :)

오르카 2는 70억 매개변수의 ‘오르카 2-7B’와 130억 매개변수의 ‘오르카 2-13B’ 두 가지로 출시됐는데요. 기반 모델 ‘라마 2(Llama 2)’를 고도로 맞춤화된 합성 데이터셋에서 미세 조정한 모델입니다. 데이터셋은 오르카 2에 단계별, 회상 후 생성, 회상-이유-생성, 직접 답변 등 다양한 추론 기술을 가르치고, 동시에 각 작업에 대해 가장 효과적인 추론 기술을 결정하는 방법을 훈련했는데요.

그 결과 오르카 2 모델은 언어 이해, 상식 추론, 다단계 추론, 수학 문제 해결, 독해, 요약 및 진실성 등 15개의 다양한 주제를 다루는 일련의 벤치마크에서 크기가 5~10배 더 큰 ‘라마 2’보다 뛰어난 성능을 보였다고 하네요.

미세조정을 위해 신중하게 필터링한 합성 데이터를 사용한 것이 개선의 핵심인데요. 오르카 모델을 만드는 데 사용된 이 기술을 다른 모델에도 사용할 수 있다고 해요. 앞으로 모델의 크기가 점차 줄어들면서 LLM에 새로운 트렌드가 나타날 것으로 보입니다. :)

이렇게 소개해 드린 LLM의 현주소, 내일이면 또 달라져 있을지 모릅니다. 이번 LLM 콘텐츠를 준비하면서, 앞으로 주기적으로 관련 소식들을 모아 들려 드려야겠다는 생각이 들었답니다. LLM의 현황을 알아보면, 새로운 이야기가 늘 있을 것 같다는 확신이 들었거든요. 워낙 빠른 속도의 변화라 하나하나 파악하기 쉽지 않으실 테니, 앞으로는 주식회사 텐의 AI피드에 들러서 에디터 SA가 준비한 AI 콘텐츠들로 궁금증을 해소해 보세요. ;)

* 주식회사 텐의 콘텐츠를 더 빨리 만나는 방법! 텐의 AI피드를 방문해 보세요!

> 주식회사 텐 홈페이지

keyword

작가의 이전글AI PC! AI스마트폰! 1인 1 AI 시대가 올까?LMM이 무엇인지 궁금하세요? 제미나이 1이 답입니다!작가의 다음글