SSM(State Space Model)은 어떨까?

LLM은 돈이 너무 많이 드니까 어떻게 좀 해보자고

Apr 22. 2024

#1 크기 경쟁의 또다른 양상

Transformer 모델은 AI 기술의 전기를 가져왔습니다. 거대한 데이터가 Transformer 모델에 들어가면 수치화된 관계값을 통해 맥락을 이해하는 것과 같은 효과를 내기 시작했습니다. 우리가 이 맥락을 확인할 수 있는 가시화된 구조는 없지만 어찌되었거나 파라미터의 수가 늘어나면 늘어날수록 더 나은 성능을 보인다는 것을 확인하면서, GPT4는 1조개 이상의 파라미터를 가지고 있는 것으로 알려졌고 NVDIA는 최대 10조 개의 파리미터에 해당하는 학습을 지원하는 B200 칩을 발표했습니다.

하지만 이 거대화가 반드시 소비자의 만족도와 비례하는 것은 아닙니다. 소비자 반응은 체감하기 시작했고, 하루 운영비는 70만달러(약 9억달러)에 육박하고 있습니다(GPT4 추정). 더이상 규모만으로 서비스 시장에서의 미래를 꿈꾸기에는 역부족으로 보입니다.

점점 더 거대한 모델로 달려가는 와중에 효율성을 목적에 둔 모델이 나타나 소개해봅니다.

#2 Mamba가 등장했습니다

https://arxiv.org/abs/2312.00752

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Foundation models, now powering most of the exciting applications in deep learning, are almost universally based on the Transformer architecture and its core attention module. Many subquadratic-time architectures such as linear attention, gated convolution

https://arxiv.org/abs/2312.00752v1

Mamba는 Transformer의 핵심인 Attention Mechanism을 사용하지 않는다고 합니다. Attention Mechanism은 입력의 모든 토큰을 곱해가면서 관계성을 만들어내고 어떤 단어에 좀더 주의를 기울여야 하는지 우선순위를 만들어냅니다. 그래서 Attention Mechanism에서의 계산량은 입력 토큰의 제곱수에 비례한다고 볼 수 있으며, 이에 레이어 수(독립적인 Attetion 계산 단계), 각 토큰의 벡터표현 차원에 추가적인 영향을 받습니니다.

Mamba에서는 모든 토큰을 훑지 않고 문맥에 해당하는 상태(state)를 별도로 저장하는 방식을 두고 선택적으로 어떤 문맥을 버리고 선택할지 결정한다고 합니다. Computer Vision 전공자 입장에서 비유해보면 100x100 영상을 wavelelet 변환으로 25x25 근사 데이터를 만들고 이 맥락이 압축된 근사 데이터를 토큰 계산에 사용하는 방식이라고 해석하고 싶네요. 일종의 토큰 압축인 셈이죠.

전체 토큰을 훑는게 아니라 저렇게 맥락을 가지고 축소된 토큰을 이용하는 거랄까

드러내진 않지만 이 막대한 운영비용은 AI Giants 쪽에서도 큰 부담입니다. 이미 몇몇 AI Giants가 SSM 기반의 모델을 이미 테스트를 해보았고 의미있는 결과를 얻어냈다는 소문도 들리고 있습니다.

#3 Jamba도 등장했습니다

참 빠릅니다. 이 SSM과 Transformer 기반의 모델을 조합해서 쓰는 모델이 등장했습니다.

AI21 Studio라는 곳에서 Mamba를 기본 architecture로 두고 이를 Transformer 기반의 모델이 보완하는 형태의 MOE(Mixture of Experts)를 내놓았습니다.

MOE는 간략히 말하자면 모델 여러개(Experts)를 같이 돌리는 방식인데 앞단의 Router가 각 토큰이 어떤 Expert에 속하는지 결정한 후 선택적으로 돌립니다. 전체적으로 규모는 증가하지만 Token을 일부 Expert에게만 할당함으로써 효율성을 높이는 방식이죠. GPT4도 MOE 방식으로 설계되었고 정확한 내용은 공개되지 않았지만 110B 파라미터를 가진 16개 Experts로 구성된 모델이고 추론 시에는 2개를 routing해서 사용한다는 소문이 있었습니다.

Jamba는 Mamba를 통해서 기본 성능 대비 비용효율을 달성하면서 Transfomer을 통해서 높은 품질을 보장하려는 모델이라고 해석할 수 있겠습니다. 이미 NVIDA API 카탈로그에 포함될 계획이 있고 엔터프라이즈 버전으로도 배포 가능하다고 하니 기술 개발부터 배포까지의 속도가 참 빠르다는 생각이 듭니다. 그만큼 Mamba가 짧은 시간 내에 LLM의 효율성을 소구하는 AI 업계에 잠재력을 보여줬다고 생각해도 되겠죠.

Jamba vs. Llama 13B, Llama 70B, Mixtral 8x7B

https://arxiv.org/html/2403.19887v1

Jamba: A Hybrid Transformer-Mamba Language Model

https://arxiv.org/html/2403.19887v1

#4 그런데 또 이게 답은 아니라네요, 어디로 가게 될까요

이런 와중에 올해 4월 12일 뉴욕 대학교에서 따끈한 Paper가 올라와서 소개해봅니다.

https://arxiv.org/abs/2404.08819

The Illusion of State in State-Space Models

State-space models (SSMs) have emerged as a potential alternative architecture for building large language models (LLMs) compared to the previously ubiquitous transformer architecture. One theoretical weakness of transformers is that they cannot express ce

https://arxiv.org/abs/2404.08819v1

요약하자면 'SSM이 트랜스포머의 대안처럼 떠올랐으나 이는 환상이다. SSM은 복잡도가 높은 경우에는 한계가 있다.'라고 말할 수 있겠습니다.

SSM은 상태를 추적해서 맥락 정보를 통해 토큰 계산량을 줄이는 방식이라고 말씀드렸죠. 그렇기 때문에 모든 토큰과의 계산을 해야 하는 Transformer 기반 모델에 비해 비용효율성이 생긴다는 논리였는데 이 논문은 생각보다 SSM 방식이 맥락 정보를 추적하는데 한계가 있고 예상했던 비용효율성이 나오지 않는다라고 얘기하고 있습니다. 그리고 몇가지 개선 방안을 제시하고 있습니다. 향후의 연구를 주목해볼만한 연구가 아닌가 싶습니다. SSM을 비롯해서 꾸준히 Architecture 개선 노력이 나올 수 있겠구나 정도 생각이 드네요.

모델의 Architecture 혁신의 가속도가 줄어드는 시점은 LLM이 특정 서비스와의 시너지가 확인되는 시점, On-device AI가 고객에게 소구되는 시점 등을 예상해보는데 그 때가 언제가 될까 궁금합니다.

keyword

매거진의 이전글Web3.0이 도대체 뭐길래Llama3가 핫한 이 시점, 따끈한 주커버그 인터뷰매거진의 다음글