brunch

You can make anything
by writing

C.S.Lewis

by 음병찬 Oct 17. 2024

트랜스포머에 대항하는 맘바 + 마트료시카 연합군

* 이 글은 AI 전문 뉴스레터 '튜링 포스트 코리아'에 기고한 글의 일부입니다. AI 기술, 스타트업, 산업과 사회에 대한 이야기에 관심이 있으시면 '튜링 포스트 코리아' 구독해 주세요.



여러분, ‘마트료시카’라는 인형을 아시나요? 러시아의 전통 인형이고, 다산, 다복, 부유함과 행운을 가져오는 인형이라고 해서 기념품으로 한 때 유명했던 기억이 있습니다.


열어도 열어도 끝없이 나오는 마트료시카 인형. Image Credit: 소년중앙


전통 인형이기는 한데, 러시아의 다른 전통 인형과 비교하자면 마트료시카의 탄생 자체가 1890년으로 역사는 아주 짧다고 해요. 러시아의 철도왕이었다는 사바 마몬토프가 일본에 갔다가 일본의 칠복신 (七福神, 시치후쿠진) 인형, 특히 복록수 (福禄寿, 후쿠로쿠주)를 보고 큰 인상을 받아서, 러시아에 귀국한 다음에 예술가들에게 인형을 보여주고 비슷한 인형을 만들도록 한 게 바로 마트료시카의 시작이라고 하네요.


뜬금없이 마트료시카와 트랜스포머가 무슨 상관이냐고 생각하시겠죠? 하나는 인형을 열면 그 안에서 계속해서 조금씩 더 작은, 숨겨져 있던 인형이 나오는 러시아 전통 예술의 상징, 다른 하나는 환경과 상황에 빠르게 적응하면서 다양한 형태로 변화할 수 있는 미래적인 로봇이니까요.


네, AI 판에서는 상관이 있습니다 ^.^ - ‘마트료시카 (Matryoshka)’가, 우선 먼저는 트랜스포머 아키텍처 내에서 더 좋은 임베딩을 만들어내는 노믹 임베드의 마트료시카 표현 학습 (Matryoshka Representation Learning) - 임베딩 차원을 가변적으로 다양하게 만들어서 모델이 더 많은 정보를 잡아낼 수 있게 하는 기법 - 에서 사용되었죠. 또 하나는, 당당히 트랜스포머와 경쟁하는 아키텍처로서 ‘마트료시카’라는 이름을 사용하고 있습니다.


첫 번째에 해당하는 개념은, 2023년 구글 리서치의 연구자들이 MatFormer를 발표했을 때 소개되었는데요.

MatFormer의 Netsted Structure. 그림 중간에 ‘마트료시카 구조’가 보임. Image Credit: 오리지널 논문


이 모델에서는, 각각의 트랜스포머 블록이 그 안에 중첩된 서브 블록으로 설계되어 있는데, 여기서 더 작은 하위 모델들이 더 큰 모델 안에 포함되어 있습니다 - 마트료시카 인형의 층처럼요. 이런 구조로, 모델이 별도의 훈련이 없어도 단일한 범용 모델에서 다양한 크기의 하위 모델을 필요에 따라 다이나믹하게 뽑아내서 활용할 수 있으니, 어떤 모달리티든, 어떤 작업이든 유연하게 스케일링을 할 수도 있고 추론도 탄력적으로 할 수가 있게 되는 겁니다. 이 방법을 마트료시카 표현 학습 (Matryoshka Representation Learning)이라고 부릅니다.


그런데, 우리 모두 알다시피, 최근 트랜스포머 아키텍처는 점점 더 많은 비판을 맞닥뜨리고 있죠. 예를 들어, AI21의 CEO인 Ori Goshen은 트랜스포머의 아성에 의문을 던집니다 - 트랜스포머 모델에 의존하는 에이전트들은, 그 효율성과 비용 측면에서 성공하기 힘들다고 주장하면서, (당연하게도) Mamba를 기반으로 한 AI21의 Jamba 아키텍처가 더 빠르고, 더 믿을 수 있고, 더 나은 메모리 효율을 보여주는 AI 에이전트의 기반이 될 수 있다고 이야기합니다. (Jamba를 비롯한 다양한 Mamba 아키텍처에 대한 소개는, 튜링 포스트 코리아의 ‘Mamba 아키텍처 관련 연구 15選’을 한 번 참조해 주세요)


글쎄요…Mamba 좋죠. 이전에 튜링 포스트의 기사에서 한 번 커버했듯이, Mamba는 그야말로 실제로 트랜스포머와 한 번 경쟁해 볼 만한 모델입니다.


그런데 말입니다. 이 Mamba에, 마트료시카를 결합해서 트랜스포머에 더 큰 타격을 줄 수 있다면 어떨까요?


최강 산왕 (트랜스포머)에 대항해서 힘을 합쳐 대결하는 북산 강백호 (맘바)와 서태웅 (마트료시카)


바로 워싱턴 대학의 연구자들, 그리고 Scaled Foundations - 로봇 인텔리전스를 연구하는 기관입니다 - 의 연구자들이 그런 생각을 했습니다…!


이 친구들이 10월 9일 발표한 ‘MatMamba’는 마트료시카 표현 학습을 Mamba2의 상태 공간 모델 (SSM; State Space Model)에 통합해서, 파라미터 전반에 걸쳐서 유연하고 중첩된 아키텍처를 만들었습니다. 이렇게 설계된 아키텍처는, 재훈련이 필요없이 하나의 큰 모델로부터 여러 개의 작은 모델을 추출할 수 있도록 해 주는데, 각각의 하위 모델은 중요한, 학습된 표현을 유지하면서 다양한 크기에서도 일관된 성능을 보장합니다.


앞서 언급된 MatFormer나 기본적인 트랜스포머와 비교해서는, MatMamba는 SSM을 백본으로 사용하고, 다양한 컴퓨팅 요구사항에 대해서 더 세분화해서 적응해 가면서 스케일링을 할 수 있기 때문에, 특히 긴 시퀀스에 대해서 추론을 빠르게 할 수 있습니다. 예를 들자면, 자원이 제한되어 있는 엣지 디바이스에서도, MatMamba는 재훈련을 하지 않고 다이나믹하게 더 작은 모델을 추출할 수 있어서, 가용 메모리나 컴퓨팅 파워에 맞춰서 추론 작업을 조정할 수 있습니다 - 바로 이런 게 트랜스포머의 경우 좀 경직된 아키텍처 때문에 어려움을 겪는 부분이죠.


MatMamba : Mamba2 + Nested Matryoshka. Image Credit: 오리지널 논문


클라우드 기반의 시스템에서도, 추론의 시나리오에서 컴퓨팅 자원의 변동성이 큰 경우에는, MatMamba가 가진 하위 모델 간의 유연한 전환 능력이 전체적인 시스템으로 하여금 효율적으로 실시간 스케일링을 가능하게 해 줍니다. 트랜스포머가 ‘범용 작업’의 세계를 집어삼켰다고 한다면, MatMamba는 실시간 비디오 분석이라든가 대규모의 이미지 검색 같이, ‘긴 컨텍스트가 주요 환경이고 배포나 운용을 탄력적으로 해야 하는 영역’에서는 트랜스포머를 충분히 능가할 수 있다고 봅니다.


물론 현실적으로 볼 때, MatMamba가 모든 상황에서 트랜스포머를 완전히 대체할 가능성은 낮다고 봐야겠죠 - 두 모델은, 각각 다른 성격의 작업에서 뛰어난 성능을 보이는 모델들입니다. 대신, 현재의 흐름으로 트랜스포머 일변도인 시장에서, 높은 효율성, 그리고 적응력있고 확장성있는 추론이 요구되는 어플리케이션에서라면, MatMamba가 차지할, 충분히 큰 틈새 시장이 있을 것으로 보입니다.


앞으로 다중 에이전트 생태계가 출현하고 확산된다면, 이보다 더 많은 트랜스포머의 대안을 만들고 활용하려는 시도가 더욱 주목받는 시기가 오게 되리라 생각합니다.




매거진의 이전글 'AI 학계'에 안긴 노벨상 + 구독자 '300' 돌파
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari