brunch

고정된 AI에서 변화하는 AI로

TTT, Google Titans, Transformer^2

by being cognitive

ChatGPT 등 지금 잘 알려진 모든 LLM 서비스들은 2017년 6월에 Attention Is All You Need 페이퍼에 발표되었던 Transformer 아키텍처를 기반으로 합니다. 그리고, 드디어 2025년 1월 Google에서 Transformer의 문제점을 제기하며, 그 뒤를 잇는 Titans라는 새로운 아키텍처를 발표했습니다. 이는, 작년 7월에 공개된 TTT(Test-Time Training)개념과 함께 굉장히 의미있는/재미있는 AI 트렌드라고 생각되어서 그 의미를 짧게 짚고 넘어가고자 합니다.


[ Transformer로 대표되는 기존의 "고정"된 AI 모델 ]


기존의 AI들은 "학습 (Training)" 단계와 "활용 (Inference/Test)" 단계가 명시적으로 분절되어 있습니다. (저도 이런 분절이 당연하다고 생각했었습니다...)


예를 들면 현재 우리가 사용하고 있는 ChatGPT의 경우에도,

2025.1월 시점에도 우리는 gpt-4o-2024-08-06 라는 모델을 사용하고 있는데요, 그 모델명에서 알 수 있는 것처럼, 2024년8월6일이라는 기준일자로 "고정"된 모델이고, 그 이후 오늘까지 우리가 아무리 많은 인터랙션을 했더라도, 해당 모델은 변경이 없다는 뜻이 됩니다.

(별도의 '학습' 단계를 거쳐서 새로운 모델을 만들더라도, 말그대로 2024-08-06이라는 모델과 별개의 새로운 모델이 나오는 것입니다. 파인튜닝도 마찬가지.)

Untitled.jpg 모델명 뒤에 기준일자가 표기되어있고, 우리는 이렇게 '고정된' 모델을 사용하게 됩니다.


(*이러한 구조에서, 모델이 활용(inference)되는 과정에서 새롭게 얻어진 지식을 강제로 모든 대화마다 축약해서 input으로 넣는 등 여러가지 workaround 가 존재합니다만, LLM의 context length가 1M, 2M token 와 같이 (많이 길어졌지만) 제약에 걸리게 됩니다.)



[ 활용 단계에서 얻어지는 지식들을 장기 기억으로 보관할 수 있는 Titans ]


Google에서는 이러한 한계를 극복할 수 있는 새로운 아키텍처 Titans를 제안한 것입니다. 그 방안은, "활용"단계 (Test-time)에서 얻어지는 새로운 정보/인사이트를 장기기억으로 가져갈 수 있는 모델인데요, 여기에서 훌륭한/재미있는 직관은 어떤 정보를 기억할 것인가를 평가하기 위해, 모델이 예측한 값과 새로운 인풋값간의 차이를 "Surprise"라는 값으로 측정하여, 그 Surprise값을 기준으로 기억하는 방식을 채택하였습니다.


생각해보면, 우리도 일상적으로 반복되는 일에서는 그 무엇도 장기 기억으로 넣을 필요는 못 느끼지만, 우리가 예상한 일과 굉장히 다른 일이 발생했을 때에 깜놀!하게 되고, 이것이 장기 기억으로 남게 될 것입니다. AI도 Surprise값을 측정하여 장기기억으로 옮긴다는 아이디어는, 사람의 뇌가 동작하는 방식을 굉장히 잘 모사한 아이디어라고 할 수 있습니다.


[ 이어지는 동적인 AI 모델에 대한 제안들 ]


곧 이어서 (AI Scientist로 유명한) sakana.ai에서도 transformer^2라는 모델을 발표했는데요, 마찬가지로 TTT의 개념을 이어서 Test-time에서도 동적으로 가중치를 변경하는 방식을 제안합니다.


이번에도 생물을 모사하는 관점에서 생각해보면, 현재의 모델들은 7B, 10B, 400B 이런 식으로 파라미터수 (뇌의 크기)가 고정되어있는데요, 학습데이터에 따라서 쓸데없는 hash값들을 외워버린 영역들이 있고, 이런 영역은 거의 활용이 되지 않을텐데요, (뇌를 먹어치우는 멍게처럼) 연산이 필요없어진다면 해당 영역을 절개해버린다거나, 새롭게 얻어지는 영역에 대해서 연산이 필요한 영역으로 파라미터 크기를 동적으로 늘리는 등의 다양한 조치가 가능해지는 상상을 해볼 수 있겠습니다.


[ Happy Lunar New Year ]


AI 패권은 이미 끝난건가? 라는 생각이 짙어졌던 2024년이었지만, 이와 같은 판을 뒤집는 새로운 아키텍처들의 지속적인 제안, 생물학으로의 모사, 극강의 효율을 보여준 DeepSeek r1 사례 등을 보면서, 새로운 2025년에는 우리나라도 다시한번 큰 흐름에 꼭 올라타기 시작하는 한 해가 되기를 바라는 마음으로 글을 마칩니다.


새해 복 많이 받으세요.


. TTT 관련 논문 https://arxiv.org/abs/2407.04620

. Google Titans 이해할 때 참고한 영상입니다 : https://www.youtube.com/watch?v=x8jFFhCLDJY

. Sakana.ai의 Transformer^2 : https://sakana.ai/transformer-squared/

keyword
작가의 이전글OpenAI 새로운 추론 모델 o3