Latent Reasoning
[ Zero-Token Thinking ]
"Token-based thinking 에서 Latent-space thinking으로-!"
모두가 DeepSeek-r1에 마음을 빼앗긴 지금인데요 ^^; 이 와중에 또한번 매우 흥미로운 AI 패러다임이 제시되고 있습니다. 새벽에 정말 멋진 유투브를 보고 바로 공유합니다. https://www.youtube.com/watch?v=ZLtXXFcHNOU AI업계는 정말... 하루하루 대단합니다!
0. 젠슨황에 따르면, 현재 우리는 세번째 스케일의 법칙을 맞이하며, 빠른 답변 대신에 "깊은 사고"를 요하는 Reasoning_논리적 추론을 상당히 잘 해내는 시대를 맞이하고 있는데요,
(1) Pre-training단계에서의 스케일의 법칙 (트랜스포머로 대표되는, 다음 단어를 잘 예측하는 모델을 만들면서, 언어에 담긴 수많은 개념을 저절로 학습하게 됩니다.)
(2) Post-training단계에서의 스케일의 법칙 (챗봇 형태 모델로 바꾸기 (-instruct모델), 인격 형성, Constitutional AI 등)
(*참고로, 이러한 Post-training단계가 없이 (1)에서만 끝난 모델에게 질문을 던지면, 답변을 하지 않고 질문을 계속 이어나가는 식입니다.)
(3) 현재 핫한! Test-time단계에서의 스케일의 법칙
<-- DeepSeek-r1, OpenAI o1 혹은 o3, 최근 Deep Research로 대표되는 Reasoning 모델의 경우에는, Agentic Framework / CoT (Chain-of-Thought) 방식을 통해서 "깊은 사고"에 도달해가고 있었습니다.
단, 현재는 깊은 사고에 도달하기 위해 <thinking>중얼중얼</thinking> 과정을 거친 다음에 <answer>최종답변</answer>과 같은 식으로, 계속 중얼중얼 말하면서 (token을 뱉어내면서) 사고를 이어나가는 모델이었는데요,
1. 이번에 공개된 Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach 이라는 논문에 따르면, https://arxiv.org/abs/2502.05171
일단 token을 뱉어내면서 중얼중얼 말하면서 생각하는 대신, 모델이 사고하는 개념이 들어있는 공간 (latent space)에서 직접 깊은 사고를 진행한 다음에 답변하는 방식을 제안합니다.
즉, token-based thinking 에서 latent-space thinking 으로의 전환!입니다.
(1) 조금 부연하기 위해 Yann LeCun의 과거 Lex Fridman인터뷰 https://www.youtube.com/watch?v=5t1vTLU7s40&t=0s 에 따르면, Yann Lecun님은 언어로는 AGI를 달성할 수 없다고 예전부터 지적해왔는데요,
이를 제가 이해한 방식으로 설명하자면, 언어는 물론 뛰어난 사고의 틀을 제시하지만, 언어 자체가 갖고 있는 압축적인 특성 때문에, 세상의 개념들이 유실됩니다. ("벚꽃잎"이라는 간단한 단어로 긴 설명이 효율적으로 압축되었지만, 그 잎이 어떠한 굴곡으로 연결되고 있는지는, 언어로 설명하는 것에는 한계가 있으니까요)
따라서, 언어로 뱉어낸 것을 기반으로 깊은 사고를 이어가려고 하더라도 언어의 한계에 갇혀버리게 될 가능성이 있는데요,
그에 반해, 모델이 사고하는 개념이 들어있는 공간 안에서 직접 오랫동안 깊은 사고를 한다면, 개념의 유실 없이 보다 좋은 답변을 이끌어낼 수 있는 가능성이 있고, 이것이 Yann LeCun님이 지적해온 부분을 보완할 수 있는 방안이 아닐까 생각됩니다.
(2) 또다른 장점은, 기존의 중얼중얼 방식의 경우에는 CoT의 길이가 언어 모델 인풋의 길이 제약(Context window)에서 자유롭지 못한 한계로부터 자유로워진다는 것도 있겠습니다.
2. 게다가, 두가지 방식을 반드시 배타적으로만 사용할 필요는 없습니다. Latent-space thinking + token-based thinking 을 모두 결합한다면, 정말 사람이 머리속으로 여러 개념들을 조합하다가 화이트보드에 적어가면서 생각을 보조하는 것과 똑같은 모습이 될 수도 있겠습니다.
==>
지난 글에 이어, 계속해서 새로운 아키텍처들이 제시되고 있어서 정말 흥분되고 기대됩니다. 2024년에는 AI패권 경쟁이 끝났나 싶었는데, 2025년에는 재편되어가는 AI판에서 우리나라가 새로운 추격을 시작할 수 있는 silver lining이 살짝 보이는 것 같습니다...! 2025년 정말 다같이 힘냅시다...!!!