최근 몇 년간 AI 산업은 생성형 AI(Generative AI)라는 거대한 흐름에 완전히 휩쓸렸습니다. 막대한 자본과 관심이 ChatGPT나 Gemini 같은 대규모 언어 모델(LLM)에 집중되면서, 마치 이 기술만이 인공지능의 전부이자 미래인 것처럼 여겨졌죠.
모두가 생성형 AI가 궁극적인 인공 일반 지능(AGI)으로 가는 핵심적인 월드 모델이 될 것이라 베팅했습니다.
하지만 만약 모두가 틀렸다면 어떨까요?
AI 분야의 거인, Meta가 이 주류 흐름에 정면으로 도전장을 내밀었습니다. Meta는 LLM이 기계 지능의 중추가 되지 않을 것이라고 주장하며, JEPA(Joint-Embedding Predictive Architecture)라는 새로운 접근 방식을 통해 생성형 AI가 아닌 '비-생성형(Non-Generative)' 월드 모델을 제시했습니다.
이는 지난 몇 년간 AI에 투자된 거의 모든 돈에 대한 반박을 의미합니다. 좀 무섭지 않나요?
월드 모델이란 무엇이며 왜 중요한가요? 월드 모델은 인간의 뇌가 주변 세계를 단순화하여 내부에 구축하는 표상(Representation)을 말합니다. 이는 우리가 다음에 무슨 일이 일어날지 예측하고 생존할 수 있도록 돕는 상식적인 사고입니다.
공을 던지면 떨어질 것(중력)을 아는 것처럼, 이 상식은 복잡한 세상을 이해하고 예측하는 능력의 기반이 됩니다. Google DeepMind의 CEO인 데미스 하사비스 같은 선두 주자들도 AGI로 가는 가장 빠른 길은 세계를 이해하는 AI를 구축하는 것이라고 인정하고 있습니다.
문제는 현재의 LLM 접근 방식, 즉 생성형 모델이 과연 세계를 '이해'할 수 있느냐는 것입니다.
대부분의 AI 연구소는 LLM이 방대한 텍스트나 비디오를 '생성'하는 과정에서 세계의 참된 의미를 파악할 것이라고 믿습니다. 예를 들어, 비디오 게임에서 다음 프레임을 정확히 '생성'하려면 모델이 게임 속 세계를 이해해야 한다는 논리죠.
하지만 Meta는 이것이 비효율적이며 근본적으로 결함이 있다고 지적합니다.
인간의 상식은 단순합니다. 우리가 나무를 볼 때, 수십만 개의 잎사귀를 완벽한 픽셀 단위로 '생성'해야만 그것이 나무임을 아는 것은 아닙니다. 잎, 줄기, 모양 등 본질적인 요소만을 단순화된 형태로 저장하고 이해합니다. 그래. 나무구나.
생성형 모델은 다음 행동을 예측하기 위해 움직임의 속도, 그림자, 미세한 잔상 등 모든 불필요한 디테일까지 생성하도록 강요받습니다. 너무나 과도한 연산을 해야 하기에 파리 한 마리를 잡기 위해 대포를 사용하는 것과 같으며, 모델이 정작 중요한 '상식'이나 본질적인 표상을 놓치게 만듭니다.
우리가 로봇에게 접시를 떨어뜨려도 깨지지 않도록 가르치려면, 접시가 떨어지는 정확한 물리학적 궤적을 계산할 필요가 없습니다. 단지 '높은 곳에서 접시를 떨어뜨리면 깨질 가능성이 높다'는 상식만 알면 됩니다.
Meta의 JEPA는 이러한 문제를 해결하기 위해 예측을 수행합니다. JEPA는 다음 프레임을 '생성'하지 않고, 인간이 머릿속에서 상상하듯이 내부적으로 무엇이 일어날지 예측합니다.
모델은 움직임의 본질적이고 중요한 특징(예: 공이 아래로 떨어진다)에만 집중하고, 불필요한 세부 사항(공의 회전수, 그림자, 실밥 등)은 무시합니다. 이 덕분에 모델은 더 단순해지고 효율적인 학습을 합니다.
JEPA는 비디오 프레임 일부를 숨기는(Masking) 방식으로 훈련됩니다. 모델은 가려진 부분을 '재구성(reconstruct)'하려고 노력하는데, 이때 픽셀 단위가 아닌 표상 공간에서 재구성의 결과를 비교합니다.
이 방식은 AI가 실생활처럼 부분적으로만 관찰 가능한 복잡한 현실에 대처하도록 강제합니다. 예를 들어, 개가 벽 뒤에서 살짝만 보일 때도, 털, 귀, 코 같은 핵심 속성만으로 그것이 게임을 인식하게 됩니다. 수많은 털 가닥까지 다 봐야만 아는 생성형 모델보다 더 잘 일반화하고, 더 잘 이해하는 것입니다.
AI 지능의 중심이 LLM에서 JEPA로 이동할까요? V-JEPA-2 모델은 이미 복잡한 움직임을 포착하고 다음 행동을 예측하는 데 인상적인 결과를 보여주고 있습니다. 핵심은 이것이 다음 장면을 생성하지 않고도 무엇이 일어날지 '안다'는 것입니다.
Meta의 JEPA는 LLM이 AI 지능의 엔진이 될 것이라는 주류의 생각에 대한 공개적인 반대 베팅입니다. 만약 JEPA가 월드 모델의 주력 아키텍처로 부상한다면, LLM은 지능의 중추가 아닌, 단지 인간과 기계를 이어주는 언어적 수단의 역할로 축소될 수 있습니다.
물론 현재 LLM의 인기가 하루아침에 무너지지는 않을 것입니다. 하지만 Meta가 JEPA+LLM 조합으로 판을 뒤흔든다면, 지난 몇 년간 생성형 AI에만 집중했던 수많은 AI 스타트업과 투자자들에게는 치명적인 타격이 될 수 있습니다.
AI의 미래를 둘러싼 이 거대한 논쟁에서, Meta가 반대편에서 첫 득점을 올린 셈입니다. 궁극의 지능은 화려하게 생성하는 능력이 아닌, 본질을 깊이 ‘이해’하는 능력에서 나올지도 모릅니다.
궁극적으로는 둘 모두를 사용하는 솔루션이 나오겠지요. 하지만 실제 현실에서 앞으로 어떤 일이 벌어질지 추측할 수 있는, 시뮬레이션을 돌릴 수 있는 더 확실한 방법은 비생성형 AI 모델이 더 유용하지 않을까요? 너무 생성형 AI모델만 붙잡고 있을 필요는 없어 보입니다.
오늘의 질문: 매일 생성형 AI만 보다가 새롭지 않나요?
나는 행복한 사람입니다.
당신도 그러하면 좋겠습니다.