brunch

말은 배웠으나, 세상은 몰랐도다.

- 거대언어모델에서 거대 물리모델로 진화하다.

by 이정봉 변호사

1. 젠슨황 아재, 반짝이는 가죽자켓 걸치고 발표자로 나서다.


2025. 1. 7. 젠슨황이 2025년 CES 기조 발표자로 나서,

엔비디아의 'COSMOS'라는 혁신적인 물리적 AI모델을 발표했습니다.


이 모델은 2천만 시간 분량의 비디오로 훈련되었으며, 실제 세계의 물리적 동역학을 이해하고 시뮬레이션할 수 있습니다.


단순한 이미지 생성을 넘어서, 걷기, 손동작, 물체 조작과 같은 물리적 행동을 이해하고 예측하는 데 초점을 맞추고 있습니다.



2. 인간에게는 너무도 쉬운, 기계에게는 너무도 어려운… 중력, 마찰력, 공간

젠슨황이 언급한 물리적 AI의 핵심 요구사항을 자세히 살펴보면, AI가 이해해야 할 세 가지 중요한 물리적 개념들이 있습니다.


첫째, 기본적인 물리 법칙들입니다. 중력(gravity)은 물체가 아래로 떨어지는 힘, 마찰(friction)은 물체들이 서로 접촉할 때 발생하는 저항력, 그리고 관성(inertia)은 물체가 현재 상태를 유지하려는 성질을 의미합니다. AI는 이러한 기본적인 물리 법칙들이 실제 세계에서 어떻게 작용하는지 이해해야 합니다.


둘째, 기하학적 관계(geometric relationships)입니다. 공간상에서 물체들의 모양, 크기, 위치 등이 서로 어떤 관계를 가지는지를 이해하는 것을 의미합니다. 예를 들어, 한 물체가 다른 물체보다 크거나 작은지, 둘 사이의 거리는 얼마나 되는지 등을 파악할 수 있어야 합니다.


셋째, 공간적 관계(spatial relationships)입니다. 물체들이 3차원 공간에서 서로 어떤 위치에 있는지, 어떻게 상호작용하는지를 이해하는 것입니다. 예를 들어, 한 물체가 다른 물체의 위에 있는지, 앞에 있는지, 또는 물체들이 충돌할 때 어떤 일이 발생할지 등을 예측할 수 있어야 합니다.


이러한 요구사항들은 AI가 단순히 이미지나 텍스트를 처리하는 것을 넘어서, 실제 물리적 세계의 법칙과 관계들을 깊이 이해하고 이를 바탕으로 예측과 판단을 할 수 있어야 함을 의미합니다.




3. 말은 배웠으나, 세상은 몰랐도다.


언어 모델과 물리적 모델은 큰 차이점이 있습니다.


언어 모델은 텍스트를 기반으로 작동합니다. 예를 들어, "사과가 떨어진다"라는 문장을 이해할 때, 언어 모델은 단어들 간의 관계와 문맥을 파악하여 의미를 이해합니다. 하지만 실제로 사과가 어떤 속도로 떨어지는지, 공기저항은 어떻게 작용하는지와 같은 물리적인 특성은 정확히 이해하지 못합니다.


물리적 모델은 실제 세계의 물리 법칙을 이해하고 시뮬레이션할 수 있습니다. 위의 예시에서, 물리적 모델은 사과의 무게, 중력 가속도, 공기저항 등을 고려하여 사과가 정확히 어떤 궤적을 그리며 떨어질지 예측할 수 있습니다.


언어모델은 텍스트의 패턴을 인식하고 예측하는데 뛰어납니다. 예를 들어, "사과가 나무에서 [빈칸]"이라는 문장이 주어졌을 때, 언어 모델은 수많은 텍스트 데이터를 통해 학습한 패턴을 바탕으로 "떨어진다"라는 단어가 올 확률이 높다고 예측할 수 있습니다.


통계적인 예측 게임과 비슷합니다.


하지만 실제 지능이란 단순한 패턴 인식을 넘어서는 것입니다.


인간의 경우, 사과가 떨어지는 현상을 이해할 때 중력의 작용, 사과의 무게, 공기저항의 영향, 줄기가 끊어지면 왜 사과가 떨어지는지, 떨어지는 과정이 연속적으로 어떻게 진행되는지, 사과가 어디로 떨어질지, 어떤 궤적을 그릴지 등을 종합적으로 이해합니다.


이것이 바로 젠슨황이 강조한 '물리적 영구성'(object permanence)의 개념과 연결됩니다. 진정한 지능은 단순히 단어들의 확률적 관계를 아는 것이 아니라, 실제 세계가 어떻게 작동하는지를 깊이 이해하는 것을 포함합니다.


예를 들어, "공이 테이블 아래로 굴러갔다"라는 문장을 생각해 보면 , 언어모델은 이 문장이 문법적으로 맞고 의미가 통한다는 것을 알 수 있습니다.


그러나, 물리적 모델이 있는 AI는 공이 보이지 않더라도 계속 존재한다는 것을 이해하고, 공의 속도와 방향을 고려하여 어디로 갔을지 예측할 수 있습니다.



4. 무엇이 중헌디?


이러한 차이는 실제 응용에서 매우 중요합니다. 예를 들어 로봇이 물건을 집어야 할 때, 단순히 "물건을 집는다"라는 문장을 이해하는 것만으로는 부족합니다. 물건의 무게, 재질, 형태를 고려하여 적절한 힘과 그립 방식을 선택할 수 있어야 합니다.


따라서, 진정한 AI 지능을 위해서는 언어적 이해와 물리적 이해가 통합되어야 합니다. 이것이 바로 NVIDIA가 'Cosmos'와 같은 물리적 AI 모델을 개발하는 이유이며, AI가 단순한 패턴 매칭을 넘어 진정한 이해와 추론이 가능한 시스템으로 발전하는 중요한 단계가 될 것입니다.


로봇이 실제 세계에서 효과적으로 작동하려면, 물체를 집어올리거나 조작할 때 필요한 정확한 힘과 움직임을 계산할 수 있어야 합니다. 물리적 모델은 이러한 상호작용을 정확하게 예측하고 제어할 수 있게 해줍니다.


자율주행 차량은 다른 차량이나 보행자와의 물리적 상호작용을 정확히 예측해야 합니다. 예를 들어, 미끄러운 도로에서의 제동거리나 커브길에서의 원심력 등을 계산할 수 있어야 합니다.


실제 세계에서 작동하는 AI 시스템은 단순히 언어나 이미지를 이해하는 것을 넘어서, 물리적 상호작용을 정확히 예측하고 대응할 수 있어야 합니다. 바로 물리적 모델이 AI의 다음 진화 단계로 여겨지는 이유입니다.


젠슨황의 발표에서 강조된 것처럼, 물리적 모델은 AI가 실제 세계와 더 깊이 상호작용할 수 있게 만드는 핵심 기술입니다.


단순한 언어 이해나 이미지 생성을 넘어서, AI가 실제 물리적 환경에서 안전하고 효과적으로 작동할 수 있게 하는 기반이 되는 것입니다.



keyword
작가의 이전글'AI 에이전트화'의 거센 ‘비바람'