Spatial Intelligence의 시대
나는 라섹 수술을 한 지 올해로 20년이 되었는데 안경 낄 때와 라섹 수술을 통해 근시 교정을 하고 난 이후의 가장 큰 차이는 물론 시력이 좋아져 멀리 있는 것도 잘 볼 수 있는 것이다. 또 내가 경험한 것 중 하나는 수술 이후 입체가 선명하게 느껴진다는 것이다.
그리고 시력이 좋아지면 사물과 나 사이의 거리감도 좋아진다는 것이다. 그런데 왼쪽 눈이나 오른쪽 눈으로만 보면 그 향상된 거리감이 또 미묘하게 달라진다. 우리가 두 눈으로 빛을 받아들이고 사물을 해석하는 협응 능력이 있어 거리감에 대한 경험을 통해 거리를 느끼는데 한쪽 눈으로는 그 협응 능력에 문제가 생기고 이에 따라 한쪽 눈으로 보면 거리감이 달라진다는 추론을 하게 됐다.
그러다 문득 그러면 AI는 어떻게 카메라와 기계를 가지고 인간과 같이 공간을 인지하고 입체를 인식하며 거리를 인지할까?에 대한 의문이 들었다.
이전에 한 번 AI 관련된 서적들을 검색하다가 알게 된 Fei-Fei Li의 The Worlds I See 라는 책을 읽은 적이 있다. 그때는 Fei-Fei Li가 정확하게 누구인지도 잘 몰랐고 AI 관련 책이라는데 어릴 때 이야기만 나오고 North Star에 대한 이야기만 나오길래 자서전인가? 하고 앞 부분 읽다가 그만 읽었던 적이 있었다.
이 후 이 책을 다시 읽어 보고 North Star가 무엇이었는지 이해하게 되었다.
어린 Fei-Fei Li가 중국 청두의 밤하늘에서 올려다본 북극성은 단순한 별이 아니었다. 그것은 항해자들이 길을 찾을 때 의지하는 나침반이었고, 어두운 밤에도 변하지 않는 방향이었다.
수십 년 후, 그녀는 AI에게도 그런 North Star가 필요하다는 것을 깨달았다. 텍스트를 이해하는 것만으로는 부족하다.
AI가 진정으로 지능적이 되려면, 인간처럼 세상을 '보고', 공간을 '이해하며', 물체 사이의 관계를 '추론'할 수 있어야 한다. 그에게 시각 지능(Visual Intelligence), 그리고 더 나아가 공간 지능(Spatial Intelligence)은 AI가 나아가야 할 방향을 가리키는 북극성이었다.
Fei-Fei Li는 이제 AI계에서 빠지지 않는 이름이 되었다. ImageNet을 만들어 현대 AI의 시대를 연 주인공이자, 지금은 Spatial Intelligence라는 새로운 영역을 개척하고 있는 'AI의 대모'다.
그녀가 추구하는 공간지능에 대해 좀 더 구체적으로 알아보자.
5억 4천만 년 전, 캄브리아기 바다에서 놀라운 일이 일어났다. 눈이 진화했다. 그 순간 생명체는 빛을 감지하는 것을 넘어서 세상을 '보기' 시작했다. 시각은 단순한 감각이 아니었다. 그것은 공간을 이해하고, 거리를 가늠하며, 움직임을 예측하는 능력이었다.
포식자는 먹잇감을 추적할 수 있게 되었고, 먹잇감은 위험을 미리 피할 수 있게 되었다. 진화생물학자들은 이것을 '캄브리아기 대폭발'이라 부른다. 불과 수백만 년 만에 생명체의 형태와 복잡성이 폭발적으로 증가했다. 눈의 진화가 지능의 진화를 촉발시킨 것이다.
5년 전, 스탠퍼드 대학의 AI 과학자 Fei-Fei Li는 예상치 못한 사고를 당했다.
각막 부상으로 한쪽 눈의 시력을 잃으면서 입체시력을 상실했다. 일상의 모든 것이 달라졌다.
컵에 물을 따르는 일도, 계단을 오르는 일도 어려워졌다. 그때 그는 깨달았다고 한다.
3D 공간을 이해하는 능력, 즉 '공간지능'이 없다면 인간은 제대로 기능할 수 없다. 그리고 이것이 5억 년 전부터 생명체가 간직해온 가장 근본적인 지능이다.
2024년 7월, Fei-Fei Li는 World Labs를 설립했다.
$230M의 투자를 받았고, NeRF를 발명한 과학자들과 3D Gaussian Splatting을 개발한 팀, 그리고 Diffusion Models의 선구자들이 합류했다.
그들의 목표는 하나였다. AI에게 공간을 이해하는 눈을 주는 것. 지금, AI는 빛을 보기 시작했다.
공간지능은 단순한 기술 개념이 아니라 진화가 5억 년에 걸쳐 생명체에 각인시킨 가장 근본적인 지능 형태다. 새가 나뭇가지 사이를 날고, 고양이가 창턱으로 뛰어오르며, 아이가 블록을 쌓는 모든 순간에는 지각-표현-추론-계획-상호작용이라는 다섯 가지 메커니즘이 작동하고 있다.
새가 나뭇가지 사이를 날아다니고, 고양이가 창턱 위로 정확히 뛰어오르며, 아이가 블록을 쌓는 모든 순간에 공간지능이 작동한다. 이 능력은 다섯 가지 핵심 메커니즘으로 구성되어 있다.
첫째는 지각(Perception)이다. 카메라와 라이다(LiDAR) 센서로 주변을 3D 스캔하는 것처럼, 생명체는 눈으로 빛의 패턴을 읽는다.
둘째는 표현(Representation)이다. 본 것을 뇌 안에서 3D 모델로 재구성하는 과정이다.
최근 NeRF(Neural Radiance Fields)와 3D Gaussian Splatting 같은 기술이 이 과정을 컴퓨터에서 구현하기 시작했다.
셋째는 추론(Reasoning)이다. "저 의자는 창문에서 2미터 떨어져 있고, 책상보다 낮다"처럼 공간 관계를 판단한다.
넷째는 계획(Planning)이다. "문을 열고, 책상을 돌아, 창문으로 간다"처럼 경로를 계산한다.
다섯째는 상호작용(Interaction)이다. 실제로 물체를 잡고, 밀고, 조립하는 물리적 행동이다.
진화생물학자 Daniel Wolpert는 말했다. "보는 것은 행동하고 배우기 위한 것이다."
공간지능은 단순히 세상을 관찰하는 능력이 아니다. 그것은 세상 속에서 움직이고, 상호작용하며, 목표를 달성하는 능력이다.
LLM이 아무리 발전해도 넘을 수 없는 근본적 장벽이 있다.
인간 지식의 상당 부분은 애초에 문자로 기록되지 않았고, 의자에 앉는 법이나 컵을 드는 법처럼 몸으로 익힌 암묵적 지식은 수천 페이지의 글로도 전달할 수 없다.
더 근본적인 문제는 현재 AI가 물리 법칙을 진정으로 이해하는 것이 아니라 통계적 패턴만 학습한다는 점이다. Fei-Fei Li는 이렇게 말한다. "인간 지식의 상당 부분은 애초에 텍스트로 인코딩되어 있지 않다."
의자에 앉는 방법을 글로 설명할 수 있는가? "무릎을 구부리고, 엉덩이를 뒤로 빼며, 몸무게를 균형있게 배분한다." 그러나 우리는 글을 읽어서 의자에 앉는 법을 배우지 않았다. 수천 번의 시도와 실패를 통해 몸으로 익혔다. 컵을 들 때 얼마나 힘을 주어야 하는지, 계단을 내려갈 때 어느 높이에 발을 내밀어야 하는지, 이런 암묵적 지식은 텍스트가 아니라 경험에서 나온다.
더 근본적인 문제가 있다. 현재 AI는 물리 법칙을 진정으로 이해하지 못한다.
물이 흐르는 영상을 학습했을 때, AI는 뉴턴 역학을 이해한 것이 아니라 '물이 이렇게 움직이는 패턴'을 통계적으로 학습한 것이다. 그래서 현실에 존재하지 않는 물리적으로 불가능한 이미지를 생성하기도 한다.
이것이 월드 모델(World Model)이 필요한 이유다.
월드 모델은 단순히 이미지를 생성하는 것이 아니라, 보이는 부분 너머에 무엇이 있는지, 가려진 부분에 어떤 물체가 있을지, 다음 순간 어떤 일이 일어날지 예측한다.
그것은 세상의 물리 법칙을 내재화한 모델이다.
공간지능 연구는 2020년대 들어 두 가지 기술 계보의 융합으로 급격히 가속화되었다.
Vision-Language-Action 모델은 OpenVLA에서 3D-VLA로 진화하며 로봇에게 3D 공간 추론 능력을 부여했고, Google의 Genie 2와 같은 World Model은 물리적으로 일관된 가상 세계를 생성하기 시작했다.
Vision-Language-Action (VLA) 모델의 진화
OpenVLA가 처음 등장했을 때, 그것은 이미지를 보고 언어로 이해한 다음 행동으로 연결하는 단순한 파이프라인이었다. 그러나 진화는 빠르게 진행되었다.
SpatialVLA는 3D 공간 표현을 명시적으로 통합했다.
로봇이 "빨간 블록을 파란 블록 위에 올려"라는 지시를 받았을 때, 단순히 이미지 패턴을 매칭하는 것이 아니라 3D 공간 좌표계에서 물체의 위치를 계산한다.
GeoVLA는 여기서 한 걸음 더 나아갔다. 기하학적 추론 능력을 통합해서, "이 물체를 저 틈새에 넣으려면 어떤 각도로 회전시켜야 하는가?"같은 복잡한 문제를 풀 수 있게 되었다.
3D-VLA는 완전한 3D 장면 이해와 조작을 가능하게 했다. 로봇이 책상 위에 흩어진 물건들을 보고, 가려진 부분까지 추론하며, 여러 물체를 동시에 조작하는 복잡한 작업을 수행한다.
World Model: Genie 2와 RoboScape
Google DeepMind의 Genie 2는 "플레이 가능한 3D 세계"를 생성한다.
텍스트 프롬프트나 이미지 하나로 일관된 3D 환경을 만들어낸다. 중요한 것은 물리적 일관성이다.
벽은 단단하고, 중력은 작동하며, 물체는 충돌한다.
이것이 단순한 게임 그래픽과 다른 점이다. Genie 2는 캐릭터의 행동에 따라 세계가 어떻게 변할지 예측한다. 문을 열면 뒤에 있던 공간이 드러나고, 상자를 밀면 바닥에 자국이 남으며, 물이 흐르면 아래로 떨어진다. 이것은 물리 엔진이 아니라 학습된 물리 법칙이다.
UC Berkeley의 RoboScape는 로봇 학습에 특화된 시뮬레이션 환경을 생성한다.
로봇이 수백만 번의 시행착오를 거쳐야 하는 작업을 가상 환경에서 먼저 학습시킨다.
중요한 것은 Sim2Real 문제, 즉 시뮬레이션에서 학습한 것을 현실에 적용하는 과정의 정확도다.
최신 World Model은 이 간극을 좁히고 있다.
공간지능을 어떻게 측정할 것인가는 단순한 정확도 문제를 넘어선다.
STI-Bench는 시공간 예측 능력을, SpaCE-10은 10가지 세부 공간 능력을 독립적으로 측정하고, Surprise3D는 AI가 물리적으로 불가능한 상황을 인식하는지 테스트한다.
이러한 벤치마크들이 보여주는 것은 명확하다.
공간지능은 단일 능력이 아니라 여러 하위 능력의 정교한 조합이라는 것이다.
STI-Bench (Spatio-Temporal Intelligence Benchmark)는 시공간 정량 평가의 표준이 되었다.
단순히 "물체를 인식했는가"가 아니라 "물체가 다음 순간 어디로 이동할지 예측하는가", "가려진 물체의 위치를 추론하는가"를 측정한다.
SpaCE-10은 더 세밀하다. 공간 능력을 10가지 세부 능력으로 분해한다.
거리 추정, 방향 판단, 크기 비교, 상대 위치 추론, 가림 판단, 3D 회전 이해, 깊이 지각, 경로 계획, 충돌 예측, 안정성 평가. 각각을 독립적으로 측정해서, 모델이 어떤 부분이 강하고 어떤 부분이 약한지 정밀하게 진단한다.
PAI-Bench (Physical AI Benchmark)는 물리적 상식을 평가한다.
"무거운 물체는 아래로 떨어진다", "액체는 용기의 형태를 따른다", "부드러운 물체는 변형된다" 같은 기본 물리 법칙을 AI가 이해하는지 측정한다.
Surprise3D는 독특한 접근을 한다.
물리적으로 불가능한 상황을 보여주고, AI가 "이상하다"고 인식하는지 확인한다. 공중에 떠 있는 물체, 중력을 거스르는 움직임, 형태가 갑자기 변하는 물체. 인간은 즉각 위화감을 느끼지만, 많은 AI는 아무 문제없다고 판단한다. 이것은 AI가 진정으로 물리 법칙을 내재화했는지를 보여주는 리트머스 시험지다.
이러한 벤치마크들이 보여주는 것은 명확하다. 공간지능은 단일 능력이 아니라 여러 하위 능력의 조합이며, 각각을 독립적으로 평가하고 개선해야 한다는 것이다.
2024년 12월, World Labs가 공개한 Marble은 기존 3D 생성 모델의 치명적 약점이었던 일관성 문제를 해결했다. 텍스트, 이미지, 비디오를 조합해 기하학적으로 일관되고 물리적으로 타당한 3D 세계를 만들며, RTFM 엔진은 단일 H100에서 실시간 추론을 가능하게 한다.
NeRF 발명자부터 3D Gaussian Splatting 개발팀까지 모인 드림팀의 결과물이다.
기존 3D 생성 모델의 문제는 '일관성'이었다.
같은 물체를 다른 각도에서 보면 형태가 달라지고, 시점을 이동하면 기하학이 깨지며, 시간이 지나면 물체가 사라지거나 변형되었다. Marble은 이 문제를 해결했다.
Marble의 핵심은 멀티모달 입력이다. 텍스트 설명, 이미지, 비디오, 3D 스캔 데이터를 조합해서 일관성 있는 3D 세계를 생성한다. "1960년대 스타일의 카페 내부"라고 입력하면, 벽, 테이블, 의자, 조명, 장식품이 조화롭게 배치된 공간이 만들어진다.
중요한 것은 이 공간을 어떤 각도에서 보든, 어떻게 이동하든, 기하학적 일관성과 물리적 타당성이 유지된다는 것이다.
RTFM (Real-Time Frame Model)은 Marble의 추론 엔진이다. 놀라운 점은 효율성이다.
단일 NVIDIA H100 GPU에서 실시간 추론이 가능하다. 이것은 클라우드가 아니라 로컬 디바이스에서도 실행 가능하다는 의미다.
RTFM이 혁신적인 이유는 영속성(Persistence) 유지 메커니즘 때문이다.
사용자가 공간을 탐색하는 동안, 이미 본 부분은 메모리에 저장되고, 새로 보이는 부분은 기존 공간과 일관되게 생성된다. 마치 실제 건물을 걸어 다니는 것처럼, 방에서 나갔다가 다시 들어와도 가구의 위치가 그대로다.
드림팀의 힘도 컸다. NeRF를 발명한 Ben Mildenhall과 Pratul Srinivasan, 3D Gaussian Splatting을 개발한 팀, Diffusion Models의 선구자 Jiajun Wu가 합류했다. 각자의 전문성이 결합되어 Marble이 탄생했다.
공간지능이 2024년 갑자기 주목받는 것은 우연이 아니다.
Vision Transformer(2020)가 이미지 처리의 확장성을 입증하고, GPT-4V와 Gemini 같은 Multimodal LLM이 텍스트와 이미지를 자유롭게 연결하며, NeRF와 3D Gaussian Splatting이 3D 생성의 장벽을 무너뜨린 세 가지 기술적 전환점이 동시에 도래했기 때문이다.
첫째, Vision Transformer의 성숙
2020년 Google이 Vision Transformer(ViT)를 발표했을 때, 많은 이들은 회의적이었다. CNN이 이미지 인식의 표준이었고, Transformer는 텍스트 처리에만 적합하다고 생각했다. 그러나 ViT는 이미지를 패치로 나누고, 각 패치 간의 관계를 학습하는 방식으로 CNN을 능가했다. 더 중요한 것은 확장성이었다. 데이터와 컴퓨팅이 늘어날수록 성능이 계속 향상되었다.
둘째, Multimodal LLM의 등장
GPT-4V, Gemini, Claude 3가 등장하면서 AI는 텍스트와 이미지를 자유롭게 넘나들 수 있게 되었다. 이것은 단순한 기능 추가가 아니었다. "빨간 블록을 파란 블록 위에 올려"라는 언어 지시를 이미지 인식과 로봇 제어로 연결하는 다리가 만들어진 것이다. VLA 모델의 급속한 발전은 이 토대 위에서 가능했다.
셋째, 3D 생성 기술의 성숙
NeRF(2020), 3D Gaussian Splatting(2023), Diffusion-based 3D Generation이 연이어 등장하면서 3D 콘텐츠 생성의 장벽이 무너졌다. 예전에는 3D 모델을 만들려면 숙련된 아티스트가 몇 주씩 작업해야 했다. 이제는 텍스트 설명만으로 몇 초 만에 생성된다.
하드웨어의 발전도 무시할 수 없다. NVIDIA Jetson Orin 시리즈는 로봇에 탑재 가능한 크기로 34~275 TOPS*의 AI 연산 성능을 제공한다. A100과 H100 GPU 클러스터는 수천만 장의 3D 데이터를 학습시킬 수 있는 컴퓨팅 파워를 제공한다.
TOPS*: Tera of Operations Per Second의 약자로 NPU(신경 처리 장치) 등 프로세서에 필요한 아키텍처와 주파수를 기반으로 AI 추론의 잠재적인 최고 성능을 측정하는 단위.
공간지능은 여전히 세 가지 근본적 한계에 직면해 있다.
시뮬레이션에서 완벽하게 작동하던 로봇이 현실에서 실패하는 Sim2Real Gap, Transformer의 문맥 길이 제약을 해결하려는 Mamba 아키텍처, 그리고 AI가 물리적으로 불가능한 장면을 생성하는 환각 문제다.
이 한계를 이해하는 것이 다음 10년의 발전 방향을 예측하는 열쇠다.
Sim2Real Gap: 시뮬레이션과 현실의 간극
로봇은 시뮬레이션에서 완벽하게 작동하다가 현실에서 실패한다.
왜일까? 시뮬레이션은 마찰 계수, 재질의 탄성, 조명 조건을 단순화한다.
현실은 훨씬 복잡하다. 바닥의 미세한 기울기, 물체 표면의 미끄러움, 예측 불가능한 외란 등 고려해야 할 요소들이 훨씬 많다.
최신 연구는 Domain Randomization으로 이 문제에 접근한다.
시뮬레이션에서 다양한 조건을 무작위로 변화시켜 학습시키면, 로봇은 특정 조건에 과적합되지 않고 일반화 능력을 얻는다. 그러나 여전히 격차는 존재한다.
장기 문맥 처리: Mamba/SSM의 등장
Transformer는 문맥 길이에 제약이 있다. 토큰이 길어질수록 계산량이 제곱으로 증가한다.
이것은 공간지능에서 치명적이다. 로봇이 넓은 공간을 탐색할 때, 앞에서 본 정보를 계속 기억해야 한다.
Mamba(State Space Model)는 이 문제의 해결책으로 주목받고 있다.
Transformer처럼 병렬 학습이 가능하면서도, RNN처럼 긴 시퀀스를 효율적으로 처리한다.
특히 Selective State Space는 중요한 정보는 오래 유지하고, 덜 중요한 정보는 빠르게 잊는 메커니즘을 가지고 있다.
이것은 인간의 작업 기억(Working Memory)과 유사하다.
환각 억제: 물리 법칙을 강제하는 방법
AI는 여전히 물리적으로 불가능한 장면을 생성한다. 이것을 막는 방법은 두 가지다.
첫째, Physics-Informed Neural Networks(PINNs)는 신경망의 손실 함수에 물리 법칙을 직접 포함시킨다. 뉴턴 역학, 유체 역학, 열역학 방정식을 제약 조건으로 추가해서, 모델이 학습 과정에서 물리 법칙을 위반하지 못하게 만든다.
둘째, GraphRAG는 다른 접근을 한다. 물리적 상식을 지식 그래프로 구축하고, AI가 장면을 생성할 때 이 그래프를 참조하게 만든다. "무거운 물체는 아래로 떨어진다", "액체는 컨테이너의 형태를 따른다" 같은 규칙을 명시적으로 저장하고, 추론 과정에서 검증한다.
다음 세대 공간지능 시스템은 세 가지 방향으로 진화하고 있다.
DeepMind의 Autotelic Agents는 인간의 지시 없이 스스로 목표를 설정하고 호기심 기반으로 학습하며, MIT의 Swarm Robotics는 중앙 통제 없이 수십 개 로봇이 집단 지성으로 협업한다.
그리고 Neuro-Symbolic AI는 신경망의 패턴 인식과 기호 논리의 추론 능력을 결합해 해석 가능한 AI를 만들고 있다.
Autotelic Agents: 스스로 목표를 설정하는 로봇
현재 로봇은 "이 블록을 저기로 옮겨라", "바닥을 청소해라" 같은 인간이 정의한 작업만 수행한다.
그러나 Autotelic Agents는 다르다.
그들은 스스로 목표를 설정하고, 그 목표를 달성하기 위한 하위 작업을 계획하며, 실행한다.
DeepMind의 연구에서 Autotelic Agent는 놀이터 환경에 놓였다.
명확한 작업 지시 없이, 에이전트는 스스로 "저 블록을 쌓아서 높은 탑을 만들자", "이 공을 저 구멍에 넣어보자"같은 목표를 만들어냈다. 중요한 것은 호기심(Curiosity) 기반 보상이다.
에이전트는 새로운 것을 발견하고, 예상치 못한 결과를 만들어낼 때 내적 보상을 받는다.
Swarm Intelligence: 집단 지성의 부상
하나의 로봇보다 수십 개의 로봇이 협업하면 훨씬 복잡한 작업을 수행할 수 있다. 그러나 조율이 핵심이다.
MIT의 Swarm Robotics 연구는 흥미롭다.
수십 개의 작은 로봇이 창고에서 물건을 운반한다. 중앙 통제가 없다. 각 로봇은 주변 로봇의 상태만 관찰하고, 간단한 규칙에 따라 행동한다. "가장 가까운 물건으로 이동", "다른 로봇과 충돌하면 방향 전환", "목적지에 도착하면 물건 내려놓기". 이 단순한 규칙의 조합이 놀라운 집단 지능을 만들어낸다. 개미 군집의 원리와 비슷하다.
Neuro-Symbolic AI: 학습과 논리의 융합
신경망은 패턴 인식에 강하고, 기호 논리는 추론에 강하다. 이 둘을 결합하는 시도가 활발하다.
이것은 심리학자 Daniel Kahneman이 그의 저서 Thinking, Fast and Slow에서 제시한 인간 사고 방식의 이중 구조와 닮아있다.
System 1은 빠르고 직관적인 패턴 인식이고, System 2는 느리지만 논리적인 추론이다.
현재 신경망은 강력한 System 1을 가졌지만, System 2가 부족하다.
"빨간색 물체"를 즉시 인식하지만, "왜 무거운 물체가 가벼운 물체보다 먼저 떨어지는가"는 추론하지 못한다.
예를 들어, 로봇이 "빨간 블록을 가장 큰 상자 안에 넣어"라는 지시를 받았다고 하자.
신경망은 이미지에서 빨간색 물체를 인식하고, 상자들의 크기를 추정한다(System 1). 그러나 "가장 큰"이라는 비교와 "안에"라는 공간 관계는 기호 논리로 처리한다(System 2).
이 하이브리드 접근은 해석 가능성도 높인다. AI가 왜 그런 행동을 했는지 설명할 수 있다.
"빨간 블록(인식됨) > 가장 큰 상자 선택(논리적 비교) > '안에' 관계 만족시키기(기하학적 추론)."
이것이 진정한 이해에 가까운 AI다.
공간지능은 이제 연구실을 벗어나 공장, 도로, 병원, 학교로 들어오고 있다.
Tesla Optimus는 공장에서 부품을 조립하고, Waymo는 하루 10만 회 이상 무인 택시를 운행하며, 스마트 병원은 의료진의 손 씻기를 자동으로 확인하고, VR 교실에서는 학생들이 분자 구조 안으로 들어가 화학 결합을 관찰한다. 디지털 트윈 기술은 BMW 공장 전체를 가상으로 복제해 생산라인을 최적화한다.
로봇: 샌드위치 만드는 팔
Tesla Optimus는 2024년 공장에서 배터리 셀을 분류하는 작업을 시작했다. Figure 01은 BMW 공장에서 부품을 조립한다. 이것은 단순 반복 작업이 아니다. 매번 부품의 위치가 조금씩 다르고, 때로는 뒤집혀 있거나 가려져 있다. 로봇은 3D 인식으로 상황을 파악하고, 경로를 계획하며, 정밀하게 조작한다.
UC Berkeley의 연구는 더 인상적이다.
로봇 팔이 "샌드위치를 만들어"라는 언어 지시만 받고, 냉장고에서 재료를 꺼내고, 빵을 자르고, 재료를 올리고, 접시에 담는 전체 과정을 수행한다. 핵심은 시뮬레이션 학습이다. 로봇은 수백만 번의 가상 연습을 거쳐 이 능력을 획득했다.
자율주행: 보행자의 의도를 읽는 차
Waymo는 샌프란시스코와 피닉스에서 하루 10만 회 이상의 무인 로보택시 승차를 제공한다.
Tesla FSD v12는 end-to-end 학습으로 진화했다. 인간이 규칙을 프로그래밍하는 대신, AI가 수십억 마일의 주행 데이터에서 직접 학습한다.
중요한 것은 3D 공간 이해다. 보행자가 횡단보도에 서 있을 때, 그가 건널 의도인지 아니면 기다리고 있을 뿐인지 예측해야 한다. 머리 방향, 몸의 움직임, 주변 맥락을 종합적으로 분석한다. 이것은 단순한 물체 인식이 아니라 의도 추론이다.
AR/VR: 가상을 현실에 겹치다
Apple Vision Pro는 밀리미터 단위로 손가락 움직임을 추적한다. 사용자가 공중에서 버튼을 누르는 제스처를 하면, 시스템은 3D 공간에서 손가락과 가상 버튼의 충돌을 정확히 계산한다. Meta Quest 3의 컬러 패스스루는 현실 공간에 가상 물체를 자연스럽게 배치한다. 가상 화면이 실제 테이블 위에 놓인 것처럼 보인다.
의료: 손 씻기를 감시하는 병원과 뇌파를 제어하는 로봇
스마트 병원은 공간지능으로 안전을 강화한다.
천장의 카메라가 의료진의 움직임을 추적하고, 환자 방에 들어가기 전에 손을 씻었는지 자동으로 확인한다. 손 씻기 절차가 누락되면 즉시 알람이 울린다. 이것은 프라이버시 침해 없이도 가능하다.
시스템은 사람의 얼굴을 식별하지 않고, 행동 패턴만 인식한다.
더 놀라운 것은 뇌파 제어 로봇이다.
척수 손상으로 팔을 움직일 수 없는 환자가 EEG(뇌파) 신호만으로 로봇 팔을 조종한다.
환자가 "컵을 들어올리자"고 생각하면, AI가 뇌파 패턴을 해석하고, 로봇 팔이 3D 공간에서 컵의 위치를 파악해 정확히 잡는다.
교육: 분자 구조 안으로 들어가다
VR 교육은 텍스트와 그림의 한계를 넘는다.
화학 수업에서 학생들은 벤젠 분자 안으로 "들어가서" 탄소 원자 간 결합을 관찰한다.
역사 수업에서는 고대 로마 포럼을 걸어 다니며 건축물을 탐험한다.
Fei-Fei Li가 말한 "무한 우주 생성" 개념이 흥미롭다. 학생이 가상 박물관을 탐험하는데, 방문하는 방마다 새로운 전시물이 생성된다. 학생의 관심사와 학습 수준에 맞춰 콘텐츠가 무한히 펼쳐진다. 이것은 단순한 콘텐츠 생성이 아니라, 교육적 가치를 고려한 큐레이션이다.
창의적 산업: 건물 안을 미리 걸어다니기
건축가는 설계한 건물 내부를 VR로 미리 걸어다닌다.
방의 크기가 적절한지, 채광은 충분한지, 동선은 자연스러운지 직접 체험한다. 수정이 필요하면 즉시 파라미터를 조정하고 다시 확인한다.
영화 감독은 가상 세트에서 카메라 앵글을 테스트한다. 실제 세트를 제작하기 전에 수십 가지 구도를 시도해보고 최적의 샷을 찾는다. 비용과 시간이 크게 절약된다.
산업 디자이너는 3D 프린터로 시제품을 만들기 전에 가상 공간에서 인체공학을 검증한다. 손잡이 위치가 적절한지, 버튼이 쉽게 눌리는지, 무게 중심이 안정적인지 시뮬레이션한다.
디지털 트윈: 가상과 현실의 동기화
디지털 트윈은 물리적 자산의 가상 복제본이다. 공장, 발전소, 도시 전체를 3D로 모델링하고, 실시간 센서 데이터로 동기화한다.
NVIDIA Omniverse는 산업용 디지털 트윈 플랫폼이다.
BMW는 전체 공장을 Omniverse에 구축했다. 생산라인의 모든 로봇, 컨베이어, 작업자의 움직임이 실시간으로 반영된다. 엔지니어는 생산 공정을 변경하기 전에 가상 환경에서 시뮬레이션하고, 병목 현상이나 충돌 위험을 미리 파악한다.
AWS TwinMaker는 IoT 데이터를 통합해 건물 관리에 활용된다.
대형 빌딩의 디지털 트윈이 HVAC 시스템, 엘리베이터, 보안 시스템의 상태를 실시간으로 보여준다. 이상 징후가 감지되면 3D 뷰에서 정확한 위치를 표시하고, 유지보수팀에게 알림을 보낸다.
공간지능은 기존 클라우드 인프라와는 다른 새로운 컴퓨팅 패러다임을 요구한다.
학습은 GPU로, 추론은 지연시간을 극적으로 줄인 LPU와 같은 추론 엔진으로 분리되고, 수천 개의 로봇을 운영하려면 FinOps와 AgentOps 같은 대규모 운영 관리 체계가 필요하며, 자율주행차와 로봇이 수집하는 민감한 데이터는 Sovereign Cloud를 통해 국가 내에서만 처리되어야 한다.
LPU vs GPU: 추론 특화 하드웨어
학습은 GPU로, 추론은 LPU(Latency Processing Unit)로. Groq이 제안한 LPU는 추론 지연시간을 극적으로 줄인다. 로봇이나 자율주행차처럼 실시간 반응이 중요한 응용에서 이것은 치명적이다. 몇 밀리초의 지연이 사고를 초래할 수 있다.
LPU는 Transformer 연산에 최적화된 하드웨어 아키텍처를 가진다.
GPU처럼 범용적이지 않지만, 특정 작업에서 10배 이상 빠르며 에너지 효율도 훨씬 높다.
FinOps와 AgentOps: 대규모 운영의 과학
수천 개의 로봇이나 자율주행차를 운영하는 것은 단순한 기술 문제가 아니라 운영 관리 문제다.
FinOps는 클라우드 비용을 최적화하는 방법론이다. 각 로봇이 얼마나 많은 컴퓨팅을 사용하는지, 어떤 작업이 비용 효율적인지 실시간으로 모니터링한다.
AgentOps는 더 포괄적이다. 로봇의 성능, 에러율, 배터리 상태, 유지보수 스케줄을 통합 관리한다. 특정 로봇이 비정상적인 패턴을 보이면 자동으로 플래그를 올리고, 원격 진단을 시작한다.
Sovereign Cloud: 데이터 주권의 시대
자율주행차와 로봇이 수집하는 데이터는 민감하다. 도로의 모습, 건물 내부, 사람들의 움직임. 이 데이터를 해외 클라우드에 저장하는 것은 법적, 윤리적 문제를 일으킨다.
Sovereign Cloud는 데이터가 특정 국가나 지역을 벗어나지 않도록 보장한다.
한국 기업이 한국 내에서 로봇을 운영한다면, 모든 데이터와 AI 모델이 한국 데이터센터에서만 처리된다. 이것은 단순한 물리적 위치 문제가 아니라, 법적 관할권과 데이터 통제권의 문제다.
더 중요한 것은 개인 프라이버시다.
가정용 로봇이 집 안을 돌아다니며 방 구조를 3D로 스캔하고, AR 글래스가 사용자가 보는 모든 것을 기록한다면?
삼성 Ballie나 네이버랩스 ARC 같은 로봇이 가족 구성원의 동선을 학습하고, 이 데이터가 해외 서버로 전송되는 순간 개인의 가장 사적인 공간 정보가 타국 기업의 서버에 저장된다. Sovereign Cloud와 엣지 AI의 결합은 "내 집 구조는 내 집 안에만 머문다"는 원칙을 가능하게 한다.
이것은 국가 차원의 데이터 주권을 넘어 개인의 생활 공간에 대한 주권이며, 공간지능이 대중화되기 위한 핵심 전제 조건이다.
한국 기업들도 공간지능 경쟁에 뛰어들고 있지만, 해결해야 할 과제도 명확하다.
네이버랩스는 AROUND 시리즈로 실내 3D 매핑을 구축하고, 삼성은 Ballie로 가정용 로봇 시장을 노리며, 현대차는 Boston Dynamics 인수로 로봇 사업을 본격화했다.
그러나 공간지능 AI 학습에 필요한 막대한 컴퓨팅 인프라와 3D 데이터에서 해외 의존도가 높다는 것이 한계다.
네이버랩스는 AROUND 시리즈로 실내 공간을 3D 매핑한다.
쇼핑몰, 오피스, 공항 등 대형 건물 내부를 정밀하게 스캔하고, 이를 기반으로 실내 네비게이션 서비스를 제공한다. 서빙 로봇 '아크(ARC)'는 식당에서 음식을 배달하는데, 사람들이 복잡하게 움직이는 환경에서도 충돌 없이 경로를 찾는다.
삼성전자는 CES 2024에서 Ballie를 공개했다.
공 모양의 가정용 로봇이 집 안을 자유롭게 돌아다니며, 주인을 따라가고, 스마트홈 기기를 제어하며, 프로젝터로 벽에 화면을 투사한다.
핵심은 3D SLAM(Simultaneous Localization and Mapping)이다. 로봇이 집 안의 지도를 스스로 만들고, 실시간으로 자신의 위치를 파악한다.
현대자동차는 Boston Dynamics를 인수하며 로봇 사업을 본격화했다.
Spot과 Atlas는 건설 현장과 공장에서 점검 작업을 수행한다. 특히 인간이 접근하기 어려운 위험 구역에서 활약한다.
그러나 도전도 크다. 공간지능 AI를 학습시키려면 막대한 3D 데이터와 컴퓨팅 파워가 필요하다.
한국 기업들은 클라우드 인프라에서 해외 기업에 의존하고 있다. 이것은 기술 주권과 비용 문제를 동시에 일으킨다.
클라우드 관점에서 Spatial AI는 새로운 워크로드다. 기존 텍스트 LLM은 주로 Transformer 연산이었다. Spatial AI는 3D 렌더링, 물리 시뮬레이션, 실시간 추론이 결합된다. 즉, 이것은 다른 형태의 하드웨어 가속과 네트워크 아키텍처를 필요로 한다.
NVIDIA Omniverse Cloud, AWS RoboMaker, Azure Spatial Anchors 같은 플랫폼이 등장하고 있다. 그러나 아직 초기 단계다.
한국이 이 분야에서 독자적 플랫폼을 구축할 수 있을지는 아직 미지수다.
기술은 도구일 뿐이며, 중요한 것은 그것을 어떻게 사용하느냐다.
Fei-Fei Li가 말하는 "지각, 추론, 계획, 창조를 연결하는 도구"로서의 AI는 마비 환자가 로봇 팔로 컵을 들고, 학생이 분자 구조를 3D로 탐험하며, 건축가가 설계한 건물을 미리 걸어다니는 미래를 의미한다.
그러나 공간지능은 동시에 강력한 감시 도구가 될 수 있기에, 인간의 존엄성을 존중하고 번영을 돕는 방향으로 발전해야 한다는 사회적 합의가 필요하다.
인간중심의 AI를 주창하는 Fei-Fei Li는 "AI가 지각, 추론, 계획, 창조를 연결하는 도구가 되길 바란다."고 명확하게 말한다.
마비 환자가 로봇 팔로 컵을 들 수 있게 되고, 학생이 분자 구조를 3D로 탐험하며, 건축가가 설계한 건물을 미리 걸어다니는 것. 이것이 공간지능이 가져올 변화다.
그러나 주의해야 할 것도 있다.
공간지능은 강력한 감시 도구가 될 수 있다. 누군가의 움직임을 24시간 추적하고, 행동 패턴을 분석하며, 의도를 예측하는 것은 기술적으로 가능하다. 이것을 어떻게 규제하고, 누가 통제할 것인가는 사회적 합의가 필요한 문제다.
Fei-Fei Li가 TED 강연에서 강조한 것처럼, AI는 인간의 존엄성을 존중하고, 인간의 번영을 돕는 방향으로 발전해야 한다. 공간지능은 그 자체로 선하지도 악하지도 않다. 그것은 우리가 만들어가는 도구다.
5억 년 전, 생명체는 빛을 보기 시작했고, 지능의 폭발적 진화가 시작되었다.
지금, AI는 공간을 보기 시작했다. 다음 10년은 AI가 우리와 같은 공간에서 함께 살아가는 법을 배우는 시간이 될 것이다. LLM이 인터넷의 텍스트를 학습했다면, 이제 AI는 물리 세계를 학습해야 한다. 그리고 그 세상은 그 여정을 이제 막 시작했다.
NeRF (Neural Radiance Fields)
- 논문: "NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis" (2020)
- https://www.matthewtancik.com/nerf
3D Gaussian Splatting
- 논문: "3D Gaussian Splatting for Real-Time Radiance Field Rendering" (2023)
- https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/
Vision Transformer (ViT)
- 논문: "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" (2020)
- https://arxiv.org/abs/2010.11929
Mamba (State Space Models)
- 논문: "Mamba: Linear-Time Sequence Modeling with Selective State Spaces" (2023)
- https://arxiv.org/abs/2312.00752
Physics-Informed Neural Networks (PINNs)
- 논문: "Physics-informed neural networks: A deep learning framework for solving forward and inverse problems" (2019)
- https://www.sciencedirect.com/science/article/pii/S0021999118307125
World Labs
- 공식 사이트: https://www.worldlabs.ai/
Google DeepMind - Genie 2
- 발표 블로그: https://deepmind.google/discover/blog/
OpenVLA
- GitHub: https://github.com/openvla/openvla
- 논문: https://arxiv.org/abs/2406.09246
Tesla Optimus
- 공식 정보: https://www.tesla.com/optimus
Figure AI - Figure 01
-공식 사이트: https://www.figure.ai/
Waymo
- 공식 사이트: https://waymo.com/
Apple Vision Pro
- 제품 페이지: https://www.apple.com/apple-vision-pro/
Meta Quest 3
- 제품 페이지: https://www.meta.com/quest/quest-3/
Boston Dynamics
- 공식 사이트: https://www.bostondynamics.com/
STI-Bench (Spatio-Temporal Intelligence Benchmark)
- 관련 논문: https://arxiv.org/abs/2408.07098
SpaCE-10 (Spatial Commonsense Evaluation)
- 논문: "SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence"
- arXiv: https://arxiv.org/abs/2506.07966
PAI-Bench (Physical AI Benchmark)
- 논문: "PAI-Bench: A Comprehensive Benchmark For Physical AI" (2025)
- arXiv: https://arxiv.org/abs/2512.01989
- GitHub: https://github.com/SHI-Labs/physical-ai-bench
인프라 및 플랫폼
NVIDIA Omniverse
- 공식 사이트: https://www.nvidia.com/en-us/omniverse/
AWS RoboMaker
- 제품 페이지: https://aws.amazon.com/robomaker/
AWS TwinMaker
- 제품 페이지: https://aws.amazon.com/iot-twinmaker/
Groq (LPU)
- 공식 사이트: https://groq.com/
NVIDIA Jetson Orin
공식 제품 페이지: https://www.nvidia.com/ko-kr/autonomous-machines/embedded-systems/jetson-orin/
기술 사양: Jetson Orin Nano 4GB (34 TOPS) ~ Jetson AGX Orin 64GB (275 TOPS)
Sovereign Cloud (데이터 주권)
- AWS Sovereign Cloud: https://aws.amazon.com/sovereign-cloud/
- Microsoft Cloud for Sovereignty: https://www.microsoft.com/en-us/industry/sovereignty/cloud
- Google Distributed Cloud: https://cloud.google.com/distributed-cloud
- Oracle Sovereign Cloud: https://www.oracle.com/cloud/sovereign-cloud/
네이버랩스
- 공식 사이트: https://www.naverlabs.com/
- AROUND 기술: https://www.naverlabs.com/storyDetail/184
삼성전자 Ballie
- CES 2024 발표: https://news.samsung.com/
현대자동차 로보틱스
- Boston Dynamics 인수 관련: https://tech.hyundaimotorgroup.com/
주요 연구기관
Stanford Vision and Learning Lab
UC Berkeley Robotics
https://robotics.berkeley.edu/
MIT CSAIL
DeepMind
관련 도서
Thinking, Fast and Slow - Daniel Kahneman
- System 1/System 2 개념의 원전
- 출판사: Farrar, Straus and Giroux (2011)
- The Worlds I See - Fei-Fei Li
각막 부상 일화를 포함한 Fei-Fei Li의 자서전
출판사: Flatiron Books (2023)
World Labs 설립 및 비전 인터뷰 (2024)
- 각막 부상 에피소드 (18:03), World Labs 설립, 공간지능의 중요성
- YouTube: https://www.youtube.com/watch?v=fQGu016AlVo
- TechCrunch 기사: https://techcrunch.com/2024/07/17/fei-fei-lis-world-labs-announces-230m-in-funding/
TED 강연: 캄브리아기 대폭발과 Spatial Intelligence (2024)
- 시각의 진화와 지능의 관계, 의료/복지 응용 사례
- YouTube: https://www.youtube.com/watch?v=y8NtMZ7VGmU
Marble 제품 발표 인터뷰 (2024년 12월)
- "텍스트로 인코딩되지 않은 지식" 개념, RTFM 기술, 멀티버스 교육
- YouTube: https://www.youtube.com/watch?v=9VcXiyE40xw
- World Labs 공식 사이트: https://www.worldlabs.ai/
Stanford HAI 프로필: https://hai.stanford.edu/people/fei-fei-li
Google Scholar: https://scholar.google.com/citations?user=rDfyQnIAAAAJ