Physical AI 시대, 로봇의 몸과 지능의 만남

by 신피질

로봇을 이야기하면 많은 사람은 먼저 인공지능을 떠올린다.

하지만 현장을 아는 사람에게 로봇은 결국 ‘몸’이다. 힘이 있어야 하고, 관절이 버텨야 하며, 배터리가 하루를 견뎌야 한다.


이 세 가지가 부족하면 아무리 똑똑한 알고리즘도 작업대 앞에서 멈춘다. 현장은 언어가 아니라 물리 법칙이 지배하는 공간이기 때문이다.


그래서 로봇의 미래는 ‘AI가 얼마나 똑똑하냐’보다 ‘AI가 들어갈 몸이 얼마나 현장에 적합하냐’에서 갈린다. 그리고 그 몸과 지능이 만나는 다음 단계가 요즘 업계가 말하는 Physical AI다.


Physical AI는 말 그대로 ‘몸을 가진 AI’다. 단순히 말로 대답하는 AI가 아니라, 카메라와 센서를 통해

세상을 보고, 힘과 관절을 통해 물체를 조작하고, 공간을 이동하며, 실패를 통해 행동을 개선하는 AI를 뜻한다.


여기서 중요한 것은 로봇의 지능이 텍스트 세계에서 끝나지 않고 물리 세계의 제약—마찰과 관성, 충돌과 안전, 내구와 에너지가 부딪히며 성장한다는 점이다.


젠슨 황이 “다음 단계는 Physical AI”라고 말하는 이유도 여기에 있다. 생성형 AI가 ‘언어’에서 혁명을 만들었다면, Physical AI는 그 혁명을 ‘현장 노동’으로 확장해 경제의 기본구조를 바꾸려는 시도이기 때문이다.


엔비디아가 이 방향에서 맡는 역할은 ‘로봇을 만드는 회사’라기보다 ‘로봇이 태어나고 학습하는 생태계를 만드는 회사’에 가깝다. GPU는 학습과 추론의 근육이고, CUDA는 그 근육을 쓰는 공통 언어다. 여기에 물리 세계를 디지털로 복제해 학습할 수 있게 만드는 시뮬레이션·디지털 트윈 환경, 그리고 희귀 상황을 대량으로 만들어내는 합성 데이터 파이프라인이 붙는다.


엔비디아 GR00T는 칩이 아니라 소프트웨어다. 로봇의 관절을 직접 움직이진 않지만, 로봇이 어떤 행동을 선택해야 하는지—잡고, 옮기고, 피하고, 멈추고, 다시 시도하는—행동의 의미를 일반화하려는 ‘로봇용 파운데이션 모델’ 시도다.


엔비디아의 전략은 한 문장으로 요약된다. 로봇이 성장하는 전 과정을 엔비디아 스택 위에서 돌리게 만들겠다는 것이다. 즉 GPU만 쓰는 게 아니라 로봇의 설계 학습 검증 추론 전 과정을 엔비디아가 제공한 층위에서 수행하게 하는 것이다.


테슬라의 전략은 정반대로 ‘현장의 몸’에서 출발한다. 테슬라는 휴머노이드를 기술 데모가 아니라 ‘노동 단위’로 본다. 같은 몸을 대량으로 만들고, 공장이라는 극도로 현실적인 환경에 투입해 넘어지고 미끄러지고 고장 나는 데이터를 축적한다. 이 데이터는 논문으로 축적된 것이 없고, 시뮬레이션만으로도 완전히 대체되지 않는다.


테슬라가 배터리, 열관리, 기구 신뢰성, 그리고 자체 칩·소프트웨어를 함께 통제하려는 이유는 현장에서의 운영 비용과 안정성이 결국 승부를 가르기 때문이다. 테슬라가 유리해 보이는 이유는 AI가 특별히 더 똑똑해서가 아니라, 실패를 감당하며 ‘몸의 데이터’를 축적할 수 있는 구조를 가지고 있기 때문이다.


테슬라는 직접 현장에 투입하는 로봇 옵티머스를 대량 생산준비 중이다.

테슬라의 옵티머스


구글의 전략은 또 다르다. 구글은 로봇을 직접 대량 생산하기보다, 서로 다른 로봇들이 공통으로 쓸 수 있는 ‘판단과 의미의 계층’을 만들려 한다. 여기서 많은 사람이 혼란을 느낀다. “로봇은 몸인데, 칩도 없이, 클라우드 연결도 없이 어떻게 서로 다른 복잡한 기계를 조정하나?” 답은 간단하다. 구글은 조정(control)을 하지 않는다.


구글이 노리는 것은 저수준 제어—토크, 관절각, 실시간 안정화—가 아니라 그 위의 층, 즉 “무엇을 해야 하는가”를 이해하고 선택하는 지능이다.


로봇마다 관절 수, 질량, 관성이 달라 같은 제어 코드를 그대로 쓸 수는 없다. 대신 ‘행동의 의미’를 추상화해 “집어라/옮겨라/피해라/멈춰라” 같은 상위 지시를 공통 표현 공간에서 다루고, 각 로봇이 자기 몸에 맞게 번역하는 어댑터를 두는 방식이 가능해진다.


학습과 통합은 클라우드가 유리하지만, 현장 실행은 지연과 안전 때문에 로컬에서 돌아가야 한다. 그래서 구글은 로봇을 원격 조종하는 회사가 아니라, 로봇이 세상을 해석하는 ‘언어’를 배포하려는 회사다.


그런데 왜 최근 들어 로봇이 갑자기 다시 중심으로 올라왔을까? 이유는 세 가지가 동시에 겹쳤다. 첫째, LLM과 멀티모달 모델이 언어·시각·계획을 하나로 묶으면서 “말로 지시하면 행동하는” 인터페이스가 현실이 되기 시작했다.

둘째, 시뮬레이션과 합성 데이터가 발전하면서 현장 투입 전 학습 밀도를 폭발적으로 올릴 수 있게 됐다.

셋째, 노동력 부족과 비용 상승, 공급망 재편으로 인해 공장·물류·건설·농업에서 자동화 수요가 과거보다 훨씬 강해졌다. 기술이 준비되었고, 경제가 로봇을 필요로 하며, 투입할 시장이 커졌다.


기술적으로 무엇이 획기적으로 바뀌었는가를 한 문장으로 말하면, 로봇이 ‘규칙 기반 자동기계’에서 ‘학습 기반 에이전트’로 바뀌고 있다는 점이다. 과거에는 환경이 조금만 바뀌어도 로봇은 멈췄다. 지금은 언어로 목표를 주고, 시각으로 상태를 인식하며, 실패하면 재시도하는 행동 정책을 학습한다.

그 중심에 LLM·멀티모달 모델이 있다.


하지만 현장 로봇은 여전히 물리 제약이 지배한다. 넘어짐은 안전 이슈로 곧바로 연결되고, 관절의 마모와 열화는 시간이 지나야 드러나며, 배터리의 전압 강하와 열 관리가 작업 시간을 결정한다. 시뮬레이션은 큰 도움을 주지만 재료의 미묘한 차이, 바닥의 상태, 인간의 예측 불가 행동 같은 ‘비모델링 변수’를 완전히 담지 못한다.


그래서 현장 로봇의 현재 상황은 지능은 빠르게 일반화되고 있지만, 몸은 아직 느리게 진화하고 있다. 현장 투입을 막는 것은 대개 모델의 언어 능력이 아니라 힘 부족, 관절 신뢰성, 배터리 지속시간, 안전 인증, 유지보수 비용이다.


극복의 방향은 결국 ‘가상과 현실의 왕복’을 얼마나 빠르게 하느냐로 모인다. 가상에서 대량 학습하고, 현실에서 작은 규모로 검증하며, 실패 데이터를 다시 가상으로 가져가 보정하고, 다시 배포하는 루프가 필요하다.


동시에 하드웨어는 더 싸고, 더 튼튼하고, 더 유지보수하기 쉬워져야 한다. 로봇의 패권은 AI 모델만이 아니라 제조·부품·공급망·운영 경험이 함께 결정한다.



이 구도를 더 현실적으로 만드는 변수로 중국을 빼놓을 수 없다. 중국은 현장 로봇을 가장 많이 필요로 하고, 가장 빠르게 투입할 유인이 크다. 거대한 제조·물류 현장은 곧 데이터 생산되는 곳이고, ‘대량 투입—고장—개조—재투입’이라는 루프를 국가 규모로 돌릴 수 있다. 속도와 규모 면에서 중국의 도약은 빠를 수밖에 없다.


다만 표준과 신뢰, 국제 규제의 문제는 또 다른 전장이다. 결국 로봇의 미래는 미국이 설계하고, 중국이 단련하며, 표준은 플랫폼 기업들이 다투는 복합전이 될 가능성이 크다.


Physical AI는 기술 트렌드가 아니라 산업 구조의 이동이다. 로봇은 말 잘하는 AI의 전시장보다, 넘어져도 다시 일어나는 몸을 가진 현장에서 진짜가 된다. 엔비디아는 그 현장으로 가는 ‘인프라와 표준’을 만들고, 테슬라는 ‘몸과 데이터’를 수직 통합하며, 구글은 ‘판단과 의미의 언어’를 표준화하려 한다. 승부는 아직 끝나지 않았다. 다만 확실한 것은 하나다.


로봇은 여전히 물리 법칙의 지배를 받는다. 그리고 그 법칙을 정직하게 다루는 쪽이 결국 현장을 가져갈 것이다.

keyword
이전 12화팔란티어 테크놀로지: AI를 실제 의사결정으로 연결