Physical AI : Robot
금번 CES는 Physical AI를 중심으로 구성되었다. AI 중에서도 특히 Physical AI, 그 중에서도 로봇 전시회 같은 느낌이 강했다. 특히 AI 시대의 Nvidia의 존재감은 매우 컸다. 예전 모바일/플랫폼 시대의 AWS, MS, Google의 자리를 완전히 대체하는 인프라이자 플랫폼이라는 인상을 받았다. 많은 사업자들이 Physical AI를 넥스트 big thing으로 보고 투자하고 있는 것이 느껴졌다. 심지어 자동차 OEM, Tier 1, 가전회사, 스타트업 등도 모두 이 시장에 뛰어들고 있다.
CES를 보면서 Nvidia = AI라는 공식이 있다고 느껴질 정도로 AI 회사 모든 곳에 Nvidia가 존재했다. Nvidia는 단순한 칩회사가 아니라, AI의 Full stack(칩, 인프라, 모델, 애플리케이션)을 커버하는 토탈 플랫폼 회사로 보였다.
젠슨황의 기조연설은 그 해를 관통하는 핵심이 있다(안보신 분은 꼭 보시면 좋겠다)
1) 플랫폼 쉬프트: “디지털시대에서 AI로 전환 중”
젠슨 황은 메인프레임에서 PC로, PC에서 인터넷으로, 인터넷에서 클라우드로, 클라우드에서 모바일로 플랫폼이 전환되었고 이제 AI로 전환되고 있다고 했다. 투자자로서도 최근 매우 느끼고 있지만, 지금은 AI로의 패러다임 전환, AI 시대의 전환으로 보고 있다. 엄청난 순간을 살고 있다고 생각한다.
AI는 단순한 애플리케이션이 아니라 UI/인터페이스/플랫폼이 될 것이다. 100 trillion dollar(15경원)의 AI 시장이 열리고 있다.
2) AI scale beyond LLM: AI의 확장 방향(LLM 이후)
AI의 발전 방향이 단순히 LLM의 텍스트 능력을 넘어서 훨씬 큰 영역으로 가고 있다.
① Compute is data
컴퓨팅 파워가 데이터 부족 문제의 해결책이 될 것이다. GR00T, Cosmos 같은 모델과 데이터셋을 오픈 소스로 공개하여 모든 개발자가 이를 활용하게 할 것이다. 현실적으로 데이터 수집은 어렵기 때문에 synthetic data, 3D simulation 등을 통해 데이터를 모으는 것이 답이 될 것이다.
② AI becomes agentic
2024년에 시작된 Agentic system은 2025년 모든 곳에 확산되었다. 특히 추론하고, 정보를 찾고, 리서치하고, tool을 쓰며, planning을 하고, 결과를 시뮬레이션하는 Agent가 어려운 문제를 해결하기 시작했다. 그 예가 Cursor인데, 프로그래밍의 방식을 혁신적으로 변경했다.
Agent의 Reasoning은 한번도 학습된 적이 없던 일을 할 수 있으며, 엄청나게 강력해지고 있어 다양한 애플리케이션 시장을 열고 있다. 강화학습, Chain of thought, planning, tooling 등이 결합된 LLM은 근본적으로 Agent 시장을 열고 있다.
③ Physical AI takes leap
Physical AI를 위해서는 세상의 법칙을 이해하는 월드 파운데이션 모델(World Foundation Model)이 필요하다. 이를 위해서는
모델 학습을 위한 학습용 컴퓨터(training)
모델을 실행하는 추론용 컴퓨터(inference)
시뮬레이션을 위해 설계된 시뮬레이션 컴퓨터(sim)가 필요하다
Nvidia는 많은 부분에서 시뮬레이션을 강조했는데, Nvidia가 하는 거의 모든 일의 핵심이자 기초라고 말했다. 그 핵심 솔루션은
Omniverse(디지털 트윈 & 물리 기반 시뮬레이션)
Cosmos(월드 파운데이션 모델)이다.
Physical AI를 위한 ChatGPT moment가 다가오고 있다. 하지만 물리적 세계는 훨씬 크고 데이터 수집이 느리고 비용이 많이 든다. 이를 해결하기 위해 synthetic data가 필요한데, 그 시작이 Cosmos로, 인터넷 규모의 비디오, 주행, 로보틱스, 3D 시뮬레이션을 통해 학습되었다고 한다. Cosmos는 언어, 이미지, 3D, 행동을 통합적으로 이해한다. 예를 들어 단일 이미지로부터 생성, 추론, 궤적 예측과 같은 Physical AI 기술을 수행한다.
④ AI가 자연의 법칙을 배운다
AI를 통해 단백질 구조를 이해하고 생성하는 방법, 세포의 기원 등을 이해하고 있고, Reasoning과 chain of thought 등을 통해 다양한 Science를 이해하게 될 것이다.
⑤ 오픈모델이 프론티어 모델에 접근하고 있다
2025년 가장 중요한 사건은 오픈 모델의 발전이다. 작년 딥시크의 추론 시스템인 R1은 최초의 오픈 추론모델로 세상을 놀라게했다. 현재 Frontier model과 6개월 정도 차이가 있다고 본다.
Nvidia 또한 다양한 오픈모델을 공개하고 있는데,
Cosmos는 오픈 World Foundation Model이고,
Groot는 휴머노이드 로봇 시스템,
최초로 공개한 오픈 자율주행 소스인 AlphaMayo 등이 있다.
또한 데이터 생성 → 모델 개발 → 커스터마이제이션 학습 → 평가 → 연구 → 가드레일 전 단계를 오픈소스로 만들었다는 메시지를 들려줬다.
새로운 시대의 주인공은 로봇이 될 것이다. 이번 CES의 최대의 주제는 Physical AI, 그 중에서도 휴머노이드 로봇이다. 정말 많은 휴머노이드 로봇을 봤다. 로봇 회사만 30개 이상인 것 같다. 물론 수준과 형태는 너무 다르지만 관심을 엄청받았다.
1) 휴머노이드 로봇의 폭발
휴머노이드는 사람의 모양을 한 로봇이다. 대부분 휴머노이드는 바디와 손(or 그리퍼)은 있지만, 다리는 2족 또는 바퀴의 형태 두 가지로 보인다.
휴머노이드 로봇 회사를 관찰하면,
하드웨어 중심(물론 소프트웨어도 하지만)
소프트웨어 중심(특히 RFM: 로봇 파운데이션 모델)으로 나눌 수 있을 것 같다.
전시에서는 크게 manipulation(손 조작)과 locomotion(이동)기능이 관찰되었다. 핸드는 2 finger에서 5 finger까지 다양했고, 이동도 걸을 수 있는 다리 로봇과 바퀴 로봇으로 구분되었다.
① 하드웨어 중심
현대차의 아틀라스(Atlas)가 가장 압도적인 평가를 받는 것 같다. 현대차 부스에 들어가려면 40~50분 정도 줄을 서야 될 정도로 줄이 길었다. 아틀라스는 56 자유도의 360도로 조인트가 움직이는 50kg까지 들 수 있는 로봇인데, 퀄리티가 매우 좋았다. 실제 데모도 빠르고 안정적으로 보였다. 2026년은 현대차에 납품하고, 2028년부터 양산을 한다고 한다. 또한 보스톤다이나믹스 자체도 로봇 파운데이션 모델을 가지고 있지만, 구글 딥마인드와의 협력을 통해 더 좋은 3D perception, multimodal understanding, physical world에 대한 advanced reasoning and planning 기술을 확보한다고 한다. 즉, 제미나이 월드모델과 로봇 파운데이션 모델을 사용하게 된다.
LG전자는 클로이 로봇을 통해 가정 내에서 가전기기와 협업하면서 작은 물건을 옮기는 시나리오를 보여주었다. Manipulation에 특화되었고 간단한 pick and place를 시연했다. 이동은 바퀴를 통해서 이동하였다. 수건 접는 것을 보고 싶었는데 시연은 하지 않았다.
한국은 K-휴머노이드연합으로 뉴로메카, 로보티즈, 에이로봇 등이 휴머노이드를 전시했다. 대부분 pick and place를 시연하였다. 대부분 오픈 VLA 기술에 파인튜닝하여 로봇 움직임을 만들었다.
로봇 회사는 중국이 많았고 전반적으로 수준도 높았다. 그중 가장 하드웨어적으로 뛰어난 회사는 Unitree와 Engine AI로 보였다. 대부분의 로봇회사가 걷는 모습을 보여주지는 않았다. 하지만 Unitree와 Engine AI는 발차기, 쿵푸, 돌기 등을 했다.
그 외에도 Robotera, Agibot, 글로벌 라이다 1등회사인 로보센스, Hesai, 가전회사 하이센스 등도 휴모노이드를 전시했다. 그외에도 휴머노이드 형태를 가진 로봇이 너무 많았다. 대부분 전통적인 로봇제어 형식이 많았고, 리모트 콘트롤하는 모습도 뒤에서 보였다.
미국 회사인 Agility Robotics는 아마존 등 고객사에 10~15개 정도 나가서 운영 중이고 실제 양산중이라고 한다. 대부분의 기능은 물건을 들어서 옮기는 것이고, 밸런싱이 좋다고 한다.
독일 회사인 Neura도 빨래를 옮기는 것을 시연했는데, 오픈 VLA모델에 파인튜닝하여 하고 있다고 한다.
전시장에서 휴머노이드가 중국회사가 아니면 약간 신기하게 바라보게 되었다. 중국 로봇회사의 힘이 느껴졌다.
② 소프트웨어 관점: “오픈소스+파인튜닝”과 이미테이션 러닝의 확산, 하지만 아직 초기
과거 로보틱스에서 AI는 주로 Perception 영역에만 쓰였고, 나머지 계획과 행동 단계는 사람이 코딩한 규칙(Heuristics)에 의존했다. 하지만 관절이 많아지고 자유도가 높아질수록 사람이 이를 일일이 코딩하는 것은 불가능에 가깝다. 엔드 투 엔드 학습은 관찰(Observation)에서 바로 행동(Action)으로 이어진다. 이를 위해 모방학습(imitation learning)을 통해 로봇파운데이션 모델을 만든다. 이 모델은 복잡하고 비정형화된 물체에 대한 매니퓰레이션을 가능해지게 한다. 다만 이러한 방법은 결국 많고 정확한 데이터 확보와 VLA(+VLM) 모델이 핵심이다. 대부분의 로봇회사들이 리모트콘트롤과 로봇제어가 많았으며 VLA로 조작을 하더래도 자연스럽게 잘되지는 않았다(많은 회사들이 로봇을 그냥 세워놓았다). 오픈 VLA모델을 파인튜닝하는 경우가 많았다.
RFM을 하는 회사 중 인상깊었던 회사는 싱가포르의 Sharpa(실제는 중국?), 중국의 Paxini 등이다.
Sharpa는 종이 바람개비를 만드는 것, 블랙잭 딜러 등 매우 정교한 손움직임을 보였다. 2024년에 만든 회사로 약 1,800억원 정도 투자를 받았는데, 매니퓰레이션 기술이 인상적이었다.
Paxini도 1,900억원 이상 투자를 받았다. 인상깊었던 것은 데이터 수집을 위해 총 300명, 150명이 2교대로 데이터를 1년동안 모았다고 한다.
재미있었던 것은, Figure / Nvidia GR00T / Gemini Robotics 등 AI 로봇의 구조인 System 1(VLA: 비전-언어-행동 모델, 실행 엔진), System 2(VLM: 비전-언어 모델, reasoning 엔진)에 더하여 추가적인 System을 운영하는 회사가 있었다는 점이다.
Sharpa는 System 0로 촉각 기능을 더 넣어 세밀한 손 움직임을 가져갔고,
뉴로메카는 System -2(가드레일), System -1(로봇 제어)를 통해 정밀한 로봇 움직임을 가져가고자 했다. 각자 세밀한 로봇 제어를 위해 회사들이 보유한 차별화된 기술을 넣었다.
또한, 모델을 물어보면 “파이 기반으로 파인튜닝”한 회사가 많았다.
Lightwheel 등 많은 중국회사는 중국에서 로봇 데이터를 만들어주는 사업을 하고 있었다. 전시장에서 만난 중국기업들은 자체 휴머노이드 생산 뿐만 아니라, 미국 등 기업의 로봇 데이터를 만들어주는 역할도 많이 하는 것 같았다. 데이터 생산가격이 압도적으로 중국이 미국 대비해서 싸기 때문에 중국에 많이 이용하는 것 같았다.
2) Nvidia의 로봇 생태계와 시뮬레이션
로봇을 만들기 위해서는
AI를 학습시키는 컴퓨터,
시뮬레이션하는 옴니버스 컴퓨터,
실제 로봇에 들어가는 컴퓨터가 필요하다.
이 전부를 Nvidia는 제공한다. Nvidia의 대단함은 여기서 나온다
특히 Nvidia 독자 전시관에서는 시뮬레이션인 Omniverse와 Cosmos reason을 강조했다. Omniverse 안에서 로봇이 되는 법을 배우고, 로봇 시뮬레이터인 Isaac Sim을 통해 로봇을 쉽게 만들게 해준다. 그러면서 보스턴다이나믹스, Agility, LG, Franka, Universal Robots 등 다양한 로봇회사들과 협력하고 있음을 보여주었다.
Cosmos Reason을 통해 다양한 영상의 결과를 분석하고 설명하는 것을 보여주었다. 이를 통해 데이터 라벨링도 다채롭게 하였다.
전반적으로 전시장을 보면서 “휴머노이드 로봇이 언제 어디서 돈을 벌 수 있을까”라는 궁금함이 생기긴 했다. 고객으로 보면 산업용(공장, 물류)과 홈 로봇인데, 일단 방향은 산업용을 먼저 태클하는 것으로 보인다.아직까지 딱 맞는 use case가 보이진 않았다. 하지만 산업 및 금융계의 막대한 관심과 투자를 보면 엄청난 성장을 할 것 같다.
중국 로봇은 발차기, 덤블링, 쿵푸 자세 등 퍼포먼스 위주의 로봇들이 많았다. 실제 중요한 부분인 매니퓰레이션(손조작)이 가능한 로봇 파운데이션 모델은, 아직까지 속도, 떨림, 단순한 태스크 등으로 초기 단계인 것으로 보였다. 전시회에 나오지 않은 미국의 테슬라 옵티머스, physical intelligence, figure 등과는 아직 차이가 많은 것으로 느껴졌다.
이번 CES에는 벤츠, 도요타 등 OEM 회사들이 보이지 않았다. West hall에서 현대자동차는 자동차에 관한 이야기는 없고, 로봇 스토리로 보스톤다이나믹스의 스팟, 아틀라스, 현대위아의 AMR 등을 보여주면서 로봇 회사로서의 위상을 보여주려고 했다. 그동안 중요했었던 신형 전기차가 보이지 않았고, 새로운 자율주행차도 보이지 않았다.
자율주행은 더이상 POC가 아닌 실제 서비스이다. 더 이상 자율주행기술이 모듈형이니 end-to-end니 하는 기술 설명이 중요하지 않았다. 자율주행은 미국에서는 이미 상용화된 서비스이기 때문에 “서비스 하고 있어?”가 중요한 질문인 것 같다.
Waymo는 기술에 대한 설명은 없다. 이미 미국에서 자율주행 서비스를 하고 있기 때문에 그에 대한 여유가 느껴졌다. 작년에 샌프란에서 탔을때도 잘 됐는데, 지금은 더 잘 된다고 한다.
아마존의 Zoox는 올해 CES에서 많은 투자를 하였다. 부스 전시와 길거리에서 앱으로 Zoox를 탈 수 있었다. 라스베가스에서는 Zoox가 많이 돌아다니고 있었다. Zoox를 직접 타봤는데, 도로 주행은 좋았다. 다만 픽업과 드랍할때 버벅거림이 있었다. 약간의 예외사항(사람, 꼬깔콘 등)에서 어떻게 해야되는지 상황 처리가 늦어지는 것 같았다.
이번에 재미있었던 것은 Nvidia의 AlphaMayo가 자율주행시장의 Tesla와 Waymo 주도의 판을 흔들 수 있을까하는 점이다. AlphaMayo는 Nvidia의 자율주행 오픈소스 기술로 벤츠의 CLA에 적용되었다. 기존 OEM들이 자율주행 기술을 적용하는데 대부분 실패했는데 Nvidia에서 자율주행 기술을 오픈소스로 뿌린 것이다. 담당자의 말로는 웨이모보다 4배 더 많은 데이터를 가지고 있다고 한다. 여기에는 Cosmos를 통한 데이터도 포함된다.
Nvidia 자율주행 담당자와 이야기했는데, Nvidia는 테슬라와 같은 end-to-end approach인 것처럼 보였다. 자율주행은 과거에는 인지, 예측, 계획 등 수백 개의 모듈을 ‘분할 후 통합’하는 방식이었지만, 이제는 하나의 모델로 문제를 해결하는 end-to-end 방식으로 가고 있다고 말했다. 또한, 딥러닝 기술의 문제로 단순한 ‘블랙박스’가 되어서는 안된다. 앞으로는 사고가 났을 때 “왜”라는 것을 묻는 것이 중요하기 때문에 모델 내부에 해석 가능성(Interpretability)과 추론 능력을 함께 구축하여 시스템의 안전을 논리적으로 입증하고 있다고 한 점이 인상적이었다. 이래서 Cosmos Reason과 같은 기술이 중요하다고 했다.
월드모델은 AI가 세상을 이해하고 미래를 예측하는 가상 시뮬레이터의 역할을 하는 기술이다. 로봇과 자율주행차 등 Physical AI 분야에서 지능과 안정성 등을 결정하는 핵심요소이다.
기존 AI가 텍스트 중심의 통계적 관계였다면 월드모델은 중력, 마찰력, 물체 영속성 등 물리법칙을 학습한다. Nvidia의 Cosmos와 스탠포드 페이페이리가 창업한 World Labs 등이 월드모델을 보여주었다. 몇 장의 사진으로 3D 시뮬레이션 환경을 만들고, 다양한 물리적 환경/실제 세계 등을 만들 수 있다. LLM을 넘어 실제 세상을 이해하기 위한 월드모델의 중요성은 향후 매우 커질 것이다.
작년 올해 전부 스마트홈의 기술 진보는 없었다.
삼성전자가 윈호텔에서 했던 전시장 내 다양한 기술은 많이 새롭지는 않았다. 독자 전시관을 꾸미고 크게 만든 것은 새로운 시대였지만, 기술만으로 보면 삼성전자의 존재감이 약해졌다고 느꼈다. 항상 삼성전자를 보면서 기술의 흐름 같은 것을 읽을 수 있었는데, 개별 가전제품의 발전 이외에 특별한 것은 없었다. 트라이폴드 폰, 흡입력 좋은 층계 이동하는 로봇 청소기 등. 더 이상 홈허브를 통한 interaction, voice control, ambient service 등 새로운 서비스/use case는 보이지 않았다.
LG전자는 상대적으로 클로이 로봇과 ThinQ를 통한 가전제품 시연은 인기가 꽤 있었다. 하지만 그 외 특별하지 않았다.
소니, TCL, 하이센스 등은 삼성/LG를 따라하는 느낌으로 전시내용은 새롭지 않았다. AI 시대로의 변화에 스마트홈 가전회사들은 적응하지 못하는 느낌이었다.
이번 CES는 전통적 방식과 AI 방식이 충돌하는 전환기의 단면이 많이 보였다. 같은 문제를 푸는 방식이 전통의 방식과 AI의 방식이 너무 달랐다.
(전통의 제조 솔루션 vs AI 방식)
AWS의 개발자는 불량탐지(defect detection) solution을 2주만에 만들었다고 하면서 시연을 보여줬다. 비전과 협동로봇을 설치하고, 클로드 VLM을 통한 물체 인식, agent를 통해서 협동로봇의 path planning을 제어, 협동로봇의 API를 사용하여 제어. AWS의 직원은 기존의 defect inspection 기술이 agent를 통해 구현하기 쉬워진다고 이야기 했다.
하지만 반대로 두산로보틱스에도 비슷한 비전검사가 있어 물어보니, 실제 다양한 환경에서 AI를 통한 구현이 어려울 수 있다고 한다. 또한 공장현장은 특수하고 환경도 다 다르기 때문에 AI를 통한 end to end는 실제 쉽지 않다고 한다. 다양한 모듈방식으로 속도와 정확성을 높여야 된다고 했다.
(로봇의 전통 제어 vs AI 방식)
로봇에서도 end point를 찍어가면서 path를 정의하는 전통적 방식의 로봇 제어 방식 vs. 시뮬레이션/텔레오퍼레이션 데이터로 바로 시작하여 모델을 만드는 어프로치가 상반되는 데모도 많이 보였다.
(수학적 알고리즘 vs 시뮬레이션)
이번에 전통적 강자인 지멘스와 Nvidia의 협력은 꽤 의미가 있었다. 지멘스는 전통적인 수학적 알고리즘 기반의 공정 최적화 기술 회사인데, Nvidia의 시뮬레이션 기술과 협력하여 세일즈 한다고 한다. 공정 최적화 회사분들에게 물어보니 방향성은 시뮬레이션이 맞지만, 결국 고객은 가격이란 부분을 생각하기 때문에 당분간은 시뮬레이션 보다는 수학적 알고리즘 기반의 전통 솔루션을 쓸거라고 했다. 아주 돈이 많은 고객이 아니면~
이번 전시에서는 중국회사와 중국인도 매우 많았다. 작년과 비교해서는 압도적으로 많은 중국회사가 나왔다. 특히 가전과 로봇분야에서는 압도적이었다.
가장 메인 관인 센트럴 홀에서 삼성전자 관이 없어지고 TCL, 하이센스 등이 그 자리를 채웠다. 센트럴홀의 가장 메인이었던 삼성과 LG전자관이었는데, 이제는 LG만 홀로 남았다. 삼성/LG 대비 특별한 기술이 보이지는 않았지만, 삼성전자의 자리를 채우면서 뭔지 좀 씁쓸했다.
이번 전시를 보면서, Physical AI가 왜 부상하는가를 전문가들과 이야기 해보면 기술과 산업의 요구+투자가 결합되고 있기 때문인 것 같다.
(기술적 진보) 생성형 AI, 시뮬레이션, 거대 언어 모델(LLM)의 발전으로 이제 AI는 언어의 세계를 넘어 훨씬 복잡한 물리적 세계를 이해할 수 있는 단계에 도달했다. 페이페이리, 얀르쿤 등이 현재의 LLM을 뛰어넘는 것을 계속 이야기 하고 있다.
(산업적 요구) 디지털 AI는 비약적으로 발전했지만 병원, 매장, 제조 공장 같은 물리적 현장은 아직 그 혜택을 충분히 누리지 못하고 있다. 안전하고 효율적인 공정을 위해 자동화를 넘어선 Physical AI와 로보틱스의 도입에 대한 니즈가 커지고 있는 상황이다.
(엄청난 투자) Physical AI에 대한 투자가 엄청나게 이뤄지고 있다. LLM의 next big thing은 Physical AI로 투자자들은 생각한다.
끝으로 현재 Physical AI 기술의 발전속도가 상상할 수 없을 정도로 너무 빠르다. 테슬라의 옵티머스를 사람이 대신 춤을 추면서 발표한지 4년만에 현재의 옵티머스가 나왔다. VLM(시각 언어 모델)과 VLA(시각-언어-행동 모델)에 대한 대규모 투자가 이루어지고 있으며, 이는 Physical AI 모델 학습을 위한 데이터 생산을 가속화하고 있다. 또한 센서와 인지 능력이 강화된 새로운 형태의 하드웨어들이 등장하고 있다. 앞으로 Physical AI의 미래가 너무 기대된다.